Series comparison

-[PULL 00/57] tcg patch queue
+[PULL 00/72] tcg patch queue
-The following changes since commit 14639717bf379480e937716fcaf1e72b47fd4c5f:
+The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:
-  Merge tag 'pull-trivial-patches' of https://gitlab.com/mjt0k/qemu into staging (2024-01-31 19:53:45 +0000)
+  Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)
 are available in the Git repository at:
-  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20240202
+  https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224
-for you to fetch changes up to 73e095fc71dfeb8f5f767d9ac71078e562d935b0:
+for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:
-  target/sparc: Remove FSR_FTT_NMASK, FSR_FTT_CEXC_NMASK (2024-02-02 14:40:06 +1000)
+  accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)
 ----------------------------------------------------------------
-tests/tcg: Fix multiarch/gdbstub/prot-none.py
+tcg/optimize: Remove in-flight mask data from OptContext
-hw/core: Convert cpu_mmu_index to a CPUClass hook
+fpu: Add float*_muladd_scalbn
-tcg/loongarch64: Set vector registers call clobbered
+fpu: Remove float_muladd_halve_result
-target/sparc: floating-point cleanup
+fpu: Add float_round_nearest_even_max
 fpu: Add float_muladd_suppress_add_product_zero
 target/hexagon: Use float32_muladd
 accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
 ----------------------------------------------------------------
 Ilya Leoshkevich (1):
-      tests/tcg: Fix the /proc/self/mem probing in the PROT_NONE gdbstub test
+      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
-Richard Henderson (56):
+Pierrick Bouvier (1):
-      include/hw/core: Add mmu_index to CPUClass
+      plugins: optimize cpu_index code generation
       target/alpha: Split out alpha_env_mmu_index
       target/alpha: Populate CPUClass.mmu_index
       target/arm: Split out arm_env_mmu_index
       target/arm: Populate CPUClass.mmu_index
       target/avr: Populate CPUClass.mmu_index
       target/cris: Cache mem_index in DisasContext
       target/cris: Populate CPUClass.mmu_index
       target/hppa: Populate CPUClass.mmu_index
       target/i386: Populate CPUClass.mmu_index
       target/loongarch: Populate CPUClass.mmu_index
       target/loongarch: Rename MMU_IDX_*
       target/m68k: Populate CPUClass.mmu_index
       target/microblaze: Populate CPUClass.mmu_index
       target/mips: Pass ptw_mmu_idx down from mips_cpu_tlb_fill
       target/mips: Split out mips_env_mmu_index
       target/mips: Populate CPUClass.mmu_index
       target/nios2: Populate CPUClass.mmu_index
       target/openrisc: Populate CPUClass.mmu_index
       target/ppc: Split out ppc_env_mmu_index
       target/ppc: Populate CPUClass.mmu_index
       target/riscv: Rename riscv_cpu_mmu_index to riscv_env_mmu_index
       target/riscv: Replace cpu_mmu_index with riscv_env_mmu_index
       target/riscv: Populate CPUClass.mmu_index
       target/rx: Populate CPUClass.mmu_index
       target/s390x: Split out s390x_env_mmu_index
       target/s390x: Populate CPUClass.mmu_index
       target/sh4: Populate CPUClass.mmu_index
       target/sparc: Populate CPUClass.mmu_index
       target/tricore: Populate CPUClass.mmu_index
       target/xtensa: Populate CPUClass.mmu_index
       include/exec: Implement cpu_mmu_index generically
       include/exec: Change cpu_mmu_index argument to CPUState
       tcg/loongarch64: Set vector registers call clobbered
       target/sparc: Use tcg_gen_qemu_{ld, st}_i128 for ASI_M_BCOPY
       target/sparc: Use tcg_gen_qemu_{ld, st}_i128 for ASI_M_BFILL
       target/sparc: Remove gen_dest_fpr_F
       target/sparc: Introduce gen_{load,store}_fpr_Q
       target/sparc: Inline FNEG, FABS
       target/sparc: Use i128 for FSQRTq
       target/sparc: Use i128 for FADDq, FSUBq, FMULq, FDIVq
       target/sparc: Use i128 for FqTOs, FqTOi
       target/sparc: Use i128 for FqTOd, FqTOx
       target/sparc: Use i128 for FCMPq, FCMPEq
       target/sparc: Use i128 for FsTOq, FiTOq
       target/sparc: Use i128 for FdTOq, FxTOq
       target/sparc: Use i128 for Fdmulq
       target/sparc: Remove qt0, qt1 temporaries
       target/sparc: Introduce cpu_get_fsr, cpu_put_fsr
       target/sparc: Split ver from env->fsr
       target/sparc: Clear cexc and ftt in do_check_ieee_exceptions
       target/sparc: Merge check_ieee_exceptions with FPop helpers
       target/sparc: Split cexc and ftt from env->fsr
       target/sparc: Remove cpu_fsr
       target/sparc: Split fcc out of env->fsr
       target/sparc: Remove FSR_FTT_NMASK, FSR_FTT_CEXC_NMASK
- include/exec/cpu-all.h                             |   4 +
+Richard Henderson (70):
- include/exec/cpu-common.h                          |  21 +
+      tcg/optimize: Split out finish_bb, finish_ebb
- include/hw/core/cpu.h                              |   3 +
+      tcg/optimize: Split out fold_affected_mask
- target/alpha/cpu.h                                 |   2 +-
+      tcg/optimize: Copy mask writeback to fold_masks
- target/arm/cpu.h                                   |  13 -
+      tcg/optimize: Split out fold_masks_zs
- target/arm/internals.h                             |   5 +
+      tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
- target/avr/cpu.h                                   |   7 -
+      tcg/optimize: Change representation of s_mask
- target/cris/cpu.h                                  |   4 -
+      tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
- target/hexagon/cpu.h                               |   9 -
+      tcg/optimize: Introduce const value accessors for TempOptInfo
- target/hppa/cpu.h                                  |  13 -
+      tcg/optimize: Use fold_masks_zs in fold_and
- target/i386/cpu.h                                  |   7 -
+      tcg/optimize: Use fold_masks_zs in fold_andc
- target/loongarch/cpu.h                             |  18 +-
+      tcg/optimize: Use fold_masks_zs in fold_bswap
- target/m68k/cpu.h                                  |   4 -
+      tcg/optimize: Use fold_masks_zs in fold_count_zeros
- target/microblaze/cpu.h                            |  15 -
+      tcg/optimize: Use fold_masks_z in fold_ctpop
- target/mips/cpu.h                                  |   6 +-
+      tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
- target/nios2/cpu.h                                 |   6 -
+      tcg/optimize: Compute sign mask in fold_deposit
- target/openrisc/cpu.h                              |  12 -
+      tcg/optimize: Use finish_folding in fold_divide
- target/ppc/cpu.h                                   |   2 +-
+      tcg/optimize: Use finish_folding in fold_dup, fold_dup2
- target/riscv/cpu.h                                 |   4 +-
+      tcg/optimize: Use fold_masks_s in fold_eqv
- target/rx/cpu.h                                    |   5 -
+      tcg/optimize: Use fold_masks_z in fold_extract
- target/s390x/cpu.h                                 |   2 +-
+      tcg/optimize: Use finish_folding in fold_extract2
- target/sh4/cpu.h                                   |  10 -
+      tcg/optimize: Use fold_masks_zs in fold_exts
- target/sparc/cpu.h                                 |  69 +-
+      tcg/optimize: Use fold_masks_z in fold_extu
- target/sparc/helper.h                              | 116 ++-
+      tcg/optimize: Use fold_masks_zs in fold_movcond
- target/tricore/cpu.h                               |   5 -
+      tcg/optimize: Use finish_folding in fold_mul*
- target/xtensa/cpu.h                                |   5 -
+      tcg/optimize: Use fold_masks_s in fold_nand
- accel/tcg/cputlb.c                                 |  22 +-
+      tcg/optimize: Use fold_masks_z in fold_neg_no_const
- linux-user/sparc/cpu_loop.c                        |   2 +-
+      tcg/optimize: Use fold_masks_s in fold_nor
- linux-user/sparc/signal.c                          |  14 +-
+      tcg/optimize: Use fold_masks_s in fold_not
- semihosting/uaccess.c                              |   2 +-
+      tcg/optimize: Use fold_masks_zs in fold_or
- target/alpha/cpu.c                                 |   6 +
+      tcg/optimize: Use fold_masks_zs in fold_orc
- target/alpha/translate.c                           |   2 +-
+      tcg/optimize: Use fold_masks_zs in fold_qemu_ld
- target/arm/cpu.c                                   |   6 +
+      tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
- target/arm/helper.c                                |   2 +-
+      tcg/optimize: Use finish_folding in fold_remainder
- target/arm/tcg/helper-a64.c                        |   4 +-
+      tcg/optimize: Distinguish simplification in fold_setcond_zmask
- target/arm/tcg/mte_helper.c                        |  18 +-
+      tcg/optimize: Use fold_masks_z in fold_setcond
- target/arm/tcg/sve_helper.c                        |   8 +-
+      tcg/optimize: Use fold_masks_s in fold_negsetcond
- target/arm/tcg/tlb_helper.c                        |   2 +-
+      tcg/optimize: Use fold_masks_z in fold_setcond2
- target/avr/cpu.c                                   |   6 +
+      tcg/optimize: Use finish_folding in fold_cmp_vec
- target/cris/cpu.c                                  |   6 +
+      tcg/optimize: Use finish_folding in fold_cmpsel_vec
- target/cris/translate.c                            |  14 +-
+      tcg/optimize: Use fold_masks_zs in fold_sextract
- target/hppa/cpu.c                                  |  12 +
+      tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
- target/hppa/mem_helper.c                           |   2 +-
+      tcg/optimize: Simplify sign bit test in fold_shift
- target/hppa/op_helper.c                            |   8 +-
+      tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
- target/i386/cpu.c                                  |  10 +
+      tcg/optimize: Use fold_masks_zs in fold_tcg_ld
- target/i386/tcg/translate.c                        |   2 +-
+      tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
- target/loongarch/cpu.c                             |  11 +
+      tcg/optimize: Use fold_masks_zs in fold_xor
- target/loongarch/tcg/tlb_helper.c                  |   8 +-
+      tcg/optimize: Use finish_folding in fold_bitsel_vec
- target/loongarch/tcg/translate.c                   |   2 +-
+      tcg/optimize: Use finish_folding as default in tcg_optimize
- target/m68k/cpu.c                                  |   6 +
+      tcg/optimize: Remove z_mask, s_mask from OptContext
- target/m68k/op_helper.c                            |   2 +-
+      tcg/optimize: Re-enable sign-mask optimizations
- target/microblaze/cpu.c                            |  18 +-
+      tcg/optimize: Move fold_bitsel_vec into alphabetic sort
- target/microblaze/helper.c                         |   3 +-
+      tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
- target/microblaze/mmu.c                            |   2 +-
+      softfloat: Add float{16,32,64}_muladd_scalbn
- target/microblaze/translate.c                      |   2 +-
+      target/arm: Use float*_muladd_scalbn
- target/mips/cpu.c                                  |   6 +
+      target/sparc: Use float*_muladd_scalbn
- target/mips/sysemu/physaddr.c                      |   2 +-
+      softfloat: Remove float_muladd_halve_result
- target/mips/tcg/msa_helper.c                       |  10 +-
+      softfloat: Add float_round_nearest_even_max
- target/mips/tcg/sysemu/cp0_helper.c                |   2 +-
+      softfloat: Add float_muladd_suppress_add_product_zero
- target/mips/tcg/sysemu/special_helper.c            |   2 +-
+      target/hexagon: Use float32_mul in helper_sfmpy
- target/mips/tcg/sysemu/tlb_helper.c                |  34 +-
+      target/hexagon: Use float32_muladd for helper_sffma
- target/nios2/cpu.c                                 |   7 +
+      target/hexagon: Use float32_muladd for helper_sffms
- target/nios2/translate.c                           |   2 +-
+      target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
- target/openrisc/cpu.c                              |  13 +
+      target/hexagon: Use float32_muladd for helper_sffm[as]_lib
- target/openrisc/translate.c                        |   2 +-
+      target/hexagon: Remove internal_fmafx
- target/ppc/cpu_init.c                              |   8 +-
+      target/hexagon: Expand GEN_XF_ROUND
- target/ppc/mem_helper.c                            |  10 +-
+      target/hexagon: Remove Float
- target/ppc/mmu_common.c                            |   4 +-
+      target/hexagon: Remove Double
- target/riscv/cpu.c                                 |   6 +
+      target/hexagon: Use mulu64 for int128_mul_6464
- target/riscv/cpu_helper.c                          |   6 +-
+      target/hexagon: Simplify internal_mpyhh setup
- target/riscv/op_helper.c                           |   4 +-
+      accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
- target/riscv/vector_helper.c                       |   9 +-
- target/rx/cpu.c                                    |   6 +
+ include/exec/translator.h           |  14 -
- target/s390x/cpu.c                                 |   6 +
+ include/fpu/softfloat-types.h       |   2 +
- target/s390x/tcg/mem_helper.c                      |  34 +-
+ include/fpu/softfloat.h             |  14 +-
- target/sh4/cpu.c                                   |  16 +
+ include/hw/core/tcg-cpu-ops.h       |  13 +
- target/sparc/cpu.c                                 |  61 +-
+ target/alpha/cpu.h                  |   2 +
- target/sparc/fop_helper.c                          | 510 +++++++------
+ target/arm/internals.h              |   2 +
- target/sparc/gdbstub.c                             |   8 +-
+ target/avr/cpu.h                    |   2 +
- target/sparc/ldst_helper.c                         |   5 +-
+ target/hexagon/cpu.h                |   2 +
- target/sparc/machine.c                             |  36 +-
+ target/hexagon/fma_emu.h            |   3 -
- target/sparc/mmu_helper.c                          |   2 +-
+ target/hppa/cpu.h                   |   2 +
- target/sparc/translate.c                           | 799 +++++++--------------
+ target/i386/tcg/helper-tcg.h        |   2 +
- target/tricore/cpu.c                               |   6 +
+ target/loongarch/internals.h        |   2 +
- target/tricore/helper.c                            |   2 +-
+ target/m68k/cpu.h                   |   2 +
- target/tricore/translate.c                         |   2 +-
+ target/microblaze/cpu.h             |   2 +
- target/xtensa/cpu.c                                |   6 +
+ target/mips/tcg/tcg-internal.h      |   2 +
- target/xtensa/mmu_helper.c                         |   2 +-
+ target/openrisc/cpu.h               |   2 +
- accel/tcg/ldst_common.c.inc                        |  42 +-
+ target/ppc/cpu.h                    |   2 +
- target/cris/translate_v10.c.inc                    |   6 +-
+ target/riscv/cpu.h                  |   3 +
- .../tcg/insn_trans/trans_privileged.c.inc          |   2 +-
+ target/rx/cpu.h                     |   2 +
- tcg/loongarch64/tcg-target.c.inc                   |   2 +-
+ target/s390x/s390x-internal.h       |   2 +
- tests/tcg/multiarch/gdbstub/prot-none.py           |   2 +-
+ target/sh4/cpu.h                    |   2 +
-files changed, 1060 insertions(+), 1191 deletions(-)
+ target/sparc/cpu.h                  |   2 +
  target/sparc/helper.h               |   4 +-
  target/tricore/cpu.h                |   2 +
  target/xtensa/cpu.h                 |   2 +
  accel/tcg/cpu-exec.c                |   8 +-
  accel/tcg/plugin-gen.c              |   9 +
  accel/tcg/translate-all.c           |   8 +-
  fpu/softfloat.c                     |  63 +--
  target/alpha/cpu.c                  |   1 +
  target/alpha/translate.c            |   4 +-
  target/arm/cpu.c                    |   1 +
  target/arm/tcg/cpu-v7m.c            |   1 +
  target/arm/tcg/helper-a64.c         |   6 +-
  target/arm/tcg/translate.c          |   5 +-
  target/avr/cpu.c                    |   1 +
  target/avr/translate.c              |   6 +-
  target/hexagon/cpu.c                |   1 +
  target/hexagon/fma_emu.c            | 496 ++++++---------------
  target/hexagon/op_helper.c          | 125 ++----
  target/hexagon/translate.c          |   4 +-
  target/hppa/cpu.c                   |   1 +
  target/hppa/translate.c             |   4 +-
  target/i386/tcg/tcg-cpu.c           |   1 +
  target/i386/tcg/translate.c         |   5 +-
  target/loongarch/cpu.c              |   1 +
  target/loongarch/tcg/translate.c    |   4 +-
  target/m68k/cpu.c                   |   1 +
  target/m68k/translate.c             |   4 +-
  target/microblaze/cpu.c             |   1 +
  target/microblaze/translate.c       |   4 +-
  target/mips/cpu.c                   |   1 +
  target/mips/tcg/translate.c         |   4 +-
  target/openrisc/cpu.c               |   1 +
  target/openrisc/translate.c         |   4 +-
  target/ppc/cpu_init.c               |   1 +
  target/ppc/translate.c              |   4 +-
  target/riscv/tcg/tcg-cpu.c          |   1 +
  target/riscv/translate.c            |   4 +-
  target/rx/cpu.c                     |   1 +
  target/rx/translate.c               |   4 +-
  target/s390x/cpu.c                  |   1 +
  target/s390x/tcg/translate.c        |   4 +-
  target/sh4/cpu.c                    |   1 +
  target/sh4/translate.c              |   4 +-
  target/sparc/cpu.c                  |   1 +
  target/sparc/fop_helper.c           |   8 +-
  target/sparc/translate.c            |  84 ++--
  target/tricore/cpu.c                |   1 +
  target/tricore/translate.c          |   5 +-
  target/xtensa/cpu.c                 |   1 +
  target/xtensa/translate.c           |   4 +-
  tcg/optimize.c                      | 857 +++++++++++++++++++-----------------
  tests/tcg/multiarch/system/memory.c |   9 +-
  fpu/softfloat-parts.c.inc           |  16 +-
 files changed, 866 insertions(+), 1009 deletions(-)

-[PULL 34/57] tests/tcg: Fix the /proc/self/mem probing in the PROT_NONE gdbstub test
+[PULL 01/72] tests/tcg: Do not use inttypes.h in multiarch/system/memory.c
 From: Ilya Leoshkevich <iii@linux.ibm.com>
-The `if not probe_proc_self_mem` check never passes, because
+make check-tcg fails on Fedora with the following error message:
 probe_proc_self_mem is a function object, which is a truthy value.
 Add parentheses in order to perform a function call.
-Fixes: dc84d50a7f9b ("tests/tcg: Add the PROT_NONE gdbstub test")
+    alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
     qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
 | #include <inttypes.h>
           |          ^~~~~~~~~~~~
     compilation terminated.
 The reason is that Fedora has cross-compilers, but no cross-glibc
 headers. Fix by hardcoding the format specifiers and dropping the
 include.
 An alternative fix would be to introduce a configure check for
 inttypes.h. But this would make it impossible to use Fedora
 cross-compilers for softmmu tests, which used to work so far.
 Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
 Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
-Message-Id: <20240131220245.235993-1-iii@linux.ibm.com>
+Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
 Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- tests/tcg/multiarch/gdbstub/prot-none.py | 2 +-
+ tests/tcg/multiarch/system/memory.c | 9 ++++-----
-file changed, 1 insertion(+), 1 deletion(-)
+file changed, 4 insertions(+), 5 deletions(-)
-diff --git a/tests/tcg/multiarch/gdbstub/prot-none.py b/tests/tcg/multiarch/gdbstub/prot-none.py
+diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
 index XXXXXXX..XXXXXXX 100644
---- a/tests/tcg/multiarch/gdbstub/prot-none.py
+--- a/tests/tcg/multiarch/system/memory.c
-+++ b/tests/tcg/multiarch/gdbstub/prot-none.py
++++ b/tests/tcg/multiarch/system/memory.c
-@@ -XXX,XX +XXX,XX @@ def probe_proc_self_mem():
+@@ -XXX,XX +XXX,XX @@
- def run_test():
+ #include <stdint.h>
-     """Run through the tests one by one"""
+ #include <stdbool.h>
--    if not probe_proc_self_mem:
+-#include <inttypes.h>
-+    if not probe_proc_self_mem():
+ #include <minilib.h>
-         print("SKIP: /proc/self/mem is not usable")
-         exit(0)
+ #ifndef CHECK_UNALIGNED
-     gdb.Breakpoint("break_here")
+@@ -XXX,XX +XXX,XX @@ int main(void)
      int i;
      bool ok = true;
 -    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
 -    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
 +    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
 +    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
      /* Run through the unsigned tests first */
      for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
@@ -XXX,XX +XXX,XX @@ int main(void)
          ok = do_signed_reads(true);
      }
 -    ml_printf("Test data read: %"PRId32"\n", test_read_count);
 -    ml_printf("Test data write: %"PRId32"\n", test_write_count);
 +    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
 +    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
      ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
      return ok ? 0 : -1;
  }
 --
-.34.1
+.43.0

-New patch
+[PULL 02/72] plugins: optimize cpu_index code generation
+From: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+When running with a single vcpu, we can return a constant instead of a
+load when accessing cpu_index.
+A side effect is that all tcg operations using it are optimized, most
+notably scoreboard access.
+When running a simple loop in user-mode, the speedup is around 20%.
+Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
+---
+ accel/tcg/plugin-gen.c | 9 +++++++++
+file changed, 9 insertions(+)
+diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
+index XXXXXXX..XXXXXXX 100644
+--- a/accel/tcg/plugin-gen.c
++++ b/accel/tcg/plugin-gen.c
+@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
+ static TCGv_i32 gen_cpu_index(void)
+ {
++    /*
++     * Optimize when we run with a single vcpu. All values using cpu_index,
++     * including scoreboard index, will be optimized out.
++     * User-mode calls tb_flush when setting this flag. In system-mode, all
++     * vcpus are created before generating code.
++     */
++    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
++        return tcg_constant_i32(current_cpu->cpu_index);
++    }
+     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
+     tcg_gen_ld_i32(cpu_index, tcg_env,
+                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
+--
+.43.0

-[PULL 19/57] target/openrisc: Populate CPUClass.mmu_index
+[PULL 03/72] tcg/optimize: Split out finish_bb, finish_ebb
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Call them directly from the opcode switch statement in tcg_optimize,
 rather than in finish_folding based on opcode flags.  Adjust folding
 of conditional branches to match.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/openrisc/cpu.h | 10 ++--------
+ tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
- target/openrisc/cpu.c | 13 +++++++++++++
+file changed, 31 insertions(+), 16 deletions(-)
 files changed, 15 insertions(+), 8 deletions(-)
-diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/openrisc/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/openrisc/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUOpenRISCState *env, vaddr *pc,
+@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
-            | (env->sr & (SR_SM | SR_DME | SR_IME | SR_OVE));
+     }
  }
-+int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch);
++static void finish_bb(OptContext *ctx)
- static inline int cpu_mmu_index(CPUOpenRISCState *env, bool ifetch)
++{
 +    /* We only optimize memory barriers across basic blocks. */
 +    ctx->prev_mb = NULL;
 +}
 +
 +static void finish_ebb(OptContext *ctx)
 +{
 +    finish_bb(ctx);
 +    /* We only optimize across extended basic blocks. */
 +    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
 +    remove_mem_copy_all(ctx);
 +}
 +
  static void finish_folding(OptContext *ctx, TCGOp *op)
  {
--    int ret = MMU_NOMMU_IDX;  /* mmu is disabled */
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
--
+     int i, nb_oargs;
--    if (env->sr & (ifetch ? SR_IME : SR_DME)) {
--        /* The mmu is enabled; test supervisor state.  */
+-    /*
--        ret = env->sr & SR_SM ? MMU_SUPERVISOR_IDX : MMU_USER_IDX;
+-     * We only optimize extended basic blocks.  If the opcode ends a BB
 -     * and is not a conditional branch, reset all temp data.
 -     */
 -    if (def->flags & TCG_OPF_BB_END) {
 -        ctx->prev_mb = NULL;
 -        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
 -            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
 -            remove_mem_copy_all(ctx);
 -        }
 -        return;
 -    }
 -
--    return ret;
+     nb_oargs = def->nb_oargs;
-+    return openrisc_cpu_mmu_index(env_cpu(env), ifetch);
+     for (i = 0; i < nb_oargs; i++) {
          TCGTemp *ts = arg_temp(op->args[i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
      if (i > 0) {
          op->opc = INDEX_op_br;
          op->args[0] = op->args[3];
 +        finish_ebb(ctx);
 +    } else {
 +        finish_bb(ctx);
      }
 -    return false;
 +    return true;
  }
- static inline uint32_t cpu_get_sr(const CPUOpenRISCState *env)
+ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
+         }
---- a/target/openrisc/cpu.c
+         op->opc = INDEX_op_br;
-+++ b/target/openrisc/cpu.c
+         op->args[0] = label;
-@@ -XXX,XX +XXX,XX @@ static bool openrisc_cpu_has_work(CPUState *cs)
+-        break;
-                                     CPU_INTERRUPT_TIMER);
++        finish_ebb(ctx);
 +        return true;
      }
 -    return false;
 +
 +    finish_bb(ctx);
 +    return true;
  }
-+int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
-+{
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
-+    CPUOpenRISCState *env = cpu_env(cs);
+         CASE_OP_32_64_VEC(xor):
-+
+             done = fold_xor(&ctx, op);
-+    if (env->sr & (ifetch ? SR_IME : SR_DME)) {
+             break;
-+        /* The mmu is enabled; test supervisor state.  */
++        case INDEX_op_set_label:
-+        return env->sr & SR_SM ? MMU_SUPERVISOR_IDX : MMU_USER_IDX;
++        case INDEX_op_br:
-+    }
++        case INDEX_op_exit_tb:
-+
++        case INDEX_op_goto_tb:
-+    return MMU_NOMMU_IDX;  /* mmu is disabled */
++        case INDEX_op_goto_ptr:
-+}
++            finish_ebb(&ctx);
-+
++            done = true;
- static void openrisc_disas_set_info(CPUState *cpu, disassemble_info *info)
++            break;
- {
+         default:
-     info->print_insn = print_insn_or1k;
+             break;
-@@ -XXX,XX +XXX,XX @@ static void openrisc_cpu_class_init(ObjectClass *oc, void *data)
+         }
      cc->class_by_name = openrisc_cpu_class_by_name;
      cc->has_work = openrisc_cpu_has_work;
 +    cc->mmu_index = openrisc_cpu_mmu_index;
      cc->dump_state = openrisc_cpu_dump_state;
      cc->set_pc = openrisc_cpu_set_pc;
      cc->get_pc = openrisc_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 02/57] target/alpha: Split out alpha_env_mmu_index
+[PULL 04/72] tcg/optimize: Split out fold_affected_mask
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+There are only a few logical operations which can compute
 an "affected" mask.  Split out handling of this optimization
 to a separate function, only to be called when applicable.
 Remove the a_mask field from OptContext, as the mask is
 no longer stored anywhere.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/alpha/cpu.h       | 7 ++++++-
+ tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
- target/alpha/translate.c | 2 +-
+file changed, 27 insertions(+), 15 deletions(-)
 files changed, 7 insertions(+), 2 deletions(-)
-diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/alpha/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/alpha/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ enum {
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
- #define TB_FLAG_UNALIGN       (1u << 1)
+     /* In flight values from optimization. */
--static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
+-    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
-+static inline int alpha_env_mmu_index(CPUAlphaState *env)
+     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
      uint64_t s_mask;  /* mask of clrsb(value) bits */
      TCGType type;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  static bool fold_masks(OptContext *ctx, TCGOp *op)
  {
-     int ret = env->flags & ENV_FLAG_PS_USER ? MMU_USER_IDX : MMU_KERNEL_IDX;
+-    uint64_t a_mask = ctx->a_mask;
-     if (env->flags & ENV_FLAG_PAL_MODE) {
+     uint64_t z_mask = ctx->z_mask;
-@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
+     uint64_t s_mask = ctx->s_mask;
-     return ret;
- }
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
+      * type changing opcodes.
-+static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
+      */
-+{
+     if (ctx->type == TCG_TYPE_I32) {
-+    return alpha_env_mmu_index(env);
+-        a_mask = (int32_t)a_mask;
          z_mask = (int32_t)z_mask;
          s_mask |= MAKE_64BIT_MASK(32, 32);
          ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      if (z_mask == 0) {
          return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
      }
 +    return false;
 +}
 +
- enum {
++/*
-     IR_V0   = 0,
++ * An "affected" mask bit is 0 if and only if the result is identical
-     IR_T0   = 1,
++ * to the first input.  Thus if the entire mask is 0, the operation
-diff --git a/target/alpha/translate.c b/target/alpha/translate.c
++ * is equivalent to a copy.
-index XXXXXXX..XXXXXXX 100644
++ */
---- a/target/alpha/translate.c
++static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
-+++ b/target/alpha/translate.c
++{
-@@ -XXX,XX +XXX,XX @@ static void alpha_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cpu)
++    if (ctx->type == TCG_TYPE_I32) {
-     int64_t bound;
++        a_mask = (uint32_t)a_mask;
++    }
-     ctx->tbflags = ctx->base.tb->flags;
+     if (a_mask == 0) {
--    ctx->mem_idx = cpu_mmu_index(env, false);
+         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-+    ctx->mem_idx = alpha_env_mmu_index(env);
+     }
-     ctx->implver = env->implver;
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
-     ctx->amask = env->amask;
+      * Known-zeros does not imply known-ones.  Therefore unless
       * arg2 is constant, we can't infer affected bits from it.
       */
 -    if (arg_is_const(op->args[2])) {
 -        ctx->a_mask = z1 & ~z2;
 +    if (arg_is_const(op->args[2]) &&
 +        fold_affected_mask(ctx, op, z1 & ~z2)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
       */
      if (arg_is_const(op->args[2])) {
          uint64_t z2 = ~arg_info(op->args[2])->z_mask;
 -        ctx->a_mask = z1 & ~z2;
 +        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
 +            return true;
 +        }
          z1 &= z2;
      }
      ctx->z_mask = z1;
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
      z_mask_old = arg_info(op->args[1])->z_mask;
      z_mask = extract64(z_mask_old, pos, len);
 -    if (pos == 0) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 +    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
 +        return true;
      }
      ctx->z_mask = z_mask;
      ctx->s_mask = smask_from_zmask(z_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
      ctx->z_mask = z_mask;
      ctx->s_mask = s_mask;
 -    if (!type_change) {
 -        ctx->a_mask = s_mask & ~s_mask_old;
 +    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
      ctx->z_mask = z_mask;
      ctx->s_mask = smask_from_zmask(z_mask);
 -    if (!type_change) {
 -        ctx->a_mask = z_mask_old ^ z_mask;
 +    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
 +        return true;
      }
      return fold_masks(ctx, op);
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
      s_mask |= MAKE_64BIT_MASK(len, 64 - len);
      ctx->s_mask = s_mask;
 -    if (pos == 0) {
 -        ctx->a_mask = s_mask & ~s_mask_old;
 +    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +        return true;
      }
      return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
          }
          /* Assume all bits affected, no bits known zero, no sign reps. */
 -        ctx.a_mask = -1;
          ctx.z_mask = -1;
          ctx.s_mask = 0;
 --
-.34.1
+.43.0

-New patch
+[PULL 05/72] tcg/optimize: Copy mask writeback to fold_masks
+Use of fold_masks should be restricted to those opcodes that
+can reliably make use of it -- those with a single output,
+and from higher-level folders that set up the masks.
+Prepare for conversion of each folder in turn.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 17 ++++++++++++++---
+file changed, 14 insertions(+), 3 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask = ctx->z_mask;
+     uint64_t s_mask = ctx->s_mask;
++    const TCGOpDef *def = &tcg_op_defs[op->opc];
++    TCGTemp *ts;
++    TempOptInfo *ti;
++
++    /* Only single-output opcodes are supported here. */
++    tcg_debug_assert(def->nb_oargs == 1);
+     /*
+      * 32-bit ops generate 32-bit results, which for the purpose of
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
+     if (ctx->type == TCG_TYPE_I32) {
+         z_mask = (int32_t)z_mask;
+         s_mask |= MAKE_64BIT_MASK(32, 32);
+-        ctx->z_mask = z_mask;
+-        ctx->s_mask = s_mask;
+     }
+     if (z_mask == 0) {
+         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
+     }
+-    return false;
++
++    ts = arg_temp(op->args[0]);
++    reset_ts(ctx, ts);
++
++    ti = ts_info(ts);
++    ti->z_mask = z_mask;
++    ti->s_mask = s_mask;
++    return true;
+ }
+ /*
+--
+.43.0

-[PULL 16/57] target/mips: Split out mips_env_mmu_index
+[PULL 06/72] tcg/optimize: Split out fold_masks_zs
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Add a routine to which masks can be passed directly, rather than
 storing them into OptContext.  To be used in upcoming patches.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/cpu.h                       |  7 ++++++-
+ tcg/optimize.c | 15 ++++++++++++---
- target/mips/sysemu/physaddr.c           |  2 +-
+file changed, 12 insertions(+), 3 deletions(-)
  target/mips/tcg/msa_helper.c            | 10 +++++-----
  target/mips/tcg/sysemu/cp0_helper.c     |  2 +-
  target/mips/tcg/sysemu/special_helper.c |  2 +-
  target/mips/tcg/sysemu/tlb_helper.c     |  2 +-
 files changed, 15 insertions(+), 10 deletions(-)
-diff --git a/target/mips/cpu.h b/target/mips/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/mips/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/mips/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline int hflags_mmu_index(uint32_t hflags)
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
-     }
+     return fold_const2(ctx, op);
  }
--static inline int cpu_mmu_index(CPUMIPSState *env, bool ifetch)
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
-+static inline int mips_env_mmu_index(CPUMIPSState *env)
++/*
 + * Record "zero" and "sign" masks for the single output of @op.
 + * See TempOptInfo definition of z_mask and s_mask.
 + * If z_mask allows, fold the output to constant zero.
 + */
 +static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 +                          uint64_t z_mask, uint64_t s_mask)
  {
-     return hflags_mmu_index(env->hflags);
+-    uint64_t z_mask = ctx->z_mask;
 -    uint64_t s_mask = ctx->s_mask;
      const TCGOpDef *def = &tcg_op_defs[op->opc];
      TCGTemp *ts;
      TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      return true;
  }
-+static inline int cpu_mmu_index(CPUMIPSState *env, bool ifetch)
++static bool fold_masks(OptContext *ctx, TCGOp *op)
 +{
-+    return mips_env_mmu_index(env);
++    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
 +}
 +
- #include "exec/cpu-all.h"
+ /*
+  * An "affected" mask bit is 0 if and only if the result is identical
- /* Exceptions */
+  * to the first input.  Thus if the entire mask is 0, the operation
 diff --git a/target/mips/sysemu/physaddr.c b/target/mips/sysemu/physaddr.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/sysemu/physaddr.c
 +++ b/target/mips/sysemu/physaddr.c
@@ -XXX,XX +XXX,XX @@ hwaddr mips_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
      int prot;
      if (get_physical_address(env, &phys_addr, &prot, addr, MMU_DATA_LOAD,
 -                             cpu_mmu_index(env, false)) != 0) {
 +                             mips_env_mmu_index(env)) != 0) {
          return -1;
      }
      return phys_addr;
 diff --git a/target/mips/tcg/msa_helper.c b/target/mips/tcg/msa_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/msa_helper.c
 +++ b/target/mips/tcg/msa_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_msa_ffint_u_df(CPUMIPSState *env, uint32_t df, uint32_t wd,
  #if !defined(CONFIG_USER_ONLY)
  #define MEMOP_IDX(DF)                                                   \
      MemOpIdx oi = make_memop_idx(MO_TE | DF | MO_UNALN,                 \
 -                                 cpu_mmu_index(env, false));
 +                                 mips_env_mmu_index(env));
  #else
  #define MEMOP_IDX(DF)
  #endif
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_b(CPUMIPSState *env, uint32_t wd,
                       target_ulong addr)
  {
      wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = mips_env_mmu_index(env);
      uintptr_t ra = GETPC();
      ensure_writable_pages(env, addr, mmu_idx, ra);
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_h(CPUMIPSState *env, uint32_t wd,
                       target_ulong addr)
  {
      wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = mips_env_mmu_index(env);
      uintptr_t ra = GETPC();
      uint64_t d0, d1;
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_w(CPUMIPSState *env, uint32_t wd,
                       target_ulong addr)
  {
      wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = mips_env_mmu_index(env);
      uintptr_t ra = GETPC();
      uint64_t d0, d1;
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_d(CPUMIPSState *env, uint32_t wd,
                       target_ulong addr)
  {
      wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = mips_env_mmu_index(env);
      uintptr_t ra = GETPC();
      ensure_writable_pages(env, addr, mmu_idx, GETPC());
 diff --git a/target/mips/tcg/sysemu/cp0_helper.c b/target/mips/tcg/sysemu/cp0_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/sysemu/cp0_helper.c
 +++ b/target/mips/tcg/sysemu/cp0_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_mtc0_status(CPUMIPSState *env, target_ulong arg1)
                  old, old & env->CP0_Cause & CP0Ca_IP_mask,
                  val, val & env->CP0_Cause & CP0Ca_IP_mask,
                  env->CP0_Cause);
 -        switch (cpu_mmu_index(env, false)) {
 +        switch (mips_env_mmu_index(env)) {
          case 3:
              qemu_log(", ERL\n");
              break;
 diff --git a/target/mips/tcg/sysemu/special_helper.c b/target/mips/tcg/sysemu/special_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/sysemu/special_helper.c
 +++ b/target/mips/tcg/sysemu/special_helper.c
@@ -XXX,XX +XXX,XX @@ static void debug_post_eret(CPUMIPSState *env)
          if (env->hflags & MIPS_HFLAG_DM) {
              qemu_log(" DEPC " TARGET_FMT_lx, env->CP0_DEPC);
          }
 -        switch (cpu_mmu_index(env, false)) {
 +        switch (mips_env_mmu_index(env)) {
          case 3:
              qemu_log(", ERL\n");
              break;
 diff --git a/target/mips/tcg/sysemu/tlb_helper.c b/target/mips/tcg/sysemu/tlb_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/sysemu/tlb_helper.c
 +++ b/target/mips/tcg/sysemu/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ hwaddr cpu_mips_translate_address(CPUMIPSState *env, target_ulong address,
      /* data access */
      ret = get_physical_address(env, &physical, &prot, address, access_type,
 -                               cpu_mmu_index(env, false));
 +                               mips_env_mmu_index(env));
      if (ret == TLBRET_MATCH) {
          return physical;
      }
 --
-.34.1
+.43.0

-[PULL 43/57] target/sparc: Use i128 for FqTOs, FqTOi
+[PULL 07/72] tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
+Consider the passed s_mask to be a minimum deduced from
+either existing s_mask or from a sign-extension operation.
+We may be able to deduce more from the set of known zeros.
+Remove identical logic from several opcode folders.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-9-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     | 4 ++--
+ tcg/optimize.c | 21 ++++++---------------
- target/sparc/fop_helper.c | 8 ++++----
+file changed, 6 insertions(+), 15 deletions(-)
  target/sparc/translate.c  | 7 ++++---
 files changed, 10 insertions(+), 9 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/helper.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
+@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
- #endif
+  * Record "zero" and "sign" masks for the single output of @op.
- DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
+  * See TempOptInfo definition of z_mask and s_mask.
- DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
+  * If z_mask allows, fold the output to constant zero.
--DEF_HELPER_FLAGS_1(fqtos, TCG_CALL_NO_RWG, f32, env)
++ * The passed s_mask may be augmented by z_mask.
-+DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
+  */
- DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, void, env, f32)
+ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
- DEF_HELPER_FLAGS_1(fqtod, TCG_CALL_NO_RWG, f64, env)
+                           uint64_t z_mask, uint64_t s_mask)
- DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, void, env, f64)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
- DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
- DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_RWG, s32, env, f64)
+     ti = ts_info(ts);
--DEF_HELPER_FLAGS_1(fqtoi, TCG_CALL_NO_RWG, s32, env)
+     ti->z_mask = z_mask;
-+DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_RWG, s32, env, i128)
+-    ti->s_mask = s_mask;
- #ifdef TARGET_SPARC64
++    ti->s_mask = s_mask | smask_from_zmask(z_mask);
- DEF_HELPER_FLAGS_2(fstox, TCG_CALL_NO_RWG, s64, env, f32)
+     return true;
  DEF_HELPER_FLAGS_2(fdtox, TCG_CALL_NO_RWG, s64, env, f64)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ float64 helper_fstod(CPUSPARCState *env, float32 src)
      return float32_to_float64(src, &env->fp_status);
  }
--float32 helper_fqtos(CPUSPARCState *env)
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
-+float32 helper_fqtos(CPUSPARCState *env, Int128 src)
+     default:
- {
+         g_assert_not_reached();
--    return float128_to_float32(QT1, &env->fp_status);
+     }
-+    return float128_to_float32(f128_in(src), &env->fp_status);
+-    s_mask = smask_from_zmask(z_mask);
 +    s_mask = 0;
      switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
      case TCG_BSWAP_OZ:
          break;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
      default:
          /* The high bits are undefined: force all bits above the sign to 1. */
          z_mask |= sign << 1;
 -        s_mask = 0;
          break;
      }
      ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
          g_assert_not_reached();
      }
      ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
 -    ctx->s_mask = smask_from_zmask(ctx->z_mask);
      return false;
  }
- void helper_fstoq(CPUSPARCState *env, float32 src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ int32_t helper_fdtoi(CPUSPARCState *env, float64 src)
+     default:
-     return float64_to_int32_round_to_zero(src, &env->fp_status);
+         g_assert_not_reached();
      }
 -    ctx->s_mask = smask_from_zmask(ctx->z_mask);
      return false;
  }
--int32_t helper_fqtoi(CPUSPARCState *env)
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
-+int32_t helper_fqtoi(CPUSPARCState *env, Int128 src)
+         return true;
- {
+     }
--    return float128_to_int32_round_to_zero(QT1, &env->fp_status);
+     ctx->z_mask = z_mask;
-+    return float128_to_int32_round_to_zero(f128_in(src), &env->fp_status);
+-    ctx->s_mask = smask_from_zmask(z_mask);
      return fold_masks(ctx, op);
  }
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
  #ifdef TARGET_SPARC64
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_env_qq(DisasContext *dc, arg_r_r *a,
  TRANS(FSQRTq, ALL, do_env_qq, a, gen_helper_fsqrtq)
  static bool do_env_fq(DisasContext *dc, arg_r_r *a,
 -                      void (*func)(TCGv_i32, TCGv_env))
 +                      void (*func)(TCGv_i32, TCGv_env, TCGv_i128))
  {
 +    TCGv_i128 src;
      TCGv_i32 dst;
      if (gen_trap_ifnofpu(dc)) {
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
      }
-     gen_op_clear_ieee_excp_and_FTT();
+     ctx->z_mask = z_mask;
--    gen_op_load_fpr_QT1(QFPREG(a->rs));
+-    ctx->s_mask = smask_from_zmask(z_mask);
-+    src = gen_load_fpr_Q(dc, a->rs);
+     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
-     dst = tcg_temp_new_i32();
+         return true;
--    func(dst, tcg_env);
+     }
-+    func(dst, tcg_env, src);
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
+     int width = 8 * memop_size(mop);
-     gen_store_fpr_F(dc, a->rd, dst);
-     return advance_pc(dc);
+     if (width < 64) {
 -        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 -        if (!(mop & MO_SIGN)) {
 +        if (mop & MO_SIGN) {
 +            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +        } else {
              ctx->z_mask = MAKE_64BIT_MASK(0, width);
 -            ctx->s_mask <<= 1;
          }
      }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
      fold_setcond_tst_pow2(ctx, op, false);
      ctx->z_mask = 1;
 -    ctx->s_mask = smask_from_zmask(1);
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
      }
      ctx->z_mask = 1;
 -    ctx->s_mask = smask_from_zmask(1);
      return false;
   do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
          break;
      CASE_OP_32_64(ld8u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 8);
 -        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
          break;
      CASE_OP_32_64(ld16s):
          ctx->s_mask = MAKE_64BIT_MASK(16, 48);
          break;
      CASE_OP_32_64(ld16u):
          ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 -        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
          break;
      case INDEX_op_ld32s_i64:
          ctx->s_mask = MAKE_64BIT_MASK(32, 32);
          break;
      case INDEX_op_ld32u_i64:
          ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 -        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
          break;
      default:
          g_assert_not_reached();
 --
-.34.1
+.43.0

-[PULL 56/57] target/sparc: Split fcc out of env->fsr
+[PULL 08/72] tcg/optimize: Change representation of s_mask
-Represent each fcc field separately from the rest of fsr.
+Change the representation from sign bit repetitions to all bits equal
-This vastly simplifies floating-point comparisons.
+to the sign bit, including the sign bit itself.
+The previous format has a problem in that it is difficult to recreate
+a valid sign mask after a shift operation: the "repetitions" part of
+the previous format meant that applying the same shift as for the value
+lead to an off-by-one value.
+The new format, including the sign bit itself, means that the sign mask
+can be manipulated in exactly the same way as the value, canonicalization
+is easier.
+Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
+to do so.  Treat 0 as a non-canonical but typeless input for no sign
+information, which will be reset as appropriate for the data type.
+We can easily fold in the data from z_mask while canonicalizing.
+Temporarily disable optimizations using s_mask while each operation is
+converted to use fold_masks_zs and to the new form.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-22-richard.henderson@linaro.org>
 ---
- target/sparc/cpu.h        |  20 +-
+ tcg/optimize.c | 64 ++++++++++++--------------------------------------
- target/sparc/helper.h     |  34 +--
+file changed, 15 insertions(+), 49 deletions(-)
  target/sparc/fop_helper.c | 169 ++++++-------
  target/sparc/translate.c  | 503 +++++++++-----------------------------
 files changed, 201 insertions(+), 525 deletions(-)
-diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
- #if !defined(TARGET_SPARC64)
+     uint64_t val;
- #define TARGET_DPREGS 16
+     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
-+#define TARGET_FCCREGS 1
+-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
- #else
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
- #define TARGET_DPREGS 32
+ } TempOptInfo;
-+#define TARGET_FCCREGS 4
- #endif
+ typedef struct OptContext {
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
- /*#define EXCP_INTERRUPT 0x100*/
-@@ -XXX,XX +XXX,XX @@ enum {
+     /* In flight values from optimization. */
- #ifdef TARGET_SPARC64
+     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
- #define FSR_FTT_NMASK      0xfffffffffffe3fffULL
+-    uint64_t s_mask;  /* mask of clrsb(value) bits */
- #define FSR_FTT_CEXC_NMASK 0xfffffffffffe3fe0ULL
++    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
--#define FSR_LDFSR_OLDMASK  0x0000003f000fc000ULL
+     TCGType type;
--#define FSR_LDXFSR_MASK    0x0000003fcfc00fffULL
+ } OptContext;
--#define FSR_LDXFSR_OLDMASK 0x00000000000fc000ULL
- #else
+-/* Calculate the smask for a specific value. */
- #define FSR_FTT_NMASK      0xfffe3fffULL
+-static uint64_t smask_from_value(uint64_t value)
  #define FSR_FTT_CEXC_NMASK 0xfffe3fe0ULL
 -#define FSR_LDFSR_OLDMASK  0x000fc000ULL
  #endif
 -#define FSR_LDFSR_MASK     0xcfc00fffULL
  #define FSR_FTT_IEEE_EXCP (1ULL << 14)
  #define FSR_FTT_UNIMPFPOP (3ULL << 14)
  #define FSR_FTT_SEQ_ERROR (4ULL << 14)
  #define FSR_FTT_INVAL_FPR (6ULL << 14)
 -#define FSR_FCC1_SHIFT 11
 -#define FSR_FCC1  (1ULL << FSR_FCC1_SHIFT)
 -#define FSR_FCC0_SHIFT 10
 -#define FSR_FCC0  (1ULL << FSR_FCC0_SHIFT)
 +#define FSR_FCC0_SHIFT    10
 +#define FSR_FCC1_SHIFT    32
 +#define FSR_FCC2_SHIFT    34
 +#define FSR_FCC3_SHIFT    36
  /* MMU */
  #define MMU_E     (1<<0)
@@ -XXX,XX +XXX,XX @@ struct CPUArchState {
                            temporary register when possible) */
      /* FPU State Register, in parts */
 -    target_ulong fsr;       /* rm, tem, aexc, fcc* */
 -    uint32_t fsr_cexc_ftt;  /* cexc, ftt */
 +    uint32_t fsr;                    /* rm, tem, aexc */
 +    uint32_t fsr_cexc_ftt;           /* cexc, ftt */
 +    uint32_t fcc[TARGET_FCCREGS];    /* fcc* */
      CPU_DoubleU fpr[TARGET_DPREGS];  /* floating point registers */
      uint32_t cwp;      /* index of current register window (extracted
 diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/helper.h
 +++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
  DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
  #endif
  DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
 -DEF_HELPER_FLAGS_2(set_fsr_noftt, TCG_CALL_NO_RWG, void, env, tl)
 +DEF_HELPER_FLAGS_2(set_fsr_nofcc_noftt, TCG_CALL_NO_RWG, void, env, i32)
  DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_WG, f32, env, f32)
  DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_WG, f64, env, f64)
  DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_WG, i128, env, i128)
 -DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, void, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, void, env, i128, i128)
 -#ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
 -#endif
 +DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, i32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, i32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, i32, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, i32, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, i32, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, i32, env, i128, i128)
  DEF_HELPER_2(raise_exception, noreturn, env, int)
  DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
      return f128_ret(ret);
  }
 -#define GEN_FCMP(name, size, FS, E)                                     \
 -    void glue(helper_, name)(CPUSPARCState *env, Int128 src1, Int128 src2) \
 -    {                                                                   \
 -        float128 reg1 = f128_in(src1);                                  \
 -        float128 reg2 = f128_in(src2);                                  \
 -        FloatRelation ret;                                              \
 -        target_ulong fsr;                                               \
 -        if (E) {                                                        \
 -            ret = glue(size, _compare)(reg1, reg2, &env->fp_status);    \
 -        } else {                                                        \
 -            ret = glue(size, _compare_quiet)(reg1, reg2,                \
 -                                             &env->fp_status);          \
 -        }                                                               \
 -        check_ieee_exceptions(env, GETPC());                            \
 -        fsr = env->fsr;                                                 \
 -        switch (ret) {                                                  \
 -        case float_relation_unordered:                                  \
 -            fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
 -            fsr |= FSR_NVA;                                             \
 -            break;                                                      \
 -        case float_relation_less:                                       \
 -            fsr &= ~(FSR_FCC1) << FS;                                   \
 -            fsr |= FSR_FCC0 << FS;                                      \
 -            break;                                                      \
 -        case float_relation_greater:                                    \
 -            fsr &= ~(FSR_FCC0) << FS;                                   \
 -            fsr |= FSR_FCC1 << FS;                                      \
 -            break;                                                      \
 -        default:                                                        \
 -            fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
 -            break;                                                      \
 -        }                                                               \
 -        env->fsr = fsr;                                                 \
 -    }
 -#define GEN_FCMP_T(name, size, FS, E)                                   \
 -    void glue(helper_, name)(CPUSPARCState *env, size src1, size src2)  \
 -    {                                                                   \
 -        FloatRelation ret;                                              \
 -        target_ulong fsr;                                               \
 -        if (E) {                                                        \
 -            ret = glue(size, _compare)(src1, src2, &env->fp_status);    \
 -        } else {                                                        \
 -            ret = glue(size, _compare_quiet)(src1, src2,                \
 -                                             &env->fp_status);          \
 -        }                                                               \
 -        check_ieee_exceptions(env, GETPC());                            \
 -        fsr = env->fsr;                                                 \
 -        switch (ret) {                                                  \
 -        case float_relation_unordered:                                  \
 -            fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
 -            break;                                                      \
 -        case float_relation_less:                                       \
 -            fsr &= ~(FSR_FCC1 << FS);                                   \
 -            fsr |= FSR_FCC0 << FS;                                      \
 -            break;                                                      \
 -        case float_relation_greater:                                    \
 -            fsr &= ~(FSR_FCC0 << FS);                                   \
 -            fsr |= FSR_FCC1 << FS;                                      \
 -            break;                                                      \
 -        default:                                                        \
 -            fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
 -            break;                                                      \
 -        }                                                               \
 -        env->fsr = fsr;                                                 \
 +static uint32_t finish_fcmp(CPUSPARCState *env, FloatRelation r, uintptr_t ra)
 +{
 +    check_ieee_exceptions(env, ra);
 +
 +    /*
 +     * FCC values:
 +     * 0 =
 +     * 1 <
 +     * 2 >
 +     * 3 unordered
 +     */
 +    switch (r) {
 +    case float_relation_equal:
 +        return 0;
 +    case float_relation_less:
 +        return 1;
 +    case float_relation_greater:
 +        return 2;
 +    case float_relation_unordered:
 +        env->fsr |= FSR_NVA;
 +        return 3;
      }
 +    g_assert_not_reached();
 +}
 -GEN_FCMP_T(fcmps, float32, 0, 0);
 -GEN_FCMP_T(fcmpd, float64, 0, 0);
 +uint32_t helper_fcmps(CPUSPARCState *env, float32 src1, float32 src2)
 +{
 +    FloatRelation r = float32_compare_quiet(src1, src2, &env->fp_status);
 +    return finish_fcmp(env, r, GETPC());
 +}
 -GEN_FCMP_T(fcmpes, float32, 0, 1);
 -GEN_FCMP_T(fcmped, float64, 0, 1);
 +uint32_t helper_fcmpes(CPUSPARCState *env, float32 src1, float32 src2)
 +{
 +    FloatRelation r = float32_compare(src1, src2, &env->fp_status);
 +    return finish_fcmp(env, r, GETPC());
 +}
 -GEN_FCMP(fcmpq, float128, 0, 0);
 -GEN_FCMP(fcmpeq, float128, 0, 1);
 +uint32_t helper_fcmpd(CPUSPARCState *env, float64 src1, float64 src2)
 +{
 +    FloatRelation r = float64_compare_quiet(src1, src2, &env->fp_status);
 +    return finish_fcmp(env, r, GETPC());
 +}
 -#ifdef TARGET_SPARC64
 -GEN_FCMP_T(fcmps_fcc1, float32, 22, 0);
 -GEN_FCMP_T(fcmpd_fcc1, float64, 22, 0);
 -GEN_FCMP(fcmpq_fcc1, float128, 22, 0);
 +uint32_t helper_fcmped(CPUSPARCState *env, float64 src1, float64 src2)
 +{
 +    FloatRelation r = float64_compare(src1, src2, &env->fp_status);
 +    return finish_fcmp(env, r, GETPC());
 +}
 -GEN_FCMP_T(fcmps_fcc2, float32, 24, 0);
 -GEN_FCMP_T(fcmpd_fcc2, float64, 24, 0);
 -GEN_FCMP(fcmpq_fcc2, float128, 24, 0);
 +uint32_t helper_fcmpq(CPUSPARCState *env, Int128 src1, Int128 src2)
 +{
 +    FloatRelation r = float128_compare_quiet(f128_in(src1), f128_in(src2),
 +                                             &env->fp_status);
 +    return finish_fcmp(env, r, GETPC());
 +}
 -GEN_FCMP_T(fcmps_fcc3, float32, 26, 0);
 -GEN_FCMP_T(fcmpd_fcc3, float64, 26, 0);
 -GEN_FCMP(fcmpq_fcc3, float128, 26, 0);
 -
 -GEN_FCMP_T(fcmpes_fcc1, float32, 22, 1);
 -GEN_FCMP_T(fcmped_fcc1, float64, 22, 1);
 -GEN_FCMP(fcmpeq_fcc1, float128, 22, 1);
 -
 -GEN_FCMP_T(fcmpes_fcc2, float32, 24, 1);
 -GEN_FCMP_T(fcmped_fcc2, float64, 24, 1);
 -GEN_FCMP(fcmpeq_fcc2, float128, 24, 1);
 -
 -GEN_FCMP_T(fcmpes_fcc3, float32, 26, 1);
 -GEN_FCMP_T(fcmped_fcc3, float64, 26, 1);
 -GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
 -#endif
 -#undef GEN_FCMP_T
 -#undef GEN_FCMP
 +uint32_t helper_fcmpeq(CPUSPARCState *env, Int128 src1, Int128 src2)
 +{
 +    FloatRelation r = float128_compare(f128_in(src1), f128_in(src2),
 +                                       &env->fp_status);
 +    return finish_fcmp(env, r, GETPC());
 +}
  target_ulong cpu_get_fsr(CPUSPARCState *env)
  {
      target_ulong fsr = env->fsr | env->fsr_cexc_ftt;
 +    fsr |= env->fcc[0] << FSR_FCC0_SHIFT;
 +#ifdef TARGET_SPARC64
 +    fsr |= (uint64_t)env->fcc[1] << FSR_FCC1_SHIFT;
 +    fsr |= (uint64_t)env->fcc[2] << FSR_FCC2_SHIFT;
 +    fsr |= (uint64_t)env->fcc[3] << FSR_FCC3_SHIFT;
 +#endif
 +
      /* VER is kept completely separate until re-assembly. */
      fsr |= env->def.fpu_version;
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
  {
      int rnd_mode;
 -    env->fsr = fsr & ~(FSR_VER_MASK | FSR_CEXC_MASK | FSR_FTT_MASK);
 +    env->fsr = fsr & (FSR_RD_MASK | FSR_TEM_MASK | FSR_AEXC_MASK);
      switch (fsr & FSR_RD_MASK) {
      case FSR_RD_NEAREST:
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
  void cpu_put_fsr(CPUSPARCState *env, target_ulong fsr)
  {
      env->fsr_cexc_ftt = fsr & (FSR_CEXC_MASK | FSR_FTT_MASK);
 +
 +    env->fcc[0] = extract32(fsr, FSR_FCC0_SHIFT, 2);
 +#ifdef TARGET_SPARC64
 +    env->fcc[1] = extract64(fsr, FSR_FCC1_SHIFT, 2);
 +    env->fcc[2] = extract64(fsr, FSR_FCC2_SHIFT, 2);
 +    env->fcc[3] = extract64(fsr, FSR_FCC3_SHIFT, 2);
 +#endif
 +
      set_fsr_nonsplit(env, fsr);
  }
 -void helper_set_fsr_noftt(CPUSPARCState *env, target_ulong fsr)
 +void helper_set_fsr_nofcc_noftt(CPUSPARCState *env, uint32_t fsr)
  {
      env->fsr_cexc_ftt &= FSR_FTT_MASK;
      env->fsr_cexc_ftt |= fsr & FSR_CEXC_MASK;
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@
  # define gen_helper_fxtoq                ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fxtos                ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_pdist                ({ qemu_build_not_reached(); NULL; })
 -# define FSR_LDXFSR_MASK                        0
 -# define FSR_LDXFSR_OLDMASK                     0
  # define MAXTL_MASK                             0
  #endif
@@ -XXX,XX +XXX,XX @@ static TCGv cpu_gsr;
  /* Floating point registers */
  static TCGv_i64 cpu_fpr[TARGET_DPREGS];
 +static TCGv_i32 cpu_fcc[TARGET_FCCREGS];
  #define env_field_offsetof(X)     offsetof(CPUSPARCState, X)
  #ifdef TARGET_SPARC64
@@ -XXX,XX +XXX,XX @@ static void gen_op_bshuffle(TCGv_i64 dst, TCGv_i64 src1, TCGv_i64 src2)
  #endif
  }
 -// 1
 -static void gen_op_eval_ba(TCGv dst)
 -{
--    tcg_gen_movi_tl(dst, 1);
+-    int rep = clrsb64(value);
--}
+-    return ~(~0ull >> rep);
 -
 -// 0
 -static void gen_op_eval_bn(TCGv dst)
 -{
 -    tcg_gen_movi_tl(dst, 0);
 -}
 -
 -/*
--  FPSR bit field FCC1 | FCC0:
+- * Calculate the smask for a given set of known-zeros.
--   0 =
+- * If there are lots of zeros on the left, we can consider the remainder
--   1 <
+- * an unsigned field, and thus the corresponding signed field is one bit
--   2 >
+- * larger.
--   3 unordered
+- */
--*/
+-static uint64_t smask_from_zmask(uint64_t zmask)
 -static void gen_mov_reg_FCC0(TCGv reg, TCGv src,
 -                                    unsigned int fcc_offset)
 -{
--    tcg_gen_shri_tl(reg, src, FSR_FCC0_SHIFT + fcc_offset);
+-    /*
--    tcg_gen_andi_tl(reg, reg, 0x1);
+-     * Only the 0 bits are significant for zmask, thus the msb itself
 -     * must be zero, else we have no sign information.
 -     */
 -    int rep = clz64(zmask);
 -    if (rep == 0) {
 -        return 0;
 -    }
 -    rep -= 1;
 -    return ~(~0ull >> rep);
 -}
 -
--static void gen_mov_reg_FCC1(TCGv reg, TCGv src, unsigned int fcc_offset)
+-/*
 - * Recreate a properly left-aligned smask after manipulation.
 - * Some bit-shuffling, particularly shifts and rotates, may
 - * retain sign bits on the left, but may scatter disconnected
 - * sign bits on the right.  Retain only what remains to the left.
 - */
 -static uint64_t smask_from_smask(int64_t smask)
 -{
--    tcg_gen_shri_tl(reg, src, FSR_FCC1_SHIFT + fcc_offset);
+-    /* Only the 1 bits are significant for smask */
--    tcg_gen_andi_tl(reg, reg, 0x1);
+-    return smask_from_zmask(~smask);
 -}
 -
--// !0: FCC0 | FCC1
+ static inline TempOptInfo *ts_info(TCGTemp *ts)
 -static void gen_op_eval_fbne(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_or_tl(dst, dst, t0);
 -}
 -
 -// 1 or 2: FCC0 ^ FCC1
 -static void gen_op_eval_fblg(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_xor_tl(dst, dst, t0);
 -}
 -
 -// 1 or 3: FCC0
 -static void gen_op_eval_fbul(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -}
 -
 -// 1: FCC0 & !FCC1
 -static void gen_op_eval_fbl(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_andc_tl(dst, dst, t0);
 -}
 -
 -// 2 or 3: FCC1
 -static void gen_op_eval_fbug(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    gen_mov_reg_FCC1(dst, src, fcc_offset);
 -}
 -
 -// 2: !FCC0 & FCC1
 -static void gen_op_eval_fbg(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_andc_tl(dst, t0, dst);
 -}
 -
 -// 3: FCC0 & FCC1
 -static void gen_op_eval_fbu(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_and_tl(dst, dst, t0);
 -}
 -
 -// 0: !(FCC0 | FCC1)
 -static void gen_op_eval_fbe(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_or_tl(dst, dst, t0);
 -    tcg_gen_xori_tl(dst, dst, 0x1);
 -}
 -
 -// 0 or 3: !(FCC0 ^ FCC1)
 -static void gen_op_eval_fbue(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_xor_tl(dst, dst, t0);
 -    tcg_gen_xori_tl(dst, dst, 0x1);
 -}
 -
 -// 0 or 2: !FCC0
 -static void gen_op_eval_fbge(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    tcg_gen_xori_tl(dst, dst, 0x1);
 -}
 -
 -// !1: !(FCC0 & !FCC1)
 -static void gen_op_eval_fbuge(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_andc_tl(dst, dst, t0);
 -    tcg_gen_xori_tl(dst, dst, 0x1);
 -}
 -
 -// 0 or 1: !FCC1
 -static void gen_op_eval_fble(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    gen_mov_reg_FCC1(dst, src, fcc_offset);
 -    tcg_gen_xori_tl(dst, dst, 0x1);
 -}
 -
 -// !2: !(!FCC0 & FCC1)
 -static void gen_op_eval_fbule(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_andc_tl(dst, t0, dst);
 -    tcg_gen_xori_tl(dst, dst, 0x1);
 -}
 -
 -// !3: !(FCC0 & FCC1)
 -static void gen_op_eval_fbo(TCGv dst, TCGv src, unsigned int fcc_offset)
 -{
 -    TCGv t0 = tcg_temp_new();
 -    gen_mov_reg_FCC0(dst, src, fcc_offset);
 -    gen_mov_reg_FCC1(t0, src, fcc_offset);
 -    tcg_gen_and_tl(dst, dst, t0);
 -    tcg_gen_xori_tl(dst, dst, 0x1);
 -}
 -
  static void finishing_insn(DisasContext *dc)
  {
-     /*
+     return ts->state_ptr;
-@@ -XXX,XX +XXX,XX @@ static void gen_compare(DisasCompare *cmp, bool xcc, unsigned int cond,
+@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
+         ti->is_const = true;
- static void gen_fcompare(DisasCompare *cmp, unsigned int cc, unsigned int cond)
+         ti->val = ts->val;
          ti->z_mask = ts->val;
 -        ti->s_mask = smask_from_value(ts->val);
 +        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
      } else {
          ti->is_const = false;
          ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
           */
          if (i == 0) {
              ts_info(ts)->z_mask = ctx->z_mask;
 -            ts_info(ts)->s_mask = ctx->s_mask;
          }
      }
  }
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
   * The passed s_mask may be augmented by z_mask.
   */
  static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 -                          uint64_t z_mask, uint64_t s_mask)
 +                          uint64_t z_mask, int64_t s_mask)
  {
--    unsigned int offset;
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
--    TCGv r_dst, fsr;
+     TCGTemp *ts;
-+    TCGv_i32 fcc = cpu_fcc[cc];
+     TempOptInfo *ti;
-+    TCGv_i32 c1 = fcc;
++    int rep;
-+    int c2 = 0;
-+    TCGCond tcond;
+     /* Only single-output opcodes are supported here. */
+     tcg_debug_assert(def->nb_oargs == 1);
--    /* For now we still generate a straight boolean result.  */
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
--    cmp->cond = TCG_COND_NE;
+      */
--    cmp->c1 = r_dst = tcg_temp_new();
+     if (ctx->type == TCG_TYPE_I32) {
--    cmp->c2 = 0;
+         z_mask = (int32_t)z_mask;
--
+-        s_mask |= MAKE_64BIT_MASK(32, 32);
--    switch (cc) {
++        s_mask |= INT32_MIN;
 -    default:
 -    case 0x0:
 -        offset = 0;
 +    /*
 +     * FCC values:
 +     * 0 =
 +     * 1 <
 +     * 2 >
 +     * 3 unordered
 +     */
 +    switch (cond & 7) {
 +    case 0x0: /* fbn */
 +        tcond = TCG_COND_NEVER;
          break;
 -    case 0x1:
 -        offset = 32 - 10;
 +    case 0x1: /* fbne : !0 */
 +        tcond = TCG_COND_NE;
          break;
 -    case 0x2:
 -        offset = 34 - 10;
 +    case 0x2: /* fblg : 1 or 2 */
 +        /* fcc in {1,2} - 1 -> fcc in {0,1} */
 +        c1 = tcg_temp_new_i32();
 +        tcg_gen_addi_i32(c1, fcc, -1);
 +        c2 = 1;
 +        tcond = TCG_COND_LEU;
          break;
 -    case 0x3:
 -        offset = 36 - 10;
 +    case 0x3: /* fbul : 1 or 3 */
 +        c1 = tcg_temp_new_i32();
 +        tcg_gen_andi_i32(c1, fcc, 1);
 +        tcond = TCG_COND_NE;
 +        break;
 +    case 0x4: /* fbl  : 1 */
 +        c2 = 1;
 +        tcond = TCG_COND_EQ;
 +        break;
 +    case 0x5: /* fbug : 2 or 3 */
 +        c2 = 2;
 +        tcond = TCG_COND_GEU;
 +        break;
 +    case 0x6: /* fbg  : 2 */
 +        c2 = 2;
 +        tcond = TCG_COND_EQ;
 +        break;
 +    case 0x7: /* fbu  : 3 */
 +        c2 = 3;
 +        tcond = TCG_COND_EQ;
          break;
      }
--
--    fsr = tcg_temp_new();
+     if (z_mask == 0) {
--    tcg_gen_ld_tl(fsr, tcg_env, offsetof(CPUSPARCState, fsr));
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
--    switch (cond) {
--    case 0x0:
+     ti = ts_info(ts);
--        gen_op_eval_bn(r_dst);
+     ti->z_mask = z_mask;
--        break;
+-    ti->s_mask = s_mask | smask_from_zmask(z_mask);
 -    case 0x1:
 -        gen_op_eval_fbne(r_dst, fsr, offset);
 -        break;
 -    case 0x2:
 -        gen_op_eval_fblg(r_dst, fsr, offset);
 -        break;
 -    case 0x3:
 -        gen_op_eval_fbul(r_dst, fsr, offset);
 -        break;
 -    case 0x4:
 -        gen_op_eval_fbl(r_dst, fsr, offset);
 -        break;
 -    case 0x5:
 -        gen_op_eval_fbug(r_dst, fsr, offset);
 -        break;
 -    case 0x6:
 -        gen_op_eval_fbg(r_dst, fsr, offset);
 -        break;
 -    case 0x7:
 -        gen_op_eval_fbu(r_dst, fsr, offset);
 -        break;
 -    case 0x8:
 -        gen_op_eval_ba(r_dst);
 -        break;
 -    case 0x9:
 -        gen_op_eval_fbe(r_dst, fsr, offset);
 -        break;
 -    case 0xa:
 -        gen_op_eval_fbue(r_dst, fsr, offset);
 -        break;
 -    case 0xb:
 -        gen_op_eval_fbge(r_dst, fsr, offset);
 -        break;
 -    case 0xc:
 -        gen_op_eval_fbuge(r_dst, fsr, offset);
 -        break;
 -    case 0xd:
 -        gen_op_eval_fble(r_dst, fsr, offset);
 -        break;
 -    case 0xe:
 -        gen_op_eval_fbule(r_dst, fsr, offset);
 -        break;
 -    case 0xf:
 -        gen_op_eval_fbo(r_dst, fsr, offset);
 -        break;
 +    if (cond & 8) {
 +        tcond = tcg_invert_cond(tcond);
      }
 +
-+    cmp->cond = tcond;
++    /* Canonicalize s_mask and incorporate data from z_mask. */
-+    cmp->c2 = c2;
++    rep = clz64(~s_mask);
-+    cmp->c1 = tcg_temp_new();
++    rep = MAX(rep, clz64(z_mask));
-+    tcg_gen_extu_i32_tl(cmp->c1, c1);
++    rep = MAX(rep - 1, 0);
- }
++    ti->s_mask = INT64_MIN >> rep;
++
  static bool gen_compare_reg(DisasCompare *cmp, int cond, TCGv r_src)
@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
      tcg_gen_concat_i64_i128(dst, l, h);
  }
 -#ifdef TARGET_SPARC64
 -static void gen_op_fcmps(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
 -{
 -    switch (fccno) {
 -    case 0:
 -        gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 1:
 -        gen_helper_fcmps_fcc1(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 2:
 -        gen_helper_fcmps_fcc2(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 3:
 -        gen_helper_fcmps_fcc3(tcg_env, r_rs1, r_rs2);
 -        break;
 -    }
 -}
 -
 -static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 -{
 -    switch (fccno) {
 -    case 0:
 -        gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 1:
 -        gen_helper_fcmpd_fcc1(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 2:
 -        gen_helper_fcmpd_fcc2(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 3:
 -        gen_helper_fcmpd_fcc3(tcg_env, r_rs1, r_rs2);
 -        break;
 -    }
 -}
 -
 -static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 -{
 -    switch (fccno) {
 -    case 0:
 -        gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 1:
 -        gen_helper_fcmpq_fcc1(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 2:
 -        gen_helper_fcmpq_fcc2(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 3:
 -        gen_helper_fcmpq_fcc3(tcg_env, r_rs1, r_rs2);
 -        break;
 -    }
 -}
 -
 -static void gen_op_fcmpes(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
 -{
 -    switch (fccno) {
 -    case 0:
 -        gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 1:
 -        gen_helper_fcmpes_fcc1(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 2:
 -        gen_helper_fcmpes_fcc2(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 3:
 -        gen_helper_fcmpes_fcc3(tcg_env, r_rs1, r_rs2);
 -        break;
 -    }
 -}
 -
 -static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 -{
 -    switch (fccno) {
 -    case 0:
 -        gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 1:
 -        gen_helper_fcmped_fcc1(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 2:
 -        gen_helper_fcmped_fcc2(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 3:
 -        gen_helper_fcmped_fcc3(tcg_env, r_rs1, r_rs2);
 -        break;
 -    }
 -}
 -
 -static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 -{
 -    switch (fccno) {
 -    case 0:
 -        gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 1:
 -        gen_helper_fcmpeq_fcc1(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 2:
 -        gen_helper_fcmpeq_fcc2(tcg_env, r_rs1, r_rs2);
 -        break;
 -    case 3:
 -        gen_helper_fcmpeq_fcc3(tcg_env, r_rs1, r_rs2);
 -        break;
 -    }
 -}
 -
 -#else
 -
 -static void gen_op_fcmps(int fccno, TCGv r_rs1, TCGv r_rs2)
 -{
 -    gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
 -}
 -
 -static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 -{
 -    gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
 -}
 -
 -static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 -{
 -    gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
 -}
 -
 -static void gen_op_fcmpes(int fccno, TCGv r_rs1, TCGv r_rs2)
 -{
 -    gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
 -}
 -
 -static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 -{
 -    gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
 -}
 -
 -static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 -{
 -    gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
 -}
 -#endif
 -
  static void gen_op_fpexception_im(DisasContext *dc, int ftt)
  {
      /*
@@ -XXX,XX +XXX,XX @@ static bool trans_STDFQ(DisasContext *dc, arg_STDFQ *a)
      return true;
  }
--static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
--                     target_ulong new_mask, target_ulong old_mask)
-+static bool trans_LDFSR(DisasContext *dc, arg_r_r_ri *a)
+     ctx->z_mask = z_mask;
- {
+     ctx->s_mask = s_mask;
-     TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
+-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    TCGv tnew, told;
++    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +    TCGv_i32 tmp;
      if (addr == NULL) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
      if (gen_trap_ifnofpu(dc)) {
          return true;
      }
--    tnew = tcg_temp_new();
--    told = tcg_temp_new();
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
--    tcg_gen_qemu_ld_tl(tnew, addr, dc->mem_idx, mop | MO_ALIGN);
+     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
--    tcg_gen_ld_tl(told, tcg_env, offsetof(CPUSPARCState, fsr));
+     ctx->s_mask = s_mask;
--    tcg_gen_andi_tl(tnew, tnew, new_mask);
--    tcg_gen_andi_tl(told, told, old_mask);
+-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    tcg_gen_or_tl(tnew, tnew, told);
++    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
--    gen_helper_set_fsr_noftt(tcg_env, tnew);
+         return true;
 +
 +    tmp = tcg_temp_new_i32();
 +    tcg_gen_qemu_ld_i32(tmp, addr, dc->mem_idx, MO_TEUL | MO_ALIGN);
 +
 +    tcg_gen_extract_i32(cpu_fcc[0], tmp, FSR_FCC0_SHIFT, 2);
 +    /* LDFSR does not change FCC[1-3]. */
 +
 +    gen_helper_set_fsr_nofcc_noftt(tcg_env, tmp);
      return advance_pc(dc);
  }
 -TRANS(LDFSR, ALL, do_ldfsr, a, MO_TEUL, FSR_LDFSR_MASK, FSR_LDFSR_OLDMASK)
 -TRANS(LDXFSR, 64, do_ldfsr, a, MO_TEUQ, FSR_LDXFSR_MASK, FSR_LDXFSR_OLDMASK)
 +static bool trans_LDXFSR(DisasContext *dc, arg_r_r_ri *a)
 +{
 +#ifdef TARGET_SPARC64
 +    TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
 +    TCGv_i64 t64;
 +    TCGv_i32 lo, hi;
 +
 +    if (addr == NULL) {
 +        return false;
 +    }
 +    if (gen_trap_ifnofpu(dc)) {
 +        return true;
 +    }
 +
 +    t64 = tcg_temp_new_i64();
 +    tcg_gen_qemu_ld_i64(t64, addr, dc->mem_idx, MO_TEUQ | MO_ALIGN);
 +
 +    lo = tcg_temp_new_i32();
 +    hi = cpu_fcc[3];
 +    tcg_gen_extr_i64_i32(lo, hi, t64);
 +    tcg_gen_extract_i32(cpu_fcc[0], lo, FSR_FCC0_SHIFT, 2);
 +    tcg_gen_extract_i32(cpu_fcc[1], hi, FSR_FCC1_SHIFT - 32, 2);
 +    tcg_gen_extract_i32(cpu_fcc[2], hi, FSR_FCC2_SHIFT - 32, 2);
 +    tcg_gen_extract_i32(cpu_fcc[3], hi, FSR_FCC3_SHIFT - 32, 2);
 +
 +    gen_helper_set_fsr_nofcc_noftt(tcg_env, lo);
 +    return advance_pc(dc);
 +#else
 +    return false;
 +#endif
 +}
  static bool do_stfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop)
  {
@@ -XXX,XX +XXX,XX @@ static bool do_fcmps(DisasContext *dc, arg_FCMPs *a, bool e)
      src1 = gen_load_fpr_F(dc, a->rs1);
      src2 = gen_load_fpr_F(dc, a->rs2);
      if (e) {
 -        gen_op_fcmpes(a->cc, src1, src2);
 +        gen_helper_fcmpes(cpu_fcc[a->cc], tcg_env, src1, src2);
      } else {
 -        gen_op_fcmps(a->cc, src1, src2);
 +        gen_helper_fcmps(cpu_fcc[a->cc], tcg_env, src1, src2);
      }
-     return advance_pc(dc);
- }
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-@@ -XXX,XX +XXX,XX @@ static bool do_fcmpd(DisasContext *dc, arg_FCMPd *a, bool e)
+         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
-     src1 = gen_load_fpr_D(dc, a->rs1);
-     src2 = gen_load_fpr_D(dc, a->rs2);
+         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
-     if (e) {
+-        ctx->s_mask = smask_from_smask(s_mask);
--        gen_op_fcmped(a->cc, src1, src2);
-+        gen_helper_fcmped(cpu_fcc[a->cc], tcg_env, src1, src2);
+         return fold_masks(ctx, op);
      } else {
 -        gen_op_fcmpd(a->cc, src1, src2);
 +        gen_helper_fcmpd(cpu_fcc[a->cc], tcg_env, src1, src2);
      }
-     return advance_pc(dc);
- }
-@@ -XXX,XX +XXX,XX @@ static bool do_fcmpq(DisasContext *dc, arg_FCMPq *a, bool e)
-     src1 = gen_load_fpr_Q(dc, a->rs1);
-     src2 = gen_load_fpr_Q(dc, a->rs2);
-     if (e) {
--        gen_op_fcmpeq(a->cc, src1, src2);
-+        gen_helper_fcmpeq(cpu_fcc[a->cc], tcg_env, src1, src2);
-     } else {
--        gen_op_fcmpq(a->cc, src1, src2);
-+        gen_helper_fcmpq(cpu_fcc[a->cc], tcg_env, src1, src2);
-     }
-     return advance_pc(dc);
- }
-@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
-         "f48", "f50", "f52", "f54", "f56", "f58", "f60", "f62",
-     };
-+    static const struct { TCGv_i32 *ptr; int off; const char *name; } r32[] = {
-+#ifdef TARGET_SPARC64
-+        { &cpu_fprs, offsetof(CPUSPARCState, fprs), "fprs" },
-+        { &cpu_fcc[0], offsetof(CPUSPARCState, fcc[0]), "fcc0" },
-+        { &cpu_fcc[1], offsetof(CPUSPARCState, fcc[1]), "fcc1" },
-+        { &cpu_fcc[2], offsetof(CPUSPARCState, fcc[2]), "fcc2" },
-+        { &cpu_fcc[3], offsetof(CPUSPARCState, fcc[3]), "fcc3" },
-+#else
-+        { &cpu_fcc[0], offsetof(CPUSPARCState, fcc[0]), "fcc" },
-+#endif
-+    };
-+
-     static const struct { TCGv *ptr; int off; const char *name; } rtl[] = {
- #ifdef TARGET_SPARC64
-         { &cpu_gsr, offsetof(CPUSPARCState, gsr), "gsr" },
-@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
-                                          offsetof(CPUSPARCState, regwptr),
-                                          "regwptr");
-+    for (i = 0; i < ARRAY_SIZE(r32); ++i) {
-+        *r32[i].ptr = tcg_global_mem_new_i32(tcg_env, r32[i].off, r32[i].name);
-+    }
-+
-     for (i = 0; i < ARRAY_SIZE(rtl); ++i) {
-         *rtl[i].ptr = tcg_global_mem_new(tcg_env, rtl[i].off, rtl[i].name);
-     }
-@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
-                                             offsetof(CPUSPARCState, fpr[i]),
-                                             fregnames[i]);
-     }
--
--#ifdef TARGET_SPARC64
--    cpu_fprs = tcg_global_mem_new_i32(tcg_env,
--                                      offsetof(CPUSPARCState, fprs), "fprs");
--#endif
- }
- void sparc_restore_state_to_opc(CPUState *cs,
 --
-.34.1
+.43.0

-[PULL 47/57] target/sparc: Use i128 for FdTOq, FxTOq
+[PULL 09/72] tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-13-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     | 4 ++--
+ tcg/optimize.c | 9 +++++----
- target/sparc/fop_helper.c | 8 ++++----
+file changed, 5 insertions(+), 4 deletions(-)
  target/sparc/translate.c  | 9 +++++----
 files changed, 11 insertions(+), 10 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/helper.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
+@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
- #ifdef TARGET_SPARC64
+     remove_mem_copy_all(ctx);
  DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_RWG, f32, env, s64)
  DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_RWG, f64, env, s64)
 -DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
 +DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, i128, env, s64)
  #endif
  DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
  DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
  DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
  DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, i128, env, f32)
  DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_RWG, f64, env, i128)
 -DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, void, env, f64)
 +DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, i128, env, f64)
  DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
  DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_RWG, s32, env, f64)
  DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_RWG, s32, env, i128)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ float64 helper_fxtod(CPUSPARCState *env, int64_t src)
      return int64_to_float64(src, &env->fp_status);
  }
--void helper_fxtoq(CPUSPARCState *env, int64_t src)
+-static void finish_folding(OptContext *ctx, TCGOp *op)
-+Int128 helper_fxtoq(CPUSPARCState *env, int64_t src)
++static bool finish_folding(OptContext *ctx, TCGOp *op)
  {
--    QT0 = int64_to_float128(src, &env->fp_status);
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-+    return f128_ret(int64_to_float128(src, &env->fp_status));
+     int i, nb_oargs;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
              ts_info(ts)->z_mask = ctx->z_mask;
          }
      }
 +    return true;
  }
- #endif
+ /*
-@@ -XXX,XX +XXX,XX @@ float64 helper_fqtod(CPUSPARCState *env, Int128 src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
-     return float128_to_float64(f128_in(src), &env->fp_status);
+         fold_xi_to_x(ctx, op, 0)) {
          return true;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
--void helper_fdtoq(CPUSPARCState *env, float64 src)
+ /* We cannot as yet do_constant_folding with vectors. */
-+Int128 helper_fdtoq(CPUSPARCState *env, float64 src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
- {
+         fold_xi_to_x(ctx, op, 0)) {
--    QT0 = float64_to_float128(src, &env->fp_status);
+         return true;
-+    return f128_ret(float64_to_float128(src, &env->fp_status));
+     }
 -    return false;
 +    return finish_folding(ctx, op);
  }
- /* Float to integer conversion.  */
+ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
-diff --git a/target/sparc/translate.c b/target/sparc/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
-index XXXXXXX..XXXXXXX 100644
+         op->args[4] = arg_new_constant(ctx, bl);
---- a/target/sparc/translate.c
+         op->args[5] = arg_new_constant(ctx, bh);
-+++ b/target/sparc/translate.c
+     }
-@@ -XXX,XX +XXX,XX @@ TRANS(FiTOq, ALL, do_env_qf, a, gen_helper_fitoq)
+-    return false;
- TRANS(FsTOq, ALL, do_env_qf, a, gen_helper_fstoq)
++    return finish_folding(ctx, op);
  static bool do_env_qd(DisasContext *dc, arg_r_r *a,
 -                      void (*func)(TCGv_env, TCGv_i64))
 +                      void (*func)(TCGv_i128, TCGv_env, TCGv_i64))
  {
      TCGv_i64 src;
 +    TCGv_i128 dst;
      if (gen_trap_ifnofpu(dc)) {
          return true;
@@ -XXX,XX +XXX,XX @@ static bool do_env_qd(DisasContext *dc, arg_r_r *a,
      gen_op_clear_ieee_excp_and_FTT();
      src = gen_load_fpr_D(dc, a->rs);
 -    func(tcg_env, src);
 -    gen_op_store_QT0_fpr(QFPREG(a->rd));
 -    gen_update_fprs_dirty(dc, QFPREG(a->rd));
 +    dst = tcg_temp_new_i128();
 +    func(dst, tcg_env, src);
 +    gen_store_fpr_Q(dc, a->rd, dst);
      return advance_pc(dc);
  }
+ static bool fold_add2(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 40/57] target/sparc: Inline FNEG, FABS
+[PULL 10/72] tcg/optimize: Introduce const value accessors for TempOptInfo
-These are simple bit manipulation insns.
+Introduce ti_is_const, ti_const_val, ti_is_const_val.
 Begin using i128 for float128.
 Implement FMOVq with do_qq.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-6-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     |  6 ----
+ tcg/optimize.c | 20 +++++++++++++++++---
- target/sparc/fop_helper.c | 34 ---------------------
+file changed, 17 insertions(+), 3 deletions(-)
  target/sparc/translate.c  | 62 +++++++++++++++++++--------------------
 files changed, 30 insertions(+), 72 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/helper.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
+@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
- #endif
+     return ts_info(arg_temp(arg));
  DEF_HELPER_FLAGS_1(check_ieee_exceptions, TCG_CALL_NO_WG, tl, env)
  DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
 -DEF_HELPER_FLAGS_1(fabss, TCG_CALL_NO_RWG_SE, f32, f32)
  DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_RWG, f32, env, f32)
  DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_RWG, f64, env, f64)
  DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, tl, env, f32, f32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_1(fsqrtq, TCG_CALL_NO_RWG, void, env)
  DEF_HELPER_FLAGS_1(fcmpq, TCG_CALL_NO_WG, tl, env)
  DEF_HELPER_FLAGS_1(fcmpeq, TCG_CALL_NO_WG, tl, env)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_1(fabsd, TCG_CALL_NO_RWG_SE, f64, f64)
  DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, tl, env, f32, f32)
  DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, tl, env, f32, f32)
  DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
  DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, tl, env, f64, f64)
  DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, tl, env, f64, f64)
  DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_1(fabsq, TCG_CALL_NO_RWG, void, env)
  DEF_HELPER_FLAGS_1(fcmpq_fcc1, TCG_CALL_NO_WG, tl, env)
  DEF_HELPER_FLAGS_1(fcmpq_fcc2, TCG_CALL_NO_WG, tl, env)
  DEF_HELPER_FLAGS_1(fcmpq_fcc3, TCG_CALL_NO_WG, tl, env)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_RWG, f32, env, f32, f32)
  DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
  DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, void, env, f64, f64)
 -DEF_HELPER_FLAGS_1(fnegs, TCG_CALL_NO_RWG_SE, f32, f32)
  DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
  DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, void, env, s32)
  DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_1(fnegd, TCG_CALL_NO_RWG_SE, f64, f64)
 -DEF_HELPER_FLAGS_1(fnegq, TCG_CALL_NO_RWG, void, env)
  DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_RWG, f32, env, s64)
  DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_RWG, f64, env, s64)
  DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
                         &env->fp_status);
  }
--float32 helper_fnegs(float32 src)
++static inline bool ti_is_const(TempOptInfo *ti)
--{
++{
--    return float32_chs(src);
++    return ti->is_const;
 -}
 -
 -#ifdef TARGET_SPARC64
 -float64 helper_fnegd(float64 src)
 -{
 -    return float64_chs(src);
 -}
 -
 -F_HELPER(neg, q)
 -{
 -    QT0 = float128_chs(QT1);
 -}
 -#endif
 -
  /* Integer to float conversion.  */
  float32 helper_fitos(CPUSPARCState *env, int32_t src)
  {
@@ -XXX,XX +XXX,XX @@ int64_t helper_fqtox(CPUSPARCState *env)
  }
  #endif
 -float32 helper_fabss(float32 src)
 -{
 -    return float32_abs(src);
 -}
 -
 -#ifdef TARGET_SPARC64
 -float64 helper_fabsd(float64 src)
 -{
 -    return float64_abs(src);
 -}
 -
 -void helper_fabsq(CPUSPARCState *env)
 -{
 -    QT0 = float128_abs(QT1);
 -}
 -#endif
 -
  float32 helper_fsqrts(CPUSPARCState *env, float32 src)
  {
      return float32_sqrt(src, &env->fp_status);
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@
  #else
  # define gen_helper_clear_softint(E, S)         qemu_build_not_reached()
  # define gen_helper_done(E)                     qemu_build_not_reached()
 -# define gen_helper_fabsd(D, S)                 qemu_build_not_reached()
  # define gen_helper_flushw(E)                   qemu_build_not_reached()
 -# define gen_helper_fnegd(D, S)                 qemu_build_not_reached()
  # define gen_helper_rdccr(D, E)                 qemu_build_not_reached()
  # define gen_helper_rdcwp(D, E)                 qemu_build_not_reached()
  # define gen_helper_restored(E)                 qemu_build_not_reached()
@@ -XXX,XX +XXX,XX @@
  # define gen_helper_write_softint(E, S)         qemu_build_not_reached()
  # define gen_helper_wrpil(E, S)                 qemu_build_not_reached()
  # define gen_helper_wrpstate(E, S)              qemu_build_not_reached()
 -# define gen_helper_fabsq                ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fcmpeq16             ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fcmpeq32             ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fcmpgt16             ({ qemu_build_not_reached(); NULL; })
@@ -XXX,XX +XXX,XX @@
  # define gen_helper_fmul8x16             ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fmuld8sux16          ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fmuld8ulx16          ({ qemu_build_not_reached(); NULL; })
 -# define gen_helper_fnegq                ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fpmerge              ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fqtox                ({ qemu_build_not_reached(); NULL; })
  # define gen_helper_fstox                ({ qemu_build_not_reached(); NULL; })
@@ -XXX,XX +XXX,XX @@ static void gen_op_fmovs(TCGv_i32 dst, TCGv_i32 src)
  static void gen_op_fnegs(TCGv_i32 dst, TCGv_i32 src)
  {
      gen_op_clear_ieee_excp_and_FTT();
 -    gen_helper_fnegs(dst, src);
 +    tcg_gen_xori_i32(dst, src, 1u << 31);
  }
  static void gen_op_fabss(TCGv_i32 dst, TCGv_i32 src)
  {
      gen_op_clear_ieee_excp_and_FTT();
 -    gen_helper_fabss(dst, src);
 +    tcg_gen_andi_i32(dst, src, ~(1u << 31));
  }
  static void gen_op_fmovd(TCGv_i64 dst, TCGv_i64 src)
@@ -XXX,XX +XXX,XX @@ static void gen_op_fmovd(TCGv_i64 dst, TCGv_i64 src)
  static void gen_op_fnegd(TCGv_i64 dst, TCGv_i64 src)
  {
      gen_op_clear_ieee_excp_and_FTT();
 -    gen_helper_fnegd(dst, src);
 +    tcg_gen_xori_i64(dst, src, 1ull << 63);
  }
  static void gen_op_fabsd(TCGv_i64 dst, TCGv_i64 src)
  {
      gen_op_clear_ieee_excp_and_FTT();
 -    gen_helper_fabsd(dst, src);
 +    tcg_gen_andi_i64(dst, src, ~(1ull << 63));
 +}
 +
-+static void gen_op_fnegq(TCGv_i128 dst, TCGv_i128 src)
++static inline uint64_t ti_const_val(TempOptInfo *ti)
 +{
-+    TCGv_i64 l = tcg_temp_new_i64();
++    return ti->val;
 +    TCGv_i64 h = tcg_temp_new_i64();
 +
 +    tcg_gen_extr_i128_i64(l, h, src);
 +    tcg_gen_xori_i64(h, h, 1ull << 63);
 +    tcg_gen_concat_i64_i128(dst, l, h);
 +}
 +
-+static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
++static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
 +{
-+    TCGv_i64 l = tcg_temp_new_i64();
++    return ti_is_const(ti) && ti_const_val(ti) == val;
-+    TCGv_i64 h = tcg_temp_new_i64();
++}
 +
-+    tcg_gen_extr_i128_i64(l, h, src);
+ static inline bool ts_is_const(TCGTemp *ts)
-+    tcg_gen_andi_i64(h, h, ~(1ull << 63));
+ {
-+    tcg_gen_concat_i64_i128(dst, l, h);
+-    return ts_info(ts)->is_const;
 +    return ti_is_const(ts_info(ts));
  }
- #ifdef TARGET_SPARC64
+ static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
@@ -XXX,XX +XXX,XX @@ TRANS(FiTOd, ALL, do_env_df, a, gen_helper_fitod)
  TRANS(FsTOd, ALL, do_env_df, a, gen_helper_fstod)
  TRANS(FsTOx, 64, do_env_df, a, gen_helper_fstox)
 -static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
 +static bool do_qq(DisasContext *dc, arg_r_r *a,
 +                  void (*func)(TCGv_i128, TCGv_i128))
  {
-     TCGv_i128 t;
+-    TempOptInfo *ti = ts_info(ts);
+-    return ti->is_const && ti->val == val;
--    if (!avail_64(dc)) {
++    return ti_is_const_val(ts_info(ts), val);
 -        return false;
 -    }
      if (gen_trap_ifnofpu(dc)) {
          return true;
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
      gen_op_clear_ieee_excp_and_FTT();
      t = gen_load_fpr_Q(dc, a->rs);
 +    func(t, t);
      gen_store_fpr_Q(dc, a->rd, t);
      return advance_pc(dc);
  }
--static bool do_qq(DisasContext *dc, arg_r_r *a,
+ static inline bool arg_is_const(TCGArg arg)
 -                  void (*func)(TCGv_env))
 -{
 -    if (gen_trap_ifnofpu(dc)) {
 -        return true;
 -    }
 -    if (gen_trap_float128(dc)) {
 -        return true;
 -    }
 -
 -    gen_op_clear_ieee_excp_and_FTT();
 -    gen_op_load_fpr_QT1(QFPREG(a->rs));
 -    func(tcg_env);
 -    gen_op_store_QT0_fpr(QFPREG(a->rd));
 -    gen_update_fprs_dirty(dc, QFPREG(a->rd));
 -    return advance_pc(dc);
 -}
 -
 -TRANS(FNEGq, 64, do_qq, a, gen_helper_fnegq)
 -TRANS(FABSq, 64, do_qq, a, gen_helper_fabsq)
 +TRANS(FMOVq, 64, do_qq, a, tcg_gen_mov_i128)
 +TRANS(FNEGq, 64, do_qq, a, gen_op_fnegq)
 +TRANS(FABSq, 64, do_qq, a, gen_op_fabsq)
  static bool do_env_qq(DisasContext *dc, arg_r_r *a,
                         void (*func)(TCGv_env))
 --
-.34.1
+.43.0

-New patch
+[PULL 11/72] tcg/optimize: Use fold_masks_zs in fold_and
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Sink mask computation below fold_affected_mask early exit.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 30 ++++++++++++++++--------------
+file changed, 16 insertions(+), 14 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
+ static bool fold_and(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z1, z2;
++    uint64_t z1, z2, z_mask, s_mask;
++    TempOptInfo *t1, *t2;
+     if (fold_const2_commutative(ctx, op) ||
+         fold_xi_to_i(ctx, op, 0) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    z1 = arg_info(op->args[1])->z_mask;
+-    z2 = arg_info(op->args[2])->z_mask;
+-    ctx->z_mask = z1 & z2;
+-
+-    /*
+-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+-     * Bitwise operations preserve the relative quantity of the repetitions.
+-     */
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z1 = t1->z_mask;
++    z2 = t2->z_mask;
+     /*
+      * Known-zeros does not imply known-ones.  Therefore unless
+      * arg2 is constant, we can't infer affected bits from it.
+      */
+-    if (arg_is_const(op->args[2]) &&
+-        fold_affected_mask(ctx, op, z1 & ~z2)) {
++    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
+         return true;
+     }
+-    return fold_masks(ctx, op);
++    z_mask = z1 & z2;
++
++    /*
++     * Sign repetitions are perforce all identical, whether they are 1 or 0.
++     * Bitwise operations preserve the relative quantity of the repetitions.
++     */
++    s_mask = t1->s_mask & t2->s_mask;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 12/72] tcg/optimize: Use fold_masks_zs in fold_andc
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Avoid double inversion of the value of second const operand.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 +++++++++++----------
+file changed, 11 insertions(+), 10 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
+ static bool fold_andc(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z1;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1, *t2;
+     if (fold_const2(ctx, op) ||
+         fold_xx_to_i(ctx, op, 0) ||
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
+         return true;
+     }
+-    z1 = arg_info(op->args[1])->z_mask;
++    t1 = arg_info(op->args[1]);
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask;
+     /*
+      * Known-zeros does not imply known-ones.  Therefore unless
+      * arg2 is constant, we can't infer anything from it.
+      */
+-    if (arg_is_const(op->args[2])) {
+-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
+-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
++    if (ti_is_const(t2)) {
++        uint64_t v2 = ti_const_val(t2);
++        if (fold_affected_mask(ctx, op, z_mask & v2)) {
+             return true;
+         }
+-        z1 &= z2;
++        z_mask &= ~v2;
+     }
+-    ctx->z_mask = z1;
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
+-                & arg_info(op->args[2])->s_mask;
+-    return fold_masks(ctx, op);
++    s_mask = t1->s_mask & t2->s_mask;
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 13/72] tcg/optimize: Use fold_masks_zs in fold_bswap
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+Always set s_mask along the BSWAP_OS path, since the result is
+being explicitly sign-extended.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 21 ++++++++++-----------
+file changed, 10 insertions(+), 11 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
+ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+ {
+     uint64_t z_mask, s_mask, sign;
++    TempOptInfo *t1 = arg_info(op->args[1]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
+-
+-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
++    if (ti_is_const(t1)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                do_constant_folding(op->opc, ctx->type,
++                                                    ti_const_val(t1),
++                                                    op->args[2]));
+     }
+-    z_mask = arg_info(op->args[1])->z_mask;
+-
++    z_mask = t1->z_mask;
+     switch (op->opc) {
+     case INDEX_op_bswap16_i32:
+     case INDEX_op_bswap16_i64:
+@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
+         /* If the sign bit may be 1, force all the bits above to 1. */
+         if (z_mask & sign) {
+             z_mask |= sign;
+-            s_mask = sign << 1;
+         }
++        /* The value and therefore s_mask is explicitly sign-extended. */
++        s_mask = sign;
+         break;
+     default:
+         /* The high bits are undefined: force all bits above the sign to 1. */
+         z_mask |= sign << 1;
+         break;
+     }
+-    ctx->z_mask = z_mask;
+-    ctx->s_mask = s_mask;
+-    return fold_masks(ctx, op);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_call(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 14/72] tcg/optimize: Use fold_masks_zs in fold_count_zeros
+Avoid the use of the OptContext slots. Find TempOptInfo once.
+Compute s_mask from the union of the maximum count and the
+op2 fallback for op1 being zero.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 15 ++++++++++-----
+file changed, 10 insertions(+), 5 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
+ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+ {
+-    uint64_t z_mask;
++    uint64_t z_mask, s_mask;
++    TempOptInfo *t1 = arg_info(op->args[1]);
++    TempOptInfo *t2 = arg_info(op->args[2]);
+-    if (arg_is_const(op->args[1])) {
+-        uint64_t t = arg_info(op->args[1])->val;
++    if (ti_is_const(t1)) {
++        uint64_t t = ti_const_val(t1);
+         if (t != 0) {
+             t = do_constant_folding(op->opc, ctx->type, t, 0);
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
+     default:
+         g_assert_not_reached();
+     }
+-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
+-    return false;
++    s_mask = ~z_mask;
++    z_mask |= t2->z_mask;
++    s_mask &= t2->s_mask;
++
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 39/57] target/sparc: Introduce gen_{load,store}_fpr_Q
+[PULL 15/72] tcg/optimize: Use fold_masks_z in fold_ctpop
-Use them for trans_FMOVq.
+Add fold_masks_z as a trivial wrapper around fold_masks_zs.
 Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-5-richard.henderson@linaro.org>
 ---
- target/sparc/translate.c | 25 +++++++++++++++++++------
+ tcg/optimize.c | 13 ++++++++++---
-file changed, 19 insertions(+), 6 deletions(-)
+file changed, 10 insertions(+), 3 deletions(-)
-diff --git a/target/sparc/translate.c b/target/sparc/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/translate.c
+--- a/tcg/optimize.c
-+++ b/target/sparc/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_dest_fpr_D(DisasContext *dc, unsigned int dst)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-     return cpu_fpr[DFPREG(dst) / 2];
+     return true;
  }
-+static TCGv_i128 gen_load_fpr_Q(DisasContext *dc, unsigned int src)
++static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
 +{
-+    TCGv_i128 ret = tcg_temp_new_i128();
++    return fold_masks_zs(ctx, op, z_mask, 0);
 +
 +    src = QFPREG(src);
 +    tcg_gen_concat_i64_i128(ret, cpu_fpr[src / 2 + 1], cpu_fpr[src / 2]);
 +    return ret;
 +}
 +
-+static void gen_store_fpr_Q(DisasContext *dc, unsigned int dst, TCGv_i128 v)
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
-+{
+ {
-+    dst = DFPREG(dst);
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-+    tcg_gen_extr_i128_i64(cpu_fpr[dst / 2 + 1], cpu_fpr[dst / 2], v);
+@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
-+    gen_update_fprs_dirty(dc, dst);
-+}
+ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask;
 +
- static void gen_op_load_fpr_QT0(unsigned int src)
+     if (fold_const1(ctx, op)) {
- {
+         return true;
      tcg_gen_st_i64(cpu_fpr[src / 2], tcg_env, offsetof(CPUSPARCState, qt0) +
@@ -XXX,XX +XXX,XX @@ TRANS(FsTOx, 64, do_env_df, a, gen_helper_fstox)
  static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
  {
 -    int rd, rs;
 +    TCGv_i128 t;
      if (!avail_64(dc)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
      }
-     gen_op_clear_ieee_excp_and_FTT();
+     switch (ctx->type) {
--    rd = QFPREG(a->rd);
+     case TCG_TYPE_I32:
--    rs = QFPREG(a->rs);
+-        ctx->z_mask = 32 | 31;
--    tcg_gen_mov_i64(cpu_fpr[rd / 2], cpu_fpr[rs / 2]);
++        z_mask = 32 | 31;
--    tcg_gen_mov_i64(cpu_fpr[rd / 2 + 1], cpu_fpr[rs / 2 + 1]);
+         break;
--    gen_update_fprs_dirty(dc, rd);
+     case TCG_TYPE_I64:
-+    t = gen_load_fpr_Q(dc, a->rs);
+-        ctx->z_mask = 64 | 63;
-+    gen_store_fpr_Q(dc, a->rd, t);
++        z_mask = 64 | 63;
-     return advance_pc(dc);
+         break;
      default:
          g_assert_not_reached();
      }
 -    return false;
 +    return fold_masks_z(ctx, op, z_mask);
  }
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-New patch
+[PULL 16/72] tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
+When we fold to and, use fold_and.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 35 +++++++++++++++++------------------
+file changed, 17 insertions(+), 18 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
+ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+ {
++    TempOptInfo *t1 = arg_info(op->args[1]);
++    TempOptInfo *t2 = arg_info(op->args[2]);
++    int ofs = op->args[3];
++    int len = op->args[4];
+     TCGOpcode and_opc;
++    uint64_t z_mask;
+-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
+-        uint64_t t1 = arg_info(op->args[1])->val;
+-        uint64_t t2 = arg_info(op->args[2])->val;
+-
+-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
++    if (ti_is_const(t1) && ti_is_const(t2)) {
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
++                                deposit64(ti_const_val(t1), ofs, len,
++                                          ti_const_val(t2)));
+     }
+     switch (ctx->type) {
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+     }
+     /* Inserting a value into zero at offset 0. */
+-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
+-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
++    if (ti_is_const_val(t1, 0) && ofs == 0) {
++        uint64_t mask = MAKE_64BIT_MASK(0, len);
+         op->opc = and_opc;
+         op->args[1] = op->args[2];
+         op->args[2] = arg_new_constant(ctx, mask);
+-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
+-        return false;
++        return fold_and(ctx, op);
+     }
+     /* Inserting zero into a value. */
+-    if (arg_is_const_val(op->args[2], 0)) {
+-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
++    if (ti_is_const_val(t2, 0)) {
++        uint64_t mask = deposit64(-1, ofs, len, 0);
+         op->opc = and_opc;
+         op->args[2] = arg_new_constant(ctx, mask);
+-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
+-        return false;
++        return fold_and(ctx, op);
+     }
+-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
+-                            op->args[3], op->args[4],
+-                            arg_info(op->args[2])->z_mask);
+-    return false;
++    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
++    return fold_masks_z(ctx, op, z_mask);
+ }
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 17/72] tcg/optimize: Compute sign mask in fold_deposit
+The input which overlaps the sign bit of the output can
+have its input s_mask propagated to the output s_mask.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 14 ++++++++++++--
+file changed, 12 insertions(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+     TempOptInfo *t2 = arg_info(op->args[2]);
+     int ofs = op->args[3];
+     int len = op->args[4];
++    int width;
+     TCGOpcode and_opc;
+-    uint64_t z_mask;
++    uint64_t z_mask, s_mask;
+     if (ti_is_const(t1) && ti_is_const(t2)) {
+         return tcg_opt_gen_movi(ctx, op, op->args[0],
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+     switch (ctx->type) {
+     case TCG_TYPE_I32:
+         and_opc = INDEX_op_and_i32;
++        width = 32;
+         break;
+     case TCG_TYPE_I64:
+         and_opc = INDEX_op_and_i64;
++        width = 64;
+         break;
+     default:
+         g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
+         return fold_and(ctx, op);
+     }
++    /* The s_mask from the top portion of the deposit is still valid. */
++    if (ofs + len == width) {
++        s_mask = t2->s_mask << ofs;
++    } else {
++        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
++    }
++
+     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
+-    return fold_masks_z(ctx, op, z_mask);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
+ }
+ static bool fold_divide(OptContext *ctx, TCGOp *op)
+--
+.43.0

-New patch
+[PULL 18/72] tcg/optimize: Use finish_folding in fold_divide
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_divide(OptContext *ctx, TCGOp *op)
+         fold_xi_to_x(ctx, op, 1)) {
+         return true;
+     }
+-    return false;
++    return finish_folding(ctx, op);
+ }
+ static bool fold_dup(OptContext *ctx, TCGOp *op)
+--
+.43.0

-[PULL 14/57] target/microblaze: Populate CPUClass.mmu_index
+[PULL 19/72] tcg/optimize: Use finish_folding in fold_dup, fold_dup2
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/microblaze/cpu.h | 13 ++-----------
+ tcg/optimize.c | 4 ++--
- target/microblaze/cpu.c | 18 +++++++++++++++++-
+file changed, 2 insertions(+), 2 deletions(-)
 files changed, 19 insertions(+), 12 deletions(-)
-diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/microblaze/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/microblaze/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void mb_cpu_transaction_failed(CPUState *cs, hwaddr physaddr, vaddr addr,
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup(OptContext *ctx, TCGOp *op)
-                                MemTxResult response, uintptr_t retaddr);
+         t = dup_const(TCGOP_VECE(op), t);
- #endif
+         return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+     }
-+int mb_cpu_mmu_index(CPUState *cs, bool ifetch);
+-    return false;
- static inline int cpu_mmu_index(CPUMBState *env, bool ifetch)
++    return finish_folding(ctx, op);
  {
 -    MicroBlazeCPU *cpu = env_archcpu(env);
 -
 -    /* Are we in nommu mode?.  */
 -    if (!(env->msr & MSR_VM) || !cpu->cfg.use_mmu) {
 -        return MMU_NOMMU_IDX;
 -    }
 -
 -    if (env->msr & MSR_UM) {
 -        return MMU_USER_IDX;
 -    }
 -    return MMU_KERNEL_IDX;
 +    return mb_cpu_mmu_index(env_cpu(env), ifetch);
  }
- #ifndef CONFIG_USER_ONLY
+ static bool fold_dup2(OptContext *ctx, TCGOp *op)
-diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
+         op->opc = INDEX_op_dup_vec;
---- a/target/microblaze/cpu.c
+         TCGOP_VECE(op) = MO_32;
-+++ b/target/microblaze/cpu.c
+     }
-@@ -XXX,XX +XXX,XX @@ static bool mb_cpu_has_work(CPUState *cs)
+-    return false;
-     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
++    return finish_folding(ctx, op);
  }
-+int mb_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 +{
 +    CPUMBState *env = cpu_env(cs);
 +    MicroBlazeCPU *cpu = env_archcpu(env);
 +
 +    /* Are we in nommu mode?.  */
 +    if (!(env->msr & MSR_VM) || !cpu->cfg.use_mmu) {
 +        return MMU_NOMMU_IDX;
 +    }
 +
 +    if (env->msr & MSR_UM) {
 +        return MMU_USER_IDX;
 +    }
 +    return MMU_KERNEL_IDX;
 +}
 +
  #ifndef CONFIG_USER_ONLY
  static void mb_cpu_ns_axi_dp(void *opaque, int irq, int level)
  {
@@ -XXX,XX +XXX,XX @@ static void mb_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = mb_cpu_class_by_name;
      cc->has_work = mb_cpu_has_work;
 -
 +    cc->mmu_index = mb_cpu_mmu_index;
      cc->dump_state = mb_cpu_dump_state;
      cc->set_pc = mb_cpu_set_pc;
      cc->get_pc = mb_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 20/57] target/ppc: Split out ppc_env_mmu_index
+[PULL 20/72] tcg/optimize: Use fold_masks_s in fold_eqv
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Add fold_masks_s as a trivial wrapper around fold_masks_zs.
 Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/ppc/cpu.h        |  7 ++++++-
+ tcg/optimize.c | 13 ++++++++++---
- target/ppc/cpu_init.c   |  2 +-
+file changed, 10 insertions(+), 3 deletions(-)
  target/ppc/mem_helper.c | 10 +++++-----
  target/ppc/mmu_common.c |  4 ++--
 files changed, 14 insertions(+), 9 deletions(-)
-diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/ppc/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/ppc/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ int ppc_dcr_write(ppc_dcr_t *dcr_env, int dcrn, uint32_t val);
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
+     return fold_masks_zs(ctx, op, z_mask, 0);
  /* MMU modes definitions */
  #define MMU_USER_IDX 0
 -static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
 +static inline int ppc_env_mmu_index(CPUPPCState *env, bool ifetch)
  {
  #ifdef CONFIG_USER_ONLY
      return MMU_USER_IDX;
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
  #endif
  }
-+static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
++static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
 +{
-+    return ppc_env_mmu_index(env, ifetch);
++    return fold_masks_zs(ctx, op, -1, s_mask);
 +}
 +
- /* Compatibility modes */
+ static bool fold_masks(OptContext *ctx, TCGOp *op)
  #if defined(TARGET_PPC64)
  bool ppc_check_compat(PowerPCCPU *cpu, uint32_t compat_pvr,
 diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/cpu_init.c
 +++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ void ppc_cpu_dump_state(CPUState *cs, FILE *f, int flags)
      qemu_fprintf(f, "MSR " TARGET_FMT_lx " HID0 " TARGET_FMT_lx "  HF "
                   "%08x iidx %d didx %d\n",
                   env->msr, env->spr[SPR_HID0], env->hflags,
 -                 cpu_mmu_index(env, true), cpu_mmu_index(env, false));
 +                 ppc_env_mmu_index(env, true), ppc_env_mmu_index(env, false));
  #if !defined(CONFIG_USER_ONLY)
      if (env->tb_env) {
          qemu_fprintf(f, "TB %08" PRIu32 " %08" PRIu64
 diff --git a/target/ppc/mem_helper.c b/target/ppc/mem_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/mem_helper.c
 +++ b/target/ppc/mem_helper.c
@@ -XXX,XX +XXX,XX @@ static void *probe_contiguous(CPUPPCState *env, target_ulong addr, uint32_t nb,
  void helper_lmw(CPUPPCState *env, target_ulong addr, uint32_t reg)
  {
-     uintptr_t raddr = GETPC();
+     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
--    int mmu_idx = cpu_mmu_index(env, false);
+@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
-+    int mmu_idx = ppc_env_mmu_index(env, false);
-     void *host = probe_contiguous(env, addr, (32 - reg) * 4,
+ static bool fold_eqv(OptContext *ctx, TCGOp *op)
                                    MMU_DATA_LOAD, mmu_idx, raddr);
@@ -XXX,XX +XXX,XX @@ void helper_lmw(CPUPPCState *env, target_ulong addr, uint32_t reg)
  void helper_stmw(CPUPPCState *env, target_ulong addr, uint32_t reg)
  {
-     uintptr_t raddr = GETPC();
++    uint64_t s_mask;
--    int mmu_idx = cpu_mmu_index(env, false);
++
-+    int mmu_idx = ppc_env_mmu_index(env, false);
+     if (fold_const2_commutative(ctx, op) ||
-     void *host = probe_contiguous(env, addr, (32 - reg) * 4,
+         fold_xi_to_x(ctx, op, -1) ||
-                                   MMU_DATA_STORE, mmu_idx, raddr);
+         fold_xi_to_not(ctx, op, 0)) {
+         return true;
@@ -XXX,XX +XXX,XX @@ static void do_lsw(CPUPPCState *env, target_ulong addr, uint32_t nb,
          return;
      }
--    mmu_idx = cpu_mmu_index(env, false);
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
-+    mmu_idx = ppc_env_mmu_index(env, false);
+-                & arg_info(op->args[2])->s_mask;
-     host = probe_contiguous(env, addr, nb, MMU_DATA_LOAD, mmu_idx, raddr);
+-    return false;
++    s_mask = arg_info(op->args[1])->s_mask
-     if (likely(host)) {
++           & arg_info(op->args[2])->s_mask;
-@@ -XXX,XX +XXX,XX @@ void helper_stsw(CPUPPCState *env, target_ulong addr, uint32_t nb,
++    return fold_masks_s(ctx, op, s_mask);
-         return;
+ }
-     }
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
 -    mmu_idx = cpu_mmu_index(env, false);
 +    mmu_idx = ppc_env_mmu_index(env, false);
      host = probe_contiguous(env, addr, nb, MMU_DATA_STORE, mmu_idx, raddr);
      if (likely(host)) {
@@ -XXX,XX +XXX,XX @@ static void dcbz_common(CPUPPCState *env, target_ulong addr,
      target_ulong mask, dcbz_size = env->dcache_line_size;
      uint32_t i;
      void *haddr;
 -    int mmu_idx = epid ? PPC_TLB_EPID_STORE : cpu_mmu_index(env, false);
 +    int mmu_idx = epid ? PPC_TLB_EPID_STORE : ppc_env_mmu_index(env, false);
  #if defined(TARGET_PPC64)
      /* Check for dcbz vs dcbzl on 970 */
 diff --git a/target/ppc/mmu_common.c b/target/ppc/mmu_common.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/mmu_common.c
 +++ b/target/ppc/mmu_common.c
@@ -XXX,XX +XXX,XX @@ hwaddr ppc_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
       * mapped by code TLBs, so we also try a MMU_INST_FETCH.
       */
      if (ppc_xlate(cpu, addr, MMU_DATA_LOAD, &raddr, &s, &p,
 -                  cpu_mmu_index(&cpu->env, false), false) ||
 +                  ppc_env_mmu_index(&cpu->env, false), false) ||
          ppc_xlate(cpu, addr, MMU_INST_FETCH, &raddr, &s, &p,
 -                  cpu_mmu_index(&cpu->env, true), false)) {
 +                  ppc_env_mmu_index(&cpu->env, true), false)) {
          return raddr & TARGET_PAGE_MASK;
      }
      return -1;
 --
-.34.1
+.43.0

-[PULL 54/57] target/sparc: Split cexc and ftt from env->fsr
+[PULL 21/72] tcg/optimize: Use fold_masks_z in fold_extract
-These two fields are adjusted by all FPop insns.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 Having them separate makes it easier to set without masking.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-20-richard.henderson@linaro.org>
 ---
- target/sparc/cpu.h        |  7 +++++-
+ tcg/optimize.c | 15 ++++++---------
- target/sparc/helper.h     |  2 +-
+file changed, 6 insertions(+), 9 deletions(-)
  target/sparc/fop_helper.c | 46 ++++++++++++++++++---------------------
  target/sparc/translate.c  | 31 ++++++++++++++++----------
 files changed, 48 insertions(+), 38 deletions(-)
-diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ enum {
+@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
- #define FSR_DZM   (1ULL << 24)
+ static bool fold_extract(OptContext *ctx, TCGOp *op)
  #define FSR_NXM   (1ULL << 23)
  #define FSR_TEM_MASK (FSR_NVM | FSR_OFM | FSR_UFM | FSR_DZM | FSR_NXM)
 +#define FSR_TEM_SHIFT  23
  #define FSR_NVA   (1ULL << 9)
  #define FSR_OFA   (1ULL << 8)
@@ -XXX,XX +XXX,XX @@ enum {
  #define FSR_DZA   (1ULL << 6)
  #define FSR_NXA   (1ULL << 5)
  #define FSR_AEXC_MASK (FSR_NVA | FSR_OFA | FSR_UFA | FSR_DZA | FSR_NXA)
 +#define FSR_AEXC_SHIFT 5
  #define FSR_NVC   (1ULL << 4)
  #define FSR_OFC   (1ULL << 3)
@@ -XXX,XX +XXX,XX @@ struct CPUArchState {
      target_ulong cond; /* conditional branch result (XXX: save it in a
                            temporary register when possible) */
 -    target_ulong fsr;      /* FPU state register */
 +    /* FPU State Register, in parts */
 +    target_ulong fsr;       /* rm, tem, aexc, fcc* */
 +    uint32_t fsr_cexc_ftt;  /* cexc, ftt */
 +
      CPU_DoubleU fpr[TARGET_DPREGS];  /* floating point registers */
      uint32_t cwp;      /* index of current register window (extracted
                            from PSR) */
 diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/helper.h
 +++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
  DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
  #endif
  DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
 -DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
 +DEF_HELPER_FLAGS_2(set_fsr_noftt, 0, void, env, tl)
  DEF_HELPER_FLAGS_2(fsqrts, 0, f32, env, f32)
  DEF_HELPER_FLAGS_2(fsqrtd, 0, f64, env, f64)
  DEF_HELPER_FLAGS_2(fsqrtq, 0, i128, env, i128)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ static inline Int128 f128_ret(float128 f)
  static void check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
  {
-     target_ulong status = get_float_exception_flags(&env->fp_status);
+     uint64_t z_mask_old, z_mask;
--    target_ulong fsr = env->fsr;
++    TempOptInfo *t1 = arg_info(op->args[1]);
      int pos = op->args[2];
      int len = op->args[3];
 -    if (arg_is_const(op->args[1])) {
 -        uint64_t t;
 -
--    fsr &= FSR_FTT_CEXC_NMASK;
+-        t = arg_info(op->args[1])->val;
-+    uint32_t cexc = 0;
+-        t = extract64(t, pos, len);
+-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
-     if (unlikely(status)) {
++    if (ti_is_const(t1)) {
-         /* Keep exception flags clear for next time.  */
++        return tcg_opt_gen_movi(ctx, op, op->args[0],
-@@ -XXX,XX +XXX,XX @@ static void check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
++                                extract64(ti_const_val(t1), pos, len));
          /* Copy IEEE 754 flags into FSR */
          if (status & float_flag_invalid) {
 -            fsr |= FSR_NVC;
 +            cexc |= FSR_NVC;
          }
          if (status & float_flag_overflow) {
 -            fsr |= FSR_OFC;
 +            cexc |= FSR_OFC;
          }
          if (status & float_flag_underflow) {
 -            fsr |= FSR_UFC;
 +            cexc |= FSR_UFC;
          }
          if (status & float_flag_divbyzero) {
 -            fsr |= FSR_DZC;
 +            cexc |= FSR_DZC;
          }
          if (status & float_flag_inexact) {
 -            fsr |= FSR_NXC;
 +            cexc |= FSR_NXC;
          }
 -        if ((fsr & FSR_CEXC_MASK) & ((fsr & FSR_TEM_MASK) >> 23)) {
 -            CPUState *cs = env_cpu(env);
 -
 -            /* Unmasked exception, generate a trap.  Note that while
 -               the helper is marked as NO_WG, we can get away with
 -               writing to cpu state along the exception path, since
 -               TCG generated code will never see the write.  */
 -            env->fsr = fsr | FSR_FTT_IEEE_EXCP;
 -            cs->exception_index = TT_FP_EXCP;
 -            cpu_loop_exit_restore(cs, ra);
 -        } else {
 -            /* Accumulate exceptions */
 -            fsr |= (fsr & FSR_CEXC_MASK) << 5;
 +        if (cexc & (env->fsr >> FSR_TEM_SHIFT)) {
 +            /* Unmasked exception, generate an IEEE trap. */
 +            env->fsr_cexc_ftt = cexc | FSR_FTT_IEEE_EXCP;
 +            cpu_raise_exception_ra(env, TT_FP_EXCP, ra);
          }
 +
 +        /* Accumulate exceptions */
 +        env->fsr |= cexc << FSR_AEXC_SHIFT;
      }
--    env->fsr = fsr;
+-    z_mask_old = arg_info(op->args[1])->z_mask;
-+    /* No trap, so FTT is cleared. */
++    z_mask_old = t1->z_mask;
-+    env->fsr_cexc_ftt = cexc;
+     z_mask = extract64(z_mask_old, pos, len);
- }
+     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
  float32 helper_fadds(CPUSPARCState *env, float32 src1, float32 src2)
@@ -XXX,XX +XXX,XX @@ GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
  target_ulong cpu_get_fsr(CPUSPARCState *env)
  {
 -    target_ulong fsr = env->fsr;
 +    target_ulong fsr = env->fsr | env->fsr_cexc_ftt;
      /* VER is kept completely separate until re-assembly. */
      fsr |= env->def.fpu_version;
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
  {
      int rnd_mode;
 -    env->fsr = fsr & ~FSR_VER_MASK;
 +    env->fsr = fsr & ~(FSR_VER_MASK | FSR_CEXC_MASK | FSR_FTT_MASK);
      switch (fsr & FSR_RD_MASK) {
      case FSR_RD_NEAREST:
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
  void cpu_put_fsr(CPUSPARCState *env, target_ulong fsr)
  {
 +    env->fsr_cexc_ftt = fsr & (FSR_CEXC_MASK | FSR_FTT_MASK);
      set_fsr_nonsplit(env, fsr);
  }
 -void helper_set_fsr(CPUSPARCState *env, target_ulong fsr)
 +void helper_set_fsr_noftt(CPUSPARCState *env, target_ulong fsr)
  {
 +    env->fsr_cexc_ftt &= FSR_FTT_MASK;
 +    env->fsr_cexc_ftt |= fsr & FSR_CEXC_MASK;
      set_fsr_nonsplit(env, fsr);
  }
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool gen_compare_reg(DisasCompare *cmp, int cond, TCGv r_src)
  static void gen_op_clear_ieee_excp_and_FTT(void)
  {
 -    tcg_gen_andi_tl(cpu_fsr, cpu_fsr, FSR_FTT_CEXC_NMASK);
 +    tcg_gen_st_i32(tcg_constant_i32(0), tcg_env,
 +                   offsetof(CPUSPARCState, fsr_cexc_ftt));
  }
  static void gen_op_fmovs(TCGv_i32 dst, TCGv_i32 src)
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  }
  #endif
 -static void gen_op_fpexception_im(DisasContext *dc, int fsr_flags)
 +static void gen_op_fpexception_im(DisasContext *dc, int ftt)
  {
 -    tcg_gen_andi_tl(cpu_fsr, cpu_fsr, FSR_FTT_NMASK);
 -    tcg_gen_ori_tl(cpu_fsr, cpu_fsr, fsr_flags);
 +    /*
 +     * CEXC is only set when succesfully completing an FPop,
 +     * or when raising FSR_FTT_IEEE_EXCP, i.e. check_ieee_exception.
 +     * Thus we can simply store FTT into this field.
 +     */
 +    tcg_gen_st_i32(tcg_constant_i32(ftt), tcg_env,
 +                   offsetof(CPUSPARCState, fsr_cexc_ftt));
      gen_exception(dc, TT_FP_EXCP);
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_STDFQ(DisasContext *dc, arg_STDFQ *a)
  static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
                       target_ulong new_mask, target_ulong old_mask)
  {
 -    TCGv tmp, addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
 +    TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
 +    TCGv tnew, told;
 +
      if (addr == NULL) {
          return false;
      }
      if (gen_trap_ifnofpu(dc)) {
          return true;
      }
--    tmp = tcg_temp_new();
+-    ctx->z_mask = z_mask;
--    tcg_gen_qemu_ld_tl(tmp, addr, dc->mem_idx, mop | MO_ALIGN);
--    tcg_gen_andi_tl(tmp, tmp, new_mask);
+-    return fold_masks(ctx, op);
--    tcg_gen_andi_tl(cpu_fsr, cpu_fsr, old_mask);
++    return fold_masks_z(ctx, op, z_mask);
 -    tcg_gen_or_tl(cpu_fsr, cpu_fsr, tmp);
 -    gen_helper_set_fsr(tcg_env, cpu_fsr);
 +    tnew = tcg_temp_new();
 +    told = tcg_temp_new();
 +    tcg_gen_qemu_ld_tl(tnew, addr, dc->mem_idx, mop | MO_ALIGN);
 +    tcg_gen_andi_tl(tnew, tnew, new_mask);
 +    tcg_gen_andi_tl(told, cpu_fsr, old_mask);
 +    tcg_gen_or_tl(tnew, tnew, told);
 +    gen_helper_set_fsr_noftt(tcg_env, tnew);
      return advance_pc(dc);
  }
+ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 51/57] target/sparc: Split ver from env->fsr
+[PULL 22/72] tcg/optimize: Use finish_folding in fold_extract2
-This field is read-only.  It is easier to store it separately
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
-and merge it only upon read.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
  tcg/optimize.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-While we're at it, use FSR_VER_SHIFT to initialize fpu_version.
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
 Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
 Message-Id: <20231103173841.33651-17-richard.henderson@linaro.org>
 ---
  target/sparc/cpu.h        |  3 +++
  target/sparc/cpu.c        | 27 +++++++++++++--------------
  target/sparc/fop_helper.c |  9 +++++++--
 files changed, 23 insertions(+), 16 deletions(-)
 diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ enum {
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
- #define FSR_NXC   (1ULL << 0)
+         }
- #define FSR_CEXC_MASK (FSR_NVC | FSR_OFC | FSR_UFC | FSR_DZC | FSR_NXC)
+         return tcg_opt_gen_movi(ctx, op, op->args[0], v1 | v2);
+     }
-+#define FSR_VER_SHIFT  17
+-    return false;
-+#define FSR_VER_MASK   (7 << FSR_VER_SHIFT)
++    return finish_folding(ctx, op);
 +
  #define FSR_FTT2   (1ULL << 16)
  #define FSR_FTT1   (1ULL << 15)
  #define FSR_FTT0   (1ULL << 14)
 diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.c
 +++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "Fujitsu MB86904",
          .iu_version = 0x04 << 24, /* Impl 0, ver 4 */
 -        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
 +        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
          .mmu_version = 0x04 << 24, /* Impl 0, ver 4 */
          .mmu_bm = 0x00004000,
          .mmu_ctpr_mask = 0x00ffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "Fujitsu MB86907",
          .iu_version = 0x05 << 24, /* Impl 0, ver 5 */
 -        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
 +        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
          .mmu_version = 0x05 << 24, /* Impl 0, ver 5 */
          .mmu_bm = 0x00004000,
          .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI MicroSparc I",
          .iu_version = 0x41000000,
 -        .fpu_version = 4 << 17,
 +        .fpu_version = 4 << FSR_VER_SHIFT,
          .mmu_version = 0x41000000,
          .mmu_bm = 0x00004000,
          .mmu_ctpr_mask = 0x007ffff0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI MicroSparc II",
          .iu_version = 0x42000000,
 -        .fpu_version = 4 << 17,
 +        .fpu_version = 4 << FSR_VER_SHIFT,
          .mmu_version = 0x02000000,
          .mmu_bm = 0x00004000,
          .mmu_ctpr_mask = 0x00ffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI MicroSparc IIep",
          .iu_version = 0x42000000,
 -        .fpu_version = 4 << 17,
 +        .fpu_version = 4 << FSR_VER_SHIFT,
          .mmu_version = 0x04000000,
          .mmu_bm = 0x00004000,
          .mmu_ctpr_mask = 0x00ffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI SuperSparc 40", /* STP1020NPGA */
          .iu_version = 0x41000000, /* SuperSPARC 2.x */
 -        .fpu_version = 0 << 17,
 +        .fpu_version = 0 << FSR_VER_SHIFT,
          .mmu_version = 0x00000800, /* SuperSPARC 2.x, no MXCC */
          .mmu_bm = 0x00002000,
          .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI SuperSparc 50", /* STP1020PGA */
          .iu_version = 0x40000000, /* SuperSPARC 3.x */
 -        .fpu_version = 0 << 17,
 +        .fpu_version = 0 << FSR_VER_SHIFT,
          .mmu_version = 0x01000800, /* SuperSPARC 3.x, no MXCC */
          .mmu_bm = 0x00002000,
          .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI SuperSparc 51",
          .iu_version = 0x40000000, /* SuperSPARC 3.x */
 -        .fpu_version = 0 << 17,
 +        .fpu_version = 0 << FSR_VER_SHIFT,
          .mmu_version = 0x01000000, /* SuperSPARC 3.x, MXCC */
          .mmu_bm = 0x00002000,
          .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI SuperSparc 60", /* STP1020APGA */
          .iu_version = 0x40000000, /* SuperSPARC 3.x */
 -        .fpu_version = 0 << 17,
 +        .fpu_version = 0 << FSR_VER_SHIFT,
          .mmu_version = 0x01000800, /* SuperSPARC 3.x, no MXCC */
          .mmu_bm = 0x00002000,
          .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI SuperSparc 61",
          .iu_version = 0x44000000, /* SuperSPARC 3.x */
 -        .fpu_version = 0 << 17,
 +        .fpu_version = 0 << FSR_VER_SHIFT,
          .mmu_version = 0x01000000, /* SuperSPARC 3.x, MXCC */
          .mmu_bm = 0x00002000,
          .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "TI SuperSparc II",
          .iu_version = 0x40000000, /* SuperSPARC II 1.x */
 -        .fpu_version = 0 << 17,
 +        .fpu_version = 0 << FSR_VER_SHIFT,
          .mmu_version = 0x08000000, /* SuperSPARC II 1.x, MXCC */
          .mmu_bm = 0x00002000,
          .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "LEON2",
          .iu_version = 0xf2000000,
 -        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
 +        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
          .mmu_version = 0xf2000000,
          .mmu_bm = 0x00004000,
          .mmu_ctpr_mask = 0x007ffff0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
      {
          .name = "LEON3",
          .iu_version = 0xf3000000,
 -        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
 +        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
          .mmu_version = 0xf3000000,
          .mmu_bm = 0x00000000,
          .mmu_ctpr_mask = 0xfffffffc,
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_realizefn(DeviceState *dev, Error **errp)
  #endif
      env->version = env->def.iu_version;
 -    env->fsr = env->def.fpu_version;
      env->nwindows = env->def.nwindows;
  #if !defined(TARGET_SPARC64)
      env->mmuregs[0] |= env->def.mmu_version;
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
  target_ulong cpu_get_fsr(CPUSPARCState *env)
  {
 -    return env->fsr;
 +    target_ulong fsr = env->fsr;
 +
 +    /* VER is kept completely separate until re-assembly. */
 +    fsr |= env->def.fpu_version;
 +
 +    return fsr;
  }
- target_ulong helper_get_fsr(CPUSPARCState *env)
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
  {
      int rnd_mode;
 -    env->fsr = fsr;
 +    env->fsr = fsr & ~FSR_VER_MASK;
      switch (fsr & FSR_RD_MASK) {
      case FSR_RD_NEAREST:
 --
-.34.1
+.43.0

-[PULL 52/57] target/sparc: Clear cexc and ftt in do_check_ieee_exceptions
+[PULL 23/72] tcg/optimize: Use fold_masks_zs in fold_exts
-Don't do the clearing explicitly before each FPop,
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
-rather do it as part of the rest of exception handling.
+Explicitly sign-extend z_mask instead of doing that manually.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-18-richard.henderson@linaro.org>
 ---
- target/sparc/fop_helper.c |  2 ++
+ tcg/optimize.c | 29 ++++++++++++-----------------
- target/sparc/translate.c  | 16 ----------------
+file changed, 12 insertions(+), 17 deletions(-)
 files changed, 2 insertions(+), 16 deletions(-)
-diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/fop_helper.c
+--- a/tcg/optimize.c
-+++ b/target/sparc/fop_helper.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static target_ulong do_check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
+@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
-     target_ulong status = get_float_exception_flags(&env->fp_status);
-     target_ulong fsr = env->fsr;
+ static bool fold_exts(OptContext *ctx, TCGOp *op)
+ {
-+    fsr &= FSR_FTT_CEXC_NMASK;
+-    uint64_t s_mask_old, s_mask, z_mask, sign;
-+
++    uint64_t s_mask_old, s_mask, z_mask;
-     if (unlikely(status)) {
+     bool type_change = false;
-         /* Keep exception flags clear for next time.  */
++    TempOptInfo *t1;
-         set_float_exception_flags(0, &env->fp_status);
-diff --git a/target/sparc/translate.c b/target/sparc/translate.c
+     if (fold_const1(ctx, op)) {
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_env_ff(DisasContext *dc, arg_r_r *a,
          return true;
      }
--    gen_op_clear_ieee_excp_and_FTT();
+-    z_mask = arg_info(op->args[1])->z_mask;
-     tmp = gen_load_fpr_F(dc, a->rs);
+-    s_mask = arg_info(op->args[1])->s_mask;
-     func(tmp, tcg_env, tmp);
++    t1 = arg_info(op->args[1]);
-     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
++    z_mask = t1->z_mask;
-@@ -XXX,XX +XXX,XX @@ static bool do_env_fd(DisasContext *dc, arg_r_r *a,
++    s_mask = t1->s_mask;
      s_mask_old = s_mask;
      switch (op->opc) {
      CASE_OP_32_64(ext8s):
 -        sign = INT8_MIN;
 -        z_mask = (uint8_t)z_mask;
 +        s_mask |= INT8_MIN;
 +        z_mask = (int8_t)z_mask;
          break;
      CASE_OP_32_64(ext16s):
 -        sign = INT16_MIN;
 -        z_mask = (uint16_t)z_mask;
 +        s_mask |= INT16_MIN;
 +        z_mask = (int16_t)z_mask;
          break;
      case INDEX_op_ext_i32_i64:
          type_change = true;
          QEMU_FALLTHROUGH;
      case INDEX_op_ext32s_i64:
 -        sign = INT32_MIN;
 -        z_mask = (uint32_t)z_mask;
 +        s_mask |= INT32_MIN;
 +        z_mask = (int32_t)z_mask;
          break;
      default:
          g_assert_not_reached();
      }
 -    if (z_mask & sign) {
 -        z_mask |= sign;
 -    }
 -    s_mask |= sign << 1;
 -
 -    ctx->z_mask = z_mask;
 -    ctx->s_mask = s_mask;
      if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
          return true;
      }
--    gen_op_clear_ieee_excp_and_FTT();
+-    return fold_masks(ctx, op);
-     dst = tcg_temp_new_i32();
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
-     src = gen_load_fpr_D(dc, a->rs);
+ }
-     func(dst, tcg_env, src);
-@@ -XXX,XX +XXX,XX @@ static bool do_env_dd(DisasContext *dc, arg_r_r *a,
+ static bool fold_extu(OptContext *ctx, TCGOp *op)
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      dst = gen_dest_fpr_D(dc, a->rd);
      src = gen_load_fpr_D(dc, a->rs);
      func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_df(DisasContext *dc, arg_r_r *a,
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      dst = gen_dest_fpr_D(dc, a->rd);
      src = gen_load_fpr_F(dc, a->rs);
      func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_qq(DisasContext *dc, arg_r_r *a,
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
 -
      t = gen_load_fpr_Q(dc, a->rs);
      func(t, tcg_env, t);
      gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src = gen_load_fpr_Q(dc, a->rs);
      dst = tcg_temp_new_i32();
      func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_dq(DisasContext *dc, arg_r_r *a,
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src = gen_load_fpr_Q(dc, a->rs);
      dst = gen_dest_fpr_D(dc, a->rd);
      func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fff(DisasContext *dc, arg_r_r_r *a,
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src1 = gen_load_fpr_F(dc, a->rs1);
      src2 = gen_load_fpr_F(dc, a->rs2);
      func(src1, tcg_env, src1, src2);
@@ -XXX,XX +XXX,XX @@ static bool do_env_ddd(DisasContext *dc, arg_r_r_r *a,
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      dst = gen_dest_fpr_D(dc, a->rd);
      src1 = gen_load_fpr_D(dc, a->rs1);
      src2 = gen_load_fpr_D(dc, a->rs2);
@@ -XXX,XX +XXX,XX @@ static bool trans_FsMULd(DisasContext *dc, arg_r_r_r *a)
          return raise_unimpfpop(dc);
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      dst = gen_dest_fpr_D(dc, a->rd);
      src1 = gen_load_fpr_F(dc, a->rs1);
      src2 = gen_load_fpr_F(dc, a->rs2);
@@ -XXX,XX +XXX,XX @@ static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src1 = gen_load_fpr_Q(dc, a->rs1);
      src2 = gen_load_fpr_Q(dc, a->rs2);
      func(src1, tcg_env, src1, src2);
@@ -XXX,XX +XXX,XX @@ static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src1 = gen_load_fpr_D(dc, a->rs1);
      src2 = gen_load_fpr_D(dc, a->rs2);
      dst = tcg_temp_new_i128();
@@ -XXX,XX +XXX,XX @@ static bool do_fcmps(DisasContext *dc, arg_FCMPs *a, bool e)
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src1 = gen_load_fpr_F(dc, a->rs1);
      src2 = gen_load_fpr_F(dc, a->rs2);
      if (e) {
@@ -XXX,XX +XXX,XX @@ static bool do_fcmpd(DisasContext *dc, arg_FCMPd *a, bool e)
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src1 = gen_load_fpr_D(dc, a->rs1);
      src2 = gen_load_fpr_D(dc, a->rs2);
      if (e) {
@@ -XXX,XX +XXX,XX @@ static bool do_fcmpq(DisasContext *dc, arg_FCMPq *a, bool e)
          return true;
      }
 -    gen_op_clear_ieee_excp_and_FTT();
      src1 = gen_load_fpr_Q(dc, a->rs1);
      src2 = gen_load_fpr_Q(dc, a->rs2);
      if (e) {
 --
-.34.1
+.43.0

-[PULL 42/57] target/sparc: Use i128 for FADDq, FSUBq, FMULq, FDIVq
+[PULL 24/72] tcg/optimize: Use fold_masks_z in fold_extu
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-8-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     | 12 +++++-------
+ tcg/optimize.c | 4 ++--
- target/sparc/fop_helper.c | 29 ++++++++++++++---------------
+file changed, 2 insertions(+), 2 deletions(-)
  target/sparc/translate.c  | 13 +++++++------
 files changed, 26 insertions(+), 28 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/helper.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_1(fcmpeq_fcc2, TCG_CALL_NO_WG, tl, env)
+@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
- DEF_HELPER_FLAGS_1(fcmpeq_fcc3, TCG_CALL_NO_WG, tl, env)
+         g_assert_not_reached();
  #endif
  DEF_HELPER_2(raise_exception, noreturn, env, int)
 -#define F_HELPER_0_1(name) \
 -  DEF_HELPER_FLAGS_1(f ## name, TCG_CALL_NO_RWG, void, env)
  DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_RWG, f64, env, f64, f64)
  DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_RWG, f64, env, f64, f64)
  DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_RWG, f64, env, f64, f64)
  DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_RWG, f64, env, f64, f64)
 -F_HELPER_0_1(addq)
 -F_HELPER_0_1(subq)
 -F_HELPER_0_1(mulq)
 -F_HELPER_0_1(divq)
 +
 +DEF_HELPER_FLAGS_3(faddq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fsubq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fmulq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fdivq, TCG_CALL_NO_RWG, i128, env, i128, i128)
  DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_RWG, f32, env, f32, f32)
  DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_RWG, f32, env, f32, f32)
@@ -XXX,XX +XXX,XX @@ VIS_CMPHELPER(cmpeq)
  VIS_CMPHELPER(cmple)
  VIS_CMPHELPER(cmpne)
  #endif
 -#undef F_HELPER_0_1
  #undef VIS_HELPER
  #undef VIS_CMPHELPER
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ target_ulong helper_check_ieee_exceptions(CPUSPARCState *env)
      return do_check_ieee_exceptions(env, GETPC());
  }
 -#define F_HELPER(name, p) void helper_f##name##p(CPUSPARCState *env)
 -
 -#define F_BINOP(name)                                           \
 +#define F_BINOP(name)                                                \
      float32 helper_f ## name ## s (CPUSPARCState *env, float32 src1, \
 -                                   float32 src2)                \
 -    {                                                           \
 -        return float32_ ## name (src1, src2, &env->fp_status);  \
 -    }                                                           \
 +                                   float32 src2)                     \
 +    {                                                                \
 +        return float32_ ## name (src1, src2, &env->fp_status);       \
 +    }                                                                \
      float64 helper_f ## name ## d (CPUSPARCState * env, float64 src1,\
 -                                   float64 src2)                \
 -    {                                                           \
 -        return float64_ ## name (src1, src2, &env->fp_status);  \
 -    }                                                           \
 -    F_HELPER(name, q)                                           \
 -    {                                                           \
 -        QT0 = float128_ ## name (QT0, QT1, &env->fp_status);    \
 +                                   float64 src2)                     \
 +    {                                                                \
 +        return float64_ ## name (src1, src2, &env->fp_status);       \
 +    }                                                                \
 +    Int128 helper_f ## name ## q(CPUSPARCState * env, Int128 src1,   \
 +                                 Int128 src2)                        \
 +    {                                                                \
 +        return f128_ret(float128_ ## name (f128_in(src1), f128_in(src2), \
 +                                           &env->fp_status));        \
      }
- F_BINOP(add);
+-    ctx->z_mask = z_mask;
-@@ -XXX,XX +XXX,XX @@ void helper_fxtoq(CPUSPARCState *env, int64_t src)
+     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
      QT0 = int64_to_float128(src, &env->fp_status);
  }
  #endif
 -#undef F_HELPER
  /* floating point conversion */
  float32 helper_fdtos(CPUSPARCState *env, float64 src)
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_dddd(DisasContext *dc, arg_r_r_r *a,
  TRANS(PDIST, VIS1, do_dddd, a, gen_helper_pdist)
  static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
 -                       void (*func)(TCGv_env))
 +                       void (*func)(TCGv_i128, TCGv_env, TCGv_i128, TCGv_i128))
  {
 +    TCGv_i128 src1, src2;
 +
      if (gen_trap_ifnofpu(dc)) {
          return true;
      }
-@@ -XXX,XX +XXX,XX @@ static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
+-    return fold_masks(ctx, op);
-     }
++
++    return fold_masks_z(ctx, op, z_mask);
      gen_op_clear_ieee_excp_and_FTT();
 -    gen_op_load_fpr_QT0(QFPREG(a->rs1));
 -    gen_op_load_fpr_QT1(QFPREG(a->rs2));
 -    func(tcg_env);
 +    src1 = gen_load_fpr_Q(dc, a->rs1);
 +    src2 = gen_load_fpr_Q(dc, a->rs2);
 +    func(src1, tcg_env, src1, src2);
      gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
 -    gen_op_store_QT0_fpr(QFPREG(a->rd));
 -    gen_update_fprs_dirty(dc, QFPREG(a->rd));
 +    gen_store_fpr_Q(dc, a->rd, src1);
      return advance_pc(dc);
  }
+ static bool fold_mb(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 31/57] target/xtensa: Populate CPUClass.mmu_index
+[PULL 25/72] tcg/optimize: Use fold_masks_zs in fold_movcond
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/xtensa/cpu.c | 6 ++++++
+ tcg/optimize.c | 19 +++++++++++--------
-file changed, 6 insertions(+)
+file changed, 11 insertions(+), 8 deletions(-)
-diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/xtensa/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/xtensa/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool xtensa_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
- #endif
  static bool fold_movcond(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask, s_mask;
 +    TempOptInfo *tt, *ft;
      int i;
      /* If true and false values are the same, eliminate the cmp. */
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
          return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
      }
 -    ctx->z_mask = arg_info(op->args[3])->z_mask
 -                | arg_info(op->args[4])->z_mask;
 -    ctx->s_mask = arg_info(op->args[3])->s_mask
 -                & arg_info(op->args[4])->s_mask;
 +    tt = arg_info(op->args[3]);
 +    ft = arg_info(op->args[4]);
 +    z_mask = tt->z_mask | ft->z_mask;
 +    s_mask = tt->s_mask & ft->s_mask;
 -    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
 -        uint64_t tv = arg_info(op->args[3])->val;
 -        uint64_t fv = arg_info(op->args[4])->val;
 +    if (ti_is_const(tt) && ti_is_const(ft)) {
 +        uint64_t tv = ti_const_val(tt);
 +        uint64_t fv = ti_const_val(ft);
          TCGOpcode opc, negopc = 0;
          TCGCond cond = op->args[5];
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
              }
          }
      }
 -    return false;
 +
 +    return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
-+static int xtensa_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_mul(OptContext *ctx, TCGOp *op)
 +{
 +    return xtensa_get_cring(cpu_env(cs));
 +}
 +
  #ifdef CONFIG_USER_ONLY
  static bool abi_call0;
@@ -XXX,XX +XXX,XX @@ static void xtensa_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = xtensa_cpu_class_by_name;
      cc->has_work = xtensa_cpu_has_work;
 +    cc->mmu_index = xtensa_cpu_mmu_index;
      cc->dump_state = xtensa_cpu_dump_state;
      cc->set_pc = xtensa_cpu_set_pc;
      cc->get_pc = xtensa_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 09/57] target/hppa: Populate CPUClass.mmu_index
+[PULL 26/72] tcg/optimize: Use finish_folding in fold_mul*
-Reviewed-by: Helge Deller <deller@gmx.de>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/hppa/cpu.h |  7 ++-----
+ tcg/optimize.c | 6 +++---
- target/hppa/cpu.c | 12 ++++++++++++
+file changed, 3 insertions(+), 3 deletions(-)
 files changed, 14 insertions(+), 5 deletions(-)
-diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/hppa/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/hppa/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
-     return hppa_is_pa20(env) ? 0 : PA10_BTLB_FIXED + PA10_BTLB_VARIABLE;
+         fold_xi_to_x(ctx, op, 1)) {
          return true;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
-+int hppa_cpu_mmu_index(CPUState *cs, bool ifetch);
+ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
- static inline int cpu_mmu_index(CPUHPPAState *env, bool ifetch)
+@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
- {
+         fold_xi_to_i(ctx, op, 0)) {
- #ifdef CONFIG_USER_ONLY
+         return true;
-     return MMU_USER_IDX;
+     }
- #else
+-    return false;
--    if (env->psw & (ifetch ? PSW_C : PSW_D)) {
++    return finish_folding(ctx, op);
 -        return PRIV_P_TO_MMU_IDX(env->iaoq_f & 3, env->psw & PSW_P);
 -    }
 -    /* mmu disabled */
 -    return env->psw & PSW_W ? MMU_ABS_W_IDX : MMU_ABS_IDX;
 +    return hppa_cpu_mmu_index(env_cpu(env), ifetch);
  #endif
  }
-diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
+ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
---- a/target/hppa/cpu.c
+         tcg_opt_gen_movi(ctx, op2, rh, h);
-+++ b/target/hppa/cpu.c
+         return true;
-@@ -XXX,XX +XXX,XX @@ static bool hppa_cpu_has_work(CPUState *cs)
+     }
-     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
+-    return false;
 +    return finish_folding(ctx, op);
  }
-+int hppa_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_nand(OptContext *ctx, TCGOp *op)
 +{
 +    CPUHPPAState *env = cpu_env(cs);
 +
 +    if (env->psw & (ifetch ? PSW_C : PSW_D)) {
 +        return PRIV_P_TO_MMU_IDX(env->iaoq_f & 3, env->psw & PSW_P);
 +    }
 +    /* mmu disabled */
 +    return env->psw & PSW_W ? MMU_ABS_W_IDX : MMU_ABS_IDX;
 +}
 +
  static void hppa_cpu_disas_set_info(CPUState *cs, disassemble_info *info)
  {
      info->mach = bfd_mach_hppa20;
@@ -XXX,XX +XXX,XX @@ static void hppa_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = hppa_cpu_class_by_name;
      cc->has_work = hppa_cpu_has_work;
 +    cc->mmu_index = hppa_cpu_mmu_index;
      cc->dump_state = hppa_cpu_dump_state;
      cc->set_pc = hppa_cpu_set_pc;
      cc->get_pc = hppa_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 27/57] target/s390x: Populate CPUClass.mmu_index
+[PULL 27/72] tcg/optimize: Use fold_masks_s in fold_nand
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/s390x/cpu.c | 6 ++++++
+ tcg/optimize.c | 8 +++++---
-file changed, 6 insertions(+)
+file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/s390x/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/s390x/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool s390_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
-     return s390_cpu_has_int(cpu);
  static bool fold_nand(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t s_mask;
 +
      if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, -1)) {
          return true;
      }
 -    ctx->s_mask = arg_info(op->args[1])->s_mask
 -                & arg_info(op->args[2])->s_mask;
 -    return false;
 +    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
-+static int s390x_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
 +{
 +    return s390x_env_mmu_index(cpu_env(cs), ifetch);
 +}
 +
  static void s390_query_cpu_fast(CPUState *cpu, CpuInfoFast *value)
  {
      S390CPU *s390_cpu = S390_CPU(cpu);
@@ -XXX,XX +XXX,XX @@ static void s390_cpu_class_init(ObjectClass *oc, void *data)
      scc->reset = s390_cpu_reset;
      cc->class_by_name = s390_cpu_class_by_name,
      cc->has_work = s390_cpu_has_work;
 +    cc->mmu_index = s390x_cpu_mmu_index;
      cc->dump_state = s390_cpu_dump_state;
      cc->query_cpu_fast = s390_query_cpu_fast;
      cc->set_pc = s390_cpu_set_pc;
 --
-.34.1
+.43.0

-[PULL 25/57] target/rx: Populate CPUClass.mmu_index
+[PULL 28/72] tcg/optimize: Use fold_masks_z in fold_neg_no_const
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/rx/cpu.c | 6 ++++++
+ tcg/optimize.c | 9 ++-------
-file changed, 6 insertions(+)
+file changed, 2 insertions(+), 7 deletions(-)
-diff --git a/target/rx/cpu.c b/target/rx/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/rx/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/rx/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool rx_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg_no_const(OptContext *ctx, TCGOp *op)
-         (CPU_INTERRUPT_HARD | CPU_INTERRUPT_FIR);
+ {
      /* Set to 1 all bits to the left of the rightmost.  */
      uint64_t z_mask = arg_info(op->args[1])->z_mask;
 -    ctx->z_mask = -(z_mask & -z_mask);
 +    z_mask = -(z_mask & -z_mask);
 -    /*
 -     * Because of fold_sub_to_neg, we want to always return true,
 -     * via finish_folding.
 -     */
 -    finish_folding(ctx, op);
 -    return true;
 +    return fold_masks_z(ctx, op, z_mask);
  }
-+static int riscv_cpu_mmu_index(CPUState *cs, bool ifunc)
+ static bool fold_neg(OptContext *ctx, TCGOp *op)
 +{
 +    return 0;
 +}
 +
  static void rx_cpu_reset_hold(Object *obj)
  {
      RXCPU *cpu = RX_CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void rx_cpu_class_init(ObjectClass *klass, void *data)
      cc->class_by_name = rx_cpu_class_by_name;
      cc->has_work = rx_cpu_has_work;
 +    cc->mmu_index = riscv_cpu_mmu_index;
      cc->dump_state = rx_cpu_dump_state;
      cc->set_pc = rx_cpu_set_pc;
      cc->get_pc = rx_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 24/57] target/riscv: Populate CPUClass.mmu_index
+[PULL 29/72] tcg/optimize: Use fold_masks_s in fold_nor
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Avoid the use of the OptContext slots.
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/riscv/cpu.c | 6 ++++++
+ tcg/optimize.c | 8 +++++---
-file changed, 6 insertions(+)
+file changed, 5 insertions(+), 3 deletions(-)
-diff --git a/target/riscv/cpu.c b/target/riscv/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/riscv/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/riscv/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool riscv_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_neg(OptContext *ctx, TCGOp *op)
- #endif
  static bool fold_nor(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t s_mask;
 +
      if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_not(ctx, op, 0)) {
          return true;
      }
 -    ctx->s_mask = arg_info(op->args[1])->s_mask
 -                & arg_info(op->args[2])->s_mask;
 -    return false;
 +    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
-+static int riscv_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_not(OptContext *ctx, TCGOp *op)
 +{
 +    return riscv_env_mmu_index(cpu_env(cs), ifetch);
 +}
 +
  static void riscv_cpu_reset_hold(Object *obj)
  {
  #ifndef CONFIG_USER_ONLY
@@ -XXX,XX +XXX,XX @@ static void riscv_cpu_class_init(ObjectClass *c, void *data)
      cc->class_by_name = riscv_cpu_class_by_name;
      cc->has_work = riscv_cpu_has_work;
 +    cc->mmu_index = riscv_cpu_mmu_index;
      cc->dump_state = riscv_cpu_dump_state;
      cc->set_pc = riscv_cpu_set_pc;
      cc->get_pc = riscv_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 23/57] target/riscv: Replace cpu_mmu_index with riscv_env_mmu_index
+[PULL 30/72] tcg/optimize: Use fold_masks_s in fold_not
-Use the target-specific function name in preference
+Avoid the use of the OptContext slots.
 to the generic name.
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/riscv/cpu_helper.c    | 4 ++--
+ tcg/optimize.c | 7 +------
- target/riscv/op_helper.c     | 4 ++--
+file changed, 1 insertion(+), 6 deletions(-)
  target/riscv/vector_helper.c | 9 +++++----
 files changed, 9 insertions(+), 8 deletions(-)
-diff --git a/target/riscv/cpu_helper.c b/target/riscv/cpu_helper.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/riscv/cpu_helper.c
+--- a/tcg/optimize.c
-+++ b/target/riscv/cpu_helper.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPURISCVState *env, vaddr *pc,
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
- #else
+     if (fold_const1(ctx, op)) {
-     flags = FIELD_DP32(flags, TB_FLAGS, PRIV, env->priv);
+         return true;
 -    flags |= cpu_mmu_index(env, 0);
 +    flags |= riscv_env_mmu_index(env, 0);
      fs = get_field(env->mstatus, MSTATUS_FS);
      vs = get_field(env->mstatus, MSTATUS_VS);
@@ -XXX,XX +XXX,XX @@ hwaddr riscv_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
      CPURISCVState *env = &cpu->env;
      hwaddr phys_addr;
      int prot;
 -    int mmu_idx = cpu_mmu_index(&cpu->env, false);
 +    int mmu_idx = riscv_env_mmu_index(&cpu->env, false);
      if (get_physical_address(env, &phys_addr, &prot, addr, NULL, 0, mmu_idx,
                               true, env->virt_enabled, true)) {
 diff --git a/target/riscv/op_helper.c b/target/riscv/op_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/op_helper.c
 +++ b/target/riscv/op_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_cbo_zero(CPURISCVState *env, target_ulong address)
  {
      RISCVCPU *cpu = env_archcpu(env);
      uint16_t cbozlen = cpu->cfg.cboz_blocksize;
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = riscv_env_mmu_index(env, false);
      uintptr_t ra = GETPC();
      void *mem;
@@ -XXX,XX +XXX,XX @@ static void check_zicbom_access(CPURISCVState *env,
                                  uintptr_t ra)
  {
      RISCVCPU *cpu = env_archcpu(env);
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = riscv_env_mmu_index(env, false);
      uint16_t cbomlen = cpu->cfg.cbom_blocksize;
      void *phost;
      int ret;
 diff --git a/target/riscv/vector_helper.c b/target/riscv/vector_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/vector_helper.c
 +++ b/target/riscv/vector_helper.c
@@ -XXX,XX +XXX,XX @@ static void probe_pages(CPURISCVState *env, target_ulong addr,
  {
      target_ulong pagelen = -(addr | TARGET_PAGE_MASK);
      target_ulong curlen = MIN(pagelen, len);
 +    int mmu_index = riscv_env_mmu_index(env, false);
      probe_access(env, adjust_addr(env, addr), curlen, access_type,
 -                 cpu_mmu_index(env, false), ra);
 +                 mmu_index, ra);
      if (len > curlen) {
          addr += curlen;
          curlen = len - curlen;
          probe_access(env, adjust_addr(env, addr), curlen, access_type,
 -                     cpu_mmu_index(env, false), ra);
 +                     mmu_index, ra);
      }
+-
+-    ctx->s_mask = arg_info(op->args[1])->s_mask;
+-
+-    /* Because of fold_to_not, we want to always return true, via finish. */
+-    finish_folding(ctx, op);
+-    return true;
++    return fold_masks_s(ctx, op, arg_info(op->args[1])->s_mask);
  }
-@@ -XXX,XX +XXX,XX @@ vext_ldff(void *vd, void *v0, target_ulong base,
+ static bool fold_or(OptContext *ctx, TCGOp *op)
      uint32_t esz = 1 << log2_esz;
      uint32_t vma = vext_vma(desc);
      target_ulong addr, offset, remain;
 +    int mmu_index = riscv_env_mmu_index(env, false);
      /* probe every access */
      for (i = env->vstart; i < env->vl; i++) {
@@ -XXX,XX +XXX,XX @@ vext_ldff(void *vd, void *v0, target_ulong base,
              remain = nf << log2_esz;
              while (remain > 0) {
                  offset = -(addr | TARGET_PAGE_MASK);
 -                host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD,
 -                                         cpu_mmu_index(env, false));
 +                host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD, mmu_index);
                  if (host) {
  #ifdef CONFIG_USER_ONLY
                      if (!page_check_range(addr, offset, PAGE_READ)) {
 --
-.34.1
+.43.0

-[PULL 21/57] target/ppc: Populate CPUClass.mmu_index
+[PULL 31/72] tcg/optimize: Use fold_masks_zs in fold_or
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/ppc/cpu_init.c | 6 ++++++
+ tcg/optimize.c | 13 ++++++++-----
-file changed, 6 insertions(+)
+file changed, 8 insertions(+), 5 deletions(-)
-diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/ppc/cpu_init.c
+--- a/tcg/optimize.c
-+++ b/target/ppc/cpu_init.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool ppc_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
-     return cs->interrupt_request & CPU_INTERRUPT_HARD;
  static bool fold_or(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask, s_mask;
 +    TempOptInfo *t1, *t2;
 +
      if (fold_const2_commutative(ctx, op) ||
          fold_xi_to_x(ctx, op, 0) ||
          fold_xx_to_x(ctx, op)) {
          return true;
      }
 -    ctx->z_mask = arg_info(op->args[1])->z_mask
 -                | arg_info(op->args[2])->z_mask;
 -    ctx->s_mask = arg_info(op->args[1])->s_mask
 -                & arg_info(op->args[2])->s_mask;
 -    return fold_masks(ctx, op);
 +    t1 = arg_info(op->args[1]);
 +    t2 = arg_info(op->args[2]);
 +    z_mask = t1->z_mask | t2->z_mask;
 +    s_mask = t1->s_mask & t2->s_mask;
 +    return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
-+static int ppc_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
 +{
 +    return ppc_env_mmu_index(cpu_env(cs), ifetch);
 +}
 +
  static void ppc_cpu_reset_hold(Object *obj)
  {
      CPUState *s = CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void ppc_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = ppc_cpu_class_by_name;
      cc->has_work = ppc_cpu_has_work;
 +    cc->mmu_index = ppc_cpu_mmu_index;
      cc->dump_state = ppc_cpu_dump_state;
      cc->set_pc = ppc_cpu_set_pc;
      cc->get_pc = ppc_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 18/57] target/nios2: Populate CPUClass.mmu_index
+[PULL 32/72] tcg/optimize: Use fold_masks_zs in fold_orc
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/nios2/cpu.h | 12 ++++++------
+ tcg/optimize.c | 8 +++++---
- target/nios2/cpu.c |  7 +++++++
+file changed, 5 insertions(+), 3 deletions(-)
 files changed, 13 insertions(+), 6 deletions(-)
-diff --git a/target/nios2/cpu.h b/target/nios2/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/nios2/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void do_nios2_semihosting(CPUNios2State *env);
+@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
- #define MMU_SUPERVISOR_IDX  0
- #define MMU_USER_IDX        1
+ static bool fold_orc(OptContext *ctx, TCGOp *op)
+ {
--static inline int cpu_mmu_index(CPUNios2State *env, bool ifetch)
++    uint64_t s_mask;
 -{
 -    return (env->ctrl[CR_STATUS] & CR_STATUS_U) ? MMU_USER_IDX :
 -                                                  MMU_SUPERVISOR_IDX;
 -}
 -
  #ifndef CONFIG_USER_ONLY
  hwaddr nios2_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
  bool nios2_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAGS, CRS0, 0, 1)  /* Set if CRS == 0. */
  FIELD(TBFLAGS, U, 1, 1)     /* Overlaps CR_STATUS_U */
  FIELD(TBFLAGS, R0_0, 2, 1)  /* Set if R0 == 0. */
 +int nios2_cpu_mmu_index(CPUState *cs, bool ifetch);
 +static inline int cpu_mmu_index(CPUNios2State *env, bool ifetch)
 +{
 +    return nios2_cpu_mmu_index(env_cpu(env), ifetch);
 +}
 +
- static inline void cpu_get_tb_cpu_state(CPUNios2State *env, vaddr *pc,
+     if (fold_const2(ctx, op) ||
-                                         uint64_t *cs_base, uint32_t *flags)
+         fold_xx_to_i(ctx, op, -1) ||
- {
+         fold_xi_to_x(ctx, op, -1) ||
-diff --git a/target/nios2/cpu.c b/target/nios2/cpu.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
-index XXXXXXX..XXXXXXX 100644
+         return true;
---- a/target/nios2/cpu.c
+     }
-+++ b/target/nios2/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool nios2_cpu_has_work(CPUState *cs)
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
-     return cs->interrupt_request & CPU_INTERRUPT_HARD;
+-                & arg_info(op->args[2])->s_mask;
 -    return false;
 +    s_mask = arg_info(op->args[1])->s_mask
 +           & arg_info(op->args[2])->s_mask;
 +    return fold_masks_s(ctx, op, s_mask);
  }
-+int nios2_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 +{
 +    return (cpu_env(cs)->ctrl[CR_STATUS] & CR_STATUS_U
 +            ? MMU_USER_IDX : MMU_SUPERVISOR_IDX);
 +}
 +
  static void nios2_cpu_reset_hold(Object *obj)
  {
      CPUState *cs = CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void nios2_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = nios2_cpu_class_by_name;
      cc->has_work = nios2_cpu_has_work;
 +    cc->mmu_index = nios2_cpu_mmu_index;
      cc->dump_state = nios2_cpu_dump_state;
      cc->set_pc = nios2_cpu_set_pc;
      cc->get_pc = nios2_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 50/57] target/sparc: Introduce cpu_get_fsr, cpu_put_fsr
+[PULL 33/72] tcg/optimize: Use fold_masks_zs in fold_qemu_ld
+Avoid the use of the OptContext slots.
+Be careful not to call fold_masks_zs when the memory operation
+is wide enough to require multiple outputs, so split into two
+functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-16-richard.henderson@linaro.org>
 ---
- target/sparc/cpu.h          |  4 +++-
+ tcg/optimize.c | 26 +++++++++++++++++++++-----
- target/sparc/helper.h       |  1 +
+file changed, 21 insertions(+), 5 deletions(-)
  linux-user/sparc/cpu_loop.c |  2 +-
  linux-user/sparc/signal.c   | 14 +++++++++-----
  target/sparc/cpu.c          |  5 +++--
  target/sparc/fop_helper.c   | 21 +++++++++++++++++++--
  target/sparc/gdbstub.c      |  8 ++++----
  target/sparc/machine.c      | 36 ++++++++++++++++++++++++++++++++++--
  target/sparc/translate.c    |  7 ++++++-
 files changed, 80 insertions(+), 18 deletions(-)
-diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void sparc_restore_state_to_opc(CPUState *cs,
+@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
-                                 const TranslationBlock *tb,
+     return fold_masks_s(ctx, op, s_mask);
                                  const uint64_t *data);
 -/* cpu-exec.c */
 +/* fop_helper.c */
 +target_ulong cpu_get_fsr(CPUSPARCState *);
 +void cpu_put_fsr(CPUSPARCState *, target_ulong);
  /* win_helper.c */
  target_ulong cpu_get_psr(CPUSPARCState *env1);
 diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/helper.h
 +++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
  DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
  #endif
  DEF_HELPER_FLAGS_1(check_ieee_exceptions, TCG_CALL_NO_WG, tl, env)
 +DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
  DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
  DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_RWG, f32, env, f32)
  DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_RWG, f64, env, f64)
 diff --git a/linux-user/sparc/cpu_loop.c b/linux-user/sparc/cpu_loop.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/sparc/cpu_loop.c
 +++ b/linux-user/sparc/cpu_loop.c
@@ -XXX,XX +XXX,XX @@ void cpu_loop (CPUSPARCState *env)
          case TT_FP_EXCP:
              {
                  int code = TARGET_FPE_FLTUNK;
 -                target_ulong fsr = env->fsr;
 +                target_ulong fsr = cpu_get_fsr(env);
                  if ((fsr & FSR_FTT_MASK) == FSR_FTT_IEEE_EXCP) {
                      if (fsr & FSR_NVC) {
 diff --git a/linux-user/sparc/signal.c b/linux-user/sparc/signal.c
 index XXXXXXX..XXXXXXX 100644
 --- a/linux-user/sparc/signal.c
 +++ b/linux-user/sparc/signal.c
@@ -XXX,XX +XXX,XX @@ static void save_fpu(struct target_siginfo_fpu *fpu, CPUSPARCState *env)
      for (i = 0; i < 32; ++i) {
          __put_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
      }
 -    __put_user(env->fsr, &fpu->si_fsr);
 +    __put_user(cpu_get_fsr(env), &fpu->si_fsr);
      __put_user(env->gsr, &fpu->si_gsr);
      __put_user(env->fprs, &fpu->si_fprs);
  #else
      for (i = 0; i < 16; ++i) {
          __put_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
      }
 -    __put_user(env->fsr, &fpu->si_fsr);
 +    __put_user(cpu_get_fsr(env), &fpu->si_fsr);
      __put_user(0, &fpu->si_fpqdepth);
  #endif
  }
- static void restore_fpu(struct target_siginfo_fpu *fpu, CPUSPARCState *env)
+-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
 +static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
  {
-+    target_ulong fsr;
+     const TCGOpDef *def = &tcg_op_defs[op->opc];
-     int i;
+     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
+     MemOp mop = get_memop(oi);
- #ifdef TARGET_SPARC64
+     int width = 8 * memop_size(mop);
-@@ -XXX,XX +XXX,XX @@ static void restore_fpu(struct target_siginfo_fpu *fpu, CPUSPARCState *env)
++    uint64_t z_mask = -1, s_mask = 0;
-             __get_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
      if (width < 64) {
          if (mop & MO_SIGN) {
 -            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
 +            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
          } else {
 -            ctx->z_mask = MAKE_64BIT_MASK(0, width);
 +            z_mask = MAKE_64BIT_MASK(0, width);
          }
      }
--    __get_user(env->fsr, &fpu->si_fsr);
-     __get_user(env->gsr, &fpu->si_gsr);
+     /* Opcodes that touch guest memory stop the mb optimization.  */
-     env->fprs |= fprs;
+     ctx->prev_mb = NULL;
- #else
+-    return false;
      for (i = 0; i < 16; ++i) {
          __get_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
      }
 -    __get_user(env->fsr, &fpu->si_fsr);
  #endif
 +
-+    __get_user(fsr, &fpu->si_fsr);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
 +    cpu_put_fsr(env, fsr);
  }
  #ifdef TARGET_ARCH_HAS_SETUP_FRAME
@@ -XXX,XX +XXX,XX @@ void sparc64_set_context(CPUSPARCState *env)
      __get_user(fenab, &(fpup->mcfpu_enab));
      if (fenab) {
          abi_ulong fprs;
 +        abi_ulong fsr;
          /*
           * We use the FPRS from the guest only in deciding whether
@@ -XXX,XX +XXX,XX @@ void sparc64_set_context(CPUSPARCState *env)
                  __get_user(env->fpr[i].ll, &(fpup->mcfpu_fregs.dregs[i]));
              }
          }
 -        __get_user(env->fsr, &(fpup->mcfpu_fsr));
 +        __get_user(fsr, &(fpup->mcfpu_fsr));
 +        cpu_put_fsr(env, fsr);
          __get_user(env->gsr, &(fpup->mcfpu_gsr));
      }
      unlock_user_struct(ucp, ucp_addr, 0);
 diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.c
 +++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_dump_state(CPUState *cs, FILE *f, int flags)
                   env->cansave, env->canrestore, env->otherwin, env->wstate,
                   env->cleanwin, env->nwindows - 1 - env->cwp);
      qemu_fprintf(f, "fsr: " TARGET_FMT_lx " y: " TARGET_FMT_lx " fprs: %016x\n",
 -                 env->fsr, env->y, env->fprs);
 +                 cpu_get_fsr(env), env->y, env->fprs);
  #else
      qemu_fprintf(f, "psr: %08x (icc: ", cpu_get_psr(env));
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_dump_state(CPUState *cs, FILE *f, int flags)
                   env->psrps ? 'P' : '-', env->psret ? 'E' : '-',
                   env->wim);
      qemu_fprintf(f, "fsr: " TARGET_FMT_lx " y: " TARGET_FMT_lx "\n",
 -                 env->fsr, env->y);
 +                 cpu_get_fsr(env), env->y);
  #endif
      qemu_fprintf(f, "\n");
  }
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_realizefn(DeviceState *dev, Error **errp)
      env->version |= env->def.maxtl << 8;
      env->version |= env->def.nwindows - 1;
  #endif
 +    cpu_put_fsr(env, 0);
      cpu_exec_realizefn(cs, &local_err);
      if (local_err != NULL) {
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
  #undef GEN_FCMP_T
  #undef GEN_FCMP
 -static void set_fsr(CPUSPARCState *env, target_ulong fsr)
 +target_ulong cpu_get_fsr(CPUSPARCState *env)
 +{
 +    return env->fsr;
 +}
 +
-+target_ulong helper_get_fsr(CPUSPARCState *env)
++static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
 +{
-+    return cpu_get_fsr(env);
++    /* Opcodes that touch guest memory stop the mb optimization.  */
-+}
++    ctx->prev_mb = NULL;
-+
++    return finish_folding(ctx, op);
 +static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
  {
      int rnd_mode;
 +    env->fsr = fsr;
 +
      switch (fsr & FSR_RD_MASK) {
      case FSR_RD_NEAREST:
          rnd_mode = float_round_nearest_even;
@@ -XXX,XX +XXX,XX @@ static void set_fsr(CPUSPARCState *env, target_ulong fsr)
      set_float_rounding_mode(rnd_mode, &env->fp_status);
  }
-+void cpu_put_fsr(CPUSPARCState *env, target_ulong fsr)
+ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
-+{
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
 +    set_fsr_nonsplit(env, fsr);
 +}
 +
  void helper_set_fsr(CPUSPARCState *env, target_ulong fsr)
  {
 -    set_fsr(env, fsr);
 +    set_fsr_nonsplit(env, fsr);
  }
 diff --git a/target/sparc/gdbstub.c b/target/sparc/gdbstub.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/gdbstub.c
 +++ b/target/sparc/gdbstub.c
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
      case 69:
          return gdb_get_rega(mem_buf, env->npc);
      case 70:
 -        return gdb_get_rega(mem_buf, env->fsr);
 +        return gdb_get_rega(mem_buf, cpu_get_fsr(env));
      case 71:
          return gdb_get_rega(mem_buf, 0); /* csr */
      default:
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
                                       ((env->pstate & 0xfff) << 8) |
                                       cpu_get_cwp64(env));
      case 83:
 -        return gdb_get_regl(mem_buf, env->fsr);
 +        return gdb_get_regl(mem_buf, cpu_get_fsr(env));
      case 84:
          return gdb_get_regl(mem_buf, env->fprs);
      case 85:
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
              env->npc = tmp;
              break;
-         case 70:
+         case INDEX_op_qemu_ld_a32_i32:
--            env->fsr = tmp;
+         case INDEX_op_qemu_ld_a64_i32:
-+            cpu_put_fsr(env, tmp);
++            done = fold_qemu_ld_1reg(&ctx, op);
 +            break;
          case INDEX_op_qemu_ld_a32_i64:
          case INDEX_op_qemu_ld_a64_i64:
 +            if (TCG_TARGET_REG_BITS == 64) {
 +                done = fold_qemu_ld_1reg(&ctx, op);
 +                break;
 +            }
 +            QEMU_FALLTHROUGH;
          case INDEX_op_qemu_ld_a32_i128:
          case INDEX_op_qemu_ld_a64_i128:
 -            done = fold_qemu_ld(&ctx, op);
 +            done = fold_qemu_ld_2reg(&ctx, op);
              break;
-         default:
+         case INDEX_op_qemu_st8_a32_i32:
-             return 0;
+         case INDEX_op_qemu_st8_a64_i32:
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
              cpu_put_cwp64(env, tmp & 0xff);
              break;
          case 83:
 -            env->fsr = tmp;
 +            cpu_put_fsr(env, tmp);
              break;
          case 84:
              env->fprs = tmp;
 diff --git a/target/sparc/machine.c b/target/sparc/machine.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/machine.c
 +++ b/target/sparc/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateInfo vmstate_psr = {
      .put = put_psr,
  };
 +static int get_fsr(QEMUFile *f, void *opaque, size_t size,
 +                   const VMStateField *field)
 +{
 +    SPARCCPU *cpu = opaque;
 +    target_ulong val = qemu_get_betl(f);
 +
 +    cpu_put_fsr(&cpu->env, val);
 +    return 0;
 +}
 +
 +static int put_fsr(QEMUFile *f, void *opaque, size_t size,
 +                   const VMStateField *field, JSONWriter *vmdesc)
 +{
 +    SPARCCPU *cpu = opaque;
 +    target_ulong val = cpu_get_fsr(&cpu->env);
 +
 +    qemu_put_betl(f, val);
 +    return 0;
 +}
 +
 +static const VMStateInfo vmstate_fsr = {
 +    .name = "fsr",
 +    .get = get_fsr,
 +    .put = put_fsr,
 +};
 +
  #ifdef TARGET_SPARC64
  static int get_xcc(QEMUFile *f, void *opaque, size_t size,
                     const VMStateField *field)
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_sparc_cpu = {
          VMSTATE_UINTTL(env.npc, SPARCCPU),
          VMSTATE_UINTTL(env.y, SPARCCPU),
          {
 -
              .name = "psr",
              .version_id = 0,
              .size = sizeof(uint32_t),
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_sparc_cpu = {
              .flags = VMS_SINGLE,
              .offset = 0,
          },
 -        VMSTATE_UINTTL(env.fsr, SPARCCPU),
 +        {
 +            .name = "fsr",
 +            .version_id = 0,
 +            .size = sizeof(target_ulong),
 +            .info = &vmstate_fsr,
 +            .flags = VMS_SINGLE,
 +            .offset = 0,
 +        },
          VMSTATE_UINTTL(env.tbr, SPARCCPU),
          VMSTATE_INT32(env.interrupt_index, SPARCCPU),
          VMSTATE_UINT32(env.pil_in, SPARCCPU),
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ TRANS(LDXFSR, 64, do_ldfsr, a, MO_TEUQ, FSR_LDXFSR_MASK, FSR_LDXFSR_OLDMASK)
  static bool do_stfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop)
  {
      TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
 +    TCGv fsr;
 +
      if (addr == NULL) {
          return false;
      }
      if (gen_trap_ifnofpu(dc)) {
          return true;
      }
 -    tcg_gen_qemu_st_tl(cpu_fsr, addr, dc->mem_idx, mop | MO_ALIGN);
 +
 +    fsr = tcg_temp_new();
 +    gen_helper_get_fsr(fsr, tcg_env);
 +    tcg_gen_qemu_st_tl(fsr, addr, dc->mem_idx, mop | MO_ALIGN);
      return advance_pc(dc);
  }
 --
-.34.1
+.43.0

-[PULL 07/57] target/cris: Cache mem_index in DisasContext
+[PULL 34/72] tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
-Compute this value once for each translation.
+Stores have no output operands, and so need no further work.
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/translate.c         | 14 +++++---------
+ tcg/optimize.c | 11 +++++------
- target/cris/translate_v10.c.inc |  6 ++----
+file changed, 5 insertions(+), 6 deletions(-)
 files changed, 7 insertions(+), 13 deletions(-)
-diff --git a/target/cris/translate.c b/target/cris/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/translate.c
+--- a/tcg/optimize.c
-+++ b/target/cris/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
      CRISCPU *cpu;
      target_ulong pc, ppc;
 +    int mem_index;
      /* Decoder.  */
          unsigned int (*decoder)(CPUCRISState *env, struct DisasContext *dc);
@@ -XXX,XX +XXX,XX @@ static inline void cris_prepare_jmp (DisasContext *dc, unsigned int type)
  static void gen_load64(DisasContext *dc, TCGv_i64 dst, TCGv addr)
  {
--    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
+     /* Opcodes that touch guest memory stop the mb optimization.  */
--
+     ctx->prev_mb = NULL;
-     /* If we get a fault on a delayslot we must keep the jmp state in
+-    return false;
-        the cpu-state to be able to re-execute the jmp.  */
++    return true;
-     if (dc->delayed_branch == 1) {
+ }
-         cris_store_direct_jmp(dc);
  static bool fold_remainder(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
      if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
          remove_mem_copy_all(ctx);
 -        return false;
 +        return true;
      }
--    tcg_gen_qemu_ld_i64(dst, addr, mem_index, MO_TEUQ);
+     switch (op->opc) {
-+    tcg_gen_qemu_ld_i64(dst, addr, dc->mem_index, MO_TEUQ);
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
          g_assert_not_reached();
      }
      remove_mem_copy_in(ctx, ofs, ofs + lm1);
 -    return false;
 +    return true;
  }
- static void gen_load(DisasContext *dc, TCGv dst, TCGv addr,
+ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
-              unsigned int size, int sign)
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
- {
+     TCGType type;
--    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
--
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
-     /* If we get a fault on a delayslot we must keep the jmp state in
+-        fold_tcg_st(ctx, op);
-        the cpu-state to be able to re-execute the jmp.  */
+-        return false;
-     if (dc->delayed_branch == 1) {
++        return fold_tcg_st(ctx, op);
          cris_store_direct_jmp(dc);
      }
--    tcg_gen_qemu_ld_tl(dst, addr, mem_index,
+     src = arg_temp(op->args[0]);
-+    tcg_gen_qemu_ld_tl(dst, addr, dc->mem_index,
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
-                        MO_TE + ctz32(size) + (sign ? MO_SIGN : 0));
+     last = ofs + tcg_type_size(type) - 1;
      remove_mem_copy_in(ctx, ofs, last);
      record_mem_copy(ctx, type, src, ofs, last);
 -    return false;
 +    return true;
  }
- static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
+ static bool fold_xor(OptContext *ctx, TCGOp *op)
                 unsigned int size)
  {
 -    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
 -
      /* If we get a fault on a delayslot we must keep the jmp state in
         the cpu-state to be able to re-execute the jmp.  */
      if (dc->delayed_branch == 1) {
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
          return;
      }
 -    tcg_gen_qemu_st_tl(val, addr, mem_index, MO_TE + ctz32(size));
 +    tcg_gen_qemu_st_tl(val, addr, dc->mem_index, MO_TE + ctz32(size));
      if (dc->flags_x) {
          cris_evaluate_flags(dc);
@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      dc->cpu = env_archcpu(env);
      dc->ppc = pc_start;
      dc->pc = pc_start;
 +    dc->mem_index = cpu_mmu_index(env, false);
      dc->flags_uptodate = 1;
      dc->flags_x = tb_flags & X_FLAG;
      dc->cc_x_uptodate = 0;
 diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/translate_v10.c.inc
 +++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_store_v10_conditional(DisasContext *dc, TCGv addr, TCGv val,
  static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
                         unsigned int size)
  {
 -    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
 -
      /* If we get a fault on a delayslot we must keep the jmp state in
         the cpu-state to be able to re-execute the jmp.  */
      if (dc->delayed_branch == 1) {
@@ -XXX,XX +XXX,XX @@ static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
      /* Conditional writes. */
      if (dc->flags_x) {
 -        gen_store_v10_conditional(dc, addr, val, size, mem_index);
 +        gen_store_v10_conditional(dc, addr, val, size, dc->mem_index);
          return;
      }
 -    tcg_gen_qemu_st_tl(val, addr, mem_index, ctz32(size) | MO_TE);
 +    tcg_gen_qemu_st_tl(val, addr, dc->mem_index, ctz32(size) | MO_TE);
  }
 --
-.34.1
+.43.0

-[PULL 17/57] target/mips: Populate CPUClass.mmu_index
+[PULL 35/72] tcg/optimize: Use finish_folding in fold_remainder
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/cpu.c | 6 ++++++
+ tcg/optimize.c | 2 +-
-file changed, 6 insertions(+)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/mips/cpu.c b/target/mips/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/mips/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/mips/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool mips_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
-     return has_work;
+         fold_xx_to_i(ctx, op, 0)) {
          return true;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
-+static int mips_cpu_mmu_index(CPUState *cs, bool ifunc)
+ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
 +{
 +    return mips_env_mmu_index(cpu_env(cs));
 +}
 +
  #include "cpu-defs.c.inc"
  static void mips_cpu_reset_hold(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void mips_cpu_class_init(ObjectClass *c, void *data)
      cc->class_by_name = mips_cpu_class_by_name;
      cc->has_work = mips_cpu_has_work;
 +    cc->mmu_index = mips_cpu_mmu_index;
      cc->dump_state = mips_cpu_dump_state;
      cc->set_pc = mips_cpu_set_pc;
      cc->get_pc = mips_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 44/57] target/sparc: Use i128 for FqTOd, FqTOx
+[PULL 36/72] tcg/optimize: Distinguish simplification in fold_setcond_zmask
+Change return from bool to int; distinguish between
+complete folding, simplification, and no change.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-10-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     | 4 ++--
+ tcg/optimize.c | 22 ++++++++++++++--------
- target/sparc/fop_helper.c | 8 ++++----
+file changed, 14 insertions(+), 8 deletions(-)
  target/sparc/translate.c  | 7 ++++---
 files changed, 10 insertions(+), 9 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/helper.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
+@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
- DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
+     return finish_folding(ctx, op);
  DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
  DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, void, env, f32)
 -DEF_HELPER_FLAGS_1(fqtod, TCG_CALL_NO_RWG, f64, env)
 +DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_RWG, f64, env, i128)
  DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, void, env, f64)
  DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
  DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_RWG, s32, env, f64)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_RWG, s32, env, i128)
  #ifdef TARGET_SPARC64
  DEF_HELPER_FLAGS_2(fstox, TCG_CALL_NO_RWG, s64, env, f32)
  DEF_HELPER_FLAGS_2(fdtox, TCG_CALL_NO_RWG, s64, env, f64)
 -DEF_HELPER_FLAGS_1(fqtox, TCG_CALL_NO_RWG, s64, env)
 +DEF_HELPER_FLAGS_2(fqtox, TCG_CALL_NO_RWG, s64, env, i128)
  DEF_HELPER_FLAGS_2(fpmerge, TCG_CALL_NO_RWG_SE, i64, i64, i64)
  DEF_HELPER_FLAGS_2(fmul8x16, TCG_CALL_NO_RWG_SE, i64, i64, i64)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_fstoq(CPUSPARCState *env, float32 src)
      QT0 = float32_to_float128(src, &env->fp_status);
  }
--float64 helper_fqtod(CPUSPARCState *env)
+-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
-+float64 helper_fqtod(CPUSPARCState *env, Int128 src)
++/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
 +static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
  {
--    return float128_to_float64(QT1, &env->fp_status);
+     uint64_t a_zmask, b_val;
-+    return float128_to_float64(f128_in(src), &env->fp_status);
+     TCGCond cond;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
                  op->opc = xor_opc;
                  op->args[2] = arg_new_constant(ctx, 1);
              }
 -            return false;
 +            return -1;
          }
      }
 -
 -    return false;
 +    return 0;
  }
- void helper_fdtoq(CPUSPARCState *env, float64 src)
+ static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
-@@ -XXX,XX +XXX,XX @@ int64_t helper_fdtox(CPUSPARCState *env, float64 src)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
-     return float64_to_int64_round_to_zero(src, &env->fp_status);
+         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
  }
 -int64_t helper_fqtox(CPUSPARCState *env)
 +int64_t helper_fqtox(CPUSPARCState *env, Int128 src)
  {
 -    return float128_to_int64_round_to_zero(QT1, &env->fp_status);
 +    return float128_to_int64_round_to_zero(f128_in(src), &env->fp_status);
  }
  #endif
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ TRANS(FqTOs, ALL, do_env_fq, a, gen_helper_fqtos)
  TRANS(FqTOi, ALL, do_env_fq, a, gen_helper_fqtoi)
  static bool do_env_dq(DisasContext *dc, arg_r_r *a,
 -                      void (*func)(TCGv_i64, TCGv_env))
 +                      void (*func)(TCGv_i64, TCGv_env, TCGv_i128))
  {
 +    TCGv_i128 src;
      TCGv_i64 dst;
      if (gen_trap_ifnofpu(dc)) {
@@ -XXX,XX +XXX,XX @@ static bool do_env_dq(DisasContext *dc, arg_r_r *a,
      }
-     gen_op_clear_ieee_excp_and_FTT();
+-    if (fold_setcond_zmask(ctx, op, false)) {
--    gen_op_load_fpr_QT1(QFPREG(a->rs));
++    i = fold_setcond_zmask(ctx, op, false);
-+    src = gen_load_fpr_Q(dc, a->rs);
++    if (i > 0) {
-     dst = gen_dest_fpr_D(dc, a->rd);
+         return true;
--    func(dst, tcg_env);
+     }
-+    func(dst, tcg_env, src);
+-    fold_setcond_tst_pow2(ctx, op, false);
-     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
++    if (i == 0) {
-     gen_store_fpr_D(dc, a->rd, dst);
++        fold_setcond_tst_pow2(ctx, op, false);
-     return advance_pc(dc);
++    }
      ctx->z_mask = 1;
      return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
          return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
      }
 -    if (fold_setcond_zmask(ctx, op, true)) {
 +    i = fold_setcond_zmask(ctx, op, true);
 +    if (i > 0) {
          return true;
      }
 -    fold_setcond_tst_pow2(ctx, op, true);
 +    if (i == 0) {
 +        fold_setcond_tst_pow2(ctx, op, true);
 +    }
      /* Value is {0,-1} so all bits are repetitions of the sign. */
      ctx->s_mask = -1;
 --
-.34.1
+.43.0

-[PULL 15/57] target/mips: Pass ptw_mmu_idx down from mips_cpu_tlb_fill
+[PULL 37/72] tcg/optimize: Use fold_masks_z in fold_setcond
-Rather than adjust env->hflags so that the value computed
+Avoid the use of the OptContext slots.
 by cpu_mmu_index() changes, compute the mmu_idx that we
 want directly and pass it down.
-Introduce symbolic constants for MMU_{KERNEL,ERL}_IDX.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/mips/cpu.h                   |  4 +++-
+ tcg/optimize.c | 3 +--
- target/mips/tcg/sysemu/tlb_helper.c | 32 ++++++++++++-----------------
+file changed, 1 insertion(+), 2 deletions(-)
 files changed, 16 insertions(+), 20 deletions(-)
-diff --git a/target/mips/cpu.h b/target/mips/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/mips/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/mips/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ uint32_t cpu_rddsp(uint32_t mask_num, CPUMIPSState *env);
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
-  * MMU modes definitions. We carefully match the indices with our
+         fold_setcond_tst_pow2(ctx, op, false);
   * hflags layout.
   */
 +#define MMU_KERNEL_IDX 0
  #define MMU_USER_IDX 2
 +#define MMU_ERL_IDX 3
  static inline int hflags_mmu_index(uint32_t hflags)
  {
      if (hflags & MIPS_HFLAG_ERL) {
 -        return 3; /* ERL */
 +        return MMU_ERL_IDX;
      } else {
          return hflags & MIPS_HFLAG_KSU;
      }
-diff --git a/target/mips/tcg/sysemu/tlb_helper.c b/target/mips/tcg/sysemu/tlb_helper.c
-index XXXXXXX..XXXXXXX 100644
+-    ctx->z_mask = 1;
---- a/target/mips/tcg/sysemu/tlb_helper.c
+-    return false;
-+++ b/target/mips/tcg/sysemu/tlb_helper.c
++    return fold_masks_z(ctx, op, 1);
@@ -XXX,XX +XXX,XX @@ static uint64_t get_tlb_entry_layout(CPUMIPSState *env, uint64_t entry,
  static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
          int directory_index, bool *huge_page, bool *hgpg_directory_hit,
          uint64_t *pw_entrylo0, uint64_t *pw_entrylo1,
 -        unsigned directory_shift, unsigned leaf_shift)
 +        unsigned directory_shift, unsigned leaf_shift, int ptw_mmu_idx)
  {
      int dph = (env->CP0_PWCtl >> CP0PC_DPH) & 0x1;
      int psn = (env->CP0_PWCtl >> CP0PC_PSN) & 0x3F;
@@ -XXX,XX +XXX,XX @@ static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
      uint64_t w = 0;
      if (get_physical_address(env, &paddr, &prot, *vaddr, MMU_DATA_LOAD,
 -                             cpu_mmu_index(env, false)) !=
 -                             TLBRET_MATCH) {
 +                             ptw_mmu_idx) != TLBRET_MATCH) {
          /* wrong base address */
          return 0;
      }
@@ -XXX,XX +XXX,XX @@ static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
                  *pw_entrylo0 = entry;
              }
              if (get_physical_address(env, &paddr, &prot, vaddr2, MMU_DATA_LOAD,
 -                                     cpu_mmu_index(env, false)) !=
 -                                     TLBRET_MATCH) {
 +                                     ptw_mmu_idx) != TLBRET_MATCH) {
                  return 0;
              }
              if (!get_pte(env, vaddr2, leafentry_size, &entry)) {
@@ -XXX,XX +XXX,XX @@ static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
  }
- static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
+ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
 -                                   int mmu_idx)
 +                                   int ptw_mmu_idx)
  {
      int gdw = (env->CP0_PWSize >> CP0PS_GDW) & 0x3F;
      int udw = (env->CP0_PWSize >> CP0PS_UDW) & 0x3F;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
          vaddr |= goffset;
          switch (walk_directory(env, &vaddr, pf_gdw, &huge_page, &hgpg_gdhit,
                                 &pw_entrylo0, &pw_entrylo1,
 -                               directory_shift, leaf_shift))
 +                               directory_shift, leaf_shift, ptw_mmu_idx))
          {
          case 0:
              return false;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
          vaddr |= uoffset;
          switch (walk_directory(env, &vaddr, pf_udw, &huge_page, &hgpg_udhit,
                                 &pw_entrylo0, &pw_entrylo1,
 -                               directory_shift, leaf_shift))
 +                               directory_shift, leaf_shift, ptw_mmu_idx))
          {
          case 0:
              return false;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
          vaddr |= moffset;
          switch (walk_directory(env, &vaddr, pf_mdw, &huge_page, &hgpg_mdhit,
                                 &pw_entrylo0, &pw_entrylo1,
 -                               directory_shift, leaf_shift))
 +                               directory_shift, leaf_shift, ptw_mmu_idx))
          {
          case 0:
              return false;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
      /* Leaf Level Page Table - First half of PTE pair */
      vaddr |= ptoffset0;
      if (get_physical_address(env, &paddr, &prot, vaddr, MMU_DATA_LOAD,
 -                             cpu_mmu_index(env, false)) !=
 -                             TLBRET_MATCH) {
 +                             ptw_mmu_idx) != TLBRET_MATCH) {
          return false;
      }
      if (!get_pte(env, vaddr, leafentry_size, &dir_entry)) {
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
      /* Leaf Level Page Table - Second half of PTE pair */
      vaddr |= ptoffset1;
      if (get_physical_address(env, &paddr, &prot, vaddr, MMU_DATA_LOAD,
 -                             cpu_mmu_index(env, false)) !=
 -                             TLBRET_MATCH) {
 +                             ptw_mmu_idx) != TLBRET_MATCH) {
          return false;
      }
      if (!get_pte(env, vaddr, leafentry_size, &dir_entry)) {
@@ -XXX,XX +XXX,XX @@ bool mips_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
           * Memory reads during hardware page table walking are performed
           * as if they were kernel-mode load instructions.
           */
 -        int mode = (env->hflags & MIPS_HFLAG_KSU);
 -        bool ret_walker;
 -        env->hflags &= ~MIPS_HFLAG_KSU;
 -        ret_walker = page_table_walk_refill(env, address, mmu_idx);
 -        env->hflags |= mode;
 -        if (ret_walker) {
 +        int ptw_mmu_idx = (env->hflags & MIPS_HFLAG_ERL ?
 +                           MMU_ERL_IDX : MMU_KERNEL_IDX);
 +
 +        if (page_table_walk_refill(env, address, ptw_mmu_idx)) {
              ret = get_physical_address(env, &physical, &prot, address,
                                         access_type, mmu_idx);
              if (ret == TLBRET_MATCH) {
 --
-.34.1
+.43.0

-[PULL 13/57] target/m68k: Populate CPUClass.mmu_index
+[PULL 38/72] tcg/optimize: Use fold_masks_s in fold_negsetcond
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/m68k/cpu.c | 6 ++++++
+ tcg/optimize.c | 3 +--
-file changed, 6 insertions(+)
+file changed, 1 insertion(+), 2 deletions(-)
-diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/m68k/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/m68k/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool m68k_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
-     return cs->interrupt_request & CPU_INTERRUPT_HARD;
+     }
      /* Value is {0,-1} so all bits are repetitions of the sign. */
 -    ctx->s_mask = -1;
 -    return false;
 +    return fold_masks_s(ctx, op, -1);
  }
-+static int m68k_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
 +{
 +    return cpu_env(cs)->sr & SR_S ? MMU_KERNEL_IDX : MMU_USER_IDX;
 +}
 +
  static void m68k_set_feature(CPUM68KState *env, int feature)
  {
      env->features |= BIT_ULL(feature);
@@ -XXX,XX +XXX,XX @@ static void m68k_cpu_class_init(ObjectClass *c, void *data)
      cc->class_by_name = m68k_cpu_class_by_name;
      cc->has_work = m68k_cpu_has_work;
 +    cc->mmu_index = m68k_cpu_mmu_index;
      cc->dump_state = m68k_cpu_dump_state;
      cc->set_pc = m68k_cpu_set_pc;
      cc->get_pc = m68k_cpu_get_pc;
 --
-.34.1
+.43.0

-New patch
+[PULL 39/72] tcg/optimize: Use fold_masks_z in fold_setcond2
+Avoid the use of the OptContext slots.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 3 +--
+file changed, 1 insertion(+), 2 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
+         return fold_setcond(ctx, op);
+     }
+-    ctx->z_mask = 1;
+-    return false;
++    return fold_masks_z(ctx, op, 1);
+  do_setcond_const:
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
+--
+.43.0

-[PULL 12/57] target/loongarch: Rename MMU_IDX_*
+[PULL 40/72] tcg/optimize: Use finish_folding in fold_cmp_vec
-The expected form is MMU_FOO_IDX, not MMU_IDX_FOO.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Rename to match generic code.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/loongarch/cpu.h                                 | 8 ++++----
+ tcg/optimize.c | 2 +-
- target/loongarch/cpu.c                                 | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
  target/loongarch/tcg/tlb_helper.c                      | 4 ++--
  target/loongarch/tcg/translate.c                       | 2 +-
  target/loongarch/tcg/insn_trans/trans_privileged.c.inc | 2 +-
 files changed, 9 insertions(+), 9 deletions(-)
-diff --git a/target/loongarch/cpu.h b/target/loongarch/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/loongarch/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/loongarch/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ struct LoongArchCPUClass {
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
-  */
+     if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
- #define MMU_PLV_KERNEL   0
+         op->args[3] = tcg_swap_cond(op->args[3]);
  #define MMU_PLV_USER     3
 -#define MMU_IDX_KERNEL   MMU_PLV_KERNEL
 -#define MMU_IDX_USER     MMU_PLV_USER
 -#define MMU_IDX_DA       4
 +#define MMU_KERNEL_IDX   MMU_PLV_KERNEL
 +#define MMU_USER_IDX     MMU_PLV_USER
 +#define MMU_DA_IDX       4
  int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch);
  static inline int cpu_mmu_index(CPULoongArchState *env, bool ifetch)
  {
  #ifdef CONFIG_USER_ONLY
 -    return MMU_IDX_USER;
 +    return MMU_USER_IDX;
  #else
      return loongarch_cpu_mmu_index(env_cpu(env), ifetch);
  #endif
 diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/cpu.c
 +++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
      if (FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PG)) {
          return FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PLV);
      }
--    return MMU_IDX_DA;
+-    return false;
-+    return MMU_DA_IDX;
++    return finish_folding(ctx, op);
  }
- static void loongarch_la464_initfn(Object *obj)
+ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 diff --git a/target/loongarch/tcg/tlb_helper.c b/target/loongarch/tcg/tlb_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/tcg/tlb_helper.c
 +++ b/target/loongarch/tcg/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ static int get_physical_address(CPULoongArchState *env, hwaddr *physical,
                                  int *prot, target_ulong address,
                                  MMUAccessType access_type, int mmu_idx)
  {
 -    int user_mode = mmu_idx == MMU_IDX_USER;
 -    int kernel_mode = mmu_idx == MMU_IDX_KERNEL;
 +    int user_mode = mmu_idx == MMU_USER_IDX;
 +    int kernel_mode = mmu_idx == MMU_KERNEL_IDX;
      uint32_t plv, base_c, base_v;
      int64_t addr_high;
      uint8_t da = FIELD_EX64(env->CSR_CRMD, CSR_CRMD, DA);
 diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/tcg/translate.c
 +++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void loongarch_tr_init_disas_context(DisasContextBase *dcbase,
      if (ctx->base.tb->flags & HW_FLAGS_CRMD_PG) {
          ctx->mem_idx = ctx->plv;
      } else {
 -        ctx->mem_idx = MMU_IDX_DA;
 +        ctx->mem_idx = MMU_DA_IDX;
      }
      /* Bound the number of insns to execute to those left on the page.  */
 diff --git a/target/loongarch/tcg/insn_trans/trans_privileged.c.inc b/target/loongarch/tcg/insn_trans/trans_privileged.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/tcg/insn_trans/trans_privileged.c.inc
 +++ b/target/loongarch/tcg/insn_trans/trans_privileged.c.inc
@@ -XXX,XX +XXX,XX @@ TRANS(iocsrwr_d, IOCSR, gen_iocsrwr, gen_helper_iocsrwr_d)
  static void check_mmu_idx(DisasContext *ctx)
  {
 -    if (ctx->mem_idx != MMU_IDX_DA) {
 +    if (ctx->mem_idx != MMU_DA_IDX) {
          tcg_gen_movi_tl(cpu_pc, ctx->base.pc_next + 4);
          ctx->base.is_jmp = DISAS_EXIT;
      }
 --
-.34.1
+.43.0

-[PULL 10/57] target/i386: Populate CPUClass.mmu_index
+[PULL 41/72] tcg/optimize: Use finish_folding in fold_cmpsel_vec
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/i386/cpu.h | 13 ++++++-------
+ tcg/optimize.c | 2 +-
- target/i386/cpu.c | 10 ++++++++++
+file changed, 1 insertion(+), 1 deletion(-)
 files changed, 16 insertions(+), 7 deletions(-)
-diff --git a/target/i386/cpu.h b/target/i386/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/i386/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/i386/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ uint64_t cpu_get_tsc(CPUX86State *env);
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
- #define MMU_NESTED_IDX  3
+     if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
- #define MMU_PHYS_IDX    4
+         op->args[5] = tcg_invert_cond(op->args[5]);
+     }
--static inline int cpu_mmu_index(CPUX86State *env, bool ifetch)
+-    return false;
--{
++    return finish_folding(ctx, op);
 -    return (env->hflags & HF_CPL_MASK) == 3 ? MMU_USER_IDX :
 -        (!(env->hflags & HF_SMAP_MASK) || (env->eflags & AC_MASK))
 -        ? MMU_KNOSMAP_IDX : MMU_KSMAP_IDX;
 -}
 -
  static inline int cpu_mmu_index_kernel(CPUX86State *env)
  {
      return !(env->hflags & HF_SMAP_MASK) ? MMU_KNOSMAP_IDX :
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index_kernel(CPUX86State *env)
  #include "hw/i386/apic.h"
  #endif
 +int x86_cpu_mmu_index(CPUState *cs, bool ifetch);
 +static inline int cpu_mmu_index(CPUX86State *env, bool ifetch)
 +{
 +    return x86_cpu_mmu_index(env_cpu(env), ifetch);
 +}
 +
  static inline void cpu_get_tb_cpu_state(CPUX86State *env, vaddr *pc,
                                          uint64_t *cs_base, uint32_t *flags)
  {
 diff --git a/target/i386/cpu.c b/target/i386/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/cpu.c
 +++ b/target/i386/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_cpu_has_work(CPUState *cs)
      return x86_cpu_pending_interrupt(cs, cs->interrupt_request) != 0;
  }
-+int x86_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 +{
 +    CPUX86State *env = cpu_env(cs);
 +
 +    return (env->hflags & HF_CPL_MASK) == 3 ? MMU_USER_IDX :
 +        (!(env->hflags & HF_SMAP_MASK) || (env->eflags & AC_MASK))
 +        ? MMU_KNOSMAP_IDX : MMU_KSMAP_IDX;
 +}
 +
  static void x86_disas_set_info(CPUState *cs, disassemble_info *info)
  {
      X86CPU *cpu = X86_CPU(cs);
@@ -XXX,XX +XXX,XX @@ static void x86_cpu_common_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = x86_cpu_class_by_name;
      cc->parse_features = x86_cpu_parse_featurestr;
      cc->has_work = x86_cpu_has_work;
 +    cc->mmu_index = x86_cpu_mmu_index;
      cc->dump_state = x86_cpu_dump_state;
      cc->set_pc = x86_cpu_set_pc;
      cc->get_pc = x86_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 08/57] target/cris: Populate CPUClass.mmu_index
+[PULL 42/72] tcg/optimize: Use fold_masks_zs in fold_sextract
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/cris/cpu.c | 6 ++++++
+ tcg/optimize.c | 24 +++++++++---------------
-file changed, 6 insertions(+)
+file changed, 9 insertions(+), 15 deletions(-)
-diff --git a/target/cris/cpu.c b/target/cris/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/cris/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/cris/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool cris_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
+ static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
      uint64_t z_mask, s_mask, s_mask_old;
 +    TempOptInfo *t1 = arg_info(op->args[1]);
      int pos = op->args[2];
      int len = op->args[3];
 -    if (arg_is_const(op->args[1])) {
 -        uint64_t t;
 -
 -        t = arg_info(op->args[1])->val;
 -        t = sextract64(t, pos, len);
 -        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
 +    if (ti_is_const(t1)) {
 +        return tcg_opt_gen_movi(ctx, op, op->args[0],
 +                                sextract64(ti_const_val(t1), pos, len));
      }
 -    z_mask = arg_info(op->args[1])->z_mask;
 -    z_mask = sextract64(z_mask, pos, len);
 -    ctx->z_mask = z_mask;
 -
 -    s_mask_old = arg_info(op->args[1])->s_mask;
 -    s_mask = sextract64(s_mask_old, pos, len);
 -    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
 -    ctx->s_mask = s_mask;
 +    s_mask_old = t1->s_mask;
 +    s_mask = s_mask_old >> pos;
 +    s_mask |= -1ull << (len - 1);
      if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
          return true;
      }
 -    return fold_masks(ctx, op);
 +    z_mask = sextract64(t1->z_mask, pos, len);
 +    return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
-+static int cris_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
 +{
 +    return !!(cpu_env(cs)->pregs[PR_CCS] & U_FLAG);
 +}
 +
  static void cris_cpu_reset_hold(Object *obj)
  {
      CPUState *s = CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void cris_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = cris_cpu_class_by_name;
      cc->has_work = cris_cpu_has_work;
 +    cc->mmu_index = cris_cpu_mmu_index;
      cc->dump_state = cris_cpu_dump_state;
      cc->set_pc = cris_cpu_set_pc;
      cc->get_pc = cris_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 36/57] target/sparc: Use tcg_gen_qemu_{ld, st}_i128 for ASI_M_BCOPY
+[PULL 43/72] tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
-Align the operation to the 32-byte cacheline.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 Use 2 pair of i128 instead of 8 pair of i32.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-2-richard.henderson@linaro.org>
 ---
- target/sparc/translate.c | 43 +++++++++++++++++++++++-----------------
+ tcg/optimize.c | 27 ++++++++++++++-------------
-file changed, 25 insertions(+), 18 deletions(-)
+file changed, 14 insertions(+), 13 deletions(-)
-diff --git a/target/sparc/translate.c b/target/sparc/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/translate.c
+--- a/tcg/optimize.c
-+++ b/target/sparc/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_st_asi(DisasContext *dc, DisasASI *da, TCGv src, TCGv addr)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
-     case GET_ASI_BCOPY:
+ {
-         assert(TARGET_LONG_BITS == 32);
+     uint64_t s_mask, z_mask, sign;
--        /* Copy 32 bytes from the address in SRC to ADDR.  */
++    TempOptInfo *t1, *t2;
--        /* ??? The original qemu code suggests 4-byte alignment, dropping
--           the low bits, but the only place I can see this used is in the
+     if (fold_const2(ctx, op) ||
--           Linux kernel with 32 byte alignment, which would make more sense
+         fold_ix_to_i(ctx, op, 0) ||
--           as a cacheline-style operation.  */
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-+        /*
+         return true;
-+         * Copy 32 bytes from the address in SRC to ADDR.
+     }
-+         *
-+         * From Ross RT625 hyperSPARC manual, section 4.6:
+-    s_mask = arg_info(op->args[1])->s_mask;
-+         * "Block Copy and Block Fill will work only on cache line boundaries."
+-    z_mask = arg_info(op->args[1])->z_mask;
-+         *
++    t1 = arg_info(op->args[1]);
-+         * It does not specify if an unaliged address is truncated or trapped.
++    t2 = arg_info(op->args[2]);
-+         * Previous qemu behaviour was to truncate to 4 byte alignment, which
++    s_mask = t1->s_mask;
-+         * is obviously wrong.  The only place I can see this used is in the
++    z_mask = t1->z_mask;
-+         * Linux kernel which begins with page alignment, advancing by 32,
-+         * so is always aligned.  Assume truncation as the simpler option.
+-    if (arg_is_const(op->args[2])) {
-+         *
+-        int sh = arg_info(op->args[2])->val;
-+         * Since the loads and stores are paired, allow the copy to happen
+-
-+         * in the host endianness.  The copy need not be atomic.
+-        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
-+         */
++    if (ti_is_const(t2)) {
-         {
++        int sh = ti_const_val(t2);
-+            MemOp mop = MO_128 | MO_ATOM_IFALIGN_PAIR;
-             TCGv saddr = tcg_temp_new();
++        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
-             TCGv daddr = tcg_temp_new();
+         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
--            TCGv four = tcg_constant_tl(4);
--            TCGv_i32 tmp = tcg_temp_new_i32();
+-        return fold_masks(ctx, op);
--            int i;
++        return fold_masks_zs(ctx, op, z_mask, s_mask);
-+            TCGv_i128 tmp = tcg_temp_new_i128();
+     }
--            tcg_gen_andi_tl(saddr, src, -4);
+     switch (op->opc) {
--            tcg_gen_andi_tl(daddr, addr, -4);
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
--            for (i = 0; i < 32; i += 4) {
+          * Arithmetic right shift will not reduce the number of
--                /* Since the loads and stores are paired, allow the
+          * input sign repetitions.
--                   copy to happen in the host endianness.  */
+          */
--                tcg_gen_qemu_ld_i32(tmp, saddr, da->mem_idx, MO_UL);
+-        ctx->s_mask = s_mask;
--                tcg_gen_qemu_st_i32(tmp, daddr, da->mem_idx, MO_UL);
+-        break;
--                tcg_gen_add_tl(saddr, saddr, four);
++        return fold_masks_s(ctx, op, s_mask);
--                tcg_gen_add_tl(daddr, daddr, four);
+     CASE_OP_32_64(shr):
--            }
+         /*
-+            tcg_gen_andi_tl(saddr, src, -32);
+          * If the sign bit is known zero, then logical right shift
-+            tcg_gen_andi_tl(daddr, addr, -32);
+-         * will not reduced the number of input sign repetitions.
-+            tcg_gen_qemu_ld_i128(tmp, saddr, da->mem_idx, mop);
++         * will not reduce the number of input sign repetitions.
-+            tcg_gen_qemu_st_i128(tmp, daddr, da->mem_idx, mop);
+          */
-+            tcg_gen_addi_tl(saddr, saddr, 16);
+-        sign = (s_mask & -s_mask) >> 1;
-+            tcg_gen_addi_tl(daddr, daddr, 16);
++        sign = -s_mask;
-+            tcg_gen_qemu_ld_i128(tmp, saddr, da->mem_idx, mop);
+         if (sign && !(z_mask & sign)) {
-+            tcg_gen_qemu_st_i128(tmp, daddr, da->mem_idx, mop);
+-            ctx->s_mask = s_mask;
 +            return fold_masks_s(ctx, op, s_mask);
          }
          break;
+     default:
          break;
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
  static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 37/57] target/sparc: Use tcg_gen_qemu_{ld, st}_i128 for ASI_M_BFILL
+[PULL 44/72] tcg/optimize: Simplify sign bit test in fold_shift
-Align the operation to the 32-byte cacheline.
+Merge the two conditions, sign != 0 && !(z_mask & sign),
-Use 2 i128 instead of 4 i64.
+by testing ~z_mask & sign.   If sign == 0, the logical and
 will produce false.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-3-richard.henderson@linaro.org>
 ---
- target/sparc/translate.c | 29 ++++++++++++++---------------
+ tcg/optimize.c | 5 ++---
-file changed, 14 insertions(+), 15 deletions(-)
+file changed, 2 insertions(+), 3 deletions(-)
-diff --git a/target/sparc/translate.c b/target/sparc/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/translate.c
+--- a/tcg/optimize.c
-+++ b/target/sparc/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_stda_asi(DisasContext *dc, DisasASI *da, TCGv addr, int rd)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-     case GET_ASI_BFILL:
+ static bool fold_shift(OptContext *ctx, TCGOp *op)
-         assert(TARGET_LONG_BITS == 32);
+ {
--        /* Store 32 bytes of T64 to ADDR.  */
+-    uint64_t s_mask, z_mask, sign;
--        /* ??? The original qemu code suggests 8-byte alignment, dropping
++    uint64_t s_mask, z_mask;
--           the low bits, but the only place I can see this used is in the
+     TempOptInfo *t1, *t2;
--           Linux kernel with 32 byte alignment, which would make more sense
--           as a cacheline-style operation.  */
+     if (fold_const2(ctx, op) ||
-+        /*
+@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
-+         * Store 32 bytes of [rd:rd+1] to ADDR.
+          * If the sign bit is known zero, then logical right shift
-+         * See comments for GET_ASI_COPY above.
+          * will not reduce the number of input sign repetitions.
-+         */
+          */
-         {
+-        sign = -s_mask;
--            TCGv_i64 t64 = tcg_temp_new_i64();
+-        if (sign && !(z_mask & sign)) {
--            TCGv d_addr = tcg_temp_new();
++        if (~z_mask & -s_mask) {
--            TCGv eight = tcg_constant_tl(8);
+             return fold_masks_s(ctx, op, s_mask);
 -            int i;
 +            MemOp mop = MO_TE | MO_128 | MO_ATOM_IFALIGN_PAIR;
 +            TCGv_i64 t8 = tcg_temp_new_i64();
 +            TCGv_i128 t16 = tcg_temp_new_i128();
 +            TCGv daddr = tcg_temp_new();
 -            tcg_gen_concat_tl_i64(t64, lo, hi);
 -            tcg_gen_andi_tl(d_addr, addr, -8);
 -            for (i = 0; i < 32; i += 8) {
 -                tcg_gen_qemu_st_i64(t64, d_addr, da->mem_idx, da->memop);
 -                tcg_gen_add_tl(d_addr, d_addr, eight);
 -            }
 +            tcg_gen_concat_tl_i64(t8, lo, hi);
 +            tcg_gen_concat_i64_i128(t16, t8, t8);
 +            tcg_gen_andi_tl(daddr, addr, -32);
 +            tcg_gen_qemu_st_i128(t16, daddr, da->mem_idx, mop);
 +            tcg_gen_addi_tl(daddr, daddr, 16);
 +            tcg_gen_qemu_st_i128(t16, daddr, da->mem_idx, mop);
          }
          break;
 --
-.34.1
+.43.0

-[PULL 41/57] target/sparc: Use i128 for FSQRTq
+[PULL 45/72] tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
+Duplicate fold_sub_vec into fold_sub instead of calling it,
+now that fold_sub_vec always returns true.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-7-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     |  2 +-
+ tcg/optimize.c | 9 ++++++---
- target/sparc/fop_helper.c | 26 ++++++++++++++++++++++++--
+file changed, 6 insertions(+), 3 deletions(-)
  target/sparc/translate.c  | 12 +++++++-----
 files changed, 32 insertions(+), 8 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/helper.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, tl, env, f32, f32)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
- DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, tl, env, f64, f64)
+         fold_sub_to_neg(ctx, op)) {
  DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, tl, env, f32, f32)
  DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_1(fsqrtq, TCG_CALL_NO_RWG, void, env)
 +DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_RWG, i128, env, i128)
  DEF_HELPER_FLAGS_1(fcmpq, TCG_CALL_NO_WG, tl, env)
  DEF_HELPER_FLAGS_1(fcmpeq, TCG_CALL_NO_WG, tl, env)
  #ifdef TARGET_SPARC64
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@
  #define QT0 (env->qt0)
  #define QT1 (env->qt1)
 +static inline float128 f128_in(Int128 i)
 +{
 +    union {
 +        Int128 i;
 +        float128 f;
 +    } u;
 +
 +    u.i = i;
 +    return u.f;
 +}
 +
 +static inline Int128 f128_ret(float128 f)
 +{
 +    union {
 +        Int128 i;
 +        float128 f;
 +    } u;
 +
 +    u.f = f;
 +    return u.i;
 +}
 +
  static target_ulong do_check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
  {
      target_ulong status = get_float_exception_flags(&env->fp_status);
@@ -XXX,XX +XXX,XX @@ float64 helper_fsqrtd(CPUSPARCState *env, float64 src)
      return float64_sqrt(src, &env->fp_status);
  }
 -void helper_fsqrtq(CPUSPARCState *env)
 +Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
  {
 -    QT0 = float128_sqrt(QT1, &env->fp_status);
 +    return f128_ret(float128_sqrt(f128_in(src), &env->fp_status));
  }
  #define GEN_FCMP(name, size, reg1, reg2, FS, E)                         \
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ TRANS(FNEGq, 64, do_qq, a, gen_op_fnegq)
  TRANS(FABSq, 64, do_qq, a, gen_op_fabsq)
  static bool do_env_qq(DisasContext *dc, arg_r_r *a,
 -                       void (*func)(TCGv_env))
 +                      void (*func)(TCGv_i128, TCGv_env, TCGv_i128))
  {
 +    TCGv_i128 t;
 +
      if (gen_trap_ifnofpu(dc)) {
          return true;
      }
-@@ -XXX,XX +XXX,XX @@ static bool do_env_qq(DisasContext *dc, arg_r_r *a,
+-    return false;
 +    return finish_folding(ctx, op);
  }
  static bool fold_sub(OptContext *ctx, TCGOp *op)
  {
 -    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
 +    if (fold_const2(ctx, op) ||
 +        fold_xx_to_i(ctx, op, 0) ||
 +        fold_xi_to_x(ctx, op, 0) ||
 +        fold_sub_to_neg(ctx, op)) {
          return true;
      }
-     gen_op_clear_ieee_excp_and_FTT();
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
--    gen_op_load_fpr_QT1(QFPREG(a->rs));
+                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
--    func(tcg_env);
+         op->args[2] = arg_new_constant(ctx, -val);
-+
+     }
-+    t = gen_load_fpr_Q(dc, a->rs);
+-    return false;
-+    func(t, tcg_env, t);
++    return finish_folding(ctx, op);
      gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
 -    gen_op_store_QT0_fpr(QFPREG(a->rd));
 -    gen_update_fprs_dirty(dc, QFPREG(a->rd));
 +    gen_store_fpr_Q(dc, a->rd, t);
      return advance_pc(dc);
  }
+ static bool fold_sub2(OptContext *ctx, TCGOp *op)
 --
-.34.1
+.43.0

-[PULL 05/57] target/arm: Populate CPUClass.mmu_index
+[PULL 46/72] tcg/optimize: Use fold_masks_zs in fold_tcg_ld
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Avoid the use of the OptContext slots.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/cpu.c | 6 ++++++
+ tcg/optimize.c | 16 +++++++++-------
-file changed, 6 insertions(+)
+file changed, 9 insertions(+), 7 deletions(-)
-diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/arm/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool arm_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
-          | CPU_INTERRUPT_EXITTB);
  static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
  {
 +    uint64_t z_mask = -1, s_mask = 0;
 +
      /* We can't do any folding with a load, but we can record bits. */
      switch (op->opc) {
      CASE_OP_32_64(ld8s):
 -        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
 +        s_mask = INT8_MIN;
          break;
      CASE_OP_32_64(ld8u):
 -        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
 +        z_mask = MAKE_64BIT_MASK(0, 8);
          break;
      CASE_OP_32_64(ld16s):
 -        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
 +        s_mask = INT16_MIN;
          break;
      CASE_OP_32_64(ld16u):
 -        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
 +        z_mask = MAKE_64BIT_MASK(0, 16);
          break;
      case INDEX_op_ld32s_i64:
 -        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
 +        s_mask = INT32_MIN;
          break;
      case INDEX_op_ld32u_i64:
 -        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
 +        z_mask = MAKE_64BIT_MASK(0, 32);
          break;
      default:
          g_assert_not_reached();
      }
 -    return false;
 +    return fold_masks_zs(ctx, op, z_mask, s_mask);
  }
-+static int arm_cpu_mmu_index(CPUState *cs, bool ifetch)
+ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
 +{
 +    return arm_env_mmu_index(cpu_env(cs));
 +}
 +
  void arm_register_pre_el_change_hook(ARMCPU *cpu, ARMELChangeHookFn *hook,
                                   void *opaque)
  {
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = arm_cpu_class_by_name;
      cc->has_work = arm_cpu_has_work;
 +    cc->mmu_index = arm_cpu_mmu_index;
      cc->dump_state = arm_cpu_dump_state;
      cc->set_pc = arm_cpu_set_pc;
      cc->get_pc = arm_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 26/57] target/s390x: Split out s390x_env_mmu_index
+[PULL 47/72] tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/s390x/cpu.h            |  4 +++-
+ tcg/optimize.c | 2 +-
- target/s390x/tcg/mem_helper.c | 34 ++++++++++++++++++----------------
+file changed, 1 insertion(+), 1 deletion(-)
 files changed, 21 insertions(+), 17 deletions(-)
-diff --git a/target/s390x/cpu.h b/target/s390x/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/s390x/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/s390x/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_s390_cpu;
+@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
- #define MMU_HOME_IDX            2
+     TCGType type;
- #define MMU_REAL_IDX            3
+     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
--static inline int cpu_mmu_index(CPUS390XState *env, bool ifetch)
+-        return false;
-+static inline int s390x_env_mmu_index(CPUS390XState *env, bool ifetch)
++        return finish_folding(ctx, op);
  {
  #ifdef CONFIG_USER_ONLY
      return MMU_USER_IDX;
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index(CPUS390XState *env, bool ifetch)
  #endif
  }
 +#define cpu_mmu_index s390x_env_mmu_index
 +
  #ifdef CONFIG_TCG
  #include "tcg/tcg_s390x.h"
 diff --git a/target/s390x/tcg/mem_helper.c b/target/s390x/tcg/mem_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/tcg/mem_helper.c
 +++ b/target/s390x/tcg/mem_helper.c
@@ -XXX,XX +XXX,XX @@ static int mmu_idx_from_as(uint8_t as)
  static uint32_t do_helper_nc(CPUS390XState *env, uint32_t l, uint64_t dest,
                               uint64_t src, uintptr_t ra)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      S390Access srca1, srca2, desta;
      uint32_t i;
      uint8_t c = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(nc)(CPUS390XState *env, uint32_t l, uint64_t dest,
  static uint32_t do_helper_xc(CPUS390XState *env, uint32_t l, uint64_t dest,
                               uint64_t src, uintptr_t ra)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      S390Access srca1, srca2, desta;
      uint32_t i;
      uint8_t c = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(xc)(CPUS390XState *env, uint32_t l, uint64_t dest,
  static uint32_t do_helper_oc(CPUS390XState *env, uint32_t l, uint64_t dest,
                               uint64_t src, uintptr_t ra)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      S390Access srca1, srca2, desta;
      uint32_t i;
      uint8_t c = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(oc)(CPUS390XState *env, uint32_t l, uint64_t dest,
  static uint32_t do_helper_mvc(CPUS390XState *env, uint32_t l, uint64_t dest,
                                uint64_t src, uintptr_t ra)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      S390Access srca, desta;
      uint32_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvc)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  /* move right to left */
  void HELPER(mvcrl)(CPUS390XState *env, uint64_t l, uint64_t dest, uint64_t src)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      const uint64_t ra = GETPC();
      S390Access srca, desta;
      int32_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvcrl)(CPUS390XState *env, uint64_t l, uint64_t dest, uint64_t src)
  /* move inverse  */
  void HELPER(mvcin)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      S390Access srca, desta;
      uintptr_t ra = GETPC();
      int i;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvcin)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  /* move numerics  */
  void HELPER(mvn)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      S390Access srca1, srca2, desta;
      uintptr_t ra = GETPC();
      int i;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvn)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  /* move with offset  */
  void HELPER(mvo)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      /* MVO always processes one more byte than specified - maximum is 16 */
      const int len_dest = (l >> 4) + 1;
      const int len_src = (l & 0xf) + 1;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvo)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  /* move zones  */
  void HELPER(mvz)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      S390Access srca1, srca2, desta;
      uintptr_t ra = GETPC();
      int i;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(clm)(CPUS390XState *env, uint32_t r1, uint32_t mask,
      if (!mask) {
          /* Recognize access exceptions for the first byte */
 -        probe_read(env, addr, 1, cpu_mmu_index(env, false), ra);
 +        probe_read(env, addr, 1, s390x_env_mmu_index(env, false), ra);
      }
-     while (mask) {
+     type = ctx->type;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mvpg)(CPUS390XState *env, uint64_t r0, uint32_t r1, uint32_t r2)
  {
      const uint64_t src = get_address(env, r2) & TARGET_PAGE_MASK;
      const uint64_t dst = get_address(env, r1) & TARGET_PAGE_MASK;
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      const bool f = extract64(r0, 11, 1);
      const bool s = extract64(r0, 10, 1);
      const bool cco = extract64(r0, 8, 1);
@@ -XXX,XX +XXX,XX @@ inject_exc:
  /* string copy */
  uint32_t HELPER(mvst)(CPUS390XState *env, uint32_t r1, uint32_t r2)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      const uint64_t d = get_address(env, r1);
      const uint64_t s = get_address(env, r2);
      const uint8_t c = env->regs[0];
@@ -XXX,XX +XXX,XX @@ static inline uint32_t do_mvcl(CPUS390XState *env,
                                 uint64_t *src, uint64_t *srclen,
                                 uint16_t pad, int wordsize, uintptr_t ra)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      int len = MIN(*destlen, -(*dest | TARGET_PAGE_MASK));
      S390Access srca, desta;
      int i, cc;
@@ -XXX,XX +XXX,XX @@ static inline uint32_t do_mvcl(CPUS390XState *env,
  /* move long */
  uint32_t HELPER(mvcl)(CPUS390XState *env, uint32_t r1, uint32_t r2)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
      uintptr_t ra = GETPC();
      uint64_t destlen = env->regs[r1 + 1] & 0xffffff;
      uint64_t dest = get_address(env, r1);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(trXX)(CPUS390XState *env, uint32_t r1, uint32_t r2,
  static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
                          uint64_t a2, bool parallel)
  {
 -    uint32_t mem_idx = cpu_mmu_index(env, false);
 +    uint32_t mem_idx = s390x_env_mmu_index(env, false);
      MemOpIdx oi16 = make_memop_idx(MO_TE | MO_128, mem_idx);
      MemOpIdx oi8 = make_memop_idx(MO_TE | MO_64, mem_idx);
      MemOpIdx oi4 = make_memop_idx(MO_TE | MO_32, mem_idx);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(cu42)(CPUS390XState *env, uint32_t r1, uint32_t r2, uint32_t m3)
  void probe_write_access(CPUS390XState *env, uint64_t addr, uint64_t len,
                          uintptr_t ra)
  {
 +    const int mmu_idx = s390x_env_mmu_index(env, false);
 +
      /* test the actual access, not just any access to the page due to LAP */
      while (len) {
          const uint64_t pagelen = -(addr | TARGET_PAGE_MASK);
          const uint64_t curlen = MIN(pagelen, len);
 -        probe_write(env, addr, curlen, cpu_mmu_index(env, false), ra);
 +        probe_write(env, addr, curlen, mmu_idx, ra);
          addr = wrap_address(env, addr + curlen);
          len -= curlen;
      }
 --
-.34.1
+.43.0

-[PULL 38/57] target/sparc: Remove gen_dest_fpr_F
+[PULL 48/72] tcg/optimize: Use fold_masks_zs in fold_xor
-Replace with tcg_temp_new_i32.
+Avoid the use of the OptContext slots.  Find TempOptInfo once.
 Remove fold_masks as the function becomes unused.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-4-richard.henderson@linaro.org>
 ---
- target/sparc/translate.c | 17 ++++++-----------
+ tcg/optimize.c | 18 ++++++++----------
-file changed, 6 insertions(+), 11 deletions(-)
+file changed, 8 insertions(+), 10 deletions(-)
-diff --git a/target/sparc/translate.c b/target/sparc/translate.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/translate.c
+--- a/tcg/optimize.c
-+++ b/target/sparc/translate.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static void gen_store_fpr_F(DisasContext *dc, unsigned int dst, TCGv_i32 v)
+@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
-     gen_update_fprs_dirty(dc, dst);
+     return fold_masks_zs(ctx, op, -1, s_mask);
  }
--static TCGv_i32 gen_dest_fpr_F(DisasContext *dc)
+-static bool fold_masks(OptContext *ctx, TCGOp *op)
 -{
--    return tcg_temp_new_i32();
+-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
 -}
 -
- static TCGv_i64 gen_load_fpr_D(DisasContext *dc, unsigned int src)
+ /*
   * An "affected" mask bit is 0 if and only if the result is identical
   * to the first input.  Thus if the entire mask is 0, the operation
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
  static bool fold_xor(OptContext *ctx, TCGOp *op)
  {
-     src = DFPREG(src);
++    uint64_t z_mask, s_mask;
-@@ -XXX,XX +XXX,XX @@ static void gen_ldf_asi(DisasContext *dc, DisasASI *da, MemOp orig_size,
++    TempOptInfo *t1, *t2;
-         memop |= MO_ALIGN_4;
++
-         switch (size) {
+     if (fold_const2_commutative(ctx, op) ||
-         case MO_32:
+         fold_xx_to_i(ctx, op, 0) ||
--            d32 = gen_dest_fpr_F(dc);
+         fold_xi_to_x(ctx, op, 0) ||
-+            d32 = tcg_temp_new_i32();
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
              tcg_gen_qemu_ld_i32(d32, addr, da->mem_idx, memop);
              gen_store_fpr_F(dc, rd, d32);
              break;
@@ -XXX,XX +XXX,XX @@ static void gen_ldf_asi(DisasContext *dc, DisasASI *da, MemOp orig_size,
              case MO_32:
                  d64 = tcg_temp_new_i64();
                  gen_helper_ld_asi(d64, tcg_env, addr, r_asi, r_mop);
 -                d32 = gen_dest_fpr_F(dc);
 +                d32 = tcg_temp_new_i32();
                  tcg_gen_extrl_i64_i32(d32, d64);
                  gen_store_fpr_F(dc, rd, d32);
                  break;
@@ -XXX,XX +XXX,XX @@ static void gen_fmovs(DisasContext *dc, DisasCompare *cmp, int rd, int rs)
      s1 = gen_load_fpr_F(dc, rs);
      s2 = gen_load_fpr_F(dc, rd);
 -    dst = gen_dest_fpr_F(dc);
 +    dst = tcg_temp_new_i32();
      zero = tcg_constant_i32(0);
      tcg_gen_movcond_i32(TCG_COND_NE, dst, c32, zero, s1, s2);
@@ -XXX,XX +XXX,XX @@ static bool do_fd(DisasContext *dc, arg_r_r *a,
          return true;
      }
--    dst = gen_dest_fpr_F(dc);
+-    ctx->z_mask = arg_info(op->args[1])->z_mask
-+    dst = tcg_temp_new_i32();
+-                | arg_info(op->args[2])->z_mask;
-     src = gen_load_fpr_D(dc, a->rs);
+-    ctx->s_mask = arg_info(op->args[1])->s_mask
-     func(dst, src);
+-                & arg_info(op->args[2])->s_mask;
-     gen_store_fpr_F(dc, a->rd, dst);
+-    return fold_masks(ctx, op);
-@@ -XXX,XX +XXX,XX @@ static bool do_env_fd(DisasContext *dc, arg_r_r *a,
++    t1 = arg_info(op->args[1]);
-     }
++    t2 = arg_info(op->args[2]);
++    z_mask = t1->z_mask | t2->z_mask;
-     gen_op_clear_ieee_excp_and_FTT();
++    s_mask = t1->s_mask & t2->s_mask;
--    dst = gen_dest_fpr_F(dc);
++    return fold_masks_zs(ctx, op, z_mask, s_mask);
-+    dst = tcg_temp_new_i32();
+ }
-     src = gen_load_fpr_D(dc, a->rs);
-     func(dst, tcg_env, src);
+ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
      gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
      gen_op_clear_ieee_excp_and_FTT();
      gen_op_load_fpr_QT1(QFPREG(a->rs));
 -    dst = gen_dest_fpr_F(dc);
 +    dst = tcg_temp_new_i32();
      func(dst, tcg_env);
      gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_F(dc, a->rd, dst);
 --
-.34.1
+.43.0

-[PULL 03/57] target/alpha: Populate CPUClass.mmu_index
+[PULL 49/72] tcg/optimize: Use finish_folding in fold_bitsel_vec
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/alpha/cpu.c | 6 ++++++
+ tcg/optimize.c | 2 +-
-file changed, 6 insertions(+)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/alpha/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/alpha/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool alpha_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-                                     | CPU_INTERRUPT_MCHK);
+             return fold_orc(ctx, op);
          }
      }
 -    return false;
 +    return finish_folding(ctx, op);
  }
-+static int alpha_cpu_mmu_index(CPUState *cs, bool ifetch)
+ /* Propagate constants and copies, fold constant expressions. */
 +{
 +    return alpha_env_mmu_index(cpu_env(cs));
 +}
 +
  static void alpha_cpu_disas_set_info(CPUState *cpu, disassemble_info *info)
  {
      info->mach = bfd_mach_alpha_ev6;
@@ -XXX,XX +XXX,XX @@ static void alpha_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = alpha_cpu_class_by_name;
      cc->has_work = alpha_cpu_has_work;
 +    cc->mmu_index = alpha_cpu_mmu_index;
      cc->dump_state = alpha_cpu_dump_state;
      cc->set_pc = alpha_cpu_set_pc;
      cc->get_pc = alpha_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 33/57] include/exec: Change cpu_mmu_index argument to CPUState
+[PULL 50/72] tcg/optimize: Use finish_folding as default in tcg_optimize
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+All non-default cases now finish folding within each function.
 Do the same with the default case and assert it is done after.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/cpu-all.h            |  2 +-
+ tcg/optimize.c | 6 ++----
- include/exec/cpu-common.h         |  3 +--
+file changed, 2 insertions(+), 4 deletions(-)
  target/sparc/cpu.h                |  2 +-
  accel/tcg/cputlb.c                | 22 +++++++++-------
  semihosting/uaccess.c             |  2 +-
  target/cris/translate.c           |  2 +-
  target/hppa/mem_helper.c          |  2 +-
  target/hppa/op_helper.c           |  8 +++---
  target/i386/tcg/translate.c       |  2 +-
  target/loongarch/tcg/tlb_helper.c |  4 +--
  target/m68k/op_helper.c           |  2 +-
  target/microblaze/helper.c        |  3 +--
  target/microblaze/mmu.c           |  2 +-
  target/microblaze/translate.c     |  2 +-
  target/nios2/translate.c          |  2 +-
  target/openrisc/translate.c       |  2 +-
  target/sparc/ldst_helper.c        |  2 +-
  target/sparc/mmu_helper.c         |  2 +-
  target/tricore/helper.c           |  2 +-
  target/tricore/translate.c        |  2 +-
  target/xtensa/mmu_helper.c        |  2 +-
  accel/tcg/ldst_common.c.inc       | 42 ++++++++++++++++++++-----------
 files changed, 65 insertions(+), 49 deletions(-)
-diff --git a/include/exec/cpu-all.h b/include/exec/cpu-all.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/cpu-all.h
+--- a/tcg/optimize.c
-+++ b/include/exec/cpu-all.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ CPUArchState *cpu_copy(CPUArchState *env);
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
- #define TLB_MMIO            (1 << (TARGET_PAGE_BITS_MIN - 2))
+             done = true;
- #define TLB_WATCHPOINT      0
+             break;
+         default:
--static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
++            done = finish_folding(&ctx, op);
-+static inline int cpu_mmu_index(CPUState *cs, bool ifetch)
+             break;
- {
+         }
-     return MMU_USER_IDX;
+-
- }
+-        if (!done) {
-diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
+-            finish_folding(&ctx, op);
-index XXXXXXX..XXXXXXX 100644
+-        }
---- a/include/exec/cpu-common.h
++        tcg_debug_assert(done);
 +++ b/include/exec/cpu-common.h
@@ -XXX,XX +XXX,XX @@ static inline CPUState *env_cpu(CPUArchState *env)
   * The user-only version of this function is inline in cpu-all.h,
   * where it always returns MMU_USER_IDX.
   */
 -static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
 +static inline int cpu_mmu_index(CPUState *cs, bool ifetch)
  {
 -    CPUState *cs = env_cpu(env);
      int ret = cs->cc->mmu_index(cs, ifetch);
      tcg_debug_assert(ret >= 0 && ret < NB_MMU_MODES);
      return ret;
 diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.h
 +++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUSPARCState *env, vaddr *pc,
      uint32_t flags;
      *pc = env->pc;
      *cs_base = env->npc;
 -    flags = cpu_mmu_index(env, false);
 +    flags = cpu_mmu_index(env_cpu(env), false);
  #ifndef CONFIG_USER_ONLY
      if (cpu_supervisor_mode(env)) {
          flags |= TB_FLAG_SUPER;
 diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/cputlb.c
 +++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ tb_page_addr_t get_page_addr_code_hostp(CPUArchState *env, vaddr addr,
      void *p;
      (void)probe_access_internal(env_cpu(env), addr, 1, MMU_INST_FETCH,
 -                                cpu_mmu_index(env, true), false,
 +                                cpu_mmu_index(env_cpu(env), true), false,
                                  &p, &full, 0, false);
      if (p == NULL) {
          return -1;
@@ -XXX,XX +XXX,XX @@ static void do_st16_mmu(CPUState *cpu, vaddr addr, Int128 val,
  uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
  {
 -    MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
 -    return do_ld1_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
 +    CPUState *cs = env_cpu(env);
 +    MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(cs, true));
 +    return do_ld1_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
  }
  uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
  {
 -    MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
 -    return do_ld2_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
 +    CPUState *cs = env_cpu(env);
 +    MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(cs, true));
 +    return do_ld2_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
  }
  uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
  {
 -    MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
 -    return do_ld4_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
 +    CPUState *cs = env_cpu(env);
 +    MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(cs, true));
 +    return do_ld4_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
  }
  uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
  {
 -    MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(env, true));
 -    return do_ld8_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
 +    CPUState *cs = env_cpu(env);
 +    MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(cs, true));
 +    return do_ld8_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
  }
  uint8_t cpu_ldb_code_mmu(CPUArchState *env, abi_ptr addr,
 diff --git a/semihosting/uaccess.c b/semihosting/uaccess.c
 index XXXXXXX..XXXXXXX 100644
 --- a/semihosting/uaccess.c
 +++ b/semihosting/uaccess.c
@@ -XXX,XX +XXX,XX @@ void *uaccess_lock_user(CPUArchState *env, target_ulong addr,
  ssize_t uaccess_strlen_user(CPUArchState *env, target_ulong addr)
  {
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = cpu_mmu_index(env_cpu(env), false);
      size_t len = 0;
      while (1) {
 diff --git a/target/cris/translate.c b/target/cris/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/translate.c
 +++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      dc->cpu = env_archcpu(env);
      dc->ppc = pc_start;
      dc->pc = pc_start;
 -    dc->mem_index = cpu_mmu_index(env, false);
 +    dc->mem_index = cpu_mmu_index(cs, false);
      dc->flags_uptodate = 1;
      dc->flags_x = tb_flags & X_FLAG;
      dc->cc_x_uptodate = 0;
 diff --git a/target/hppa/mem_helper.c b/target/hppa/mem_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/mem_helper.c
 +++ b/target/hppa/mem_helper.c
@@ -XXX,XX +XXX,XX @@ int hppa_artype_for_page(CPUHPPAState *env, target_ulong vaddr)
  void HELPER(diag_btlb)(CPUHPPAState *env)
  {
      unsigned int phys_page, len, slot;
 -    int mmu_idx = cpu_mmu_index(env, 0);
 +    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
      uintptr_t ra = GETPC();
      HPPATLBEntry *btlb;
      uint64_t virt_page;
 diff --git a/target/hppa/op_helper.c b/target/hppa/op_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/op_helper.c
 +++ b/target/hppa/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(tcond)(CPUHPPAState *env, target_ulong cond)
  static void atomic_store_mask32(CPUHPPAState *env, target_ulong addr,
                                  uint32_t val, uint32_t mask, uintptr_t ra)
  {
 -    int mmu_idx = cpu_mmu_index(env, 0);
 +    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
      uint32_t old, new, cmp, *haddr;
      void *vaddr;
@@ -XXX,XX +XXX,XX @@ static void atomic_store_mask64(CPUHPPAState *env, target_ulong addr,
                                  int size, uintptr_t ra)
  {
  #ifdef CONFIG_ATOMIC64
 -    int mmu_idx = cpu_mmu_index(env, 0);
 +    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
      uint64_t old, new, cmp, *haddr;
      void *vaddr;
@@ -XXX,XX +XXX,XX @@ static void do_stby_e(CPUHPPAState *env, target_ulong addr, target_ulong val,
      default:
          /* Nothing is stored, but protection is checked and the
             cacheline is marked dirty.  */
 -        probe_write(env, addr, 0, cpu_mmu_index(env, 0), ra);
 +        probe_write(env, addr, 0, cpu_mmu_index(env_cpu(env), 0), ra);
          break;
      }
  }
-@@ -XXX,XX +XXX,XX @@ static void do_stdby_e(CPUHPPAState *env, target_ulong addr, uint64_t val,
-     default:
-         /* Nothing is stored, but protection is checked and the
-            cacheline is marked dirty.  */
--        probe_write(env, addr, 0, cpu_mmu_index(env, 0), ra);
-+        probe_write(env, addr, 0, cpu_mmu_index(env_cpu(env), 0), ra);
-         break;
-     }
- }
-diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/i386/tcg/translate.c
-+++ b/target/i386/tcg/translate.c
-@@ -XXX,XX +XXX,XX @@ static void i386_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cpu)
-     dc->cc_op_dirty = false;
-     dc->popl_esp_hack = 0;
-     /* select memory access functions */
--    dc->mem_index = cpu_mmu_index(env, false);
-+    dc->mem_index = cpu_mmu_index(cpu, false);
-     dc->cpuid_features = env->features[FEAT_1_EDX];
-     dc->cpuid_ext_features = env->features[FEAT_1_ECX];
-     dc->cpuid_ext2_features = env->features[FEAT_8000_0001_EDX];
-diff --git a/target/loongarch/tcg/tlb_helper.c b/target/loongarch/tcg/tlb_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/loongarch/tcg/tlb_helper.c
-+++ b/target/loongarch/tcg/tlb_helper.c
-@@ -XXX,XX +XXX,XX @@ hwaddr loongarch_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
-     int prot;
-     if (get_physical_address(env, &phys_addr, &prot, addr, MMU_DATA_LOAD,
--                             cpu_mmu_index(env, false)) != 0) {
-+                             cpu_mmu_index(cs, false)) != 0) {
-         return -1;
-     }
-     return phys_addr;
-@@ -XXX,XX +XXX,XX @@ static void invalidate_tlb_entry(CPULoongArchState *env, int index)
-     uint8_t tlb_ps;
-     LoongArchTLB *tlb = &env->tlb[index];
--    int mmu_idx = cpu_mmu_index(env, false);
-+    int mmu_idx = cpu_mmu_index(env_cpu(env), false);
-     uint8_t tlb_v0 = FIELD_EX64(tlb->tlb_entry0, TLBENTRY, V);
-     uint8_t tlb_v1 = FIELD_EX64(tlb->tlb_entry1, TLBENTRY, V);
-     uint64_t tlb_vppn = FIELD_EX64(tlb->tlb_misc, TLB_MISC, VPPN);
-diff --git a/target/m68k/op_helper.c b/target/m68k/op_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/m68k/op_helper.c
-+++ b/target/m68k/op_helper.c
-@@ -XXX,XX +XXX,XX @@ static void do_cas2l(CPUM68KState *env, uint32_t regs, uint32_t a1, uint32_t a2,
-     uint32_t l1, l2;
-     uintptr_t ra = GETPC();
- #if defined(CONFIG_ATOMIC64)
--    int mmu_idx = cpu_mmu_index(env, 0);
-+    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
-     MemOpIdx oi = make_memop_idx(MO_BEUQ, mmu_idx);
- #endif
-diff --git a/target/microblaze/helper.c b/target/microblaze/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/microblaze/helper.c
-+++ b/target/microblaze/helper.c
-@@ -XXX,XX +XXX,XX @@ hwaddr mb_cpu_get_phys_page_attrs_debug(CPUState *cs, vaddr addr,
-                                         MemTxAttrs *attrs)
- {
-     MicroBlazeCPU *cpu = MICROBLAZE_CPU(cs);
--    CPUMBState *env = &cpu->env;
-     target_ulong vaddr, paddr = 0;
-     MicroBlazeMMULookup lu;
--    int mmu_idx = cpu_mmu_index(env, false);
-+    int mmu_idx = cpu_mmu_index(cs, false);
-     unsigned int hit;
-     /* Caller doesn't initialize */
-diff --git a/target/microblaze/mmu.c b/target/microblaze/mmu.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/microblaze/mmu.c
-+++ b/target/microblaze/mmu.c
-@@ -XXX,XX +XXX,XX @@ void mmu_write(CPUMBState *env, bool ext, uint32_t rn, uint32_t v)
-             }
-             hit = mmu_translate(cpu, &lu, v & TLB_EPN_MASK,
--                                0, cpu_mmu_index(env, false));
-+                                0, cpu_mmu_index(env_cpu(env), false));
-             if (hit) {
-                 env->mmu.regs[MMU_R_TLBX] = lu.idx;
-             } else {
-diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/microblaze/translate.c
-+++ b/target/microblaze/translate.c
-@@ -XXX,XX +XXX,XX @@ static void mb_tr_init_disas_context(DisasContextBase *dcb, CPUState *cs)
-     dc->ext_imm = dc->base.tb->cs_base;
-     dc->r0 = NULL;
-     dc->r0_set = false;
--    dc->mem_index = cpu_mmu_index(&cpu->env, false);
-+    dc->mem_index = cpu_mmu_index(cs, false);
-     dc->jmp_cond = dc->tb_flags & D_FLAG ? TCG_COND_ALWAYS : TCG_COND_NEVER;
-     dc->jmp_dest = -1;
-diff --git a/target/nios2/translate.c b/target/nios2/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/nios2/translate.c
-+++ b/target/nios2/translate.c
-@@ -XXX,XX +XXX,XX @@ static void nios2_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
-     Nios2CPU *cpu = env_archcpu(env);
-     int page_insns;
--    dc->mem_idx = cpu_mmu_index(env, false);
-+    dc->mem_idx = cpu_mmu_index(cs, false);
-     dc->cr_state = cpu->cr_state;
-     dc->tb_flags = dc->base.tb->flags;
-     dc->eic_present = cpu->eic_present;
-diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/openrisc/translate.c
-+++ b/target/openrisc/translate.c
-@@ -XXX,XX +XXX,XX @@ static void openrisc_tr_init_disas_context(DisasContextBase *dcb, CPUState *cs)
-     CPUOpenRISCState *env = cpu_env(cs);
-     int bound;
--    dc->mem_idx = cpu_mmu_index(env, false);
-+    dc->mem_idx = cpu_mmu_index(cs, false);
-     dc->tb_flags = dc->base.tb->flags;
-     dc->delayed_branch = (dc->tb_flags & TB_FLAGS_DFLAG) != 0;
-     dc->cpucfgr = env->cpucfgr;
-diff --git a/target/sparc/ldst_helper.c b/target/sparc/ldst_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/ldst_helper.c
-+++ b/target/sparc/ldst_helper.c
-@@ -XXX,XX +XXX,XX @@ uint64_t helper_ld_asi(CPUSPARCState *env, target_ulong addr,
-     case ASI_M_IODIAG:  /* Turbosparc IOTLB Diagnostic */
-         break;
-     case ASI_KERNELTXT: /* Supervisor code access */
--        oi = make_memop_idx(memop, cpu_mmu_index(env, true));
-+        oi = make_memop_idx(memop, cpu_mmu_index(env_cpu(env), true));
-         switch (size) {
-         case 1:
-             ret = cpu_ldb_code_mmu(env, addr, oi, GETPC());
-diff --git a/target/sparc/mmu_helper.c b/target/sparc/mmu_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/mmu_helper.c
-+++ b/target/sparc/mmu_helper.c
-@@ -XXX,XX +XXX,XX @@ hwaddr sparc_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
-     SPARCCPU *cpu = SPARC_CPU(cs);
-     CPUSPARCState *env = &cpu->env;
-     hwaddr phys_addr;
--    int mmu_idx = cpu_mmu_index(env, false);
-+    int mmu_idx = cpu_mmu_index(cs, false);
-     if (cpu_sparc_get_phys_page(env, &phys_addr, addr, 2, mmu_idx) != 0) {
-         if (cpu_sparc_get_phys_page(env, &phys_addr, addr, 0, mmu_idx) != 0) {
-diff --git a/target/tricore/helper.c b/target/tricore/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/tricore/helper.c
-+++ b/target/tricore/helper.c
-@@ -XXX,XX +XXX,XX @@ hwaddr tricore_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
-     TriCoreCPU *cpu = TRICORE_CPU(cs);
-     hwaddr phys_addr;
-     int prot;
--    int mmu_idx = cpu_mmu_index(&cpu->env, false);
-+    int mmu_idx = cpu_mmu_index(cs, false);
-     if (get_physical_address(&cpu->env, &phys_addr, &prot, addr,
-                              MMU_DATA_LOAD, mmu_idx)) {
-diff --git a/target/tricore/translate.c b/target/tricore/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/tricore/translate.c
-+++ b/target/tricore/translate.c
-@@ -XXX,XX +XXX,XX @@ static void tricore_tr_init_disas_context(DisasContextBase *dcbase,
- {
-     DisasContext *ctx = container_of(dcbase, DisasContext, base);
-     CPUTriCoreState *env = cpu_env(cs);
--    ctx->mem_idx = cpu_mmu_index(env, false);
-+    ctx->mem_idx = cpu_mmu_index(cs, false);
-     uint32_t tb_flags = (uint32_t)ctx->base.tb->flags;
-     ctx->priv = FIELD_EX32(tb_flags, TB_FLAGS, PRIV);
-diff --git a/target/xtensa/mmu_helper.c b/target/xtensa/mmu_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/xtensa/mmu_helper.c
-+++ b/target/xtensa/mmu_helper.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(itlb_hit_test)(CPUXtensaState *env, uint32_t vaddr)
-      * only the side-effects (ie any MMU or other exception)
-      */
-     probe_access(env, vaddr, 1, MMU_INST_FETCH,
--                 cpu_mmu_index(env, true), GETPC());
-+                 cpu_mmu_index(env_cpu(env), true), GETPC());
- }
- void HELPER(wsr_rasid)(CPUXtensaState *env, uint32_t v)
-diff --git a/accel/tcg/ldst_common.c.inc b/accel/tcg/ldst_common.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/accel/tcg/ldst_common.c.inc
-+++ b/accel/tcg/ldst_common.c.inc
-@@ -XXX,XX +XXX,XX @@ void cpu_stq_le_mmuidx_ra(CPUArchState *env, abi_ptr addr, uint64_t val,
- uint32_t cpu_ldub_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- {
--    return cpu_ldub_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    return cpu_ldub_mmuidx_ra(env, addr, mmu_index, ra);
- }
- int cpu_ldsb_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
-@@ -XXX,XX +XXX,XX @@ int cpu_ldsb_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- uint32_t cpu_lduw_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- {
--    return cpu_lduw_be_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    return cpu_lduw_be_mmuidx_ra(env, addr, mmu_index, ra);
- }
- int cpu_ldsw_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
-@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- uint32_t cpu_ldl_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- {
--    return cpu_ldl_be_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    return cpu_ldl_be_mmuidx_ra(env, addr, mmu_index, ra);
- }
- uint64_t cpu_ldq_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- {
--    return cpu_ldq_be_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    return cpu_ldq_be_mmuidx_ra(env, addr, mmu_index, ra);
- }
- uint32_t cpu_lduw_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- {
--    return cpu_lduw_le_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    return cpu_lduw_le_mmuidx_ra(env, addr, mmu_index, ra);
- }
- int cpu_ldsw_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
-@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- uint32_t cpu_ldl_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- {
--    return cpu_ldl_le_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    return cpu_ldl_le_mmuidx_ra(env, addr, mmu_index, ra);
- }
- uint64_t cpu_ldq_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
- {
--    return cpu_ldq_le_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    return cpu_ldq_le_mmuidx_ra(env, addr, mmu_index, ra);
- }
- void cpu_stb_data_ra(CPUArchState *env, abi_ptr addr,
-                      uint32_t val, uintptr_t ra)
- {
--    cpu_stb_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    cpu_stb_mmuidx_ra(env, addr, val, mmu_index, ra);
- }
- void cpu_stw_be_data_ra(CPUArchState *env, abi_ptr addr,
-                         uint32_t val, uintptr_t ra)
- {
--    cpu_stw_be_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    cpu_stw_be_mmuidx_ra(env, addr, val, mmu_index, ra);
- }
- void cpu_stl_be_data_ra(CPUArchState *env, abi_ptr addr,
-                         uint32_t val, uintptr_t ra)
- {
--    cpu_stl_be_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    cpu_stl_be_mmuidx_ra(env, addr, val, mmu_index, ra);
- }
- void cpu_stq_be_data_ra(CPUArchState *env, abi_ptr addr,
-                         uint64_t val, uintptr_t ra)
- {
--    cpu_stq_be_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    cpu_stq_be_mmuidx_ra(env, addr, val, mmu_index, ra);
- }
- void cpu_stw_le_data_ra(CPUArchState *env, abi_ptr addr,
-                         uint32_t val, uintptr_t ra)
- {
--    cpu_stw_le_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    cpu_stw_le_mmuidx_ra(env, addr, val, mmu_index, ra);
- }
- void cpu_stl_le_data_ra(CPUArchState *env, abi_ptr addr,
-                         uint32_t val, uintptr_t ra)
- {
--    cpu_stl_le_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    cpu_stl_le_mmuidx_ra(env, addr, val, mmu_index, ra);
- }
- void cpu_stq_le_data_ra(CPUArchState *env, abi_ptr addr,
-                         uint64_t val, uintptr_t ra)
- {
--    cpu_stq_le_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
-+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
-+    cpu_stq_le_mmuidx_ra(env, addr, val, mmu_index, ra);
- }
- /*--------------------------*/
 --
-.34.1
+.43.0

-New patch
+[PULL 51/72] tcg/optimize: Remove z_mask, s_mask from OptContext
+All mask setting is now done with parameters via fold_masks_*.
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ tcg/optimize.c | 13 -------------
+file changed, 13 deletions(-)
+diff --git a/tcg/optimize.c b/tcg/optimize.c
+index XXXXXXX..XXXXXXX 100644
+--- a/tcg/optimize.c
++++ b/tcg/optimize.c
+@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
+     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
+     /* In flight values from optimization. */
+-    uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
+-    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
+     TCGType type;
+ } OptContext;
+@@ -XXX,XX +XXX,XX @@ static bool finish_folding(OptContext *ctx, TCGOp *op)
+     for (i = 0; i < nb_oargs; i++) {
+         TCGTemp *ts = arg_temp(op->args[i]);
+         reset_ts(ctx, ts);
+-        /*
+-         * Save the corresponding known-zero/sign bits mask for the
+-         * first output argument (only one supported so far).
+-         */
+-        if (i == 0) {
+-            ts_info(ts)->z_mask = ctx->z_mask;
+-        }
+     }
+     return true;
+ }
+@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
+             ctx.type = TCG_TYPE_I32;
+         }
+-        /* Assume all bits affected, no bits known zero, no sign reps. */
+-        ctx.z_mask = -1;
+-        ctx.s_mask = 0;
+-
+         /*
+          * Process each opcode.
+          * Sorted alphabetically by opcode as much as possible.
+--
+.43.0

-[PULL 53/57] target/sparc: Merge check_ieee_exceptions with FPop helpers
+[PULL 52/72] tcg/optimize: Re-enable sign-mask optimizations
-If an exception is to be raised, the destination fp register
+All instances of s_mask have been converted to the new
-should be unmodified.  The current implementation is incorrect,
+representation.  We can now re-enable usage.
 in that double results will be written back before calling
 gen_helper_check_ieee_exceptions, despite the placement of
 gen_store_fpr_D, since gen_dest_fpr_D returns cpu_fpr[].
-We can simplify the entire implementation by having each
+Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
-FPOp helper call check_ieee_exceptions.  For the moment this
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-requires that all FPop helpers write to the TCG global cpu_fsr,
+---
-so remove TCG_CALL_NO_WG from the DEF_HELPER_FLAGS_*.
+ tcg/optimize.c | 4 ++--
 file changed, 2 insertions(+), 2 deletions(-)
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
 Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
 Message-Id: <20231103173841.33651-19-richard.henderson@linaro.org>
 ---
  target/sparc/helper.h     | 119 +++++++++++----------
  target/sparc/fop_helper.c | 215 ++++++++++++++++++++++++++++----------
  target/sparc/translate.c  |  14 ---
 files changed, 219 insertions(+), 129 deletions(-)
 diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/tcg/optimize.c
-+++ b/target/sparc/helper.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(tsubcctv, tl, env, tl, tl)
+@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
- DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
+         g_assert_not_reached();
  DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
  #endif
 -DEF_HELPER_FLAGS_1(check_ieee_exceptions, TCG_CALL_NO_WG, tl, env)
  DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
  DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
 -DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_RWG, f32, env, f32)
 -DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_RWG, f64, env, f64)
 -DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_RWG, i128, env, i128)
 -DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_2(fsqrts, 0, f32, env, f32)
 +DEF_HELPER_FLAGS_2(fsqrtd, 0, f64, env, f64)
 +DEF_HELPER_FLAGS_2(fsqrtq, 0, i128, env, i128)
 +DEF_HELPER_FLAGS_3(fcmps, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpd, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpes, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmped, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpq, 0, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq, 0, tl, env, i128, i128)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc1, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc2, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc3, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc1, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc2, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc1, TCG_CALL_NO_WG, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc2, TCG_CALL_NO_WG, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc3, TCG_CALL_NO_WG, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc1, TCG_CALL_NO_WG, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc2, TCG_CALL_NO_WG, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc3, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmps_fcc1, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmps_fcc2, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmps_fcc3, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpd_fcc1, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpd_fcc2, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpd_fcc3, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpes_fcc1, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpes_fcc2, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpes_fcc3, 0, tl, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmped_fcc1, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmped_fcc2, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmped_fcc3, 0, tl, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc1, 0, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc2, 0, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc3, 0, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc1, 0, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc2, 0, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc3, 0, tl, env, i128, i128)
  #endif
  DEF_HELPER_2(raise_exception, noreturn, env, int)
 -DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_RWG, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_RWG, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_RWG, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_RWG, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(faddd, 0, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fsubd, 0, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fmuld, 0, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fdivd, 0, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(faddq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fsubq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fmulq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fdivq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(faddq, 0, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fsubq, 0, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fmulq, 0, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fdivq, 0, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_RWG, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_RWG, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_RWG, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_RWG, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fadds, 0, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fsubs, 0, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fmuls, 0, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fdivs, 0, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, i128, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fsmuld, 0, f64, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fdmulq, 0, i128, env, f64, f64)
 -DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
 -DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, i128, env, s32)
 +DEF_HELPER_FLAGS_2(fitod, 0, f64, env, s32)
 +DEF_HELPER_FLAGS_2(fitoq, 0, i128, env, s32)
 -DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
 +DEF_HELPER_FLAGS_2(fitos, 0, f32, env, s32)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_RWG, f32, env, s64)
 -DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_RWG, f64, env, s64)
 -DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, i128, env, s64)
 +DEF_HELPER_FLAGS_2(fxtos, 0, f32, env, s64)
 +DEF_HELPER_FLAGS_2(fxtod, 0, f64, env, s64)
 +DEF_HELPER_FLAGS_2(fxtoq, 0, i128, env, s64)
  #endif
 -DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
 -DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
 -DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
 -DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, i128, env, f32)
 -DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_RWG, f64, env, i128)
 -DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, i128, env, f64)
 -DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
 -DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_RWG, s32, env, f64)
 -DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_RWG, s32, env, i128)
 +DEF_HELPER_FLAGS_2(fdtos, 0, f32, env, f64)
 +DEF_HELPER_FLAGS_2(fstod, 0, f64, env, f32)
 +DEF_HELPER_FLAGS_2(fqtos, 0, f32, env, i128)
 +DEF_HELPER_FLAGS_2(fstoq, 0, i128, env, f32)
 +DEF_HELPER_FLAGS_2(fqtod, 0, f64, env, i128)
 +DEF_HELPER_FLAGS_2(fdtoq, 0, i128, env, f64)
 +DEF_HELPER_FLAGS_2(fstoi, 0, s32, env, f32)
 +DEF_HELPER_FLAGS_2(fdtoi, 0, s32, env, f64)
 +DEF_HELPER_FLAGS_2(fqtoi, 0, s32, env, i128)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_2(fstox, TCG_CALL_NO_RWG, s64, env, f32)
 -DEF_HELPER_FLAGS_2(fdtox, TCG_CALL_NO_RWG, s64, env, f64)
 -DEF_HELPER_FLAGS_2(fqtox, TCG_CALL_NO_RWG, s64, env, i128)
 +DEF_HELPER_FLAGS_2(fstox, 0, s64, env, f32)
 +DEF_HELPER_FLAGS_2(fdtox, 0, s64, env, f64)
 +DEF_HELPER_FLAGS_2(fqtox, 0, s64, env, i128)
  DEF_HELPER_FLAGS_2(fpmerge, TCG_CALL_NO_RWG_SE, i64, i64, i64)
  DEF_HELPER_FLAGS_2(fmul8x16, TCG_CALL_NO_RWG_SE, i64, i64, i64)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ static inline Int128 f128_ret(float128 f)
      return u.i;
  }
 -static target_ulong do_check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
 +static void check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
  {
      target_ulong status = get_float_exception_flags(&env->fp_status);
      target_ulong fsr = env->fsr;
@@ -XXX,XX +XXX,XX @@ static target_ulong do_check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
          }
      }
--    return fsr;
+-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
-+    env->fsr = fsr;
++    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
  }
 -target_ulong helper_check_ieee_exceptions(CPUSPARCState *env)
 +float32 helper_fadds(CPUSPARCState *env, float32 src1, float32 src2)
  {
 -    return do_check_ieee_exceptions(env, GETPC());
 +    float32 ret = float32_add(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
 -#define F_BINOP(name)                                                \
 -    float32 helper_f ## name ## s (CPUSPARCState *env, float32 src1, \
 -                                   float32 src2)                     \
 -    {                                                                \
 -        return float32_ ## name (src1, src2, &env->fp_status);       \
 -    }                                                                \
 -    float64 helper_f ## name ## d (CPUSPARCState * env, float64 src1,\
 -                                   float64 src2)                     \
 -    {                                                                \
 -        return float64_ ## name (src1, src2, &env->fp_status);       \
 -    }                                                                \
 -    Int128 helper_f ## name ## q(CPUSPARCState * env, Int128 src1,   \
 -                                 Int128 src2)                        \
 -    {                                                                \
 -        return f128_ret(float128_ ## name (f128_in(src1), f128_in(src2), \
 -                                           &env->fp_status));        \
 -    }
 +float32 helper_fsubs(CPUSPARCState *env, float32 src1, float32 src2)
 +{
 +    float32 ret = float32_sub(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
 +}
 -F_BINOP(add);
 -F_BINOP(sub);
 -F_BINOP(mul);
 -F_BINOP(div);
 -#undef F_BINOP
 +float32 helper_fmuls(CPUSPARCState *env, float32 src1, float32 src2)
 +{
 +    float32 ret = float32_mul(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
 +}
 +
 +float32 helper_fdivs(CPUSPARCState *env, float32 src1, float32 src2)
 +{
 +    float32 ret = float32_div(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
 +}
 +
 +float64 helper_faddd(CPUSPARCState *env, float64 src1, float64 src2)
 +{
 +    float64 ret = float64_add(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
 +}
 +
 +float64 helper_fsubd(CPUSPARCState *env, float64 src1, float64 src2)
 +{
 +    float64 ret = float64_sub(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
 +}
 +
 +float64 helper_fmuld(CPUSPARCState *env, float64 src1, float64 src2)
 +{
 +    float64 ret = float64_mul(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
 +}
 +
 +float64 helper_fdivd(CPUSPARCState *env, float64 src1, float64 src2)
 +{
 +    float64 ret = float64_div(src1, src2, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
 +}
 +
 +Int128 helper_faddq(CPUSPARCState *env, Int128 src1, Int128 src2)
 +{
 +    float128 ret = float128_add(f128_in(src1), f128_in(src2), &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
 +}
 +
 +Int128 helper_fsubq(CPUSPARCState *env, Int128 src1, Int128 src2)
 +{
 +    float128 ret = float128_sub(f128_in(src1), f128_in(src2), &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
 +}
 +
 +Int128 helper_fmulq(CPUSPARCState *env, Int128 src1, Int128 src2)
 +{
 +    float128 ret = float128_mul(f128_in(src1), f128_in(src2), &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
 +}
 +
 +Int128 helper_fdivq(CPUSPARCState *env, Int128 src1, Int128 src2)
 +{
 +    float128 ret = float128_div(f128_in(src1), f128_in(src2), &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
 +}
  float64 helper_fsmuld(CPUSPARCState *env, float32 src1, float32 src2)
  {
 -    return float64_mul(float32_to_float64(src1, &env->fp_status),
 -                       float32_to_float64(src2, &env->fp_status),
 -                       &env->fp_status);
 +    float64 ret = float64_mul(float32_to_float64(src1, &env->fp_status),
 +                              float32_to_float64(src2, &env->fp_status),
 +                              &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  Int128 helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
  {
 -    return f128_ret(float128_mul(float64_to_float128(src1, &env->fp_status),
 -                                 float64_to_float128(src2, &env->fp_status),
 -                                 &env->fp_status));
 +    float128 ret = float128_mul(float64_to_float128(src1, &env->fp_status),
 +                                float64_to_float128(src2, &env->fp_status),
 +                                &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
  }
  /* Integer to float conversion.  */
  float32 helper_fitos(CPUSPARCState *env, int32_t src)
  {
 -    return int32_to_float32(src, &env->fp_status);
 +    float32 ret = int32_to_float32(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  float64 helper_fitod(CPUSPARCState *env, int32_t src)
  {
 -    return int32_to_float64(src, &env->fp_status);
 +    float64 ret = int32_to_float64(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  Int128 helper_fitoq(CPUSPARCState *env, int32_t src)
  {
 -    return f128_ret(int32_to_float128(src, &env->fp_status));
 +    float128 ret = int32_to_float128(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
  }
  #ifdef TARGET_SPARC64
  float32 helper_fxtos(CPUSPARCState *env, int64_t src)
  {
 -    return int64_to_float32(src, &env->fp_status);
 +    float32 ret = int64_to_float32(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  float64 helper_fxtod(CPUSPARCState *env, int64_t src)
  {
 -    return int64_to_float64(src, &env->fp_status);
 +    float64 ret = int64_to_float64(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  Int128 helper_fxtoq(CPUSPARCState *env, int64_t src)
  {
 -    return f128_ret(int64_to_float128(src, &env->fp_status));
 +    float128 ret = int64_to_float128(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
  }
  #endif
  /* floating point conversion */
  float32 helper_fdtos(CPUSPARCState *env, float64 src)
  {
 -    return float64_to_float32(src, &env->fp_status);
 +    float32 ret = float64_to_float32(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  float64 helper_fstod(CPUSPARCState *env, float32 src)
  {
 -    return float32_to_float64(src, &env->fp_status);
 +    float64 ret = float32_to_float64(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  float32 helper_fqtos(CPUSPARCState *env, Int128 src)
  {
 -    return float128_to_float32(f128_in(src), &env->fp_status);
 +    float32 ret = float128_to_float32(f128_in(src), &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  Int128 helper_fstoq(CPUSPARCState *env, float32 src)
  {
 -    return f128_ret(float32_to_float128(src, &env->fp_status));
 +    float128 ret = float32_to_float128(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
  }
  float64 helper_fqtod(CPUSPARCState *env, Int128 src)
  {
 -    return float128_to_float64(f128_in(src), &env->fp_status);
 +    float64 ret = float128_to_float64(f128_in(src), &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  Int128 helper_fdtoq(CPUSPARCState *env, float64 src)
  {
 -    return f128_ret(float64_to_float128(src, &env->fp_status));
 +    float128 ret = float64_to_float128(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
  }
  /* Float to integer conversion.  */
  int32_t helper_fstoi(CPUSPARCState *env, float32 src)
  {
 -    return float32_to_int32_round_to_zero(src, &env->fp_status);
 +    int32_t ret = float32_to_int32_round_to_zero(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  int32_t helper_fdtoi(CPUSPARCState *env, float64 src)
  {
 -    return float64_to_int32_round_to_zero(src, &env->fp_status);
 +    int32_t ret = float64_to_int32_round_to_zero(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  int32_t helper_fqtoi(CPUSPARCState *env, Int128 src)
  {
 -    return float128_to_int32_round_to_zero(f128_in(src), &env->fp_status);
 +    int32_t ret = float128_to_int32_round_to_zero(f128_in(src),
 +                                                  &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  #ifdef TARGET_SPARC64
  int64_t helper_fstox(CPUSPARCState *env, float32 src)
  {
 -    return float32_to_int64_round_to_zero(src, &env->fp_status);
 +    int64_t ret = float32_to_int64_round_to_zero(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  int64_t helper_fdtox(CPUSPARCState *env, float64 src)
  {
 -    return float64_to_int64_round_to_zero(src, &env->fp_status);
 +    int64_t ret = float64_to_int64_round_to_zero(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  int64_t helper_fqtox(CPUSPARCState *env, Int128 src)
  {
 -    return float128_to_int64_round_to_zero(f128_in(src), &env->fp_status);
 +    int64_t ret = float128_to_int64_round_to_zero(f128_in(src),
 +                                                  &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  #endif
  float32 helper_fsqrts(CPUSPARCState *env, float32 src)
  {
 -    return float32_sqrt(src, &env->fp_status);
 +    float32 ret = float32_sqrt(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  float64 helper_fsqrtd(CPUSPARCState *env, float64 src)
  {
 -    return float64_sqrt(src, &env->fp_status);
 +    float64 ret = float64_sqrt(src, &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return ret;
  }
  Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
  {
 -    return f128_ret(float128_sqrt(f128_in(src), &env->fp_status));
 +    float128 ret = float128_sqrt(f128_in(src), &env->fp_status);
 +    check_ieee_exceptions(env, GETPC());
 +    return f128_ret(ret);
  }
  #define GEN_FCMP(name, size, FS, E)                                     \
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
              ret = glue(size, _compare_quiet)(reg1, reg2,                \
                                               &env->fp_status);          \
          }                                                               \
 -        fsr = do_check_ieee_exceptions(env, GETPC());                   \
 +        check_ieee_exceptions(env, GETPC());                            \
 +        fsr = env->fsr;                                                 \
          switch (ret) {                                                  \
          case float_relation_unordered:                                  \
              fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
              ret = glue(size, _compare_quiet)(src1, src2,                \
                                               &env->fp_status);          \
          }                                                               \
 -        fsr = do_check_ieee_exceptions(env, GETPC());                   \
 +        check_ieee_exceptions(env, GETPC());                            \
 +        fsr = env->fsr;                                                 \
          switch (ret) {                                                  \
          case float_relation_unordered:                                  \
              fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_env_ff(DisasContext *dc, arg_r_r *a,
      tmp = gen_load_fpr_F(dc, a->rs);
      func(tmp, tcg_env, tmp);
 -    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_F(dc, a->rd, tmp);
      return advance_pc(dc);
  }
@@ -XXX,XX +XXX,XX @@ static bool do_env_fd(DisasContext *dc, arg_r_r *a,
      dst = tcg_temp_new_i32();
      src = gen_load_fpr_D(dc, a->rs);
      func(dst, tcg_env, src);
 -    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_F(dc, a->rd, dst);
      return advance_pc(dc);
  }
@@ -XXX,XX +XXX,XX @@ static bool do_env_dd(DisasContext *dc, arg_r_r *a,
      dst = gen_dest_fpr_D(dc, a->rd);
      src = gen_load_fpr_D(dc, a->rs);
      func(dst, tcg_env, src);
 -    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_D(dc, a->rd, dst);
      return advance_pc(dc);
  }
@@ -XXX,XX +XXX,XX @@ static bool do_env_df(DisasContext *dc, arg_r_r *a,
      dst = gen_dest_fpr_D(dc, a->rd);
      src = gen_load_fpr_F(dc, a->rs);
      func(dst, tcg_env, src);
 -    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_D(dc, a->rd, dst);
      return advance_pc(dc);
  }
@@ -XXX,XX +XXX,XX @@ static bool do_env_qq(DisasContext *dc, arg_r_r *a,
      t = gen_load_fpr_Q(dc, a->rs);
      func(t, tcg_env, t);
 -    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_Q(dc, a->rd, t);
      return advance_pc(dc);
  }
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
      src = gen_load_fpr_Q(dc, a->rs);
      dst = tcg_temp_new_i32();
      func(dst, tcg_env, src);
 -    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_F(dc, a->rd, dst);
      return advance_pc(dc);
  }
@@ -XXX,XX +XXX,XX @@ static bool do_env_dq(DisasContext *dc, arg_r_r *a,
      src = gen_load_fpr_Q(dc, a->rs);
      dst = gen_dest_fpr_D(dc, a->rd);
      func(dst, tcg_env, src);
 -    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
      gen_store_fpr_D(dc, a->rd, dst);
      return advance_pc(dc);
  }
@@ -XXX,XX +XXX,XX @@ static bool do_env_qf(DisasContext *dc, arg_r_r *a,
          return true;
      }
--    gen_op_clear_ieee_excp_and_FTT();
+@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
-     src = gen_load_fpr_F(dc, a->rs);
+     s_mask = s_mask_old >> pos;
-     dst = tcg_temp_new_i128();
+     s_mask |= -1ull << (len - 1);
-     func(dst, tcg_env, src);
-@@ -XXX,XX +XXX,XX @@ static bool do_env_qd(DisasContext *dc, arg_r_r *a,
+-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
 +    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
          return true;
      }
--    gen_op_clear_ieee_excp_and_FTT();
-     src = gen_load_fpr_D(dc, a->rs);
-     dst = tcg_temp_new_i128();
-     func(dst, tcg_env, src);
-@@ -XXX,XX +XXX,XX @@ static bool do_env_fff(DisasContext *dc, arg_r_r_r *a,
-     src1 = gen_load_fpr_F(dc, a->rs1);
-     src2 = gen_load_fpr_F(dc, a->rs2);
-     func(src1, tcg_env, src1, src2);
--    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
-     gen_store_fpr_F(dc, a->rd, src1);
-     return advance_pc(dc);
- }
-@@ -XXX,XX +XXX,XX @@ static bool do_env_ddd(DisasContext *dc, arg_r_r_r *a,
-     src1 = gen_load_fpr_D(dc, a->rs1);
-     src2 = gen_load_fpr_D(dc, a->rs2);
-     func(dst, tcg_env, src1, src2);
--    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
-     gen_store_fpr_D(dc, a->rd, dst);
-     return advance_pc(dc);
- }
-@@ -XXX,XX +XXX,XX @@ static bool trans_FsMULd(DisasContext *dc, arg_r_r_r *a)
-     src1 = gen_load_fpr_F(dc, a->rs1);
-     src2 = gen_load_fpr_F(dc, a->rs2);
-     gen_helper_fsmuld(dst, tcg_env, src1, src2);
--    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
-     gen_store_fpr_D(dc, a->rd, dst);
-     return advance_pc(dc);
- }
-@@ -XXX,XX +XXX,XX @@ static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
-     src1 = gen_load_fpr_Q(dc, a->rs1);
-     src2 = gen_load_fpr_Q(dc, a->rs2);
-     func(src1, tcg_env, src1, src2);
--    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
-     gen_store_fpr_Q(dc, a->rd, src1);
-     return advance_pc(dc);
- }
-@@ -XXX,XX +XXX,XX @@ static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
-     src2 = gen_load_fpr_D(dc, a->rs2);
-     dst = tcg_temp_new_i128();
-     gen_helper_fdmulq(dst, tcg_env, src1, src2);
--    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
-     gen_store_fpr_Q(dc, a->rd, dst);
-     return advance_pc(dc);
- }
 --
-.34.1
+.43.0

-[PULL 28/57] target/sh4: Populate CPUClass.mmu_index
+[PULL 53/72] tcg/optimize: Move fold_bitsel_vec into alphabetic sort
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+The big comment just above says functions should be sorted.
 Add forward declarations as needed.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/sh4/cpu.h | 16 ++++++----------
+ tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
- target/sh4/cpu.c | 16 ++++++++++++++++
+file changed, 59 insertions(+), 55 deletions(-)
 files changed, 22 insertions(+), 10 deletions(-)
-diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sh4/cpu.h
+--- a/tcg/optimize.c
-+++ b/target/sh4/cpu.h
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ void cpu_load_tlb(CPUSH4State * env);
+@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
+  *   3) those that produce information about the result value.
- /* MMU modes definitions */
+  */
- #define MMU_USER_IDX 1
--static inline int cpu_mmu_index (CPUSH4State *env, bool ifetch)
++static bool fold_or(OptContext *ctx, TCGOp *op);
--{
++static bool fold_orc(OptContext *ctx, TCGOp *op);
--    /* The instruction in a RTE delay slot is fetched in privileged
++static bool fold_xor(OptContext *ctx, TCGOp *op);
--       mode, but executed in user mode.  */
++
--    if (ifetch && (env->flags & TB_FLAG_DELAY_SLOT_RTE)) {
+ static bool fold_add(OptContext *ctx, TCGOp *op)
--        return 0;
+ {
--    } else {
+     if (fold_const2_commutative(ctx, op) ||
--        return (env->sr & (1u << SR_MD)) == 0 ? 1 : 0;
+@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
--    }
+     return fold_masks_zs(ctx, op, z_mask, s_mask);
 -}
  #include "exec/cpu-all.h"
@@ -XXX,XX +XXX,XX @@ static inline void cpu_write_sr(CPUSH4State *env, target_ulong sr)
      env->sr = sr & ~((1u << SR_M) | (1u << SR_Q) | (1u << SR_T));
  }
-+int sh4_cpu_mmu_index(CPUState *cs, bool ifetch);
++static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
 +static inline int cpu_mmu_index(CPUSH4State *env, bool ifetch)
 +{
-+    return sh4_cpu_mmu_index(env_cpu(env), ifetch);
++    /* If true and false values are the same, eliminate the cmp. */
 +    if (args_are_copies(op->args[2], op->args[3])) {
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
 +    }
 +
 +    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
 +        uint64_t tv = arg_info(op->args[2])->val;
 +        uint64_t fv = arg_info(op->args[3])->val;
 +
 +        if (tv == -1 && fv == 0) {
 +            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
 +        }
 +        if (tv == 0 && fv == -1) {
 +            if (TCG_TARGET_HAS_not_vec) {
 +                op->opc = INDEX_op_not_vec;
 +                return fold_not(ctx, op);
 +            } else {
 +                op->opc = INDEX_op_xor_vec;
 +                op->args[2] = arg_new_constant(ctx, -1);
 +                return fold_xor(ctx, op);
 +            }
 +        }
 +    }
 +    if (arg_is_const(op->args[2])) {
 +        uint64_t tv = arg_info(op->args[2])->val;
 +        if (tv == -1) {
 +            op->opc = INDEX_op_or_vec;
 +            op->args[2] = op->args[3];
 +            return fold_or(ctx, op);
 +        }
 +        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
 +            op->opc = INDEX_op_andc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_andc(ctx, op);
 +        }
 +    }
 +    if (arg_is_const(op->args[3])) {
 +        uint64_t fv = arg_info(op->args[3])->val;
 +        if (fv == 0) {
 +            op->opc = INDEX_op_and_vec;
 +            return fold_and(ctx, op);
 +        }
 +        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
 +            op->opc = INDEX_op_orc_vec;
 +            op->args[2] = op->args[1];
 +            op->args[1] = op->args[3];
 +            return fold_orc(ctx, op);
 +        }
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
- static inline void cpu_get_tb_cpu_state(CPUSH4State *env, vaddr *pc,
+ static bool fold_brcond(OptContext *ctx, TCGOp *op)
                                          uint64_t *cs_base, uint32_t *flags)
  {
-diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
+     int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
---- a/target/sh4/cpu.c
+     return fold_masks_zs(ctx, op, z_mask, s_mask);
 +++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool superh_cpu_has_work(CPUState *cs)
      return cs->interrupt_request & CPU_INTERRUPT_HARD;
  }
-+int sh4_cpu_mmu_index(CPUState *cs, bool ifetch)
+-static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-+{
+-{
-+    CPUSH4State *env = cpu_env(cs);
+-    /* If true and false values are the same, eliminate the cmp. */
-+
+-    if (args_are_copies(op->args[2], op->args[3])) {
-+    /*
+-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-+     * The instruction in a RTE delay slot is fetched in privileged mode,
+-    }
-+     * but executed in user mode.
+-
-+     */
+-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-+    if (ifetch && (env->flags & TB_FLAG_DELAY_SLOT_RTE)) {
+-        uint64_t tv = arg_info(op->args[2])->val;
-+        return 0;
+-        uint64_t fv = arg_info(op->args[3])->val;
-+    } else {
+-
-+        return (env->sr & (1u << SR_MD)) == 0 ? 1 : 0;
+-        if (tv == -1 && fv == 0) {
-+    }
+-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-+}
+-        }
-+
+-        if (tv == 0 && fv == -1) {
- static void superh_cpu_reset_hold(Object *obj)
+-            if (TCG_TARGET_HAS_not_vec) {
 -                op->opc = INDEX_op_not_vec;
 -                return fold_not(ctx, op);
 -            } else {
 -                op->opc = INDEX_op_xor_vec;
 -                op->args[2] = arg_new_constant(ctx, -1);
 -                return fold_xor(ctx, op);
 -            }
 -        }
 -    }
 -    if (arg_is_const(op->args[2])) {
 -        uint64_t tv = arg_info(op->args[2])->val;
 -        if (tv == -1) {
 -            op->opc = INDEX_op_or_vec;
 -            op->args[2] = op->args[3];
 -            return fold_or(ctx, op);
 -        }
 -        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
 -            op->opc = INDEX_op_andc_vec;
 -            op->args[2] = op->args[1];
 -            op->args[1] = op->args[3];
 -            return fold_andc(ctx, op);
 -        }
 -    }
 -    if (arg_is_const(op->args[3])) {
 -        uint64_t fv = arg_info(op->args[3])->val;
 -        if (fv == 0) {
 -            op->opc = INDEX_op_and_vec;
 -            return fold_and(ctx, op);
 -        }
 -        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
 -            op->opc = INDEX_op_orc_vec;
 -            op->args[2] = op->args[1];
 -            op->args[1] = op->args[3];
 -            return fold_orc(ctx, op);
 -        }
 -    }
 -    return finish_folding(ctx, op);
 -}
 -
  /* Propagate constants and copies, fold constant expressions. */
  void tcg_optimize(TCGContext *s)
  {
-     CPUState *s = CPU(obj);
-@@ -XXX,XX +XXX,XX @@ static void superh_cpu_class_init(ObjectClass *oc, void *data)
-     cc->class_by_name = superh_cpu_class_by_name;
-     cc->has_work = superh_cpu_has_work;
-+    cc->mmu_index = sh4_cpu_mmu_index;
-     cc->dump_state = superh_cpu_dump_state;
-     cc->set_pc = superh_cpu_set_pc;
-     cc->get_pc = superh_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 30/57] target/tricore: Populate CPUClass.mmu_index
+[PULL 54/72] tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+The big comment just above says functions should be sorted.
 Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/tricore/cpu.c | 6 ++++++
+ tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
-file changed, 6 insertions(+)
+file changed, 30 insertions(+), 30 deletions(-)
-diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
+diff --git a/tcg/optimize.c b/tcg/optimize.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/tricore/cpu.c
+--- a/tcg/optimize.c
-+++ b/target/tricore/cpu.c
++++ b/tcg/optimize.c
-@@ -XXX,XX +XXX,XX @@ static bool tricore_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
      return true;
  }
-+static int tricore_cpu_mmu_index(CPUState *cs, bool ifetch)
++static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
 +{
-+    return 0;
++    /* Canonicalize the comparison to put immediate second. */
 +    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 +        op->args[3] = tcg_swap_cond(op->args[3]);
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
- static void tricore_cpu_realizefn(DeviceState *dev, Error **errp)
++static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 +{
 +    /* If true and false values are the same, eliminate the cmp. */
 +    if (args_are_copies(op->args[3], op->args[4])) {
 +        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
 +    }
 +
 +    /* Canonicalize the comparison to put immediate second. */
 +    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 +        op->args[5] = tcg_swap_cond(op->args[5]);
 +    }
 +    /*
 +     * Canonicalize the "false" input reg to match the destination,
 +     * so that the tcg backend can implement "move if true".
 +     */
 +    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 +        op->args[5] = tcg_invert_cond(op->args[5]);
 +    }
 +    return finish_folding(ctx, op);
 +}
 +
  static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
  {
-     CPUState *cs = CPU(dev);
+     uint64_t z_mask, s_mask;
-@@ -XXX,XX +XXX,XX @@ static void tricore_cpu_class_init(ObjectClass *c, void *data)
+@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
-                                        &mcc->parent_phases);
+     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
-     cc->class_by_name = tricore_cpu_class_by_name;
+ }
-     cc->has_work = tricore_cpu_has_work;
-+    cc->mmu_index = tricore_cpu_mmu_index;
+-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
+-{
-     cc->gdb_read_register = tricore_cpu_gdb_read_register;
+-    /* Canonicalize the comparison to put immediate second. */
-     cc->gdb_write_register = tricore_cpu_gdb_write_register;
+-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 -        op->args[3] = tcg_swap_cond(op->args[3]);
 -    }
 -    return finish_folding(ctx, op);
 -}
 -
 -static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 -{
 -    /* If true and false values are the same, eliminate the cmp. */
 -    if (args_are_copies(op->args[3], op->args[4])) {
 -        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
 -    }
 -
 -    /* Canonicalize the comparison to put immediate second. */
 -    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
 -        op->args[5] = tcg_swap_cond(op->args[5]);
 -    }
 -    /*
 -     * Canonicalize the "false" input reg to match the destination,
 -     * so that the tcg backend can implement "move if true".
 -     */
 -    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
 -        op->args[5] = tcg_invert_cond(op->args[5]);
 -    }
 -    return finish_folding(ctx, op);
 -}
 -
  static bool fold_sextract(OptContext *ctx, TCGOp *op)
  {
      uint64_t z_mask, s_mask, s_mask_old;
 --
-.34.1
+.43.0

-[PULL 29/57] target/sparc: Populate CPUClass.mmu_index
+[PULL 55/72] softfloat: Add float{16,32,64}_muladd_scalbn
+We currently have a flag, float_muladd_halve_result, to scale
+the result by 2**-1.  Extend this to handle arbitrary scaling.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/sparc/cpu.h | 34 ++++++----------------------------
+ include/fpu/softfloat.h   |  6 ++++
- target/sparc/cpu.c | 29 +++++++++++++++++++++++++++++
+ fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
-files changed, 35 insertions(+), 28 deletions(-)
+ fpu/softfloat-parts.c.inc |  7 +++--
+files changed, 44 insertions(+), 27 deletions(-)
-diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
 diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.h
+--- a/include/fpu/softfloat.h
-+++ b/target/sparc/cpu.h
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ static inline int cpu_supervisor_mode(CPUSPARCState *env1)
+@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
- }
+ float16 float16_sub(float16, float16, float_status *status);
- #endif
+ float16 float16_mul(float16, float16, float_status *status);
+ float16 float16_muladd(float16, float16, float16, int, float_status *status);
--static inline int cpu_mmu_index(CPUSPARCState *env, bool ifetch)
++float16 float16_muladd_scalbn(float16, float16, float16,
--{
++                              int, int, float_status *status);
--#if defined(CONFIG_USER_ONLY)
+ float16 float16_div(float16, float16, float_status *status);
--    return MMU_USER_IDX;
+ float16 float16_scalbn(float16, int, float_status *status);
--#elif !defined(TARGET_SPARC64)
+ float16 float16_min(float16, float16, float_status *status);
--    if ((env->mmuregs[0] & MMU_E) == 0) { /* MMU disabled */
+@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
--        return MMU_PHYS_IDX;
+ float32 float32_div(float32, float32, float_status *status);
--    } else {
+ float32 float32_rem(float32, float32, float_status *status);
--        return env->psrs;
+ float32 float32_muladd(float32, float32, float32, int, float_status *status);
--    }
++float32 float32_muladd_scalbn(float32, float32, float32,
--#else
++                              int, int, float_status *status);
--    /* IMMU or DMMU disabled.  */
+ float32 float32_sqrt(float32, float_status *status);
--    if (ifetch
+ float32 float32_exp2(float32, float_status *status);
--        ? (env->lsu & IMMU_E) == 0 || (env->pstate & PS_RED) != 0
+ float32 float32_log2(float32, float_status *status);
--        : (env->lsu & DMMU_E) == 0) {
+@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
--        return MMU_PHYS_IDX;
+ float64 float64_div(float64, float64, float_status *status);
--    } else if (cpu_hypervisor_mode(env)) {
+ float64 float64_rem(float64, float64, float_status *status);
--        return MMU_PHYS_IDX;
+ float64 float64_muladd(float64, float64, float64, int, float_status *status);
--    } else if (env->tl > 0) {
++float64 float64_muladd_scalbn(float64, float64, float64,
--        return MMU_NUCLEUS_IDX;
++                              int, int, float_status *status);
--    } else if (cpu_supervisor_mode(env)) {
+ float64 float64_sqrt(float64, float_status *status);
--        return MMU_KERNEL_IDX;
+ float64 float64_log2(float64, float_status *status);
--    } else {
+ FloatRelation float64_compare(float64, float64, float_status *status);
--        return MMU_USER_IDX;
+diff --git a/fpu/softfloat.c b/fpu/softfloat.c
--    }
+index XXXXXXX..XXXXXXX 100644
--#endif
+--- a/fpu/softfloat.c
--}
++++ b/fpu/softfloat.c
--
+@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
- static inline int cpu_interrupts_enabled(CPUSPARCState *env1)
+ #define parts_mul(A, B, S) \
- {
+     PARTS_GENERIC_64_128(mul, A)(A, B, S)
- #if !defined (TARGET_SPARC64)
-@@ -XXX,XX +XXX,XX @@ trap_state* cpu_tsptr(CPUSPARCState* env);
+-static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
- #define TB_FLAG_HYPER        (1 << 7)
+-                                    FloatParts64 *c, int flags,
- #define TB_FLAG_ASI_SHIFT    24
+-                                    float_status *s);
+-static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
-+int sparc_cpu_mmu_index(CPUState *cs, bool ifetch);
+-                                      FloatParts128 *c, int flags,
-+static inline int cpu_mmu_index(CPUSPARCState *env, bool ifetch)
+-                                      float_status *s);
 +static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
 +                                           FloatParts64 *c, int scale,
 +                                           int flags, float_status *s);
 +static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
 +                                             FloatParts128 *c, int scale,
 +                                             int flags, float_status *s);
 -#define parts_muladd(A, B, C, Z, S) \
 -    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
 +#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
 +    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
  static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                   float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
   * Fused multiply-add
   */
 -float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
 -                                    int flags, float_status *status)
 +float16 QEMU_FLATTEN
 +float16_muladd_scalbn(float16 a, float16 b, float16 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float16_unpack_canonical(&pa, a, status);
      float16_unpack_canonical(&pb, b, status);
      float16_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float16_round_pack_canonical(pr, status);
  }
 -static float32 QEMU_SOFTFLOAT_ATTR
 -soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
 -                float_status *status)
 +float16 float16_muladd(float16 a, float16 b, float16 c,
 +                       int flags, float_status *status)
 +{
-+    return sparc_cpu_mmu_index(env_cpu(env), ifetch);
++    return float16_muladd_scalbn(a, b, c, 0, flags, status);
 +}
 +
- static inline void cpu_get_tb_cpu_state(CPUSPARCState *env, vaddr *pc,
++float32 QEMU_SOFTFLOAT_ATTR
-                                         uint64_t *cs_base, uint32_t *pflags)
++float32_muladd_scalbn(float32 a, float32 b, float32 c,
- {
++                      int scale, int flags, float_status *status)
-diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
+ {
      FloatParts64 pa, pb, pc, *pr;
      float32_unpack_canonical(&pa, a, status);
      float32_unpack_canonical(&pb, b, status);
      float32_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float32_round_pack_canonical(pr, status);
  }
 -static float64 QEMU_SOFTFLOAT_ATTR
 -soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
 -                float_status *status)
 +float64 QEMU_SOFTFLOAT_ATTR
 +float64_muladd_scalbn(float64 a, float64 b, float64 c,
 +                      int scale, int flags, float_status *status)
  {
      FloatParts64 pa, pb, pc, *pr;
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
      return float64_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
      return ur.s;
   soft:
 -    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
 +    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
  }
  float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
      float64_unpack_canonical(&pa, a, status);
      float64_unpack_canonical(&pb, b, status);
      float64_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float64r32_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
      bfloat16_unpack_canonical(&pa, a, status);
      bfloat16_unpack_canonical(&pb, b, status);
      bfloat16_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return bfloat16_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
      float128_unpack_canonical(&pa, a, status);
      float128_unpack_canonical(&pb, b, status);
      float128_unpack_canonical(&pc, c, status);
 -    pr = parts_muladd(&pa, &pb, &pc, flags, status);
 +    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
      return float128_round_pack_canonical(pr, status);
  }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
      float64_unpack_canonical(&rp, float64_one, status);
      for (i = 0 ; i < 15 ; i++) {
 +
          float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
 -        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
 +        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
          xnp = *parts_mul(&xnp, &xp, status);
      }
 diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.c
+--- a/fpu/softfloat-parts.c.inc
-+++ b/target/sparc/cpu.c
++++ b/fpu/softfloat-parts.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool sparc_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
-            cpu_interrupts_enabled(env);
+  * Requires A and C extracted into a double-sized structure to provide the
- }
+  * extra space for the widening multiply.
+  */
-+int sparc_cpu_mmu_index(CPUState *cs, bool ifetch)
+-static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
-+{
+-                                   FloatPartsN *c, int flags, float_status *s)
-+    CPUSPARCState *env = cpu_env(cs);
++static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
-+
++                                          FloatPartsN *c, int scale,
-+#ifndef TARGET_SPARC64
++                                          int flags, float_status *s)
-+    if ((env->mmuregs[0] & MMU_E) == 0) { /* MMU disabled */
+ {
-+        return MMU_PHYS_IDX;
+     int ab_mask, abc_mask;
-+    } else {
+     FloatPartsW p_widen, c_widen;
-+        return env->psrs;
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
-+    }
+     a->exp = p_widen.exp;
-+#else
-+    /* IMMU or DMMU disabled.  */
+  return_normal:
-+    if (ifetch
++    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-+        ? (env->lsu & IMMU_E) == 0 || (env->pstate & PS_RED) != 0
+     if (flags & float_muladd_halve_result) {
-+        : (env->lsu & DMMU_E) == 0) {
+         a->exp -= 1;
-+        return MMU_PHYS_IDX;
+     }
-+    } else if (cpu_hypervisor_mode(env)) {
++    a->exp += scale;
-+        return MMU_PHYS_IDX;
+  finish_sign:
-+    } else if (env->tl > 0) {
+     if (flags & float_muladd_negate_result) {
-+        return MMU_NUCLEUS_IDX;
+         a->sign ^= 1;
 +    } else if (cpu_supervisor_mode(env)) {
 +        return MMU_KERNEL_IDX;
 +    } else {
 +        return MMU_USER_IDX;
 +    }
 +#endif
 +}
 +
  static char *sparc_cpu_type_name(const char *cpu_model)
  {
      char *name = g_strdup_printf(SPARC_CPU_TYPE_NAME("%s"), cpu_model);
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = sparc_cpu_class_by_name;
      cc->parse_features = sparc_cpu_parse_features;
      cc->has_work = sparc_cpu_has_work;
 +    cc->mmu_index = sparc_cpu_mmu_index;
      cc->dump_state = sparc_cpu_dump_state;
  #if !defined(TARGET_SPARC64) && !defined(CONFIG_USER_ONLY)
      cc->memory_rw_debug = sparc_cpu_memory_rw_debug;
 --
-.34.1
+.43.0

-[PULL 04/57] target/arm: Split out arm_env_mmu_index
+[PULL 56/72] target/arm: Use float*_muladd_scalbn
+Use the scalbn interface instead of float_muladd_halve_result.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/internals.h      |  5 +++++
+ target/arm/tcg/helper-a64.c | 6 +++---
- target/arm/helper.c         |  2 +-
+file changed, 3 insertions(+), 3 deletions(-)
  target/arm/tcg/helper-a64.c |  4 ++--
  target/arm/tcg/mte_helper.c | 18 +++++++++---------
  target/arm/tcg/sve_helper.c |  8 ++++----
  target/arm/tcg/tlb_helper.c |  2 +-
 files changed, 22 insertions(+), 17 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
-+++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@
- #define BANK_HYP    6
- #define BANK_MON    7
-+static inline int arm_env_mmu_index(CPUARMState *env)
-+{
-+    return EX_TBFLAG_ANY(env->hflags, MMUIDX);
-+}
-+
- static inline bool excp_is_internal(int excp)
- {
-     /* Return true if this exception number represents a QEMU-internal
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static void dccvap_writefn(CPUARMState *env, const ARMCPRegInfo *opaque,
-     uint64_t vaddr_in = (uint64_t) value;
-     uint64_t vaddr = vaddr_in & ~(dline_size - 1);
-     void *haddr;
--    int mem_idx = cpu_mmu_index(env, false);
-+    int mem_idx = arm_env_mmu_index(env);
-     /* This won't be crossing page boundaries */
-     haddr = probe_read(env, vaddr, dline_size, mem_idx, GETPC());
 diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/helper-a64.c
 +++ b/target/arm/tcg/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env, uint64_t new_pc)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
-         tbii = EX_TBFLAG_A64(env->hflags, TBII);
+         (float16_is_infinity(b) && float16_is_zero(a))) {
-         if ((tbii >> extract64(new_pc, 55, 1)) & 1) {
+         return float16_one_point_five;
              /* TBI is enabled. */
 -            int core_mmu_idx = cpu_mmu_index(env, false);
 +            int core_mmu_idx = arm_env_mmu_index(env);
              if (regime_has_2_ranges(core_to_aa64_mmu_idx(core_mmu_idx))) {
                  new_pc = sextract64(new_pc, 0, 56);
              } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(dc_zva)(CPUARMState *env, uint64_t vaddr_in)
       */
      int blocklen = 4 << env_archcpu(env)->dcz_blocksize;
      uint64_t vaddr = vaddr_in & ~(blocklen - 1);
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      void *mem;
      /*
 diff --git a/target/arm/tcg/mte_helper.c b/target/arm/tcg/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/mte_helper.c
 +++ b/target/arm/tcg/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static int load_tag1(uint64_t ptr, uint8_t *mem)
  uint64_t HELPER(ldg)(CPUARMState *env, uint64_t ptr, uint64_t xt)
  {
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      uint8_t *mem;
      int rtag = 0;
@@ -XXX,XX +XXX,XX @@ static void check_tag_aligned(CPUARMState *env, uint64_t ptr, uintptr_t ra)
  {
      if (unlikely(!QEMU_IS_ALIGNED(ptr, TAG_GRANULE))) {
          arm_cpu_do_unaligned_access(env_cpu(env), ptr, MMU_DATA_STORE,
 -                                    cpu_mmu_index(env, false), ra);
 +                                    arm_env_mmu_index(env), ra);
          g_assert_not_reached();
      }
+-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
++    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
  }
-@@ -XXX,XX +XXX,XX @@ typedef void stg_store1(uint64_t, uint8_t *, int);
- static inline void do_stg(CPUARMState *env, uint64_t ptr, uint64_t xt,
+ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
-                           uintptr_t ra, stg_store1 store1)
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
- {
+         (float32_is_infinity(b) && float32_is_zero(a))) {
--    int mmu_idx = cpu_mmu_index(env, false);
+         return float32_one_point_five;
-+    int mmu_idx = arm_env_mmu_index(env);
+     }
-     uint8_t *mem;
+-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
++    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
-     check_tag_aligned(env, ptr, ra);
+ }
-@@ -XXX,XX +XXX,XX @@ void HELPER(stg_parallel)(CPUARMState *env, uint64_t ptr, uint64_t xt)
+ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
- void HELPER(stg_stub)(CPUARMState *env, uint64_t ptr)
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
- {
+         (float64_is_infinity(b) && float64_is_zero(a))) {
--    int mmu_idx = cpu_mmu_index(env, false);
+         return float64_one_point_five;
-+    int mmu_idx = arm_env_mmu_index(env);
+     }
-     uintptr_t ra = GETPC();
+-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
++    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
-     check_tag_aligned(env, ptr, ra);
+ }
-@@ -XXX,XX +XXX,XX @@ void HELPER(stg_stub)(CPUARMState *env, uint64_t ptr)
- static inline void do_st2g(CPUARMState *env, uint64_t ptr, uint64_t xt,
+ /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
                             uintptr_t ra, stg_store1 store1)
  {
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      int tag = allocation_tag_from_addr(xt);
      uint8_t *mem1, *mem2;
@@ -XXX,XX +XXX,XX @@ void HELPER(st2g_parallel)(CPUARMState *env, uint64_t ptr, uint64_t xt)
  void HELPER(st2g_stub)(CPUARMState *env, uint64_t ptr)
  {
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      uintptr_t ra = GETPC();
      int in_page = -(ptr | TARGET_PAGE_MASK);
@@ -XXX,XX +XXX,XX @@ void HELPER(st2g_stub)(CPUARMState *env, uint64_t ptr)
  uint64_t HELPER(ldgm)(CPUARMState *env, uint64_t ptr)
  {
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      uintptr_t ra = GETPC();
      int gm_bs = env_archcpu(env)->gm_blocksize;
      int gm_bs_bytes = 4 << gm_bs;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(ldgm)(CPUARMState *env, uint64_t ptr)
  void HELPER(stgm)(CPUARMState *env, uint64_t ptr, uint64_t val)
  {
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      uintptr_t ra = GETPC();
      int gm_bs = env_archcpu(env)->gm_blocksize;
      int gm_bs_bytes = 4 << gm_bs;
@@ -XXX,XX +XXX,XX @@ void HELPER(stgm)(CPUARMState *env, uint64_t ptr, uint64_t val)
  void HELPER(stzgm_tags)(CPUARMState *env, uint64_t ptr, uint64_t val)
  {
      uintptr_t ra = GETPC();
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      int log2_dcz_bytes, log2_tag_bytes;
      intptr_t dcz_bytes, tag_bytes;
      uint8_t *mem;
 diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/sve_helper.c
 +++ b/target/arm/tcg/sve_helper.c
@@ -XXX,XX +XXX,XX @@ bool sve_cont_ldst_pages(SVEContLdSt *info, SVEContFault fault,
                           CPUARMState *env, target_ulong addr,
                           MMUAccessType access_type, uintptr_t retaddr)
  {
 -    int mmu_idx = cpu_mmu_index(env, false);
 +    int mmu_idx = arm_env_mmu_index(env);
      int mem_off = info->mem_off_first[0];
      bool nofault = fault == FAULT_NO;
      bool have_work = true;
@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                 sve_ldst1_host_fn *host_fn,
                 sve_ldst1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = arm_env_mmu_index(env);
      const intptr_t reg_max = simd_oprsz(desc);
      const int scale = simd_data(desc);
      ARMVectorReg scratch;
@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                   sve_ldst1_host_fn *host_fn,
                   sve_ldst1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = arm_env_mmu_index(env);
      const intptr_t reg_max = simd_oprsz(desc);
      const int scale = simd_data(desc);
      const int esize = 1 << esz;
@@ -XXX,XX +XXX,XX @@ void sve_st1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                 sve_ldst1_host_fn *host_fn,
                 sve_ldst1_tlb_fn *tlb_fn)
  {
 -    const int mmu_idx = cpu_mmu_index(env, false);
 +    const int mmu_idx = arm_env_mmu_index(env);
      const intptr_t reg_max = simd_oprsz(desc);
      const int scale = simd_data(desc);
      void *host[ARM_MAX_VQ * 4];
 diff --git a/target/arm/tcg/tlb_helper.c b/target/arm/tcg/tlb_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/tlb_helper.c
 +++ b/target/arm/tcg/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_exception_pc_alignment(CPUARMState *env, target_ulong pc)
  {
      ARMMMUFaultInfo fi = { .type = ARMFault_Alignment };
      int target_el = exception_target_el(env);
 -    int mmu_idx = cpu_mmu_index(env, true);
 +    int mmu_idx = arm_env_mmu_index(env);
      uint32_t fsc;
      env->exception.vaddress = pc;
 --
-.34.1
+.43.0

-[PULL 55/57] target/sparc: Remove cpu_fsr
+[PULL 57/72] target/sparc: Use float*_muladd_scalbn
-Drop this field as a tcg global, loading it explicitly in the
+Use the scalbn interface instead of float_muladd_halve_result.
-few places required.  This means that all FPop helpers may
-once again be TCG_CALL_NO_WG.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-21-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     | 120 +++++++++++++++++++-------------------
+ target/sparc/helper.h     |  4 +-
- target/sparc/fop_helper.c |   9 ++-
+ target/sparc/fop_helper.c |  8 ++--
- target/sparc/translate.c  |  98 ++++++++++++++++---------------
+ target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
-files changed, 114 insertions(+), 113 deletions(-)
+files changed, 54 insertions(+), 38 deletions(-)
 diff --git a/target/sparc/helper.h b/target/sparc/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/helper.h
 +++ b/target/sparc/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
- DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
+ DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
- #endif
+ DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
- DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
+ DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
--DEF_HELPER_FLAGS_2(set_fsr_noftt, 0, void, env, tl)
+-DEF_HELPER_FLAGS_5(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, i32)
--DEF_HELPER_FLAGS_2(fsqrts, 0, f32, env, f32)
++DEF_HELPER_FLAGS_6(fmaddd, TCG_CALL_NO_WG, f64, env, f64, f64, f64, s32, i32)
--DEF_HELPER_FLAGS_2(fsqrtd, 0, f64, env, f64)
+ DEF_HELPER_FLAGS_3(fnaddd, TCG_CALL_NO_WG, f64, env, f64, f64)
--DEF_HELPER_FLAGS_2(fsqrtq, 0, i128, env, i128)
+ DEF_HELPER_FLAGS_3(fnmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
--DEF_HELPER_FLAGS_3(fcmps, 0, tl, env, f32, f32)
--DEF_HELPER_FLAGS_3(fcmpd, 0, tl, env, f64, f64)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
--DEF_HELPER_FLAGS_3(fcmpes, 0, tl, env, f32, f32)
+ DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
--DEF_HELPER_FLAGS_3(fcmped, 0, tl, env, f64, f64)
+ DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
--DEF_HELPER_FLAGS_3(fcmpq, 0, tl, env, i128, i128)
+ DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
--DEF_HELPER_FLAGS_3(fcmpeq, 0, tl, env, i128, i128)
+-DEF_HELPER_FLAGS_5(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, i32)
-+DEF_HELPER_FLAGS_2(set_fsr_noftt, TCG_CALL_NO_RWG, void, env, tl)
++DEF_HELPER_FLAGS_6(fmadds, TCG_CALL_NO_WG, f32, env, f32, f32, f32, s32, i32)
-+DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_WG, f32, env, f32)
+ DEF_HELPER_FLAGS_3(fnadds, TCG_CALL_NO_WG, f32, env, f32, f32)
-+DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_WG, f64, env, f64)
+ DEF_HELPER_FLAGS_3(fnmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
-+DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_WG, i128, env, i128)
 +DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, void, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, void, env, i128, i128)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_3(fcmps_fcc1, 0, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmps_fcc2, 0, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmps_fcc3, 0, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc1, 0, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc2, 0, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpd_fcc3, 0, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc1, 0, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc2, 0, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmpes_fcc3, 0, tl, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fcmped_fcc1, 0, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmped_fcc2, 0, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmped_fcc3, 0, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc1, 0, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc2, 0, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpq_fcc3, 0, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc1, 0, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc2, 0, tl, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fcmpeq_fcc3, 0, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpd_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpd_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpd_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpes_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpes_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
  #endif
  DEF_HELPER_2(raise_exception, noreturn, env, int)
 -DEF_HELPER_FLAGS_3(faddd, 0, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fsubd, 0, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fmuld, 0, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(fdivd, 0, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
 -DEF_HELPER_FLAGS_3(faddq, 0, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fsubq, 0, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fmulq, 0, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fdivq, 0, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(faddq, TCG_CALL_NO_WG, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fsubq, TCG_CALL_NO_WG, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fmulq, TCG_CALL_NO_WG, i128, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fdivq, TCG_CALL_NO_WG, i128, env, i128, i128)
 -DEF_HELPER_FLAGS_3(fadds, 0, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fsubs, 0, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fmuls, 0, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fdivs, 0, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fsmuld, 0, f64, env, f32, f32)
 -DEF_HELPER_FLAGS_3(fdmulq, 0, i128, env, f64, f64)
 +DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_WG, f64, env, f32, f32)
 +DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_WG, i128, env, f64, f64)
 -DEF_HELPER_FLAGS_2(fitod, 0, f64, env, s32)
 -DEF_HELPER_FLAGS_2(fitoq, 0, i128, env, s32)
 +DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_WG, f64, env, s32)
 +DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_WG, i128, env, s32)
 -DEF_HELPER_FLAGS_2(fitos, 0, f32, env, s32)
 +DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_WG, f32, env, s32)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_2(fxtos, 0, f32, env, s64)
 -DEF_HELPER_FLAGS_2(fxtod, 0, f64, env, s64)
 -DEF_HELPER_FLAGS_2(fxtoq, 0, i128, env, s64)
 +DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_WG, f32, env, s64)
 +DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_WG, f64, env, s64)
 +DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_WG, i128, env, s64)
  #endif
 -DEF_HELPER_FLAGS_2(fdtos, 0, f32, env, f64)
 -DEF_HELPER_FLAGS_2(fstod, 0, f64, env, f32)
 -DEF_HELPER_FLAGS_2(fqtos, 0, f32, env, i128)
 -DEF_HELPER_FLAGS_2(fstoq, 0, i128, env, f32)
 -DEF_HELPER_FLAGS_2(fqtod, 0, f64, env, i128)
 -DEF_HELPER_FLAGS_2(fdtoq, 0, i128, env, f64)
 -DEF_HELPER_FLAGS_2(fstoi, 0, s32, env, f32)
 -DEF_HELPER_FLAGS_2(fdtoi, 0, s32, env, f64)
 -DEF_HELPER_FLAGS_2(fqtoi, 0, s32, env, i128)
 +DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_WG, f32, env, f64)
 +DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_WG, f64, env, f32)
 +DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_WG, f32, env, i128)
 +DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_WG, i128, env, f32)
 +DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_WG, f64, env, i128)
 +DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_WG, i128, env, f64)
 +DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_WG, s32, env, f32)
 +DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_WG, s32, env, f64)
 +DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_WG, s32, env, i128)
  #ifdef TARGET_SPARC64
 -DEF_HELPER_FLAGS_2(fstox, 0, s64, env, f32)
 -DEF_HELPER_FLAGS_2(fdtox, 0, s64, env, f64)
 -DEF_HELPER_FLAGS_2(fqtox, 0, s64, env, i128)
 +DEF_HELPER_FLAGS_2(fstox, TCG_CALL_NO_WG, s64, env, f32)
 +DEF_HELPER_FLAGS_2(fdtox, TCG_CALL_NO_WG, s64, env, f64)
 +DEF_HELPER_FLAGS_2(fqtox, TCG_CALL_NO_WG, s64, env, i128)
  DEF_HELPER_FLAGS_2(fpmerge, TCG_CALL_NO_RWG_SE, i64, i64, i64)
  DEF_HELPER_FLAGS_2(fmul8x16, TCG_CALL_NO_RWG_SE, i64, i64, i64)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
 @@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
  }
- #define GEN_FCMP(name, size, FS, E)                                     \
+ float32 helper_fmadds(CPUSPARCState *env, float32 s1,
--    target_ulong glue(helper_, name) (CPUSPARCState *env,               \
+-                      float32 s2, float32 s3, uint32_t op)
--                                      Int128 src1, Int128 src2)         \
++                      float32 s2, float32 s3, int32_t sc, uint32_t op)
-+    void glue(helper_, name)(CPUSPARCState *env, Int128 src1, Int128 src2) \
+ {
-     {                                                                   \
+-    float32 ret = float32_muladd(s1, s2, s3, op, &env->fp_status);
-         float128 reg1 = f128_in(src1);                                  \
++    float32 ret = float32_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
-         float128 reg2 = f128_in(src2);                                  \
+     check_ieee_exceptions(env, GETPC());
-@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
+     return ret;
-             fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
+ }
-             break;                                                      \
-         }                                                               \
+ float64 helper_fmaddd(CPUSPARCState *env, float64 s1,
--        return fsr;                                                     \
+-                      float64 s2, float64 s3, uint32_t op)
-+        env->fsr = fsr;                                                 \
++                      float64 s2, float64 s3, int32_t sc, uint32_t op)
-     }
+ {
- #define GEN_FCMP_T(name, size, FS, E)                                   \
+-    float64 ret = float64_muladd(s1, s2, s3, op, &env->fp_status);
--    target_ulong glue(helper_, name)(CPUSPARCState *env, size src1, size src2)\
++    float64 ret = float64_muladd_scalbn(s1, s2, s3, sc, op, &env->fp_status);
-+    void glue(helper_, name)(CPUSPARCState *env, size src1, size src2)  \
+     check_ieee_exceptions(env, GETPC());
-     {                                                                   \
+     return ret;
-         FloatRelation ret;                                              \
+ }
          target_ulong fsr;                                               \
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
              fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
              break;                                                      \
          }                                                               \
 -        return fsr;                                                     \
 +        env->fsr = fsr;                                                 \
      }
  GEN_FCMP_T(fcmps, float32, 0, 0);
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
- /* global register indexes */
+ static void gen_op_fmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
- static TCGv_ptr cpu_regwptr;
+ {
--static TCGv cpu_fsr, cpu_pc, cpu_npc;
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
-+static TCGv cpu_pc, cpu_npc;
++    TCGv_i32 z = tcg_constant_i32(0);
- static TCGv cpu_regs[32];
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, z);
- static TCGv cpu_y;
+ }
- static TCGv cpu_tbr;
-@@ -XXX,XX +XXX,XX @@ static void gen_compare(DisasCompare *cmp, bool xcc, unsigned int cond,
+ static void gen_op_fmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
- static void gen_fcompare(DisasCompare *cmp, unsigned int cc, unsigned int cond)
+ {
- {
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(0));
-     unsigned int offset;
++    TCGv_i32 z = tcg_constant_i32(0);
--    TCGv r_dst;
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, z);
-+    TCGv r_dst, fsr;
+ }
-     /* For now we still generate a straight boolean result.  */
+ static void gen_op_fmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
-     cmp->cond = TCG_COND_NE;
+ {
-@@ -XXX,XX +XXX,XX @@ static void gen_fcompare(DisasCompare *cmp, unsigned int cc, unsigned int cond)
+-    int op = float_muladd_negate_c;
-         break;
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
-     }
++    TCGv_i32 z = tcg_constant_i32(0);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
-+    fsr = tcg_temp_new();
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
-+    tcg_gen_ld_tl(fsr, tcg_env, offsetof(CPUSPARCState, fsr));
+ }
-     switch (cond) {
-     case 0x0:
+ static void gen_op_fmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
-         gen_op_eval_bn(r_dst);
+ {
-         break;
+-    int op = float_muladd_negate_c;
-     case 0x1:
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
--        gen_op_eval_fbne(r_dst, cpu_fsr, offset);
++    TCGv_i32 z = tcg_constant_i32(0);
-+        gen_op_eval_fbne(r_dst, fsr, offset);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
-         break;
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
-     case 0x2:
+ }
--        gen_op_eval_fblg(r_dst, cpu_fsr, offset);
-+        gen_op_eval_fblg(r_dst, fsr, offset);
+ static void gen_op_fnmsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
-         break;
+ {
-     case 0x3:
+-    int op = float_muladd_negate_c | float_muladd_negate_result;
--        gen_op_eval_fbul(r_dst, cpu_fsr, offset);
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
-+        gen_op_eval_fbul(r_dst, fsr, offset);
++    TCGv_i32 z = tcg_constant_i32(0);
-         break;
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
-     case 0x4:
++                                   float_muladd_negate_result);
--        gen_op_eval_fbl(r_dst, cpu_fsr, offset);
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
-+        gen_op_eval_fbl(r_dst, fsr, offset);
+ }
-         break;
-     case 0x5:
+ static void gen_op_fnmsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
--        gen_op_eval_fbug(r_dst, cpu_fsr, offset);
+ {
-+        gen_op_eval_fbug(r_dst, fsr, offset);
+-    int op = float_muladd_negate_c | float_muladd_negate_result;
-         break;
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
-     case 0x6:
++    TCGv_i32 z = tcg_constant_i32(0);
--        gen_op_eval_fbg(r_dst, cpu_fsr, offset);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c |
-+        gen_op_eval_fbg(r_dst, fsr, offset);
++                                   float_muladd_negate_result);
-         break;
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
-     case 0x7:
+ }
--        gen_op_eval_fbu(r_dst, cpu_fsr, offset);
-+        gen_op_eval_fbu(r_dst, fsr, offset);
+ static void gen_op_fnmadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2, TCGv_i32 s3)
-         break;
+ {
-     case 0x8:
+-    int op = float_muladd_negate_result;
-         gen_op_eval_ba(r_dst);
+-    gen_helper_fmadds(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
-         break;
++    TCGv_i32 z = tcg_constant_i32(0);
-     case 0x9:
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
--        gen_op_eval_fbe(r_dst, cpu_fsr, offset);
++    gen_helper_fmadds(d, tcg_env, s1, s2, s3, z, op);
-+        gen_op_eval_fbe(r_dst, fsr, offset);
+ }
-         break;
-     case 0xa:
+ static void gen_op_fnmaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2, TCGv_i64 s3)
--        gen_op_eval_fbue(r_dst, cpu_fsr, offset);
+ {
-+        gen_op_eval_fbue(r_dst, fsr, offset);
+-    int op = float_muladd_negate_result;
-         break;
+-    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, tcg_constant_i32(op));
-     case 0xb:
++    TCGv_i32 z = tcg_constant_i32(0);
--        gen_op_eval_fbge(r_dst, cpu_fsr, offset);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
-+        gen_op_eval_fbge(r_dst, fsr, offset);
++    gen_helper_fmaddd(d, tcg_env, s1, s2, s3, z, op);
-         break;
+ }
-     case 0xc:
--        gen_op_eval_fbuge(r_dst, cpu_fsr, offset);
+ /* Use muladd to compute (1 * src1) + src2 / 2 with one rounding. */
-+        gen_op_eval_fbuge(r_dst, fsr, offset);
+ static void gen_op_fhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
-         break;
+ {
-     case 0xd:
+-    TCGv_i32 one = tcg_constant_i32(float32_one);
--        gen_op_eval_fble(r_dst, cpu_fsr, offset);
+-    int op = float_muladd_halve_result;
-+        gen_op_eval_fble(r_dst, fsr, offset);
+-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
-         break;
++    TCGv_i32 fone = tcg_constant_i32(float32_one);
-     case 0xe:
++    TCGv_i32 mone = tcg_constant_i32(-1);
--        gen_op_eval_fbule(r_dst, cpu_fsr, offset);
++    TCGv_i32 op = tcg_constant_i32(0);
-+        gen_op_eval_fbule(r_dst, fsr, offset);
++    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
-         break;
+ }
-     case 0xf:
--        gen_op_eval_fbo(r_dst, cpu_fsr, offset);
+ static void gen_op_fhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
-+        gen_op_eval_fbo(r_dst, fsr, offset);
+ {
-         break;
+-    TCGv_i64 one = tcg_constant_i64(float64_one);
-     }
+-    int op = float_muladd_halve_result;
- }
+-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
-@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmps(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
++    TCGv_i64 fone = tcg_constant_i64(float64_one);
- {
++    TCGv_i32 mone = tcg_constant_i32(-1);
-     switch (fccno) {
++    TCGv_i32 op = tcg_constant_i32(0);
-     case 0:
++    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
--        gen_helper_fcmps(cpu_fsr, tcg_env, r_rs1, r_rs2);
+ }
-+        gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
-         break;
+ /* Use muladd to compute (1 * src1) - src2 / 2 with one rounding. */
-     case 1:
+ static void gen_op_fhsubs(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
--        gen_helper_fcmps_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+ {
-+        gen_helper_fcmps_fcc1(tcg_env, r_rs1, r_rs2);
+-    TCGv_i32 one = tcg_constant_i32(float32_one);
-         break;
+-    int op = float_muladd_negate_c | float_muladd_halve_result;
-     case 2:
+-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
--        gen_helper_fcmps_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
++    TCGv_i32 fone = tcg_constant_i32(float32_one);
-+        gen_helper_fcmps_fcc2(tcg_env, r_rs1, r_rs2);
++    TCGv_i32 mone = tcg_constant_i32(-1);
-         break;
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
-     case 3:
++    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
--        gen_helper_fcmps_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
+ }
-+        gen_helper_fcmps_fcc3(tcg_env, r_rs1, r_rs2);
-         break;
+ static void gen_op_fhsubd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
-     }
+ {
- }
+-    TCGv_i64 one = tcg_constant_i64(float64_one);
-@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
+-    int op = float_muladd_negate_c | float_muladd_halve_result;
- {
+-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
-     switch (fccno) {
++    TCGv_i64 fone = tcg_constant_i64(float64_one);
-     case 0:
++    TCGv_i32 mone = tcg_constant_i32(-1);
--        gen_helper_fcmpd(cpu_fsr, tcg_env, r_rs1, r_rs2);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_c);
-+        gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
++    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
-         break;
+ }
-     case 1:
--        gen_helper_fcmpd_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+ /* Use muladd to compute -((1 * src1) + src2 / 2) with one rounding. */
-+        gen_helper_fcmpd_fcc1(tcg_env, r_rs1, r_rs2);
+ static void gen_op_fnhadds(TCGv_i32 d, TCGv_i32 s1, TCGv_i32 s2)
-         break;
+ {
-     case 2:
+-    TCGv_i32 one = tcg_constant_i32(float32_one);
--        gen_helper_fcmpd_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
+-    int op = float_muladd_negate_result | float_muladd_halve_result;
-+        gen_helper_fcmpd_fcc2(tcg_env, r_rs1, r_rs2);
+-    gen_helper_fmadds(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
-         break;
++    TCGv_i32 fone = tcg_constant_i32(float32_one);
-     case 3:
++    TCGv_i32 mone = tcg_constant_i32(-1);
--        gen_helper_fcmpd_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
-+        gen_helper_fcmpd_fcc3(tcg_env, r_rs1, r_rs2);
++    gen_helper_fmadds(d, tcg_env, fone, s1, s2, mone, op);
-         break;
+ }
-     }
- }
+ static void gen_op_fnhaddd(TCGv_i64 d, TCGv_i64 s1, TCGv_i64 s2)
-@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
+ {
- {
+-    TCGv_i64 one = tcg_constant_i64(float64_one);
-     switch (fccno) {
+-    int op = float_muladd_negate_result | float_muladd_halve_result;
-     case 0:
+-    gen_helper_fmaddd(d, tcg_env, one, s1, s2, tcg_constant_i32(op));
--        gen_helper_fcmpq(cpu_fsr, tcg_env, r_rs1, r_rs2);
++    TCGv_i64 fone = tcg_constant_i64(float64_one);
-+        gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
++    TCGv_i32 mone = tcg_constant_i32(-1);
-         break;
++    TCGv_i32 op = tcg_constant_i32(float_muladd_negate_result);
-     case 1:
++    gen_helper_fmaddd(d, tcg_env, fone, s1, s2, mone, op);
--        gen_helper_fcmpq_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+ }
-+        gen_helper_fcmpq_fcc1(tcg_env, r_rs1, r_rs2);
-         break;
+ static void gen_op_fpexception_im(DisasContext *dc, int ftt)
      case 2:
 -        gen_helper_fcmpq_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpq_fcc2(tcg_env, r_rs1, r_rs2);
          break;
      case 3:
 -        gen_helper_fcmpq_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpq_fcc3(tcg_env, r_rs1, r_rs2);
          break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpes(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
  {
      switch (fccno) {
      case 0:
 -        gen_helper_fcmpes(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
          break;
      case 1:
 -        gen_helper_fcmpes_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpes_fcc1(tcg_env, r_rs1, r_rs2);
          break;
      case 2:
 -        gen_helper_fcmpes_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpes_fcc2(tcg_env, r_rs1, r_rs2);
          break;
      case 3:
 -        gen_helper_fcmpes_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpes_fcc3(tcg_env, r_rs1, r_rs2);
          break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
  {
      switch (fccno) {
      case 0:
 -        gen_helper_fcmped(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
          break;
      case 1:
 -        gen_helper_fcmped_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmped_fcc1(tcg_env, r_rs1, r_rs2);
          break;
      case 2:
 -        gen_helper_fcmped_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmped_fcc2(tcg_env, r_rs1, r_rs2);
          break;
      case 3:
 -        gen_helper_fcmped_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmped_fcc3(tcg_env, r_rs1, r_rs2);
          break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  {
      switch (fccno) {
      case 0:
 -        gen_helper_fcmpeq(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
          break;
      case 1:
 -        gen_helper_fcmpeq_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpeq_fcc1(tcg_env, r_rs1, r_rs2);
          break;
      case 2:
 -        gen_helper_fcmpeq_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpeq_fcc2(tcg_env, r_rs1, r_rs2);
          break;
      case 3:
 -        gen_helper_fcmpeq_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +        gen_helper_fcmpeq_fcc3(tcg_env, r_rs1, r_rs2);
          break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  static void gen_op_fcmps(int fccno, TCGv r_rs1, TCGv r_rs2)
  {
 -    gen_helper_fcmps(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +    gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
  }
  static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
  {
 -    gen_helper_fcmpd(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +    gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
  }
  static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  {
 -    gen_helper_fcmpq(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +    gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
  }
  static void gen_op_fcmpes(int fccno, TCGv r_rs1, TCGv r_rs2)
  {
 -    gen_helper_fcmpes(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +    gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
  }
  static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
  {
 -    gen_helper_fcmped(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +    gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
  }
  static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  {
 -    gen_helper_fcmpeq(cpu_fsr, tcg_env, r_rs1, r_rs2);
 +    gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
  }
  #endif
@@ -XXX,XX +XXX,XX @@ static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
      tnew = tcg_temp_new();
      told = tcg_temp_new();
      tcg_gen_qemu_ld_tl(tnew, addr, dc->mem_idx, mop | MO_ALIGN);
 +    tcg_gen_ld_tl(told, tcg_env, offsetof(CPUSPARCState, fsr));
      tcg_gen_andi_tl(tnew, tnew, new_mask);
 -    tcg_gen_andi_tl(told, cpu_fsr, old_mask);
 +    tcg_gen_andi_tl(told, told, old_mask);
      tcg_gen_or_tl(tnew, tnew, told);
      gen_helper_set_fsr_noftt(tcg_env, tnew);
      return advance_pc(dc);
@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
          { &cpu_icc_Z, offsetof(CPUSPARCState, icc_Z), "icc_Z" },
          { &cpu_icc_C, offsetof(CPUSPARCState, icc_C), "icc_C" },
          { &cpu_cond, offsetof(CPUSPARCState, cond), "cond" },
 -        { &cpu_fsr, offsetof(CPUSPARCState, fsr), "fsr" },
          { &cpu_pc, offsetof(CPUSPARCState, pc), "pc" },
          { &cpu_npc, offsetof(CPUSPARCState, npc), "npc" },
          { &cpu_y, offsetof(CPUSPARCState, y), "y" },
 --
-.34.1
+.43.0

-[PULL 01/57] include/hw/core: Add mmu_index to CPUClass
+[PULL 58/72] softfloat: Remove float_muladd_halve_result
-To be used after all targets have populated the hook.
+All uses have been convered to float*_muladd_scalbn.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/hw/core/cpu.h | 3 +++
+ include/fpu/softfloat.h   | 3 ---
-file changed, 3 insertions(+)
+ fpu/softfloat.c           | 6 ------
  fpu/softfloat-parts.c.inc | 4 ----
 files changed, 13 deletions(-)
-diff --git a/include/hw/core/cpu.h b/include/hw/core/cpu.h
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/core/cpu.h
+--- a/include/fpu/softfloat.h
-+++ b/include/hw/core/cpu.h
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ struct SysemuCPUOps;
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
-  * @parse_features: Callback to parse command line arguments.
+ | Using these differs from negating an input or output before calling
-  * @reset_dump_flags: #CPUDumpFlags to use for reset logging.
+ | the muladd function in that this means that a NaN doesn't have its
-  * @has_work: Callback for checking if there is work to do.
+ | sign bit inverted before it is propagated.
-+ * @mmu_index: Callback for choosing softmmu mmu index;
+-| We also support halving the result before rounding, as a special
-+ *       may be used internally by memory_rw_debug without TCG.
+-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
-  * @memory_rw_debug: Callback for GDB memory access.
+ *----------------------------------------------------------------------------*/
-  * @dump_state: Callback for dumping state.
+ enum {
-  * @query_cpu_fast:
+     float_muladd_negate_c = 1,
-@@ -XXX,XX +XXX,XX @@ struct CPUClass {
+     float_muladd_negate_product = 2,
-     void (*parse_features)(const char *typename, char *str, Error **errp);
+     float_muladd_negate_result = 4,
+-    float_muladd_halve_result = 8,
-     bool (*has_work)(CPUState *cpu);
+ };
-+    int (*mmu_index)(CPUState *cpu, bool ifetch);
-     int (*memory_rw_debug)(CPUState *cpu, vaddr addr,
+ /*----------------------------------------------------------------------------
-                            uint8_t *buf, int len, bool is_write);
+diff --git a/fpu/softfloat.c b/fpu/softfloat.c
-     void (*dump_state)(CPUState *cpu, FILE *, int flags);
+index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat.c
 +++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
      if (unlikely(!can_use_fpu(s))) {
          goto soft;
      }
 -    if (unlikely(flags & float_muladd_halve_result)) {
 -        goto soft;
 -    }
      float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
      if (unlikely(!f32_is_zon3(ua, ub, uc))) {
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
      if (unlikely(!can_use_fpu(s))) {
          goto soft;
      }
 -    if (unlikely(flags & float_muladd_halve_result)) {
 -        goto soft;
 -    }
      float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
      if (unlikely(!f64_is_zon3(ua, ub, uc))) {
 diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/fpu/softfloat-parts.c.inc
 +++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
      a->exp = p_widen.exp;
   return_normal:
 -    /* TODO: Replace all use of float_muladd_halve_result with scale. */
 -    if (flags & float_muladd_halve_result) {
 -        a->exp -= 1;
 -    }
      a->exp += scale;
   finish_sign:
      if (flags & float_muladd_negate_result) {
 --
-.34.1
+.43.0

-[PULL 57/57] target/sparc: Remove FSR_FTT_NMASK, FSR_FTT_CEXC_NMASK
+[PULL 59/72] softfloat: Add float_round_nearest_even_max
-These macros are no longer used.
+This rounding mode is used by Hexagon.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-23-richard.henderson@linaro.org>
 ---
- target/sparc/cpu.h | 7 -------
+ include/fpu/softfloat-types.h | 2 ++
-file changed, 7 deletions(-)
+ fpu/softfloat-parts.c.inc     | 3 +++
 files changed, 5 insertions(+)
-diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
+diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.h
+--- a/include/fpu/softfloat-types.h
-+++ b/target/sparc/cpu.h
++++ b/include/fpu/softfloat-types.h
-@@ -XXX,XX +XXX,XX @@ enum {
+@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
- #define FSR_FTT1   (1ULL << 15)
+     float_round_to_odd       = 5,
- #define FSR_FTT0   (1ULL << 14)
+     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
- #define FSR_FTT_MASK (FSR_FTT2 | FSR_FTT1 | FSR_FTT0)
+     float_round_to_odd_inf   = 6,
--#ifdef TARGET_SPARC64
++    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
--#define FSR_FTT_NMASK      0xfffffffffffe3fffULL
++    float_round_nearest_even_max = 7,
--#define FSR_FTT_CEXC_NMASK 0xfffffffffffe3fe0ULL
+ } FloatRoundMode;
--#else
--#define FSR_FTT_NMASK      0xfffe3fffULL
+ /*
--#define FSR_FTT_CEXC_NMASK 0xfffe3fe0ULL
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
--#endif
+index XXXXXXX..XXXXXXX 100644
- #define FSR_FTT_IEEE_EXCP (1ULL << 14)
+--- a/fpu/softfloat-parts.c.inc
- #define FSR_FTT_UNIMPFPOP (3ULL << 14)
++++ b/fpu/softfloat-parts.c.inc
- #define FSR_FTT_SEQ_ERROR (4ULL << 14)
+@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
      int exp, flags = 0;
      switch (s->float_rounding_mode) {
 +    case float_round_nearest_even_max:
 +        overflow_norm = true;
 +        /* fall through */
      case float_round_nearest_even:
          if (N > 64 && frac_lsb == 0) {
              inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
 --
-.34.1
+.43.0

-[PULL 49/57] target/sparc: Remove qt0, qt1 temporaries
+[PULL 60/72] softfloat: Add float_muladd_suppress_add_product_zero
-These are no longer used for passing data to/from helpers.
+Certain Hexagon instructions suppress changes to the result
 when the product of fma() is a true zero.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-15-richard.henderson@linaro.org>
 ---
- target/sparc/cpu.h         | 2 --
+ include/fpu/softfloat.h   | 5 +++++
- target/sparc/fop_helper.c  | 3 ---
+ fpu/softfloat.c           | 3 +++
- target/sparc/ldst_helper.c | 3 ---
+ fpu/softfloat-parts.c.inc | 4 +++-
-files changed, 8 deletions(-)
+files changed, 11 insertions(+), 1 deletion(-)
-diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
+diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/cpu.h
+--- a/include/fpu/softfloat.h
-+++ b/target/sparc/cpu.h
++++ b/include/fpu/softfloat.h
-@@ -XXX,XX +XXX,XX @@ struct CPUArchState {
+@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
-     uint64_t mmubpregs[4];
+ | Using these differs from negating an input or output before calling
-     uint64_t prom_addr;
+ | the muladd function in that this means that a NaN doesn't have its
- #endif
+ | sign bit inverted before it is propagated.
--    /* temporary float registers */
++|
--    float128 qt0, qt1;
++| With float_muladd_suppress_add_product_zero, if A or B is zero
-     float_status fp_status;
++| such that the product is a true zero, then return C without addition.
- #if defined(TARGET_SPARC64)
++| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
- #define MAXTL_MAX 8
+ *----------------------------------------------------------------------------*/
-diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
+ enum {
      float_muladd_negate_c = 1,
      float_muladd_negate_product = 2,
      float_muladd_negate_result = 4,
 +    float_muladd_suppress_add_product_zero = 8,
  };
  /*----------------------------------------------------------------------------
 diff --git a/fpu/softfloat.c b/fpu/softfloat.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/fop_helper.c
+--- a/fpu/softfloat.c
-+++ b/target/sparc/fop_helper.c
++++ b/fpu/softfloat.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
- #include "exec/helper-proto.h"
+     if (unlikely(!can_use_fpu(s))) {
- #include "fpu/softfloat.h"
+         goto soft;
+     }
--#define QT0 (env->qt0)
++    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
--#define QT1 (env->qt1)
++        goto soft;
--
++    }
- static inline float128 f128_in(Int128 i)
- {
+     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
-     union {
+     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
-diff --git a/target/sparc/ldst_helper.c b/target/sparc/ldst_helper.c
+diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/ldst_helper.c
+--- a/fpu/softfloat-parts.c.inc
-+++ b/target/sparc/ldst_helper.c
++++ b/fpu/softfloat-parts.c.inc
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
- #endif
+             goto return_normal;
- #endif
+         }
+         if (c->cls == float_class_zero) {
--#define QT0 (env->qt0)
+-            if (a->sign != c->sign) {
--#define QT1 (env->qt1)
++            if (flags & float_muladd_suppress_add_product_zero) {
--
++                a->sign = c->sign;
- #if defined(TARGET_SPARC64) && !defined(CONFIG_USER_ONLY)
++            } else if (a->sign != c->sign) {
- /* Calculates TSB pointer value for fault page size
+                 goto return_sub_zero;
-  * UltraSPARC IIi has fixed sizes (8k or 64k) for the page pointers
+             }
              goto return_zero;
 --
-.34.1
+.43.0

-[PULL 48/57] target/sparc: Use i128 for Fdmulq
+[PULL 61/72] target/hexagon: Use float32_mul in helper_sfmpy
+There are no special cases for this instruction.
+Remove internal_mpyf as unused.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-14-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     |  2 +-
+ target/hexagon/fma_emu.h   | 1 -
- target/sparc/fop_helper.c |  8 ++++----
+ target/hexagon/fma_emu.c   | 8 --------
- target/sparc/translate.c  | 15 ++++-----------
+ target/hexagon/op_helper.c | 2 +-
-files changed, 9 insertions(+), 16 deletions(-)
+files changed, 1 insertion(+), 10 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/target/hexagon/fma_emu.h
-+++ b/target/sparc/helper.h
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_RWG, f32, env, f32, f32)
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
- DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_RWG, f32, env, f32, f32)
+ float32 infinite_float32(uint8_t sign);
+ float32 internal_fmafx(float32 a, float32 b, float32 c,
- DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
+                        int scale, float_status *fp_status);
--DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, void, env, f64, f64)
+-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
-+DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, i128, env, f64, f64)
+ float64 internal_mpyhh(float64 a, float64 b,
+                        unsigned long long int accumulated,
- DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
+                        float_status *fp_status);
- DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, i128, env, s32)
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/fop_helper.c
+--- a/target/hexagon/fma_emu.c
-+++ b/target/sparc/fop_helper.c
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ float64 helper_fsmuld(CPUSPARCState *env, float32 src1, float32 src2)
+@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
-                        &env->fp_status);
+     return accum_round_float32(result, fp_status);
  }
--void helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
+-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
 +Int128 helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
  {
 -    QT0 = float128_mul(float64_to_float128(src1, &env->fp_status),
 -                       float64_to_float128(src2, &env->fp_status),
 -                       &env->fp_status);
 +    return f128_ret(float128_mul(float64_to_float128(src1, &env->fp_status),
 +                                 float64_to_float128(src2, &env->fp_status),
 +                                 &env->fp_status));
  }
  /* Integer to float conversion.  */
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_store_fpr_Q(DisasContext *dc, unsigned int dst, TCGv_i128 v)
      gen_update_fprs_dirty(dc, dst);
  }
 -static void gen_op_store_QT0_fpr(unsigned int dst)
 -{
--    tcg_gen_ld_i64(cpu_fpr[dst / 2], tcg_env, offsetof(CPUSPARCState, qt0) +
+-    if (float32_is_zero(a) || float32_is_zero(b)) {
--                   offsetof(CPU_QuadU, ll.upper));
+-        return float32_mul(a, b, fp_status);
--    tcg_gen_ld_i64(cpu_fpr[dst/2 + 1], tcg_env, offsetof(CPUSPARCState, qt0) +
+-    }
--                   offsetof(CPU_QuadU, ll.lower));
+-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
 -}
 -
- /* moves */
+ float64 internal_mpyhh(float64 a, float64 b,
- #ifdef CONFIG_USER_ONLY
+                       unsigned long long int accumulated,
- #define supervisor(dc) 0
+                       float_status *fp_status)
-@@ -XXX,XX +XXX,XX @@ TRANS(FDIVq, ALL, do_env_qqq, a, gen_helper_fdivq)
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
- static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
+index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/op_helper.c
 +++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
  {
-     TCGv_i64 src1, src2;
+     float32 RdV;
-+    TCGv_i128 dst;
+     arch_fpop_start(env);
+-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
-     if (gen_trap_ifnofpu(dc)) {
++    RdV = float32_mul(RsV, RtV, &env->fp_status);
-         return true;
+     arch_fpop_end(env);
-@@ -XXX,XX +XXX,XX @@ static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
+     return RdV;
      gen_op_clear_ieee_excp_and_FTT();
      src1 = gen_load_fpr_D(dc, a->rs1);
      src2 = gen_load_fpr_D(dc, a->rs2);
 -    gen_helper_fdmulq(tcg_env, src1, src2);
 +    dst = tcg_temp_new_i128();
 +    gen_helper_fdmulq(dst, tcg_env, src1, src2);
      gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
 -    gen_op_store_QT0_fpr(QFPREG(a->rd));
 -    gen_update_fprs_dirty(dc, QFPREG(a->rd));
 +    gen_store_fpr_Q(dc, a->rd, dst);
      return advance_pc(dc);
  }
 --
-.34.1
+.43.0

-New patch
+[PULL 62/72] target/hexagon: Use float32_muladd for helper_sffma
+There are no special cases for this instruction.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ target/hexagon/op_helper.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/op_helper.c
++++ b/target/hexagon/op_helper.c
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
+                       float32 RsV, float32 RtV)
+ {
+     arch_fpop_start(env);
+-    RxV = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
++    RxV = float32_muladd(RsV, RtV, RxV, 0, &env->fp_status);
+     arch_fpop_end(env);
+     return RxV;
+ }
+--
+.43.0

-New patch
+[PULL 63/72] target/hexagon: Use float32_muladd for helper_sffms
+There are no special cases for this instruction.  Since hexagon
+always uses default-nan mode, explicitly negating the first
+input is unnecessary.  Use float_muladd_negate_product instead.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ target/hexagon/op_helper.c | 5 ++---
+file changed, 2 insertions(+), 3 deletions(-)
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/op_helper.c
++++ b/target/hexagon/op_helper.c
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
+ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
+                       float32 RsV, float32 RtV)
+ {
+-    float32 neg_RsV;
+     arch_fpop_start(env);
+-    neg_RsV = float32_set_sign(RsV, float32_is_neg(RsV) ? 0 : 1);
+-    RxV = internal_fmafx(neg_RsV, RtV, RxV, 0, &env->fp_status);
++    RxV = float32_muladd(RsV, RtV, RxV, float_muladd_negate_product,
++                         &env->fp_status);
+     arch_fpop_end(env);
+     return RxV;
+ }
+--
+.43.0

-New patch
+[PULL 64/72] target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
+This instruction has a special case that 0 * x + c returns c
+without the normal sign folding that comes with 0 + -0.
+Use the new float_muladd_suppress_add_product_zero to
+describe this.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+---
+ target/hexagon/op_helper.c | 11 +++--------
+file changed, 3 insertions(+), 8 deletions(-)
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/hexagon/op_helper.c
++++ b/target/hexagon/op_helper.c
+@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
+ float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
+                          float32 RsV, float32 RtV, float32 PuV)
+ {
+-    size4s_t tmp;
+     arch_fpop_start(env);
+-    RxV = check_nan(RxV, RxV, &env->fp_status);
+-    RxV = check_nan(RxV, RsV, &env->fp_status);
+-    RxV = check_nan(RxV, RtV, &env->fp_status);
+-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
+-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
+-        RxV = tmp;
+-    }
++    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
++                                float_muladd_suppress_add_product_zero,
++                                &env->fp_status);
+     arch_fpop_end(env);
+     return RxV;
+ }
+--
+.43.0

-[PULL 46/57] target/sparc: Use i128 for FsTOq, FiTOq
+[PULL 65/72] target/hexagon: Use float32_muladd for helper_sffm[as]_lib
+There are multiple special cases for this instruction.
+(1) The saturate to normal maximum instead of overflow to infinity is
+    handled by the new float_round_nearest_even_max rounding mode.
+(2) The 0 * n + c special case is handled by the new
+    float_muladd_suppress_add_product_zero flag.
+(3) The Inf - Inf -> 0 special case can be detected after the fact
+    by examining float_flag_invalid_isi.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-12-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     | 4 ++--
+ target/hexagon/op_helper.c | 105 +++++++++----------------------------
- target/sparc/fop_helper.c | 8 ++++----
+file changed, 26 insertions(+), 79 deletions(-)
  target/sparc/translate.c  | 9 +++++----
 files changed, 11 insertions(+), 10 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/target/hexagon/op_helper.c
-+++ b/target/sparc/helper.h
++++ b/target/hexagon/op_helper.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
- DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, void, env, f64, f64)
+     return RxV;
  DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
 -DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, void, env, s32)
 +DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, i128, env, s32)
  DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
  DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
  DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
  DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
 -DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, void, env, f32)
 +DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, i128, env, f32)
  DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_RWG, f64, env, i128)
  DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, void, env, f64)
  DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ float64 helper_fitod(CPUSPARCState *env, int32_t src)
      return int32_to_float64(src, &env->fp_status);
  }
--void helper_fitoq(CPUSPARCState *env, int32_t src)
+-static bool is_zero_prod(float32 a, float32 b)
-+Int128 helper_fitoq(CPUSPARCState *env, int32_t src)
+-{
 -    return ((float32_is_zero(a) && is_finite(b)) ||
 -            (float32_is_zero(b) && is_finite(a)));
 -}
 -
 -static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
 -{
 -    float32 ret = dst;
 -    if (float32_is_any_nan(x)) {
 -        if (extract32(x, 22, 1) == 0) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        ret = make_float32(0xffffffff);    /* nan */
 -    }
 -    return ret;
 -}
 -
  float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV, float32 PuV)
  {
--    QT0 = int32_to_float128(src, &env->fp_status);
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
-+    return f128_ret(int32_to_float128(src, &env->fp_status));
+     return RxV;
  }
- #ifdef TARGET_SPARC64
+-static bool is_inf_prod(int32_t a, int32_t b)
-@@ -XXX,XX +XXX,XX @@ float32 helper_fqtos(CPUSPARCState *env, Int128 src)
++static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
-     return float128_to_float32(f128_in(src), &env->fp_status);
++                            float32 RsV, float32 RtV, int negate)
  {
 -    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
 -           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
 -           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
 +    int flags;
 +
 +    arch_fpop_start(env);
 +
 +    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
 +    RxV = float32_muladd(RsV, RtV, RxV,
 +                         negate | float_muladd_suppress_add_product_zero,
 +                         &env->fp_status);
 +
 +    flags = get_float_exception_flags(&env->fp_status);
 +    if (flags) {
 +        /* Flags are suppressed by this instruction. */
 +        set_float_exception_flags(0, &env->fp_status);
 +
 +        /* Return 0 for Inf - Inf. */
 +        if (flags & float_flag_invalid_isi) {
 +            RxV = 0;
 +        }
 +    }
 +
 +    arch_fpop_end(env);
 +    return RxV;
  }
--void helper_fstoq(CPUSPARCState *env, float32 src)
+ float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
-+Int128 helper_fstoq(CPUSPARCState *env, float32 src)
+                           float32 RsV, float32 RtV)
  {
--    QT0 = float32_to_float128(src, &env->fp_status);
+-    bool infinp;
-+    return f128_ret(float32_to_float128(src, &env->fp_status));
+-    bool infminusinf;
 -    float32 tmp;
 -
 -    arch_fpop_start(env);
 -    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
 -    infminusinf = float32_is_infinity(RxV) &&
 -                  is_inf_prod(RsV, RtV) &&
 -                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
 -    infinp = float32_is_infinity(RxV) ||
 -             float32_is_infinity(RtV) ||
 -             float32_is_infinity(RsV);
 -    RxV = check_nan(RxV, RxV, &env->fp_status);
 -    RxV = check_nan(RxV, RsV, &env->fp_status);
 -    RxV = check_nan(RxV, RtV, &env->fp_status);
 -    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
 -    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
 -        RxV = tmp;
 -    }
 -    set_float_exception_flags(0, &env->fp_status);
 -    if (float32_is_infinity(RxV) && !infinp) {
 -        RxV = RxV - 1;
 -    }
 -    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, 0);
  }
- float64 helper_fqtod(CPUSPARCState *env, Int128 src)
+ float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
-diff --git a/target/sparc/translate.c b/target/sparc/translate.c
+                           float32 RsV, float32 RtV)
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ TRANS(FqTOd, ALL, do_env_dq, a, gen_helper_fqtod)
  TRANS(FqTOx, 64, do_env_dq, a, gen_helper_fqtox)
  static bool do_env_qf(DisasContext *dc, arg_r_r *a,
 -                      void (*func)(TCGv_env, TCGv_i32))
 +                      void (*func)(TCGv_i128, TCGv_env, TCGv_i32))
  {
-     TCGv_i32 src;
+-    bool infinp;
-+    TCGv_i128 dst;
+-    bool infminusinf;
+-    float32 tmp;
-     if (gen_trap_ifnofpu(dc)) {
+-
-         return true;
+-    arch_fpop_start(env);
-@@ -XXX,XX +XXX,XX @@ static bool do_env_qf(DisasContext *dc, arg_r_r *a,
+-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
+-    infminusinf = float32_is_infinity(RxV) &&
-     gen_op_clear_ieee_excp_and_FTT();
+-                  is_inf_prod(RsV, RtV) &&
-     src = gen_load_fpr_F(dc, a->rs);
+-                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
--    func(tcg_env, src);
+-    infinp = float32_is_infinity(RxV) ||
--    gen_op_store_QT0_fpr(QFPREG(a->rd));
+-             float32_is_infinity(RtV) ||
--    gen_update_fprs_dirty(dc, QFPREG(a->rd));
+-             float32_is_infinity(RsV);
-+    dst = tcg_temp_new_i128();
+-    RxV = check_nan(RxV, RxV, &env->fp_status);
-+    func(dst, tcg_env, src);
+-    RxV = check_nan(RxV, RsV, &env->fp_status);
-+    gen_store_fpr_Q(dc, a->rd, dst);
+-    RxV = check_nan(RxV, RtV, &env->fp_status);
-     return advance_pc(dc);
+-    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
 -    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
 -    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
 -        RxV = tmp;
 -    }
 -    set_float_exception_flags(0, &env->fp_status);
 -    if (float32_is_infinity(RxV) && !infinp) {
 -        RxV = RxV - 1;
 -    }
 -    if (infminusinf) {
 -        RxV = 0;
 -    }
 -    arch_fpop_end(env);
 -    return RxV;
 +    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
  }
+ float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
 --
-.34.1
+.43.0

-[PATCH] linux-user/aarch64: Add padding before __kernel_rt_sigreturn
+[PULL 66/72] target/hexagon: Remove internal_fmafx
-Without this padding, an unwind through the signal handler
+The function is now unused.
 will pick up the unwind info for the preceding syscall.
-This fixes gcc's 30_threads/thread/native_handle/cancel.cc.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Cc: qemu-stable@nongnu.org
 Fixes: ee95fae075c6 ("linux-user/aarch64: Add vdso")
 Resolves: https://linaro.atlassian.net/browse/GNU-974
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- linux-user/aarch64/vdso-be.so | Bin 3216 -> 3224 bytes
+ target/hexagon/fma_emu.h |   2 -
- linux-user/aarch64/vdso-le.so | Bin 3216 -> 3224 bytes
+ target/hexagon/fma_emu.c | 171 ---------------------------------------
- linux-user/aarch64/vdso.S     |   4 ++++
+files changed, 173 deletions(-)
 files changed, 4 insertions(+)
-diff --git a/linux-user/aarch64/vdso-be.so b/linux-user/aarch64/vdso-be.so
+diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
 index XXXXXXX..XXXXXXX 100755
 GIT binary patch
 delta 121
 zcmbOrIYV-SKI4pu2Kk&{7{Gw#%fuBAMC1c?^>~k}v|avdxNjSSLfftVb3bgJ!|2S&
 z_-6A1CJrVZc?IUH8G;R$7#SF@Om<{a*v!K!&BXX-vIe^~TWO|cva$K*Om;sOMw`hy
 ZxXl@VO#Z-a&zLdUfXALuXmSCM0s#EKC)of1
 delta 116
 zcmbOsIYDxQKI4Rm2Kk&H7{Gw#!^9O2L>8U?-5V_M@!kH(Sx4vJn|*ujLPgija~Pc&
 z8DDIEz{J5c`3;N8W)W6tCdL<&4cM*OEF8_<v%@zRviq?xT1-B`ZO-^%@(*r%#)Qch
 RJocPi5ThAdCO2?N002V6C;<Qf
 diff --git a/linux-user/aarch64/vdso-le.so b/linux-user/aarch64/vdso-le.so
 index XXXXXXX..XXXXXXX 100755
 GIT binary patch
 delta 129
 zcmbOrIYV-S2IGv0n)#exSQx<I%fyAxMZTVBQ(04AP_*V|Vxp|@=@;x8zb9;-!)U|E
 z_-6A>CVnO!c?IUH8G;R$7#SF@Om<{a*v!K!!o>JyvLd?^n`3BUW_royOm=q`Mw`hS
 dxy>1WOn%92&zLb;lgFM@hy!9z%j7~Xc>tTxDQW-!
 delta 108
 zcmbOsIYDxQ2IGW@n)#d`SQx<I!^DNpMK&+G&+g_}w9WI@dn@@euKVesZ-h6`VYFdn
 ze6jf^6F<}BH!LcfMOa0c7+*}*WOrgKEO1Fl%G+GX?#{w!F?lDqIpc@PAGz%r6DAw-
 M*fVlXF62=M06owo?*IS*
 diff --git a/linux-user/aarch64/vdso.S b/linux-user/aarch64/vdso.S
 index XXXXXXX..XXXXXXX 100644
---- a/linux-user/aarch64/vdso.S
+--- a/target/hexagon/fma_emu.h
-+++ b/linux-user/aarch64/vdso.S
++++ b/target/hexagon/fma_emu.h
-@@ -XXX,XX +XXX,XX @@ vdso_syscall __kernel_clock_getres, __NR_clock_getres
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
-  * For now, elide the unwind info for __kernel_rt_sigreturn and rely on
+ }
-  * the libgcc fallback routine as we have always done.  This requires
+ int32_t float32_getexp(float32 f32);
-  * that the code sequence used be exact.
+ float32 infinite_float32(uint8_t sign);
-+ *
+-float32 internal_fmafx(float32 a, float32 b, float32 c,
-+ * Add a nop as a spacer to ensure that unwind does not pick up the
+-                       int scale, float_status *fp_status);
-+ * unwind info from the preceding syscall.
+ float64 internal_mpyhh(float64 a, float64 b,
-  */
+                        unsigned long long int accumulated,
-+    nop
+                        float_status *fp_status);
- __kernel_rt_sigreturn:
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
-     /* No BTI C insn here -- we arrive via RET. */
+index XXXXXXX..XXXXXXX 100644
-     mov    x8, #__NR_rt_sigreturn
+--- a/target/hexagon/fma_emu.c
 +++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
      return -1;
  }
 -static uint64_t float32_getmant(float32 f32)
 -{
 -    Float a = { .i = f32 };
 -    if (float32_is_normal(f32)) {
 -        return a.mant | 1ULL << 23;
 -    }
 -    if (float32_is_zero(f32)) {
 -        return 0;
 -    }
 -    if (float32_is_denormal(f32)) {
 -        return a.mant;
 -    }
 -    return ~0ULL;
 -}
 -
  int32_t float32_getexp(float32 f32)
  {
      Float a = { .i = f32 };
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
  }
  /* Return a maximum finite value with the requested sign */
 -static float32 maxfinite_float32(uint8_t sign)
 -{
 -    if (sign) {
 -        return make_float32(SF_MINUS_MAXF);
 -    } else {
 -        return make_float32(SF_MAXF);
 -    }
 -}
 -
 -/* Return a zero value with requested sign */
 -static float32 zero_float32(uint8_t sign)
 -{
 -    if (sign) {
 -        return make_float32(0x80000000);
 -    } else {
 -        return float32_zero;
 -    }
 -}
 -
  #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
  static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
  { \
@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
  }
  GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
 -GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
 -
 -static bool is_inf_prod(float64 a, float64 b)
 -{
 -    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
 -            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
 -            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
 -}
 -
 -static float64 special_fma(float64 a, float64 b, float64 c,
 -                           float_status *fp_status)
 -{
 -    float64 ret = make_float64(0);
 -
 -    /*
 -     * If A multiplied by B is an exact infinity and C is also an infinity
 -     * but with the opposite sign, FMA returns NaN and raises invalid.
 -     */
 -    uint8_t a_sign = float64_is_neg(a);
 -    uint8_t b_sign = float64_is_neg(b);
 -    uint8_t c_sign = float64_is_neg(c);
 -    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
 -        if ((a_sign ^ b_sign) != c_sign) {
 -            ret = make_float64(DF_NAN);
 -            float_raise(float_flag_invalid, fp_status);
 -            return ret;
 -        }
 -    }
 -    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
 -        (float64_is_zero(a) && float64_is_infinity(b))) {
 -        ret = make_float64(DF_NAN);
 -        float_raise(float_flag_invalid, fp_status);
 -        return ret;
 -    }
 -    /*
 -     * If none of the above checks are true and C is a NaN,
 -     * a NaN shall be returned
 -     * If A or B are NaN, a NAN shall be returned.
 -     */
 -    if (float64_is_any_nan(a) ||
 -        float64_is_any_nan(b) ||
 -        float64_is_any_nan(c)) {
 -        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
 -            float_raise(float_flag_invalid, fp_status);
 -        }
 -        ret = make_float64(DF_NAN);
 -        return ret;
 -    }
 -    /*
 -     * We have checked for adding opposite-signed infinities.
 -     * Other infinities return infinity with the correct sign
 -     */
 -    if (float64_is_infinity(c)) {
 -        ret = infinite_float64(c_sign);
 -        return ret;
 -    }
 -    if (float64_is_infinity(a) || float64_is_infinity(b)) {
 -        ret = infinite_float64(a_sign ^ b_sign);
 -        return ret;
 -    }
 -    g_assert_not_reached();
 -}
 -
 -static float32 special_fmaf(float32 a, float32 b, float32 c,
 -                            float_status *fp_status)
 -{
 -    float64 aa, bb, cc;
 -    aa = float32_to_float64(a, fp_status);
 -    bb = float32_to_float64(b, fp_status);
 -    cc = float32_to_float64(c, fp_status);
 -    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
 -}
 -
 -float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
 -                       float_status *fp_status)
 -{
 -    Accum prod;
 -    Accum acc;
 -    Accum result;
 -    accum_init(&prod);
 -    accum_init(&acc);
 -    accum_init(&result);
 -
 -    uint8_t a_sign = float32_is_neg(a);
 -    uint8_t b_sign = float32_is_neg(b);
 -    uint8_t c_sign = float32_is_neg(c);
 -    if (float32_is_infinity(a) ||
 -        float32_is_infinity(b) ||
 -        float32_is_infinity(c)) {
 -        return special_fmaf(a, b, c, fp_status);
 -    }
 -    if (float32_is_any_nan(a) ||
 -        float32_is_any_nan(b) ||
 -        float32_is_any_nan(c)) {
 -        return special_fmaf(a, b, c, fp_status);
 -    }
 -    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
 -        float32 tmp = float32_mul(a, b, fp_status);
 -        tmp = float32_add(tmp, c, fp_status);
 -        return tmp;
 -    }
 -
 -    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
 -    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
 -
 -    /*
 -     * Note: extracting the mantissa into an int is multiplying by
 -     * 2**23, so adjust here
 -     */
 -    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
 -    prod.sign = a_sign ^ b_sign;
 -    if (float32_is_zero(a) || float32_is_zero(b)) {
 -        prod.exp = -2 * WAY_BIG_EXP;
 -    }
 -    if ((scale > 0) && float32_is_denormal(c)) {
 -        acc.mant = int128_mul_6464(0, 0);
 -        acc.exp = -WAY_BIG_EXP;
 -        acc.sign = c_sign;
 -        acc.sticky = 1;
 -        result = accum_add(prod, acc);
 -    } else if (!float32_is_zero(c)) {
 -        acc.mant = int128_mul_6464(float32_getmant(c), 1);
 -        acc.exp = float32_getexp(c);
 -        acc.sign = c_sign;
 -        result = accum_add(prod, acc);
 -    } else {
 -        result = prod;
 -    }
 -    result.exp += scale;
 -    return accum_round_float32(result, fp_status);
 -}
  float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
 --
-.34.1
+.43.0

-[PULL 11/57] target/loongarch: Populate CPUClass.mmu_index
+[PULL 67/72] target/hexagon: Expand GEN_XF_ROUND
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+This massive macro is now only used once.
 Expand it for use only by float64.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/loongarch/cpu.h |  6 ++----
+ target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
- target/loongarch/cpu.c | 11 +++++++++++
+file changed, 127 insertions(+), 128 deletions(-)
 files changed, 13 insertions(+), 4 deletions(-)
-diff --git a/target/loongarch/cpu.h b/target/loongarch/cpu.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/loongarch/cpu.h
+--- a/target/hexagon/fma_emu.c
-+++ b/target/loongarch/cpu.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ struct LoongArchCPUClass {
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
  #define MMU_IDX_USER     MMU_PLV_USER
  #define MMU_IDX_DA       4
 +int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch);
  static inline int cpu_mmu_index(CPULoongArchState *env, bool ifetch)
  {
  #ifdef CONFIG_USER_ONLY
      return MMU_IDX_USER;
  #else
 -    if (FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PG)) {
 -        return FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PLV);
 -    }
 -    return MMU_IDX_DA;
 +    return loongarch_cpu_mmu_index(env_cpu(env), ifetch);
  #endif
  }
-diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
+ /* Return a maximum finite value with the requested sign */
-index XXXXXXX..XXXXXXX 100644
+-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
---- a/target/loongarch/cpu.c
+-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
-+++ b/target/loongarch/cpu.c
+-{ \
-@@ -XXX,XX +XXX,XX @@ static bool loongarch_cpu_has_work(CPUState *cs)
+-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
- #endif
+-        && ((a.guard | a.round | a.sticky) == 0)) { \
 -        /* result zero */ \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_down: \
 -            return zero_##SUFFIX(1); \
 -        default: \
 -            return zero_##SUFFIX(0); \
 -        } \
 -    } \
 -    /* Normalize right */ \
 -    /* We want MANTBITS bits of mantissa plus the leading one. */ \
 -    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
 -    /* So we need to normalize right while the high word is non-zero and \
 -    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
 -    while ((int128_gethi(a.mant) != 0) || \
 -           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
 -        a = accum_norm_right(a, 1); \
 -    } \
 -    /* \
 -     * OK, now normalize left \
 -     * We want to normalize left until we have a leading one in bit 24 \
 -     * Theoretically, we only need to shift a maximum of one to the left if we \
 -     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
 -     * should be 0  \
 -     */ \
 -    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
 -        a = accum_norm_left(a); \
 -    } \
 -    /* \
 -     * OK, now we might need to denormalize because of potential underflow. \
 -     * We need to do this before rounding, and rounding might make us normal \
 -     * again \
 -     */ \
 -    while (a.exp <= 0) { \
 -        a = accum_norm_right(a, 1 - a.exp); \
 -        /* \
 -         * Do we have underflow? \
 -         * That's when we get an inexact answer because we ran out of bits \
 -         * in a denormal. \
 -         */ \
 -        if (a.guard || a.round || a.sticky) { \
 -            float_raise(float_flag_underflow, fp_status); \
 -        } \
 -    } \
 -    /* OK, we're relatively canonical... now we need to round */ \
 -    if (a.guard || a.round || a.sticky) { \
 -        float_raise(float_flag_inexact, fp_status); \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_to_zero: \
 -            /* Chop and we're done */ \
 -            break; \
 -        case float_round_up: \
 -            if (a.sign == 0) { \
 -                a.mant = int128_add(a.mant, int128_one()); \
 -            } \
 -            break; \
 -        case float_round_down: \
 -            if (a.sign != 0) { \
 -                a.mant = int128_add(a.mant, int128_one()); \
 -            } \
 -            break; \
 -        default: \
 -            if (a.round || a.sticky) { \
 -                /* round up if guard is 1, down if guard is zero */ \
 -                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
 -            } else if (a.guard) { \
 -                /* exactly .5, round up if odd */ \
 -                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
 -            } \
 -            break; \
 -        } \
 -    } \
 -    /* \
 -     * OK, now we might have carried all the way up. \
 -     * So we might need to shr once \
 -     * at least we know that the lsb should be zero if we rounded and \
 -     * got a carry out... \
 -     */ \
 -    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
 -        a = accum_norm_right(a, 1); \
 -    } \
 -    /* Overflow? */ \
 -    if (a.exp >= INF_EXP) { \
 -        /* Yep, inf result */ \
 -        float_raise(float_flag_overflow, fp_status); \
 -        float_raise(float_flag_inexact, fp_status); \
 -        switch (fp_status->float_rounding_mode) { \
 -        case float_round_to_zero: \
 -            return maxfinite_##SUFFIX(a.sign); \
 -        case float_round_up: \
 -            if (a.sign == 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        case float_round_down: \
 -            if (a.sign != 0) { \
 -                return infinite_##SUFFIX(a.sign); \
 -            } else { \
 -                return maxfinite_##SUFFIX(a.sign); \
 -            } \
 -        default: \
 -            return infinite_##SUFFIX(a.sign); \
 -        } \
 -    } \
 -    /* Underflow? */ \
 -    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
 -        /* Leading one means: No, we're normal. So, we should be done... */ \
 -        INTERNAL_TYPE ret; \
 -        ret.i = 0; \
 -        ret.sign = a.sign; \
 -        ret.exp = a.exp; \
 -        ret.mant = int128_getlo(a.mant); \
 -        return ret.i; \
 -    } \
 -    assert(a.exp == 1); \
 -    INTERNAL_TYPE ret; \
 -    ret.i = 0; \
 -    ret.sign = a.sign; \
 -    ret.exp = 0; \
 -    ret.mant = int128_getlo(a.mant); \
 -    return ret.i; \
 +static float64 accum_round_float64(Accum a, float_status *fp_status)
 +{
 +    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
 +        && ((a.guard | a.round | a.sticky) == 0)) {
 +        /* result zero */
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_down:
 +            return zero_float64(1);
 +        default:
 +            return zero_float64(0);
 +        }
 +    }
 +    /*
 +     * Normalize right
 +     * We want DF_MANTBITS bits of mantissa plus the leading one.
 +     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
 +     * So we need to normalize right while the high word is non-zero and
 +     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
 +     */
 +    while ((int128_gethi(a.mant) != 0) ||
 +           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /*
 +     * OK, now normalize left
 +     * We want to normalize left until we have a leading one in bit 24
 +     * Theoretically, we only need to shift a maximum of one to the left if we
 +     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
 +     * should be 0
 +     */
 +    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
 +        a = accum_norm_left(a);
 +    }
 +    /*
 +     * OK, now we might need to denormalize because of potential underflow.
 +     * We need to do this before rounding, and rounding might make us normal
 +     * again
 +     */
 +    while (a.exp <= 0) {
 +        a = accum_norm_right(a, 1 - a.exp);
 +        /*
 +         * Do we have underflow?
 +         * That's when we get an inexact answer because we ran out of bits
 +         * in a denormal.
 +         */
 +        if (a.guard || a.round || a.sticky) {
 +            float_raise(float_flag_underflow, fp_status);
 +        }
 +    }
 +    /* OK, we're relatively canonical... now we need to round */
 +    if (a.guard || a.round || a.sticky) {
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            /* Chop and we're done */
 +            break;
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                a.mant = int128_add(a.mant, int128_one());
 +            }
 +            break;
 +        default:
 +            if (a.round || a.sticky) {
 +                /* round up if guard is 1, down if guard is zero */
 +                a.mant = int128_add(a.mant, int128_make64(a.guard));
 +            } else if (a.guard) {
 +                /* exactly .5, round up if odd */
 +                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
 +            }
 +            break;
 +        }
 +    }
 +    /*
 +     * OK, now we might have carried all the way up.
 +     * So we might need to shr once
 +     * at least we know that the lsb should be zero if we rounded and
 +     * got a carry out...
 +     */
 +    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
 +        a = accum_norm_right(a, 1);
 +    }
 +    /* Overflow? */
 +    if (a.exp >= DF_INF_EXP) {
 +        /* Yep, inf result */
 +        float_raise(float_flag_overflow, fp_status);
 +        float_raise(float_flag_inexact, fp_status);
 +        switch (fp_status->float_rounding_mode) {
 +        case float_round_to_zero:
 +            return maxfinite_float64(a.sign);
 +        case float_round_up:
 +            if (a.sign == 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        case float_round_down:
 +            if (a.sign != 0) {
 +                return infinite_float64(a.sign);
 +            } else {
 +                return maxfinite_float64(a.sign);
 +            }
 +        default:
 +            return infinite_float64(a.sign);
 +        }
 +    }
 +    /* Underflow? */
 +    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
 +        /* Leading one means: No, we're normal. So, we should be done... */
 +        Double ret;
 +        ret.i = 0;
 +        ret.sign = a.sign;
 +        ret.exp = a.exp;
 +        ret.mant = int128_getlo(a.mant);
 +        return ret.i;
 +    }
 +    assert(a.exp == 1);
 +    Double ret;
 +    ret.i = 0;
 +    ret.sign = a.sign;
 +    ret.exp = 0;
 +    ret.mant = int128_getlo(a.mant);
 +    return ret.i;
  }
-+int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
+-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-+{
+-
-+    CPULoongArchState *env = cpu_env(cs);
+ float64 internal_mpyhh(float64 a, float64 b,
-+
+                       unsigned long long int accumulated,
-+    if (FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PG)) {
+                       float_status *fp_status)
 +        return FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PLV);
 +    }
 +    return MMU_IDX_DA;
 +}
 +
  static void loongarch_la464_initfn(Object *obj)
  {
      LoongArchCPU *cpu = LOONGARCH_CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_class_init(ObjectClass *c, void *data)
      cc->class_by_name = loongarch_cpu_class_by_name;
      cc->has_work = loongarch_cpu_has_work;
 +    cc->mmu_index = loongarch_cpu_mmu_index;
      cc->dump_state = loongarch_cpu_dump_state;
      cc->set_pc = loongarch_cpu_set_pc;
      cc->get_pc = loongarch_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 22/57] target/riscv: Rename riscv_cpu_mmu_index to riscv_env_mmu_index
+[PULL 68/72] target/hexagon: Remove Float
-Free up the riscv_cpu_mmu_index name for other usage;
+This structure, with bitfields, is incorrect for big-endian.
-emphasize that the argument is 'env'.
+Use the existing float32_getexp_raw which uses extract32.
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/riscv/cpu.h        | 4 ++--
+ target/hexagon/fma_emu.c | 16 +++-------------
- target/riscv/cpu_helper.c | 2 +-
+file changed, 3 insertions(+), 13 deletions(-)
 files changed, 3 insertions(+), 3 deletions(-)
-diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/riscv/cpu.h
+--- a/target/hexagon/fma_emu.c
-+++ b/target/riscv/cpu.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ target_ulong riscv_cpu_get_geilen(CPURISCVState *env);
+@@ -XXX,XX +XXX,XX @@ typedef union {
- void riscv_cpu_set_geilen(CPURISCVState *env, target_ulong geilen);
+     };
- bool riscv_cpu_vector_enabled(CPURISCVState *env);
+ } Double;
- void riscv_cpu_set_virt_enabled(CPURISCVState *env, bool enable);
--int riscv_cpu_mmu_index(CPURISCVState *env, bool ifetch);
+-typedef union {
-+int riscv_env_mmu_index(CPURISCVState *env, bool ifetch);
+-    float f;
- G_NORETURN void  riscv_cpu_do_unaligned_access(CPUState *cs, vaddr addr,
+-    uint32_t i;
-                                                MMUAccessType access_type,
+-    struct {
-                                                int mmu_idx, uintptr_t retaddr);
+-        uint32_t mant:23;
-@@ -XXX,XX +XXX,XX @@ bool riscv_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
+-        uint32_t exp:8;
-                         bool probe, uintptr_t retaddr);
+-        uint32_t sign:1;
- char *riscv_isa_string(RISCVCPU *cpu);
+-    };
+-} Float;
--#define cpu_mmu_index riscv_cpu_mmu_index
+-
-+#define cpu_mmu_index riscv_env_mmu_index
+ static uint64_t float64_getmant(float64 f64)
  #ifndef CONFIG_USER_ONLY
  void riscv_cpu_do_transaction_failed(CPUState *cs, hwaddr physaddr,
 diff --git a/target/riscv/cpu_helper.c b/target/riscv/cpu_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/cpu_helper.c
 +++ b/target/riscv/cpu_helper.c
@@ -XXX,XX +XXX,XX @@
  #include "debug.h"
  #include "tcg/oversized-guest.h"
 -int riscv_cpu_mmu_index(CPURISCVState *env, bool ifetch)
 +int riscv_env_mmu_index(CPURISCVState *env, bool ifetch)
  {
- #ifdef CONFIG_USER_ONLY
+     Double a = { .i = f64 };
-     return 0;
+@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
  int32_t float32_getexp(float32 f32)
  {
 -    Float a = { .i = f32 };
 +    int exp = float32_getexp_raw(f32);
      if (float32_is_normal(f32)) {
 -        return a.exp;
 +        return exp;
      }
      if (float32_is_denormal(f32)) {
 -        return a.exp + 1;
 +        return exp + 1;
      }
      return -1;
  }
 --
-.34.1
+.43.0

-[PULL 06/57] target/avr: Populate CPUClass.mmu_index
+[PULL 69/72] target/hexagon: Remove Double
-Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+This structure, with bitfields, is incorrect for big-endian.
 Use extract64 and deposit64 instead.
 Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/avr/cpu.h | 4 +---
+ target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
- target/avr/cpu.c | 6 ++++++
+file changed, 16 insertions(+), 30 deletions(-)
 files changed, 7 insertions(+), 3 deletions(-)
-diff --git a/target/avr/cpu.h b/target/avr/cpu.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/avr/cpu.h
+--- a/target/hexagon/fma_emu.c
-+++ b/target/avr/cpu.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
+@@ -XXX,XX +XXX,XX @@
-     env->features |= (1U << feature);
  #define WAY_BIG_EXP 4096
 -typedef union {
 -    double f;
 -    uint64_t i;
 -    struct {
 -        uint64_t mant:52;
 -        uint64_t exp:11;
 -        uint64_t sign:1;
 -    };
 -} Double;
 -
  static uint64_t float64_getmant(float64 f64)
  {
 -    Double a = { .i = f64 };
 +    uint64_t mant = extract64(f64, 0, 52);
      if (float64_is_normal(f64)) {
 -        return a.mant | 1ULL << 52;
 +        return mant | 1ULL << 52;
      }
      if (float64_is_zero(f64)) {
          return 0;
      }
      if (float64_is_denormal(f64)) {
 -        return a.mant;
 +        return mant;
      }
      return ~0ULL;
  }
--#define cpu_mmu_index avr_cpu_mmu_index
+ int32_t float64_getexp(float64 f64)
 -
 -static inline int avr_cpu_mmu_index(CPUAVRState *env, bool ifetch)
 +static inline int cpu_mmu_index(CPUAVRState *env, bool ifetch)
  {
-     return ifetch ? MMU_CODE_IDX : MMU_DATA_IDX;
+-    Double a = { .i = f64 };
 +    int exp = extract64(f64, 52, 11);
      if (float64_is_normal(f64)) {
 -        return a.exp;
 +        return exp;
      }
      if (float64_is_denormal(f64)) {
 -        return a.exp + 1;
 +        return exp + 1;
      }
      return -1;
  }
-diff --git a/target/avr/cpu.c b/target/avr/cpu.c
+@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
-index XXXXXXX..XXXXXXX 100644
+ /* Return a maximum finite value with the requested sign */
---- a/target/avr/cpu.c
+ static float64 accum_round_float64(Accum a, float_status *fp_status)
-+++ b/target/avr/cpu.c
+ {
-@@ -XXX,XX +XXX,XX @@ static bool avr_cpu_has_work(CPUState *cs)
++    uint64_t ret;
-             && cpu_interrupts_enabled(env);
++
      if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
          && ((a.guard | a.round | a.sticky) == 0)) {
          /* result zero */
@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
          }
      }
      /* Underflow? */
 -    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
 +    ret = int128_getlo(a.mant);
 +    if (ret & (1ULL << DF_MANTBITS)) {
          /* Leading one means: No, we're normal. So, we should be done... */
 -        Double ret;
 -        ret.i = 0;
 -        ret.sign = a.sign;
 -        ret.exp = a.exp;
 -        ret.mant = int128_getlo(a.mant);
 -        return ret.i;
 +        ret = deposit64(ret, 52, 11, a.exp);
 +    } else {
 +        assert(a.exp == 1);
 +        ret = deposit64(ret, 52, 11, 0);
      }
 -    assert(a.exp == 1);
 -    Double ret;
 -    ret.i = 0;
 -    ret.sign = a.sign;
 -    ret.exp = 0;
 -    ret.mant = int128_getlo(a.mant);
 -    return ret.i;
 +    ret = deposit64(ret, 63, 1, a.sign);
 +    return ret;
  }
-+static int avr_cpu_mmu_index(CPUState *cs, bool ifetch)
+ float64 internal_mpyhh(float64 a, float64 b,
 +{
 +    return ifetch ? MMU_CODE_IDX : MMU_DATA_IDX;
 +}
 +
  static void avr_cpu_synchronize_from_tb(CPUState *cs,
                                          const TranslationBlock *tb)
  {
@@ -XXX,XX +XXX,XX @@ static void avr_cpu_class_init(ObjectClass *oc, void *data)
      cc->class_by_name = avr_cpu_class_by_name;
      cc->has_work = avr_cpu_has_work;
 +    cc->mmu_index = avr_cpu_mmu_index;
      cc->dump_state = avr_cpu_dump_state;
      cc->set_pc = avr_cpu_set_pc;
      cc->get_pc = avr_cpu_get_pc;
 --
-.34.1
+.43.0

-[PULL 45/57] target/sparc: Use i128 for FCMPq, FCMPEq
+[PULL 70/72] target/hexagon: Use mulu64 for int128_mul_6464
+No need to open-code 64x64->128-bit multiplication.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
-Message-Id: <20231103173841.33651-11-richard.henderson@linaro.org>
 ---
- target/sparc/helper.h     | 16 ++++++------
+ target/hexagon/fma_emu.c | 32 +++-----------------------------
- target/sparc/fop_helper.c | 23 +++++++++--------
+file changed, 3 insertions(+), 29 deletions(-)
  target/sparc/translate.c  | 54 +++++++++++++++------------------------
 files changed, 41 insertions(+), 52 deletions(-)
-diff --git a/target/sparc/helper.h b/target/sparc/helper.h
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/sparc/helper.h
+--- a/target/hexagon/fma_emu.c
-+++ b/target/sparc/helper.h
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, tl, env, f64, f64)
+@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
- DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, tl, env, f32, f32)
+     return -1;
  DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, tl, env, f64, f64)
  DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_RWG, i128, env, i128)
 -DEF_HELPER_FLAGS_1(fcmpq, TCG_CALL_NO_WG, tl, env)
 -DEF_HELPER_FLAGS_1(fcmpeq, TCG_CALL_NO_WG, tl, env)
 +DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, tl, env, i128, i128)
  #ifdef TARGET_SPARC64
  DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, tl, env, f32, f32)
  DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, tl, env, f32, f32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
  DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, tl, env, f64, f64)
  DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, tl, env, f64, f64)
  DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, tl, env, f64, f64)
 -DEF_HELPER_FLAGS_1(fcmpq_fcc1, TCG_CALL_NO_WG, tl, env)
 -DEF_HELPER_FLAGS_1(fcmpq_fcc2, TCG_CALL_NO_WG, tl, env)
 -DEF_HELPER_FLAGS_1(fcmpq_fcc3, TCG_CALL_NO_WG, tl, env)
 -DEF_HELPER_FLAGS_1(fcmpeq_fcc1, TCG_CALL_NO_WG, tl, env)
 -DEF_HELPER_FLAGS_1(fcmpeq_fcc2, TCG_CALL_NO_WG, tl, env)
 -DEF_HELPER_FLAGS_1(fcmpeq_fcc3, TCG_CALL_NO_WG, tl, env)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc1, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc2, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpq_fcc3, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc1, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc2, TCG_CALL_NO_WG, tl, env, i128, i128)
 +DEF_HELPER_FLAGS_3(fcmpeq_fcc3, TCG_CALL_NO_WG, tl, env, i128, i128)
  #endif
  DEF_HELPER_2(raise_exception, noreturn, env, int)
 diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/fop_helper.c
 +++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
      return f128_ret(float128_sqrt(f128_in(src), &env->fp_status));
  }
--#define GEN_FCMP(name, size, reg1, reg2, FS, E)                         \
+-static uint32_t int128_getw0(Int128 x)
 -    target_ulong glue(helper_, name) (CPUSPARCState *env)               \
 +#define GEN_FCMP(name, size, FS, E)                                     \
 +    target_ulong glue(helper_, name) (CPUSPARCState *env,               \
 +                                      Int128 src1, Int128 src2)         \
      {                                                                   \
 +        float128 reg1 = f128_in(src1);                                  \
 +        float128 reg2 = f128_in(src2);                                  \
          FloatRelation ret;                                              \
          target_ulong fsr;                                               \
          if (E) {                                                        \
@@ -XXX,XX +XXX,XX @@ GEN_FCMP_T(fcmpd, float64, 0, 0);
  GEN_FCMP_T(fcmpes, float32, 0, 1);
  GEN_FCMP_T(fcmped, float64, 0, 1);
 -GEN_FCMP(fcmpq, float128, QT0, QT1, 0, 0);
 -GEN_FCMP(fcmpeq, float128, QT0, QT1, 0, 1);
 +GEN_FCMP(fcmpq, float128, 0, 0);
 +GEN_FCMP(fcmpeq, float128, 0, 1);
  #ifdef TARGET_SPARC64
  GEN_FCMP_T(fcmps_fcc1, float32, 22, 0);
  GEN_FCMP_T(fcmpd_fcc1, float64, 22, 0);
 -GEN_FCMP(fcmpq_fcc1, float128, QT0, QT1, 22, 0);
 +GEN_FCMP(fcmpq_fcc1, float128, 22, 0);
  GEN_FCMP_T(fcmps_fcc2, float32, 24, 0);
  GEN_FCMP_T(fcmpd_fcc2, float64, 24, 0);
 -GEN_FCMP(fcmpq_fcc2, float128, QT0, QT1, 24, 0);
 +GEN_FCMP(fcmpq_fcc2, float128, 24, 0);
  GEN_FCMP_T(fcmps_fcc3, float32, 26, 0);
  GEN_FCMP_T(fcmpd_fcc3, float64, 26, 0);
 -GEN_FCMP(fcmpq_fcc3, float128, QT0, QT1, 26, 0);
 +GEN_FCMP(fcmpq_fcc3, float128, 26, 0);
  GEN_FCMP_T(fcmpes_fcc1, float32, 22, 1);
  GEN_FCMP_T(fcmped_fcc1, float64, 22, 1);
 -GEN_FCMP(fcmpeq_fcc1, float128, QT0, QT1, 22, 1);
 +GEN_FCMP(fcmpeq_fcc1, float128, 22, 1);
  GEN_FCMP_T(fcmpes_fcc2, float32, 24, 1);
  GEN_FCMP_T(fcmped_fcc2, float64, 24, 1);
 -GEN_FCMP(fcmpeq_fcc2, float128, QT0, QT1, 24, 1);
 +GEN_FCMP(fcmpeq_fcc2, float128, 24, 1);
  GEN_FCMP_T(fcmpes_fcc3, float32, 26, 1);
  GEN_FCMP_T(fcmped_fcc3, float64, 26, 1);
 -GEN_FCMP(fcmpeq_fcc3, float128, QT0, QT1, 26, 1);
 +GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
  #endif
  #undef GEN_FCMP_T
  #undef GEN_FCMP
 diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_store_fpr_Q(DisasContext *dc, unsigned int dst, TCGv_i128 v)
      gen_update_fprs_dirty(dc, dst);
  }
 -static void gen_op_load_fpr_QT0(unsigned int src)
 -{
--    tcg_gen_st_i64(cpu_fpr[src / 2], tcg_env, offsetof(CPUSPARCState, qt0) +
+-    return int128_getlo(x);
 -                   offsetof(CPU_QuadU, ll.upper));
 -    tcg_gen_st_i64(cpu_fpr[src/2 + 1], tcg_env, offsetof(CPUSPARCState, qt0) +
 -                   offsetof(CPU_QuadU, ll.lower));
 -}
 -
--static void gen_op_load_fpr_QT1(unsigned int src)
+-static uint32_t int128_getw1(Int128 x)
 -{
--    tcg_gen_st_i64(cpu_fpr[src / 2], tcg_env, offsetof(CPUSPARCState, qt1) +
+-    return int128_getlo(x) >> 32;
 -                   offsetof(CPU_QuadU, ll.upper));
 -    tcg_gen_st_i64(cpu_fpr[src/2 + 1], tcg_env, offsetof(CPUSPARCState, qt1) +
 -                   offsetof(CPU_QuadU, ll.lower));
 -}
 -
- static void gen_op_store_QT0_fpr(unsigned int dst)
+ static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
  {
-     tcg_gen_ld_i64(cpu_fpr[dst / 2], tcg_env, offsetof(CPUSPARCState, qt0) +
+-    Int128 a, b;
-@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
+-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
-     }
++    uint64_t l, h;
 -    a = int128_make64(ai);
 -    b = int128_make64(bi);
 -    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
 -    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
 -    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
 -    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
 -
 -    pp1s = pp1a + pp1b;
 -    if ((pp1s < pp1a) || (pp1s < pp1b)) {
 -        pp2 += (1ULL << 32);
 -    }
 -    uint64_t ret_low = pp0 + (pp1s << 32);
 -    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
 -        pp2 += 1;
 -    }
 -
 -    return int128_make128(ret_low, pp2 + (pp1s >> 32));
 +    mulu64(&l, &h, ai, bi);
 +    return int128_make128(l, h);
  }
--static void gen_op_fcmpq(int fccno)
+ static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
 +static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  {
      switch (fccno) {
      case 0:
 -        gen_helper_fcmpq(cpu_fsr, tcg_env);
 +        gen_helper_fcmpq(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      case 1:
 -        gen_helper_fcmpq_fcc1(cpu_fsr, tcg_env);
 +        gen_helper_fcmpq_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      case 2:
 -        gen_helper_fcmpq_fcc2(cpu_fsr, tcg_env);
 +        gen_helper_fcmpq_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      case 3:
 -        gen_helper_fcmpq_fcc3(cpu_fsr, tcg_env);
 +        gen_helper_fcmpq_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
      }
  }
 -static void gen_op_fcmpeq(int fccno)
 +static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  {
      switch (fccno) {
      case 0:
 -        gen_helper_fcmpeq(cpu_fsr, tcg_env);
 +        gen_helper_fcmpeq(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      case 1:
 -        gen_helper_fcmpeq_fcc1(cpu_fsr, tcg_env);
 +        gen_helper_fcmpeq_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      case 2:
 -        gen_helper_fcmpeq_fcc2(cpu_fsr, tcg_env);
 +        gen_helper_fcmpeq_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      case 3:
 -        gen_helper_fcmpeq_fcc3(cpu_fsr, tcg_env);
 +        gen_helper_fcmpeq_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
          break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
      gen_helper_fcmpd(cpu_fsr, tcg_env, r_rs1, r_rs2);
  }
 -static void gen_op_fcmpq(int fccno)
 +static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  {
 -    gen_helper_fcmpq(cpu_fsr, tcg_env);
 +    gen_helper_fcmpq(cpu_fsr, tcg_env, r_rs1, r_rs2);
  }
  static void gen_op_fcmpes(int fccno, TCGv r_rs1, TCGv r_rs2)
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
      gen_helper_fcmped(cpu_fsr, tcg_env, r_rs1, r_rs2);
  }
 -static void gen_op_fcmpeq(int fccno)
 +static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
  {
 -    gen_helper_fcmpeq(cpu_fsr, tcg_env);
 +    gen_helper_fcmpeq(cpu_fsr, tcg_env, r_rs1, r_rs2);
  }
  #endif
@@ -XXX,XX +XXX,XX @@ TRANS(FCMPEd, ALL, do_fcmpd, a, true)
  static bool do_fcmpq(DisasContext *dc, arg_FCMPq *a, bool e)
  {
 +    TCGv_i128 src1, src2;
 +
      if (avail_32(dc) && a->cc != 0) {
          return false;
      }
@@ -XXX,XX +XXX,XX @@ static bool do_fcmpq(DisasContext *dc, arg_FCMPq *a, bool e)
      }
      gen_op_clear_ieee_excp_and_FTT();
 -    gen_op_load_fpr_QT0(QFPREG(a->rs1));
 -    gen_op_load_fpr_QT1(QFPREG(a->rs2));
 +    src1 = gen_load_fpr_Q(dc, a->rs1);
 +    src2 = gen_load_fpr_Q(dc, a->rs2);
      if (e) {
 -        gen_op_fcmpeq(a->cc);
 +        gen_op_fcmpeq(a->cc, src1, src2);
      } else {
 -        gen_op_fcmpq(a->cc);
 +        gen_op_fcmpq(a->cc, src1, src2);
      }
      return advance_pc(dc);
  }
 --
-.34.1
+.43.0

-[PULL 35/57] tcg/loongarch64: Set vector registers call clobbered
+[PULL 71/72] target/hexagon: Simplify internal_mpyhh setup
-Because there are more call clobbered registers than
+Initialize x with accumulated via direct assignment,
-call saved registers, we begin with all registers as
+rather than multiplying by 1.
 call clobbered and then reset those that are saved.
-This was missed when we introduced the LSX support.
+Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
 Cc: qemu-stable@nongnu.org
 Fixes: 16288ded944 ("tcg/loongarch64: Lower basic tcg vec ops to LSX")
 Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2136
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Song Gao <gaosong@loongson.cn>
-Message-Id: <20240201233414.500588-1-richard.henderson@linaro.org>
 ---
- tcg/loongarch64/tcg-target.c.inc | 2 +-
+ target/hexagon/fma_emu.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
+diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
 index XXXXXXX..XXXXXXX 100644
---- a/tcg/loongarch64/tcg-target.c.inc
+--- a/target/hexagon/fma_emu.c
-+++ b/tcg/loongarch64/tcg-target.c.inc
++++ b/target/hexagon/fma_emu.c
-@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
+@@ -XXX,XX +XXX,XX @@ float64 internal_mpyhh(float64 a, float64 b,
-     tcg_target_available_regs[TCG_TYPE_I32] = ALL_GENERAL_REGS;
+         float64_is_infinity(b)) {
-     tcg_target_available_regs[TCG_TYPE_I64] = ALL_GENERAL_REGS;
+         return float64_mul(a, b, fp_status);
+     }
--    tcg_target_call_clobber_regs = ALL_GENERAL_REGS;
+-    x.mant = int128_mul_6464(accumulated, 1);
-+    tcg_target_call_clobber_regs = ALL_GENERAL_REGS | ALL_VECTOR_REGS;
++    x.mant = int128_make64(accumulated);
-     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_S0);
+     x.sticky = sticky;
-     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_S1);
+     prod = fGETUWORD(1, float64_getmant(a)) * fGETUWORD(1, float64_getmant(b));
-     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_S2);
+     x.mant = int128_add(x.mant, int128_mul_6464(prod, 0x100000000ULL));
 --
-.34.1
+.43.0

-[PULL 32/57] include/exec: Implement cpu_mmu_index generically
+[PULL 72/72] accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core
-For user-only mode, use MMU_USER_IDX.
+Convert all targets simultaneously, as the gen_intermediate_code
-For system mode, use CPUClass.mmu_index.
+function disappears from the target.  While there are possible
 workarounds, they're larger than simply performing the conversion.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- include/exec/cpu-all.h    |  4 ++++
+ include/exec/translator.h        | 14 --------------
- include/exec/cpu-common.h | 22 ++++++++++++++++++++++
+ include/hw/core/tcg-cpu-ops.h    | 13 +++++++++++++
- target/alpha/cpu.h        |  5 -----
+ target/alpha/cpu.h               |  2 ++
- target/arm/cpu.h          | 13 -------------
+ target/arm/internals.h           |  2 ++
- target/avr/cpu.h          |  5 -----
+ target/avr/cpu.h                 |  2 ++
- target/cris/cpu.h         |  4 ----
+ target/hexagon/cpu.h             |  2 ++
- target/hexagon/cpu.h      |  9 ---------
+ target/hppa/cpu.h                |  2 ++
- target/hppa/cpu.h         | 10 ----------
+ target/i386/tcg/helper-tcg.h     |  2 ++
- target/i386/cpu.h         |  6 ------
+ target/loongarch/internals.h     |  2 ++
- target/loongarch/cpu.h    | 10 ----------
+ target/m68k/cpu.h                |  2 ++
- target/m68k/cpu.h         |  4 ----
+ target/microblaze/cpu.h          |  2 ++
- target/microblaze/cpu.h   |  6 ------
+ target/mips/tcg/tcg-internal.h   |  2 ++
- target/mips/cpu.h         |  5 -----
+ target/openrisc/cpu.h            |  2 ++
- target/nios2/cpu.h        |  6 ------
+ target/ppc/cpu.h                 |  2 ++
- target/openrisc/cpu.h     |  6 ------
+ target/riscv/cpu.h               |  3 +++
- target/ppc/cpu.h          |  5 -----
+ target/rx/cpu.h                  |  2 ++
- target/riscv/cpu.h        |  2 --
+ target/s390x/s390x-internal.h    |  2 ++
- target/rx/cpu.h           |  5 -----
+ target/sh4/cpu.h                 |  2 ++
- target/s390x/cpu.h        |  2 --
+ target/sparc/cpu.h               |  2 ++
- target/sh4/cpu.h          |  6 ------
+ target/tricore/cpu.h             |  2 ++
- target/sparc/cpu.h        |  6 ------
+ target/xtensa/cpu.h              |  2 ++
- target/tricore/cpu.h      |  5 -----
+ accel/tcg/cpu-exec.c             |  8 +++++---
- target/xtensa/cpu.h       |  5 -----
+ accel/tcg/translate-all.c        |  8 +++++---
- target/hppa/cpu.c         |  2 +-
+ target/alpha/cpu.c               |  1 +
- target/i386/cpu.c         |  2 +-
+ target/alpha/translate.c         |  4 ++--
- target/loongarch/cpu.c    |  2 +-
+ target/arm/cpu.c                 |  1 +
- target/microblaze/cpu.c   |  2 +-
+ target/arm/tcg/cpu-v7m.c         |  1 +
- target/nios2/cpu.c        |  2 +-
+ target/arm/tcg/translate.c       |  5 ++---
- target/openrisc/cpu.c     |  2 +-
+ target/avr/cpu.c                 |  1 +
- target/sh4/cpu.c          |  2 +-
+ target/avr/translate.c           |  6 +++---
- target/sparc/cpu.c        |  2 +-
+ target/hexagon/cpu.c             |  1 +
-files changed, 34 insertions(+), 133 deletions(-)
+ target/hexagon/translate.c       |  4 ++--
  target/hppa/cpu.c                |  1 +
  target/hppa/translate.c          |  4 ++--
  target/i386/tcg/tcg-cpu.c        |  1 +
  target/i386/tcg/translate.c      |  5 ++---
  target/loongarch/cpu.c           |  1 +
  target/loongarch/tcg/translate.c |  4 ++--
  target/m68k/cpu.c                |  1 +
  target/m68k/translate.c          |  4 ++--
  target/microblaze/cpu.c          |  1 +
  target/microblaze/translate.c    |  4 ++--
  target/mips/cpu.c                |  1 +
  target/mips/tcg/translate.c      |  4 ++--
  target/openrisc/cpu.c            |  1 +
  target/openrisc/translate.c      |  4 ++--
  target/ppc/cpu_init.c            |  1 +
  target/ppc/translate.c           |  4 ++--
  target/riscv/tcg/tcg-cpu.c       |  1 +
  target/riscv/translate.c         |  4 ++--
  target/rx/cpu.c                  |  1 +
  target/rx/translate.c            |  4 ++--
  target/s390x/cpu.c               |  1 +
  target/s390x/tcg/translate.c     |  4 ++--
  target/sh4/cpu.c                 |  1 +
  target/sh4/translate.c           |  4 ++--
  target/sparc/cpu.c               |  1 +
  target/sparc/translate.c         |  4 ++--
  target/tricore/cpu.c             |  1 +
  target/tricore/translate.c       |  5 ++---
  target/xtensa/cpu.c              |  1 +
  target/xtensa/translate.c        |  4 ++--
 files changed, 121 insertions(+), 62 deletions(-)
-diff --git a/include/exec/cpu-all.h b/include/exec/cpu-all.h
+diff --git a/include/exec/translator.h b/include/exec/translator.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/exec/cpu-all.h
+--- a/include/exec/translator.h
-+++ b/include/exec/cpu-all.h
++++ b/include/exec/translator.h
@@ -XXX,XX +XXX,XX @@ CPUArchState *cpu_copy(CPUArchState *env);
  #define TLB_MMIO            (1 << (TARGET_PAGE_BITS_MIN - 2))
  #define TLB_WATCHPOINT      0
 +static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
 +{
 +    return MMU_USER_IDX;
 +}
  #else
  /*
 diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/exec/cpu-common.h
 +++ b/include/exec/cpu-common.h
 @@ -XXX,XX +XXX,XX @@
- #include "exec/hwaddr.h"
+ #include "qemu/bswap.h"
- #endif
+ #include "exec/vaddr.h"
- #include "hw/core/cpu.h"
-+#include "tcg/debug-assert.h"
+-/**
+- * gen_intermediate_code
- #define EXCP_INTERRUPT  0x10000 /* async interruption */
+- * @cpu: cpu context
- #define EXCP_HLT        0x10001 /* hlt instruction reached */
+- * @tb: translation block
-@@ -XXX,XX +XXX,XX @@ static inline CPUState *env_cpu(CPUArchState *env)
+- * @max_insns: max number of instructions to translate
-     return (void *)env - sizeof(CPUState);
+- * @pc: guest virtual program counter address
- }
+- * @host_pc: host physical program counter address
+- *
-+#ifndef CONFIG_USER_ONLY
+- * This function must be provided by the target, which should create
-+/**
+- * the target-specific DisasContext, and then invoke translator_loop.
-+ * cpu_mmu_index:
+- */
-+ * @env: The cpu environment
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-+ * @ifetch: True for code access, false for data access.
+-                           vaddr pc, void *host_pc);
-+ *
+-
-+ * Return the core mmu index for the current translation regime.
+ /**
-+ * This function is used by generic TCG code paths.
+  * DisasJumpType:
-+ *
+  * @DISAS_NEXT: Next instruction in program order.
-+ * The user-only version of this function is inline in cpu-all.h,
+diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
-+ * where it always returns MMU_USER_IDX.
+index XXXXXXX..XXXXXXX 100644
-+ */
+--- a/include/hw/core/tcg-cpu-ops.h
-+static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
++++ b/include/hw/core/tcg-cpu-ops.h
-+{
+@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
-+    CPUState *cs = env_cpu(env);
+      * Called when the first CPU is realized.
-+    int ret = cs->cc->mmu_index(cs, ifetch);
+      */
-+    tcg_debug_assert(ret >= 0 && ret < NB_MMU_MODES);
+     void (*initialize)(void);
-+    return ret;
++    /**
-+}
++     * @translate_code: Translate guest instructions to TCGOps
-+#endif /* !CONFIG_USER_ONLY */
++     * @cpu: cpu context
-+
++     * @tb: translation block
- #endif /* CPU_COMMON_H */
++     * @max_insns: max number of instructions to translate
 +     * @pc: guest virtual program counter address
 +     * @host_pc: host physical program counter address
 +     *
 +     * This function must be provided by the target, which should create
 +     * the target-specific DisasContext, and then invoke translator_loop.
 +     */
 +    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
 +                           int *max_insns, vaddr pc, void *host_pc);
      /**
       * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
       *
 diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/alpha/cpu.h
 +++ b/target/alpha/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline int alpha_env_mmu_index(CPUAlphaState *env)
+@@ -XXX,XX +XXX,XX @@ enum {
-     return ret;
+ };
- }
+ void alpha_translate_init(void);
--static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
++void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
--{
++                          int *max_insns, vaddr pc, void *host_pc);
--    return alpha_env_mmu_index(env);
--}
+ #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
--
- enum {
+diff --git a/target/arm/internals.h b/target/arm/internals.h
-     IR_V0   = 0,
+index XXXXXXX..XXXXXXX 100644
-     IR_T0   = 1,
+--- a/target/arm/internals.h
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
++++ b/target/arm/internals.h
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
+ void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, NV2_MEM_BE, 36, 1)
+ void arm_translate_init(void);
- #define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_M32, WHICH)
++void arm_translate_code(CPUState *cs, TranslationBlock *tb,
- #define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags2, TBFLAG_AM32, WHICH)
++                        int *max_insns, vaddr pc, void *host_pc);
--/**
+ void arm_cpu_register_gdb_commands(ARMCPU *cpu);
-- * cpu_mmu_index:
+ void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
 - * @env: The cpu environment
 - * @ifetch: True for code access, false for data access.
 - *
 - * Return the core mmu index for the current translation regime.
 - * This function is used by generic TCG code paths.
 - */
 -static inline int cpu_mmu_index(CPUARMState *env, bool ifetch)
 -{
 -    return EX_TBFLAG_ANY(env->hflags, MMUIDX);
 -}
 -
  /**
   * sve_vq
   * @env: the cpu context
 diff --git a/target/avr/cpu.h b/target/avr/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/cpu.h
 +++ b/target/avr/cpu.h
 @@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
-     env->features |= (1U << feature);
  }
--static inline int cpu_mmu_index(CPUAVRState *env, bool ifetch)
--{
--    return ifetch ? MMU_CODE_IDX : MMU_DATA_IDX;
--}
--
  void avr_cpu_tcg_init(void);
++void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
++                            int *max_insns, vaddr pc, void *host_pc);
  int cpu_avr_exec(CPUState *cpu);
-diff --git a/target/cris/cpu.h b/target/cris/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/cris/cpu.h
 +++ b/target/cris/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
  /* MMU modes definitions */
  #define MMU_USER_IDX 1
 -static inline int cpu_mmu_index (CPUCRISState *env, bool ifetch)
 -{
 -    return !!(env->pregs[PR_CCS] & U_FLAG);
 -}
  /* Support function regs.  */
  #define SFR_RW_GC_CFG      0][0
 diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/cpu.h
 +++ b/target/hexagon/cpu.h
 @@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
-     *flags = hex_flags;
- }
--static inline int cpu_mmu_index(CPUHexagonState *env, bool ifetch)
--{
--#ifdef CONFIG_USER_ONLY
--    return MMU_USER_IDX;
--#else
--#error System mode not supported on Hexagon yet
--#endif
--}
--
  typedef HexagonCPU ArchCPU;
  void hexagon_translate_init(void);
++void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
++                            int *max_insns, vaddr pc, void *host_pc);
+ #include "exec/cpu-all.h"
 diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/cpu.h
 +++ b/target/hppa/cpu.h
 @@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
-     return hppa_is_pa20(env) ? 0 : PA10_BTLB_FIXED + PA10_BTLB_VARIABLE;
  }
--int hppa_cpu_mmu_index(CPUState *cs, bool ifetch);
--static inline int cpu_mmu_index(CPUHPPAState *env, bool ifetch)
--{
--#ifdef CONFIG_USER_ONLY
--    return MMU_USER_IDX;
--#else
--    return hppa_cpu_mmu_index(env_cpu(env), ifetch);
--#endif
--}
--
  void hppa_translate_init(void);
++void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc);
  #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
-diff --git a/target/i386/cpu.h b/target/i386/cpu.h
-index XXXXXXX..XXXXXXX 100644
+diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
---- a/target/i386/cpu.h
+index XXXXXXX..XXXXXXX 100644
-+++ b/target/i386/cpu.h
+--- a/target/i386/tcg/helper-tcg.h
-@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index_kernel(CPUX86State *env)
++++ b/target/i386/tcg/helper-tcg.h
- #include "hw/i386/apic.h"
+@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
- #endif
+ /* translate.c */
--int x86_cpu_mmu_index(CPUState *cs, bool ifetch);
+ void tcg_x86_init(void);
--static inline int cpu_mmu_index(CPUX86State *env, bool ifetch)
++void x86_translate_code(CPUState *cs, TranslationBlock *tb,
--{
++                        int *max_insns, vaddr pc, void *host_pc);
--    return x86_cpu_mmu_index(env_cpu(env), ifetch);
--}
+ /* excp_helper.c */
--
+ G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
- static inline void cpu_get_tb_cpu_state(CPUX86State *env, vaddr *pc,
+diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
-                                         uint64_t *cs_base, uint32_t *flags)
+index XXXXXXX..XXXXXXX 100644
- {
+--- a/target/loongarch/internals.h
-diff --git a/target/loongarch/cpu.h b/target/loongarch/cpu.h
++++ b/target/loongarch/internals.h
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@
---- a/target/loongarch/cpu.h
+ #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
-+++ b/target/loongarch/cpu.h
-@@ -XXX,XX +XXX,XX @@ struct LoongArchCPUClass {
+ void loongarch_translate_init(void);
- #define MMU_USER_IDX     MMU_PLV_USER
++void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
- #define MMU_DA_IDX       4
++                              int *max_insns, vaddr pc, void *host_pc);
--int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch);
+ void G_NORETURN do_raise_exception(CPULoongArchState *env,
--static inline int cpu_mmu_index(CPULoongArchState *env, bool ifetch)
+                                    uint32_t exception,
 -{
 -#ifdef CONFIG_USER_ONLY
 -    return MMU_USER_IDX;
 -#else
 -    return loongarch_cpu_mmu_index(env_cpu(env), ifetch);
 -#endif
 -}
 -
  static inline bool is_la64(CPULoongArchState *env)
  {
      return FIELD_EX32(env->cpucfg[1], CPUCFG1, ARCH) == CPUCFG1_ARCH_LA64;
 diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/cpu.h
 +++ b/target/m68k/cpu.h
-@@ -XXX,XX +XXX,XX @@ enum {
+@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
- /* MMU modes definitions */
+ int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
- #define MMU_KERNEL_IDX 0
- #define MMU_USER_IDX 1
+ void m68k_tcg_init(void);
--static inline int cpu_mmu_index (CPUM68KState *env, bool ifetch)
++void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
--{
++                         int *max_insns, vaddr pc, void *host_pc);
--    return (env->sr & SR_S) == 0 ? 1 : 0;
+ void m68k_cpu_init_gdb(M68kCPU *cpu);
--}
+ uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
+ void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
  bool m68k_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
                         MMUAccessType access_type, int mmu_idx,
 diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/cpu.h
 +++ b/target/microblaze/cpu.h
-@@ -XXX,XX +XXX,XX @@ void mb_cpu_transaction_failed(CPUState *cs, hwaddr physaddr, vaddr addr,
+@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
                                 MemTxResult response, uintptr_t retaddr);
  #endif
 -int mb_cpu_mmu_index(CPUState *cs, bool ifetch);
 -static inline int cpu_mmu_index(CPUMBState *env, bool ifetch)
 -{
 -    return mb_cpu_mmu_index(env_cpu(env), ifetch);
 -}
 -
  #ifndef CONFIG_USER_ONLY
  extern const VMStateDescription vmstate_mb_cpu;
  #endif
 diff --git a/target/mips/cpu.h b/target/mips/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/cpu.h
 +++ b/target/mips/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int mips_env_mmu_index(CPUMIPSState *env)
      return hflags_mmu_index(env->hflags);
  }
--static inline int cpu_mmu_index(CPUMIPSState *env, bool ifetch)
+ void mb_tcg_init(void);
--{
++void mb_translate_code(CPUState *cs, TranslationBlock *tb,
--    return mips_env_mmu_index(env);
++                       int *max_insns, vaddr pc, void *host_pc);
--}
--
+ #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
- #include "exec/cpu-all.h"
+diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
- /* Exceptions */
+index XXXXXXX..XXXXXXX 100644
-diff --git a/target/nios2/cpu.h b/target/nios2/cpu.h
+--- a/target/mips/tcg/tcg-internal.h
-index XXXXXXX..XXXXXXX 100644
++++ b/target/mips/tcg/tcg-internal.h
---- a/target/nios2/cpu.h
+@@ -XXX,XX +XXX,XX @@
-+++ b/target/nios2/cpu.h
+ #include "cpu.h"
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAGS, CRS0, 0, 1)  /* Set if CRS == 0. */
- FIELD(TBFLAGS, U, 1, 1)     /* Overlaps CR_STATUS_U */
+ void mips_tcg_init(void);
- FIELD(TBFLAGS, R0_0, 2, 1)  /* Set if R0 == 0. */
++void mips_translate_code(CPUState *cs, TranslationBlock *tb,
++                         int *max_insns, vaddr pc, void *host_pc);
--int nios2_cpu_mmu_index(CPUState *cs, bool ifetch);
--static inline int cpu_mmu_index(CPUNios2State *env, bool ifetch)
+ void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
--{
+ G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
 -    return nios2_cpu_mmu_index(env_cpu(env), ifetch);
 -}
 -
  static inline void cpu_get_tb_cpu_state(CPUNios2State *env, vaddr *pc,
                                          uint64_t *cs_base, uint32_t *flags)
  {
 diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/cpu.h
 +++ b/target/openrisc/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUOpenRISCState *env, vaddr *pc,
+@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
-            | (env->sr & (SR_SM | SR_DME | SR_IME | SR_OVE));
+ int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
- }
+ int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
+ void openrisc_translate_init(void);
--int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch);
++void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
--static inline int cpu_mmu_index(CPUOpenRISCState *env, bool ifetch)
++                             int *max_insns, vaddr pc, void *host_pc);
--{
+ int print_insn_or1k(bfd_vma addr, disassemble_info *info);
--    return openrisc_cpu_mmu_index(env_cpu(env), ifetch);
--}
+ #ifndef CONFIG_USER_ONLY
 -
  static inline uint32_t cpu_get_sr(const CPUOpenRISCState *env)
  {
      return (env->sr
 diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/cpu.h
 +++ b/target/ppc/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline int ppc_env_mmu_index(CPUPPCState *env, bool ifetch)
+@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
- #endif
- }
+ /*****************************************************************************/
+ void ppc_translate_init(void);
--static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
++void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
--{
++                        int *max_insns, vaddr pc, void *host_pc);
--    return ppc_env_mmu_index(env, ifetch);
--}
+ #if !defined(CONFIG_USER_ONLY)
--
+ void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
  /* Compatibility modes */
  #if defined(TARGET_PPC64)
  bool ppc_check_compat(PowerPCCPU *cpu, uint32_t compat_pvr,
 diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/cpu.h
 +++ b/target/riscv/cpu.h
-@@ -XXX,XX +XXX,XX @@ bool riscv_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
+@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
-                         bool probe, uintptr_t retaddr);
+ void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
- char *riscv_isa_string(RISCVCPU *cpu);
+ void riscv_translate_init(void);
--#define cpu_mmu_index riscv_env_mmu_index
++void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
--
++                          int *max_insns, vaddr pc, void *host_pc);
- #ifndef CONFIG_USER_ONLY
++
- void riscv_cpu_do_transaction_failed(CPUState *cs, hwaddr physaddr,
+ G_NORETURN void riscv_raise_exception(CPURISCVState *env,
-                                      vaddr addr, unsigned size,
+                                       uint32_t exception, uintptr_t pc);
 diff --git a/target/rx/cpu.h b/target/rx/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/cpu.h
 +++ b/target/rx/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPURXState *env, vaddr *pc,
+@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
-     *flags = FIELD_DP32(*flags, PSW, U, env->psw_u);
+ int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
- }
+ void rx_translate_init(void);
--static inline int cpu_mmu_index(CPURXState *env, bool ifetch)
++void rx_translate_code(CPUState *cs, TranslationBlock *tb,
--{
++                       int *max_insns, vaddr pc, void *host_pc);
--    return 0;
+ void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
--}
--
+ #include "exec/cpu-all.h"
- static inline uint32_t rx_cpu_pack_psw(CPURXState *env)
+diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
- {
+index XXXXXXX..XXXXXXX 100644
-     uint32_t psw = 0;
+--- a/target/s390x/s390x-internal.h
-diff --git a/target/s390x/cpu.h b/target/s390x/cpu.h
++++ b/target/s390x/s390x-internal.h
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
---- a/target/s390x/cpu.h
-+++ b/target/s390x/cpu.h
+ /* translate.c */
-@@ -XXX,XX +XXX,XX @@ static inline int s390x_env_mmu_index(CPUS390XState *env, bool ifetch)
+ void s390x_translate_init(void);
- #endif
++void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
- }
++                          int *max_insns, vaddr pc, void *host_pc);
+ void s390x_restore_state_to_opc(CPUState *cs,
--#define cpu_mmu_index s390x_env_mmu_index
+                                 const TranslationBlock *tb,
--
+                                 const uint64_t *data);
  #ifdef CONFIG_TCG
  #include "tcg/tcg_s390x.h"
 diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/cpu.h
 +++ b/target/sh4/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline void cpu_write_sr(CPUSH4State *env, target_ulong sr)
+@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
-     env->sr = sr & ~((1u << SR_M) | (1u << SR_Q) | (1u << SR_T));
+                                                uintptr_t retaddr);
- }
+ void sh4_translate_init(void);
--int sh4_cpu_mmu_index(CPUState *cs, bool ifetch);
++void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
--static inline int cpu_mmu_index(CPUSH4State *env, bool ifetch)
++                        int *max_insns, vaddr pc, void *host_pc);
--{
--    return sh4_cpu_mmu_index(env_cpu(env), ifetch);
+ #if !defined(CONFIG_USER_ONLY)
--}
+ hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
 -
  static inline void cpu_get_tb_cpu_state(CPUSH4State *env, vaddr *pc,
                                          uint64_t *cs_base, uint32_t *flags)
  {
 diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.h
 +++ b/target/sparc/cpu.h
-@@ -XXX,XX +XXX,XX @@ trap_state* cpu_tsptr(CPUSPARCState* env);
+@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
- #define TB_FLAG_HYPER        (1 << 7)
- #define TB_FLAG_ASI_SHIFT    24
+ /* translate.c */
+ void sparc_tcg_init(void);
--int sparc_cpu_mmu_index(CPUState *cs, bool ifetch);
++void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
--static inline int cpu_mmu_index(CPUSPARCState *env, bool ifetch)
++                          int *max_insns, vaddr pc, void *host_pc);
--{
--    return sparc_cpu_mmu_index(env_cpu(env), ifetch);
+ /* fop_helper.c */
--}
+ target_ulong cpu_get_fsr(CPUSPARCState *);
 -
  static inline void cpu_get_tb_cpu_state(CPUSPARCState *env, vaddr *pc,
                                          uint64_t *cs_base, uint32_t *pflags)
  {
 diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/cpu.h
 +++ b/target/tricore/cpu.h
-@@ -XXX,XX +XXX,XX @@ void fpu_set_state(CPUTriCoreState *env);
+@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
- #define MMU_USER_IDX 2
+ void cpu_state_reset(CPUTriCoreState *s);
+ void tricore_tcg_init(void);
--static inline int cpu_mmu_index(CPUTriCoreState *env, bool ifetch)
++void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
--{
++                            int *max_insns, vaddr pc, void *host_pc);
--    return 0;
--}
+ static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
--
+                                         uint64_t *cs_base, uint32_t *flags)
  #include "exec/cpu-all.h"
  FIELD(TB_FLAGS, PRIV, 0, 2)
 diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/xtensa/cpu.h
 +++ b/target/xtensa/cpu.h
-@@ -XXX,XX +XXX,XX @@ static inline uint32_t xtensa_replicate_windowstart(CPUXtensaState *env)
+@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
- /* MMU modes definitions */
- #define MMU_USER_IDX 3
+ void xtensa_collect_sr_names(const XtensaConfig *config);
+ void xtensa_translate_init(void);
--static inline int cpu_mmu_index(CPUXtensaState *env, bool ifetch)
++void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
--{
++                           int *max_insns, vaddr pc, void *host_pc);
--    return xtensa_get_cring(env);
+ void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
--}
+ void xtensa_breakpoint_handler(CPUState *cs);
--
+ void xtensa_register_core(XtensaConfigList *node);
- #define XTENSA_TBFLAG_RING_MASK 0x3
+diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
- #define XTENSA_TBFLAG_EXCM 0x4
+index XXXXXXX..XXXXXXX 100644
- #define XTENSA_TBFLAG_LITBASE 0x8
+--- a/accel/tcg/cpu-exec.c
 +++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
      if (!tcg_target_initialized) {
          /* Check mandatory TCGCPUOps handlers */
 +        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
  #ifndef CONFIG_USER_ONLY
 -        assert(cpu->cc->tcg_ops->cpu_exec_halt);
 -        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
 +        assert(tcg_ops->cpu_exec_halt);
 +        assert(tcg_ops->cpu_exec_interrupt);
  #endif /* !CONFIG_USER_ONLY */
 -        cpu->cc->tcg_ops->initialize();
 +        assert(tcg_ops->translate_code);
 +        tcg_ops->initialize();
          tcg_target_initialized = true;
      }
 diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/tcg/translate-all.c
 +++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
      tcg_func_start(tcg_ctx);
 -    tcg_ctx->cpu = env_cpu(env);
 -    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
 +    CPUState *cs = env_cpu(env);
 +    tcg_ctx->cpu = cs;
 +    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
 +
      assert(tb->size != 0);
      tcg_ctx->cpu = NULL;
      *max_insns = tb->icount;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
              /*
               * Overflow of code_gen_buffer, or the current slice of it.
               *
 -             * TODO: We don't need to re-do gen_intermediate_code, nor
 +             * TODO: We don't need to re-do tcg_ops->translate_code, nor
               * should we re-do the tcg optimization currently hidden
               * inside tcg_gen_code.  All that should be required is to
               * flush the TBs, allocate a new TB, re-initialize it per
 diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/alpha/cpu.c
 +++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
  static const TCGCPUOps alpha_tcg_ops = {
      .initialize = alpha_translate_init,
 +    .translate_code = alpha_translate_code,
      .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
      .restore_state_to_opc = alpha_restore_state_to_opc,
 diff --git a/target/alpha/translate.c b/target/alpha/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/alpha/translate.c
 +++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
      .tb_stop            = alpha_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
 diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
  #ifdef CONFIG_TCG
  static const TCGCPUOps arm_tcg_ops = {
      .initialize = arm_translate_init,
 +    .translate_code = arm_translate_code,
      .synchronize_from_tb = arm_cpu_synchronize_from_tb,
      .debug_excp_handler = arm_debug_excp_handler,
      .restore_state_to_opc = arm_restore_state_to_opc,
 diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/cpu-v7m.c
 +++ b/target/arm/tcg/cpu-v7m.c
@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
  static const TCGCPUOps arm_v7m_tcg_ops = {
      .initialize = arm_translate_init,
 +    .translate_code = arm_translate_code,
      .synchronize_from_tb = arm_cpu_synchronize_from_tb,
      .debug_excp_handler = arm_debug_excp_handler,
      .restore_state_to_opc = arm_restore_state_to_opc,
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.c
 +++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
      .tb_stop            = arm_tr_tb_stop,
  };
 -/* generate intermediate code for basic block 'tb'.  */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = { };
      const TranslatorOps *ops = &arm_translator_ops;
 diff --git a/target/avr/cpu.c b/target/avr/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/cpu.c
 +++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
  static const TCGCPUOps avr_tcg_ops = {
      .initialize = avr_cpu_tcg_init,
 +    .translate_code = avr_cpu_translate_code,
      .synchronize_from_tb = avr_cpu_synchronize_from_tb,
      .restore_state_to_opc = avr_restore_state_to_opc,
      .cpu_exec_interrupt = avr_cpu_exec_interrupt,
 diff --git a/target/avr/translate.c b/target/avr/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/avr/translate.c
 +++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
   *
   *    - translate()
   *    - canonicalize_skip()
 - *    - gen_intermediate_code()
 + *    - translate_code()
   *    - restore_state_to_opc()
   *
   */
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
      .tb_stop            = avr_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = { };
      translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
 diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/cpu.c
 +++ b/target/hexagon/cpu.c
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
  static const TCGCPUOps hexagon_tcg_ops = {
      .initialize = hexagon_translate_init,
 +    .translate_code = hexagon_translate_code,
      .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
      .restore_state_to_opc = hexagon_restore_state_to_opc,
  };
 diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hexagon/translate.c
 +++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
      .tb_stop            = hexagon_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/hppa/cpu.c
 +++ b/target/hppa/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool hppa_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
-     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
- }
+ static const TCGCPUOps hppa_tcg_ops = {
+     .initialize = hppa_translate_init,
--int hppa_cpu_mmu_index(CPUState *cs, bool ifetch)
++    .translate_code = hppa_translate_code,
-+static int hppa_cpu_mmu_index(CPUState *cs, bool ifetch)
+     .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
- {
+     .restore_state_to_opc = hppa_restore_state_to_opc,
-     CPUHPPAState *env = cpu_env(cs);
+diff --git a/target/hppa/translate.c b/target/hppa/translate.c
-diff --git a/target/i386/cpu.c b/target/i386/cpu.c
+index XXXXXXX..XXXXXXX 100644
-index XXXXXXX..XXXXXXX 100644
+--- a/target/hppa/translate.c
---- a/target/i386/cpu.c
++++ b/target/hppa/translate.c
-+++ b/target/i386/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
-@@ -XXX,XX +XXX,XX @@ static bool x86_cpu_has_work(CPUState *cs)
+ #endif
-     return x86_cpu_pending_interrupt(cs, cs->interrupt_request) != 0;
+ };
- }
+-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
--int x86_cpu_mmu_index(CPUState *cs, bool ifetch)
+-                           vaddr pc, void *host_pc)
-+static int x86_cpu_mmu_index(CPUState *cs, bool ifetch)
++void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
- {
++                         int *max_insns, vaddr pc, void *host_pc)
-     CPUX86State *env = cpu_env(cs);
+ {
      DisasContext ctx = { };
      translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
 diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/tcg-cpu.c
 +++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
  static const TCGCPUOps x86_tcg_ops = {
      .initialize = tcg_x86_init,
 +    .translate_code = x86_translate_code,
      .synchronize_from_tb = x86_cpu_synchronize_from_tb,
      .restore_state_to_opc = x86_restore_state_to_opc,
      .cpu_exec_enter = x86_cpu_exec_enter,
 diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/tcg/translate.c
 +++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
      .tb_stop            = i386_tr_tb_stop,
  };
 -/* generate intermediate code for basic block 'tb'.  */
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/cpu.c
 +++ b/target/loongarch/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool loongarch_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
- #endif
- }
+ static const TCGCPUOps loongarch_tcg_ops = {
+     .initialize = loongarch_translate_init,
--int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
++    .translate_code = loongarch_translate_code,
-+static int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
+     .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
- {
+     .restore_state_to_opc = loongarch_restore_state_to_opc,
-     CPULoongArchState *env = cpu_env(cs);
+diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/loongarch/tcg/translate.c
 +++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
      .tb_stop            = loongarch_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
 +                              int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/cpu.c
 +++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
  static const TCGCPUOps m68k_tcg_ops = {
      .initialize = m68k_tcg_init,
 +    .translate_code = m68k_translate_code,
      .restore_state_to_opc = m68k_restore_state_to_opc,
  #ifndef CONFIG_USER_ONLY
 diff --git a/target/m68k/translate.c b/target/m68k/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/m68k/translate.c
 +++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
      .tb_stop            = m68k_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
 diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/microblaze/cpu.c
 +++ b/target/microblaze/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool mb_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
-     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
- }
+ static const TCGCPUOps mb_tcg_ops = {
+     .initialize = mb_tcg_init,
--int mb_cpu_mmu_index(CPUState *cs, bool ifetch)
++    .translate_code = mb_translate_code,
-+static int mb_cpu_mmu_index(CPUState *cs, bool ifetch)
+     .synchronize_from_tb = mb_cpu_synchronize_from_tb,
- {
+     .restore_state_to_opc = mb_restore_state_to_opc,
-     CPUMBState *env = cpu_env(cs);
-     MicroBlazeCPU *cpu = env_archcpu(env);
+diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
-diff --git a/target/nios2/cpu.c b/target/nios2/cpu.c
+index XXXXXXX..XXXXXXX 100644
-index XXXXXXX..XXXXXXX 100644
+--- a/target/microblaze/translate.c
---- a/target/nios2/cpu.c
++++ b/target/microblaze/translate.c
-+++ b/target/nios2/cpu.c
+@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
-@@ -XXX,XX +XXX,XX @@ static bool nios2_cpu_has_work(CPUState *cs)
+     .tb_stop            = mb_tr_tb_stop,
-     return cs->interrupt_request & CPU_INTERRUPT_HARD;
+ };
- }
+-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
--int nios2_cpu_mmu_index(CPUState *cs, bool ifetch)
+-                           vaddr pc, void *host_pc)
-+static int nios2_cpu_mmu_index(CPUState *cs, bool ifetch)
++void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
- {
++                       int *max_insns, vaddr pc, void *host_pc)
-     return (cpu_env(cs)->ctrl[CR_STATUS] & CR_STATUS_U
+ {
-             ? MMU_USER_IDX : MMU_SUPERVISOR_IDX);
+     DisasContext dc;
      translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
 diff --git a/target/mips/cpu.c b/target/mips/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/cpu.c
 +++ b/target/mips/cpu.c
@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
  #include "hw/core/tcg-cpu-ops.h"
  static const TCGCPUOps mips_tcg_ops = {
      .initialize = mips_tcg_init,
 +    .translate_code = mips_translate_code,
      .synchronize_from_tb = mips_cpu_synchronize_from_tb,
      .restore_state_to_opc = mips_restore_state_to_opc,
 diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/mips/tcg/translate.c
 +++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
      .tb_stop            = mips_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void mips_translate_code(CPUState *cs, TranslationBlock *tb,
 +                         int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/cpu.c
 +++ b/target/openrisc/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool openrisc_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
-                                     CPU_INTERRUPT_TIMER);
- }
+ static const TCGCPUOps openrisc_tcg_ops = {
+     .initialize = openrisc_translate_init,
--int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch)
++    .translate_code = openrisc_translate_code,
-+static int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch)
+     .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
- {
+     .restore_state_to_opc = openrisc_restore_state_to_opc,
-     CPUOpenRISCState *env = cpu_env(cs);
 diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/openrisc/translate.c
 +++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
      .tb_stop            = openrisc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                             int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/cpu_init.c
 +++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
  static const TCGCPUOps ppc_tcg_ops = {
    .initialize = ppc_translate_init,
 +  .translate_code = ppc_translate_code,
    .restore_state_to_opc = ppc_restore_state_to_opc,
  #ifdef CONFIG_USER_ONLY
 diff --git a/target/ppc/translate.c b/target/ppc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/ppc/translate.c
 +++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
      .tb_stop            = ppc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/tcg/tcg-cpu.c
 +++ b/target/riscv/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
  static const TCGCPUOps riscv_tcg_ops = {
      .initialize = riscv_translate_init,
 +    .translate_code = riscv_translate_code,
      .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
      .restore_state_to_opc = riscv_restore_state_to_opc,
 diff --git a/target/riscv/translate.c b/target/riscv/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/riscv/translate.c
 +++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
      .tb_stop            = riscv_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/rx/cpu.c b/target/rx/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/cpu.c
 +++ b/target/rx/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
  static const TCGCPUOps rx_tcg_ops = {
      .initialize = rx_translate_init,
 +    .translate_code = rx_translate_code,
      .synchronize_from_tb = rx_cpu_synchronize_from_tb,
      .restore_state_to_opc = rx_restore_state_to_opc,
      .tlb_fill = rx_cpu_tlb_fill,
 diff --git a/target/rx/translate.c b/target/rx/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/rx/translate.c
 +++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
      .tb_stop            = rx_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void rx_translate_code(CPUState *cs, TranslationBlock *tb,
 +                       int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/cpu.c
 +++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
  static const TCGCPUOps s390_tcg_ops = {
      .initialize = s390x_translate_init,
 +    .translate_code = s390x_translate_code,
      .restore_state_to_opc = s390x_restore_state_to_opc,
  #ifdef CONFIG_USER_ONLY
 diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/s390x/tcg/translate.c
 +++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
      .disas_log          = s390x_tr_disas_log,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc;
 diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/cpu.c
 +++ b/target/sh4/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool superh_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
-     return cs->interrupt_request & CPU_INTERRUPT_HARD;
- }
+ static const TCGCPUOps superh_tcg_ops = {
+     .initialize = sh4_translate_init,
--int sh4_cpu_mmu_index(CPUState *cs, bool ifetch)
++    .translate_code = sh4_translate_code,
-+static int sh4_cpu_mmu_index(CPUState *cs, bool ifetch)
+     .synchronize_from_tb = superh_cpu_synchronize_from_tb,
- {
+     .restore_state_to_opc = superh_restore_state_to_opc,
-     CPUSH4State *env = cpu_env(cs);
 diff --git a/target/sh4/translate.c b/target/sh4/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sh4/translate.c
 +++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
      .tb_stop            = sh4_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
 +                        int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
 diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/cpu.c
 +++ b/target/sparc/cpu.c
-@@ -XXX,XX +XXX,XX @@ static bool sparc_cpu_has_work(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
-            cpu_interrupts_enabled(env);
- }
+ static const TCGCPUOps sparc_tcg_ops = {
+     .initialize = sparc_tcg_init,
--int sparc_cpu_mmu_index(CPUState *cs, bool ifetch)
++    .translate_code = sparc_translate_code,
-+static int sparc_cpu_mmu_index(CPUState *cs, bool ifetch)
+     .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
- {
+     .restore_state_to_opc = sparc_restore_state_to_opc,
-     CPUSPARCState *env = cpu_env(cs);
+diff --git a/target/sparc/translate.c b/target/sparc/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/sparc/translate.c
 +++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
      .tb_stop            = sparc_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
 +                          int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = {};
 diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/cpu.c
 +++ b/target/tricore/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
  static const TCGCPUOps tricore_tcg_ops = {
      .initialize = tricore_tcg_init,
 +    .translate_code = tricore_translate_code,
      .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
      .restore_state_to_opc = tricore_restore_state_to_opc,
      .tlb_fill = tricore_cpu_tlb_fill,
 diff --git a/target/tricore/translate.c b/target/tricore/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/tricore/translate.c
 +++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
      .tb_stop            = tricore_tr_tb_stop,
  };
 -
 -void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
 +                            int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext ctx;
      translator_loop(cs, tb, max_insns, pc, host_pc,
 diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/xtensa/cpu.c
 +++ b/target/xtensa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
  static const TCGCPUOps xtensa_tcg_ops = {
      .initialize = xtensa_translate_init,
 +    .translate_code = xtensa_translate_code,
      .debug_excp_handler = xtensa_breakpoint_handler,
      .restore_state_to_opc = xtensa_restore_state_to_opc,
 diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/xtensa/translate.c
 +++ b/target/xtensa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
      .tb_stop            = xtensa_tr_tb_stop,
  };
 -void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
 -                           vaddr pc, void *host_pc)
 +void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
 +                           int *max_insns, vaddr pc, void *host_pc)
  {
      DisasContext dc = {};
      translator_loop(cpu, tb, max_insns, pc, host_pc,
 --
-.34.1
+.43.0

The following changes since commit 14639717bf379480e937716fcaf1e72b47fd4c5f:

Merge tag 'pull-trivial-patches' of https://gitlab.com/mjt0k/qemu into staging (2024-01-31 19:53:45 +0000)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20240202

for you to fetch changes up to 73e095fc71dfeb8f5f767d9ac71078e562d935b0:

target/sparc: Remove FSR_FTT_NMASK, FSR_FTT_CEXC_NMASK (2024-02-02 14:40:06 +1000)

----------------------------------------------------------------
tests/tcg: Fix multiarch/gdbstub/prot-none.py
hw/core: Convert cpu_mmu_index to a CPUClass hook
tcg/loongarch64: Set vector registers call clobbered
target/sparc: floating-point cleanup

----------------------------------------------------------------
Ilya Leoshkevich (1):
      tests/tcg: Fix the /proc/self/mem probing in the PROT_NONE gdbstub test

Richard Henderson (56):
      include/hw/core: Add mmu_index to CPUClass
      target/alpha: Split out alpha_env_mmu_index
      target/alpha: Populate CPUClass.mmu_index
      target/arm: Split out arm_env_mmu_index
      target/arm: Populate CPUClass.mmu_index
      target/avr: Populate CPUClass.mmu_index
      target/cris: Cache mem_index in DisasContext
      target/cris: Populate CPUClass.mmu_index
      target/hppa: Populate CPUClass.mmu_index
      target/i386: Populate CPUClass.mmu_index
      target/loongarch: Populate CPUClass.mmu_index
      target/loongarch: Rename MMU_IDX_*
      target/m68k: Populate CPUClass.mmu_index
      target/microblaze: Populate CPUClass.mmu_index
      target/mips: Pass ptw_mmu_idx down from mips_cpu_tlb_fill
      target/mips: Split out mips_env_mmu_index
      target/mips: Populate CPUClass.mmu_index
      target/nios2: Populate CPUClass.mmu_index
      target/openrisc: Populate CPUClass.mmu_index
      target/ppc: Split out ppc_env_mmu_index
      target/ppc: Populate CPUClass.mmu_index
      target/riscv: Rename riscv_cpu_mmu_index to riscv_env_mmu_index
      target/riscv: Replace cpu_mmu_index with riscv_env_mmu_index
      target/riscv: Populate CPUClass.mmu_index
      target/rx: Populate CPUClass.mmu_index
      target/s390x: Split out s390x_env_mmu_index
      target/s390x: Populate CPUClass.mmu_index
      target/sh4: Populate CPUClass.mmu_index
      target/sparc: Populate CPUClass.mmu_index
      target/tricore: Populate CPUClass.mmu_index
      target/xtensa: Populate CPUClass.mmu_index
      include/exec: Implement cpu_mmu_index generically
      include/exec: Change cpu_mmu_index argument to CPUState
      tcg/loongarch64: Set vector registers call clobbered
      target/sparc: Use tcg_gen_qemu_{ld, st}_i128 for ASI_M_BCOPY
      target/sparc: Use tcg_gen_qemu_{ld, st}_i128 for ASI_M_BFILL
      target/sparc: Remove gen_dest_fpr_F
      target/sparc: Introduce gen_{load,store}_fpr_Q
      target/sparc: Inline FNEG, FABS
      target/sparc: Use i128 for FSQRTq
      target/sparc: Use i128 for FADDq, FSUBq, FMULq, FDIVq
      target/sparc: Use i128 for FqTOs, FqTOi
      target/sparc: Use i128 for FqTOd, FqTOx
      target/sparc: Use i128 for FCMPq, FCMPEq
      target/sparc: Use i128 for FsTOq, FiTOq
      target/sparc: Use i128 for FdTOq, FxTOq
      target/sparc: Use i128 for Fdmulq
      target/sparc: Remove qt0, qt1 temporaries
      target/sparc: Introduce cpu_get_fsr, cpu_put_fsr
      target/sparc: Split ver from env->fsr
      target/sparc: Clear cexc and ftt in do_check_ieee_exceptions
      target/sparc: Merge check_ieee_exceptions with FPop helpers
      target/sparc: Split cexc and ftt from env->fsr
      target/sparc: Remove cpu_fsr
      target/sparc: Split fcc out of env->fsr
      target/sparc: Remove FSR_FTT_NMASK, FSR_FTT_CEXC_NMASK

To be used after all targets have populated the hook.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/hw/core/cpu.h | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/include/hw/core/cpu.h b/include/hw/core/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/core/cpu.h
+++ b/include/hw/core/cpu.h
@@ -XXX,XX +XXX,XX @@ struct SysemuCPUOps;
  * @parse_features: Callback to parse command line arguments.
  * @reset_dump_flags: #CPUDumpFlags to use for reset logging.
  * @has_work: Callback for checking if there is work to do.
+ * @mmu_index: Callback for choosing softmmu mmu index;
+ *       may be used internally by memory_rw_debug without TCG.
  * @memory_rw_debug: Callback for GDB memory access.
  * @dump_state: Callback for dumping state.
  * @query_cpu_fast:
@@ -XXX,XX +XXX,XX @@ struct CPUClass {
     void (*parse_features)(const char *typename, char *str, Error **errp);
 
     bool (*has_work)(CPUState *cpu);
+    int (*mmu_index)(CPUState *cpu, bool ifetch);
     int (*memory_rw_debug)(CPUState *cpu, vaddr addr,
                            uint8_t *buf, int len, bool is_write);
     void (*dump_state)(CPUState *cpu, FILE *, int flags);
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/alpha/cpu.h       | 7 ++++++-
 target/alpha/translate.c | 2 +-
 2 files changed, 7 insertions(+), 2 deletions(-)

diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.h
+++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 
 #define TB_FLAG_UNALIGN       (1u << 1)
 
-static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
+static inline int alpha_env_mmu_index(CPUAlphaState *env)
 {
     int ret = env->flags & ENV_FLAG_PS_USER ? MMU_USER_IDX : MMU_KERNEL_IDX;
     if (env->flags & ENV_FLAG_PAL_MODE) {
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
     return ret;
 }
 
+static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
+{
+    return alpha_env_mmu_index(env);
+}
+
 enum {
     IR_V0   = 0,
     IR_T0   = 1,
diff --git a/target/alpha/translate.c b/target/alpha/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/translate.c
+++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static void alpha_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cpu)
     int64_t bound;
 
     ctx->tbflags = ctx->base.tb->flags;
-    ctx->mem_idx = cpu_mmu_index(env, false);
+    ctx->mem_idx = alpha_env_mmu_index(env);
     ctx->implver = env->implver;
     ctx->amask = env->amask;
 
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/alpha/cpu.c | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.c
+++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool alpha_cpu_has_work(CPUState *cs)
                                     | CPU_INTERRUPT_MCHK);
 }
 
+static int alpha_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    return alpha_env_mmu_index(cpu_env(cs));
+}
+
 static void alpha_cpu_disas_set_info(CPUState *cpu, disassemble_info *info)
 {
     info->mach = bfd_mach_alpha_ev6;
@@ -XXX,XX +XXX,XX @@ static void alpha_cpu_class_init(ObjectClass *oc, void *data)
 
     cc->class_by_name = alpha_cpu_class_by_name;
     cc->has_work = alpha_cpu_has_work;
+    cc->mmu_index = alpha_cpu_mmu_index;
     cc->dump_state = alpha_cpu_dump_state;
     cc->set_pc = alpha_cpu_set_pc;
     cc->get_pc = alpha_cpu_get_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/internals.h      |  5 +++++
 target/arm/helper.c         |  2 +-
 target/arm/tcg/helper-a64.c |  4 ++--
 target/arm/tcg/mte_helper.c | 18 +++++++++---------
 target/arm/tcg/sve_helper.c |  8 ++++----
 target/arm/tcg/tlb_helper.c |  2 +-
 6 files changed, 22 insertions(+), 17 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@
 #define BANK_HYP    6
 #define BANK_MON    7
 
+static inline int arm_env_mmu_index(CPUARMState *env)
+{
+    return EX_TBFLAG_ANY(env->hflags, MMUIDX);
+}
+
 static inline bool excp_is_internal(int excp)
 {
     /* Return true if this exception number represents a QEMU-internal
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void dccvap_writefn(CPUARMState *env, const ARMCPRegInfo *opaque,
     uint64_t vaddr_in = (uint64_t) value;
     uint64_t vaddr = vaddr_in & ~(dline_size - 1);
     void *haddr;
-    int mem_idx = cpu_mmu_index(env, false);
+    int mem_idx = arm_env_mmu_index(env);
 
     /* This won't be crossing page boundaries */
     haddr = probe_read(env, vaddr, dline_size, mem_idx, GETPC());
diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.c
+++ b/target/arm/tcg/helper-a64.c
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env, uint64_t new_pc)
         tbii = EX_TBFLAG_A64(env->hflags, TBII);
         if ((tbii >> extract64(new_pc, 55, 1)) & 1) {
             /* TBI is enabled. */
-            int core_mmu_idx = cpu_mmu_index(env, false);
+            int core_mmu_idx = arm_env_mmu_index(env);
             if (regime_has_2_ranges(core_to_aa64_mmu_idx(core_mmu_idx))) {
                 new_pc = sextract64(new_pc, 0, 56);
             } else {
@@ -XXX,XX +XXX,XX @@ void HELPER(dc_zva)(CPUARMState *env, uint64_t vaddr_in)
      */
     int blocklen = 4 << env_archcpu(env)->dcz_blocksize;
     uint64_t vaddr = vaddr_in & ~(blocklen - 1);
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     void *mem;
 
     /*
diff --git a/target/arm/tcg/mte_helper.c b/target/arm/tcg/mte_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/mte_helper.c
+++ b/target/arm/tcg/mte_helper.c
@@ -XXX,XX +XXX,XX @@ static int load_tag1(uint64_t ptr, uint8_t *mem)
 
 uint64_t HELPER(ldg)(CPUARMState *env, uint64_t ptr, uint64_t xt)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     uint8_t *mem;
     int rtag = 0;
 
@@ -XXX,XX +XXX,XX @@ static void check_tag_aligned(CPUARMState *env, uint64_t ptr, uintptr_t ra)
 {
     if (unlikely(!QEMU_IS_ALIGNED(ptr, TAG_GRANULE))) {
         arm_cpu_do_unaligned_access(env_cpu(env), ptr, MMU_DATA_STORE,
-                                    cpu_mmu_index(env, false), ra);
+                                    arm_env_mmu_index(env), ra);
         g_assert_not_reached();
     }
 }
@@ -XXX,XX +XXX,XX @@ typedef void stg_store1(uint64_t, uint8_t *, int);
 static inline void do_stg(CPUARMState *env, uint64_t ptr, uint64_t xt,
                           uintptr_t ra, stg_store1 store1)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     uint8_t *mem;
 
     check_tag_aligned(env, ptr, ra);
@@ -XXX,XX +XXX,XX @@ void HELPER(stg_parallel)(CPUARMState *env, uint64_t ptr, uint64_t xt)
 
 void HELPER(stg_stub)(CPUARMState *env, uint64_t ptr)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     uintptr_t ra = GETPC();
 
     check_tag_aligned(env, ptr, ra);
@@ -XXX,XX +XXX,XX @@ void HELPER(stg_stub)(CPUARMState *env, uint64_t ptr)
 static inline void do_st2g(CPUARMState *env, uint64_t ptr, uint64_t xt,
                            uintptr_t ra, stg_store1 store1)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     int tag = allocation_tag_from_addr(xt);
     uint8_t *mem1, *mem2;
 
@@ -XXX,XX +XXX,XX @@ void HELPER(st2g_parallel)(CPUARMState *env, uint64_t ptr, uint64_t xt)
 
 void HELPER(st2g_stub)(CPUARMState *env, uint64_t ptr)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     uintptr_t ra = GETPC();
     int in_page = -(ptr | TARGET_PAGE_MASK);
 
@@ -XXX,XX +XXX,XX @@ void HELPER(st2g_stub)(CPUARMState *env, uint64_t ptr)
 
 uint64_t HELPER(ldgm)(CPUARMState *env, uint64_t ptr)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     uintptr_t ra = GETPC();
     int gm_bs = env_archcpu(env)->gm_blocksize;
     int gm_bs_bytes = 4 << gm_bs;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(ldgm)(CPUARMState *env, uint64_t ptr)
 
 void HELPER(stgm)(CPUARMState *env, uint64_t ptr, uint64_t val)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     uintptr_t ra = GETPC();
     int gm_bs = env_archcpu(env)->gm_blocksize;
     int gm_bs_bytes = 4 << gm_bs;
@@ -XXX,XX +XXX,XX @@ void HELPER(stgm)(CPUARMState *env, uint64_t ptr, uint64_t val)
 void HELPER(stzgm_tags)(CPUARMState *env, uint64_t ptr, uint64_t val)
 {
     uintptr_t ra = GETPC();
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     int log2_dcz_bytes, log2_tag_bytes;
     intptr_t dcz_bytes, tag_bytes;
     uint8_t *mem;
diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/sve_helper.c
+++ b/target/arm/tcg/sve_helper.c
@@ -XXX,XX +XXX,XX @@ bool sve_cont_ldst_pages(SVEContLdSt *info, SVEContFault fault,
                          CPUARMState *env, target_ulong addr,
                          MMUAccessType access_type, uintptr_t retaddr)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = arm_env_mmu_index(env);
     int mem_off = info->mem_off_first[0];
     bool nofault = fault == FAULT_NO;
     bool have_work = true;
@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                sve_ldst1_host_fn *host_fn,
                sve_ldst1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = arm_env_mmu_index(env);
     const intptr_t reg_max = simd_oprsz(desc);
     const int scale = simd_data(desc);
     ARMVectorReg scratch;
@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                  sve_ldst1_host_fn *host_fn,
                  sve_ldst1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = arm_env_mmu_index(env);
     const intptr_t reg_max = simd_oprsz(desc);
     const int scale = simd_data(desc);
     const int esize = 1 << esz;
@@ -XXX,XX +XXX,XX @@ void sve_st1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
                sve_ldst1_host_fn *host_fn,
                sve_ldst1_tlb_fn *tlb_fn)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = arm_env_mmu_index(env);
     const intptr_t reg_max = simd_oprsz(desc);
     const int scale = simd_data(desc);
     void *host[ARM_MAX_VQ * 4];
diff --git a/target/arm/tcg/tlb_helper.c b/target/arm/tcg/tlb_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/tlb_helper.c
+++ b/target/arm/tcg/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_exception_pc_alignment(CPUARMState *env, target_ulong pc)
 {
     ARMMMUFaultInfo fi = { .type = ARMFault_Alignment };
     int target_el = exception_target_el(env);
-    int mmu_idx = cpu_mmu_index(env, true);
+    int mmu_idx = arm_env_mmu_index(env);
     uint32_t fsc;
 
     env->exception.vaddress = pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/avr/cpu.h | 4 +---
 target/avr/cpu.c | 6 ++++++
 2 files changed, 7 insertions(+), 3 deletions(-)

diff --git a/target/avr/cpu.h b/target/avr/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.h
+++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
     env->features |= (1U << feature);
 }
 
-#define cpu_mmu_index avr_cpu_mmu_index
-
-static inline int avr_cpu_mmu_index(CPUAVRState *env, bool ifetch)
+static inline int cpu_mmu_index(CPUAVRState *env, bool ifetch)
 {
     return ifetch ? MMU_CODE_IDX : MMU_DATA_IDX;
 }
diff --git a/target/avr/cpu.c b/target/avr/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.c
+++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool avr_cpu_has_work(CPUState *cs)
             && cpu_interrupts_enabled(env);
 }
 
+static int avr_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    return ifetch ? MMU_CODE_IDX : MMU_DATA_IDX;
+}
+
 static void avr_cpu_synchronize_from_tb(CPUState *cs,
                                         const TranslationBlock *tb)
 {
@@ -XXX,XX +XXX,XX @@ static void avr_cpu_class_init(ObjectClass *oc, void *data)
     cc->class_by_name = avr_cpu_class_by_name;
 
     cc->has_work = avr_cpu_has_work;
+    cc->mmu_index = avr_cpu_mmu_index;
     cc->dump_state = avr_cpu_dump_state;
     cc->set_pc = avr_cpu_set_pc;
     cc->get_pc = avr_cpu_get_pc;
-- 
2.34.1

Compute this value once for each translation.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/cris/translate.c         | 14 +++++---------
 target/cris/translate_v10.c.inc |  6 ++----
 2 files changed, 7 insertions(+), 13 deletions(-)

diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
 
     CRISCPU *cpu;
     target_ulong pc, ppc;
+    int mem_index;
 
     /* Decoder.  */
         unsigned int (*decoder)(CPUCRISState *env, struct DisasContext *dc);
@@ -XXX,XX +XXX,XX @@ static inline void cris_prepare_jmp (DisasContext *dc, unsigned int type)
 
 static void gen_load64(DisasContext *dc, TCGv_i64 dst, TCGv addr)
 {
-    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
-
     /* If we get a fault on a delayslot we must keep the jmp state in
        the cpu-state to be able to re-execute the jmp.  */
     if (dc->delayed_branch == 1) {
         cris_store_direct_jmp(dc);
     }
 
-    tcg_gen_qemu_ld_i64(dst, addr, mem_index, MO_TEUQ);
+    tcg_gen_qemu_ld_i64(dst, addr, dc->mem_index, MO_TEUQ);
 }
 
 static void gen_load(DisasContext *dc, TCGv dst, TCGv addr, 
              unsigned int size, int sign)
 {
-    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
-
     /* If we get a fault on a delayslot we must keep the jmp state in
        the cpu-state to be able to re-execute the jmp.  */
     if (dc->delayed_branch == 1) {
         cris_store_direct_jmp(dc);
     }
 
-    tcg_gen_qemu_ld_tl(dst, addr, mem_index,
+    tcg_gen_qemu_ld_tl(dst, addr, dc->mem_index,
                        MO_TE + ctz32(size) + (sign ? MO_SIGN : 0));
 }
 
 static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
                unsigned int size)
 {
-    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
-
     /* If we get a fault on a delayslot we must keep the jmp state in
        the cpu-state to be able to re-execute the jmp.  */
     if (dc->delayed_branch == 1) {
@@ -XXX,XX +XXX,XX @@ static void gen_store (DisasContext *dc, TCGv addr, TCGv val,
         return;
     }
 
-    tcg_gen_qemu_st_tl(val, addr, mem_index, MO_TE + ctz32(size));
+    tcg_gen_qemu_st_tl(val, addr, dc->mem_index, MO_TE + ctz32(size));
 
     if (dc->flags_x) {
         cris_evaluate_flags(dc);
@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     dc->cpu = env_archcpu(env);
     dc->ppc = pc_start;
     dc->pc = pc_start;
+    dc->mem_index = cpu_mmu_index(env, false);
     dc->flags_uptodate = 1;
     dc->flags_x = tb_flags & X_FLAG;
     dc->cc_x_uptodate = 0;
diff --git a/target/cris/translate_v10.c.inc b/target/cris/translate_v10.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate_v10.c.inc
+++ b/target/cris/translate_v10.c.inc
@@ -XXX,XX +XXX,XX @@ static void gen_store_v10_conditional(DisasContext *dc, TCGv addr, TCGv val,
 static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
                        unsigned int size)
 {
-    int mem_index = cpu_mmu_index(&dc->cpu->env, false);
-
     /* If we get a fault on a delayslot we must keep the jmp state in
        the cpu-state to be able to re-execute the jmp.  */
     if (dc->delayed_branch == 1) {
@@ -XXX,XX +XXX,XX @@ static void gen_store_v10(DisasContext *dc, TCGv addr, TCGv val,
 
     /* Conditional writes. */
     if (dc->flags_x) {
-        gen_store_v10_conditional(dc, addr, val, size, mem_index);
+        gen_store_v10_conditional(dc, addr, val, size, dc->mem_index);
         return;
     }
 
-    tcg_gen_qemu_st_tl(val, addr, mem_index, ctz32(size) | MO_TE);
+    tcg_gen_qemu_st_tl(val, addr, dc->mem_index, ctz32(size) | MO_TE);
 }
 
 
-- 
2.34.1

Reviewed-by: Helge Deller <deller@gmx.de>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hppa/cpu.h |  7 ++-----
 target/hppa/cpu.c | 12 ++++++++++++
 2 files changed, 14 insertions(+), 5 deletions(-)

diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.h
+++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
     return hppa_is_pa20(env) ? 0 : PA10_BTLB_FIXED + PA10_BTLB_VARIABLE;
 }
 
+int hppa_cpu_mmu_index(CPUState *cs, bool ifetch);
 static inline int cpu_mmu_index(CPUHPPAState *env, bool ifetch)
 {
 #ifdef CONFIG_USER_ONLY
     return MMU_USER_IDX;
 #else
-    if (env->psw & (ifetch ? PSW_C : PSW_D)) {
-        return PRIV_P_TO_MMU_IDX(env->iaoq_f & 3, env->psw & PSW_P);
-    }
-    /* mmu disabled */
-    return env->psw & PSW_W ? MMU_ABS_W_IDX : MMU_ABS_IDX;
+    return hppa_cpu_mmu_index(env_cpu(env), ifetch);
 #endif
 }
 
diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.c
+++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool hppa_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
 }
 
+int hppa_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    CPUHPPAState *env = cpu_env(cs);
+
+    if (env->psw & (ifetch ? PSW_C : PSW_D)) {
+        return PRIV_P_TO_MMU_IDX(env->iaoq_f & 3, env->psw & PSW_P);
+    }
+    /* mmu disabled */
+    return env->psw & PSW_W ? MMU_ABS_W_IDX : MMU_ABS_IDX;
+}
+
 static void hppa_cpu_disas_set_info(CPUState *cs, disassemble_info *info)
 {
     info->mach = bfd_mach_hppa20;
@@ -XXX,XX +XXX,XX @@ static void hppa_cpu_class_init(ObjectClass *oc, void *data)
 
     cc->class_by_name = hppa_cpu_class_by_name;
     cc->has_work = hppa_cpu_has_work;
+    cc->mmu_index = hppa_cpu_mmu_index;
     cc->dump_state = hppa_cpu_dump_state;
     cc->set_pc = hppa_cpu_set_pc;
     cc->get_pc = hppa_cpu_get_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/i386/cpu.h | 13 ++++++-------
 target/i386/cpu.c | 10 ++++++++++
 2 files changed, 16 insertions(+), 7 deletions(-)

diff --git a/target/i386/cpu.h b/target/i386/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/cpu.h
+++ b/target/i386/cpu.h
@@ -XXX,XX +XXX,XX @@ uint64_t cpu_get_tsc(CPUX86State *env);
 #define MMU_NESTED_IDX  3
 #define MMU_PHYS_IDX    4
 
-static inline int cpu_mmu_index(CPUX86State *env, bool ifetch)
-{
-    return (env->hflags & HF_CPL_MASK) == 3 ? MMU_USER_IDX :
-        (!(env->hflags & HF_SMAP_MASK) || (env->eflags & AC_MASK))
-        ? MMU_KNOSMAP_IDX : MMU_KSMAP_IDX;
-}
-
 static inline int cpu_mmu_index_kernel(CPUX86State *env)
 {
     return !(env->hflags & HF_SMAP_MASK) ? MMU_KNOSMAP_IDX :
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index_kernel(CPUX86State *env)
 #include "hw/i386/apic.h"
 #endif
 
+int x86_cpu_mmu_index(CPUState *cs, bool ifetch);
+static inline int cpu_mmu_index(CPUX86State *env, bool ifetch)
+{
+    return x86_cpu_mmu_index(env_cpu(env), ifetch);
+}
+
 static inline void cpu_get_tb_cpu_state(CPUX86State *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
 {
diff --git a/target/i386/cpu.c b/target/i386/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/cpu.c
+++ b/target/i386/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_cpu_has_work(CPUState *cs)
     return x86_cpu_pending_interrupt(cs, cs->interrupt_request) != 0;
 }
 
+int x86_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    CPUX86State *env = cpu_env(cs);
+
+    return (env->hflags & HF_CPL_MASK) == 3 ? MMU_USER_IDX :
+        (!(env->hflags & HF_SMAP_MASK) || (env->eflags & AC_MASK))
+        ? MMU_KNOSMAP_IDX : MMU_KSMAP_IDX;
+}
+
 static void x86_disas_set_info(CPUState *cs, disassemble_info *info)
 {
     X86CPU *cpu = X86_CPU(cs);
@@ -XXX,XX +XXX,XX @@ static void x86_cpu_common_class_init(ObjectClass *oc, void *data)
     cc->class_by_name = x86_cpu_class_by_name;
     cc->parse_features = x86_cpu_parse_featurestr;
     cc->has_work = x86_cpu_has_work;
+    cc->mmu_index = x86_cpu_mmu_index;
     cc->dump_state = x86_cpu_dump_state;
     cc->set_pc = x86_cpu_set_pc;
     cc->get_pc = x86_cpu_get_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/loongarch/cpu.h |  6 ++----
 target/loongarch/cpu.c | 11 +++++++++++
 2 files changed, 13 insertions(+), 4 deletions(-)

diff --git a/target/loongarch/cpu.h b/target/loongarch/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.h
+++ b/target/loongarch/cpu.h
@@ -XXX,XX +XXX,XX @@ struct LoongArchCPUClass {
 #define MMU_IDX_USER     MMU_PLV_USER
 #define MMU_IDX_DA       4
 
+int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch);
 static inline int cpu_mmu_index(CPULoongArchState *env, bool ifetch)
 {
 #ifdef CONFIG_USER_ONLY
     return MMU_IDX_USER;
 #else
-    if (FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PG)) {
-        return FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PLV);
-    }
-    return MMU_IDX_DA;
+    return loongarch_cpu_mmu_index(env_cpu(env), ifetch);
 #endif
 }
 
diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.c
+++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool loongarch_cpu_has_work(CPUState *cs)
 #endif
 }
 
+int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    CPULoongArchState *env = cpu_env(cs);
+
+    if (FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PG)) {
+        return FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PLV);
+    }
+    return MMU_IDX_DA;
+}
+
 static void loongarch_la464_initfn(Object *obj)
 {
     LoongArchCPU *cpu = LOONGARCH_CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_class_init(ObjectClass *c, void *data)
 
     cc->class_by_name = loongarch_cpu_class_by_name;
     cc->has_work = loongarch_cpu_has_work;
+    cc->mmu_index = loongarch_cpu_mmu_index;
     cc->dump_state = loongarch_cpu_dump_state;
     cc->set_pc = loongarch_cpu_set_pc;
     cc->get_pc = loongarch_cpu_get_pc;
-- 
2.34.1

The expected form is MMU_FOO_IDX, not MMU_IDX_FOO.
Rename to match generic code.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/loongarch/cpu.h                                 | 8 ++++----
 target/loongarch/cpu.c                                 | 2 +-
 target/loongarch/tcg/tlb_helper.c                      | 4 ++--
 target/loongarch/tcg/translate.c                       | 2 +-
 target/loongarch/tcg/insn_trans/trans_privileged.c.inc | 2 +-
 5 files changed, 9 insertions(+), 9 deletions(-)

diff --git a/target/loongarch/cpu.h b/target/loongarch/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.h
+++ b/target/loongarch/cpu.h
@@ -XXX,XX +XXX,XX @@ struct LoongArchCPUClass {
  */
 #define MMU_PLV_KERNEL   0
 #define MMU_PLV_USER     3
-#define MMU_IDX_KERNEL   MMU_PLV_KERNEL
-#define MMU_IDX_USER     MMU_PLV_USER
-#define MMU_IDX_DA       4
+#define MMU_KERNEL_IDX   MMU_PLV_KERNEL
+#define MMU_USER_IDX     MMU_PLV_USER
+#define MMU_DA_IDX       4
 
 int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch);
 static inline int cpu_mmu_index(CPULoongArchState *env, bool ifetch)
 {
 #ifdef CONFIG_USER_ONLY
-    return MMU_IDX_USER;
+    return MMU_USER_IDX;
 #else
     return loongarch_cpu_mmu_index(env_cpu(env), ifetch);
 #endif
diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.c
+++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
     if (FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PG)) {
         return FIELD_EX64(env->CSR_CRMD, CSR_CRMD, PLV);
     }
-    return MMU_IDX_DA;
+    return MMU_DA_IDX;
 }
 
 static void loongarch_la464_initfn(Object *obj)
diff --git a/target/loongarch/tcg/tlb_helper.c b/target/loongarch/tcg/tlb_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/tlb_helper.c
+++ b/target/loongarch/tcg/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ static int get_physical_address(CPULoongArchState *env, hwaddr *physical,
                                 int *prot, target_ulong address,
                                 MMUAccessType access_type, int mmu_idx)
 {
-    int user_mode = mmu_idx == MMU_IDX_USER;
-    int kernel_mode = mmu_idx == MMU_IDX_KERNEL;
+    int user_mode = mmu_idx == MMU_USER_IDX;
+    int kernel_mode = mmu_idx == MMU_KERNEL_IDX;
     uint32_t plv, base_c, base_v;
     int64_t addr_high;
     uint8_t da = FIELD_EX64(env->CSR_CRMD, CSR_CRMD, DA);
diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/translate.c
+++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void loongarch_tr_init_disas_context(DisasContextBase *dcbase,
     if (ctx->base.tb->flags & HW_FLAGS_CRMD_PG) {
         ctx->mem_idx = ctx->plv;
     } else {
-        ctx->mem_idx = MMU_IDX_DA;
+        ctx->mem_idx = MMU_DA_IDX;
     }
 
     /* Bound the number of insns to execute to those left on the page.  */
diff --git a/target/loongarch/tcg/insn_trans/trans_privileged.c.inc b/target/loongarch/tcg/insn_trans/trans_privileged.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/insn_trans/trans_privileged.c.inc
+++ b/target/loongarch/tcg/insn_trans/trans_privileged.c.inc
@@ -XXX,XX +XXX,XX @@ TRANS(iocsrwr_d, IOCSR, gen_iocsrwr, gen_helper_iocsrwr_d)
 
 static void check_mmu_idx(DisasContext *ctx)
 {
-    if (ctx->mem_idx != MMU_IDX_DA) {
+    if (ctx->mem_idx != MMU_DA_IDX) {
         tcg_gen_movi_tl(cpu_pc, ctx->base.pc_next + 4);
         ctx->base.is_jmp = DISAS_EXIT;
     }
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/m68k/cpu.c | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.c
+++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool m68k_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & CPU_INTERRUPT_HARD;
 }
 
+static int m68k_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    return cpu_env(cs)->sr & SR_S ? MMU_KERNEL_IDX : MMU_USER_IDX;
+}
+
 static void m68k_set_feature(CPUM68KState *env, int feature)
 {
     env->features |= BIT_ULL(feature);
@@ -XXX,XX +XXX,XX @@ static void m68k_cpu_class_init(ObjectClass *c, void *data)
 
     cc->class_by_name = m68k_cpu_class_by_name;
     cc->has_work = m68k_cpu_has_work;
+    cc->mmu_index = m68k_cpu_mmu_index;
     cc->dump_state = m68k_cpu_dump_state;
     cc->set_pc = m68k_cpu_set_pc;
     cc->get_pc = m68k_cpu_get_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/microblaze/cpu.h | 13 ++-----------
 target/microblaze/cpu.c | 18 +++++++++++++++++-
 2 files changed, 19 insertions(+), 12 deletions(-)

diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.h
+++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ void mb_cpu_transaction_failed(CPUState *cs, hwaddr physaddr, vaddr addr,
                                MemTxResult response, uintptr_t retaddr);
 #endif
 
+int mb_cpu_mmu_index(CPUState *cs, bool ifetch);
 static inline int cpu_mmu_index(CPUMBState *env, bool ifetch)
 {
-    MicroBlazeCPU *cpu = env_archcpu(env);
-
-    /* Are we in nommu mode?.  */
-    if (!(env->msr & MSR_VM) || !cpu->cfg.use_mmu) {
-        return MMU_NOMMU_IDX;
-    }
-
-    if (env->msr & MSR_UM) {
-        return MMU_USER_IDX;
-    }
-    return MMU_KERNEL_IDX;
+    return mb_cpu_mmu_index(env_cpu(env), ifetch);
 }
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.c
+++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool mb_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
 }
 
+int mb_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    CPUMBState *env = cpu_env(cs);
+    MicroBlazeCPU *cpu = env_archcpu(env);
+
+    /* Are we in nommu mode?.  */
+    if (!(env->msr & MSR_VM) || !cpu->cfg.use_mmu) {
+        return MMU_NOMMU_IDX;
+    }
+
+    if (env->msr & MSR_UM) {
+        return MMU_USER_IDX;
+    }
+    return MMU_KERNEL_IDX;
+}
+
 #ifndef CONFIG_USER_ONLY
 static void mb_cpu_ns_axi_dp(void *opaque, int irq, int level)
 {
@@ -XXX,XX +XXX,XX @@ static void mb_cpu_class_init(ObjectClass *oc, void *data)
 
     cc->class_by_name = mb_cpu_class_by_name;
     cc->has_work = mb_cpu_has_work;
-
+    cc->mmu_index = mb_cpu_mmu_index;
     cc->dump_state = mb_cpu_dump_state;
     cc->set_pc = mb_cpu_set_pc;
     cc->get_pc = mb_cpu_get_pc;
-- 
2.34.1

Rather than adjust env->hflags so that the value computed
by cpu_mmu_index() changes, compute the mmu_idx that we
want directly and pass it down.

Introduce symbolic constants for MMU_{KERNEL,ERL}_IDX.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/mips/cpu.h                   |  4 +++-
 target/mips/tcg/sysemu/tlb_helper.c | 32 ++++++++++++-----------------
 2 files changed, 16 insertions(+), 20 deletions(-)

diff --git a/target/mips/cpu.h b/target/mips/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/cpu.h
+++ b/target/mips/cpu.h
@@ -XXX,XX +XXX,XX @@ uint32_t cpu_rddsp(uint32_t mask_num, CPUMIPSState *env);
  * MMU modes definitions. We carefully match the indices with our
  * hflags layout.
  */
+#define MMU_KERNEL_IDX 0
 #define MMU_USER_IDX 2
+#define MMU_ERL_IDX 3
 
 static inline int hflags_mmu_index(uint32_t hflags)
 {
     if (hflags & MIPS_HFLAG_ERL) {
-        return 3; /* ERL */
+        return MMU_ERL_IDX;
     } else {
         return hflags & MIPS_HFLAG_KSU;
     }
diff --git a/target/mips/tcg/sysemu/tlb_helper.c b/target/mips/tcg/sysemu/tlb_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/sysemu/tlb_helper.c
+++ b/target/mips/tcg/sysemu/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t get_tlb_entry_layout(CPUMIPSState *env, uint64_t entry,
 static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
         int directory_index, bool *huge_page, bool *hgpg_directory_hit,
         uint64_t *pw_entrylo0, uint64_t *pw_entrylo1,
-        unsigned directory_shift, unsigned leaf_shift)
+        unsigned directory_shift, unsigned leaf_shift, int ptw_mmu_idx)
 {
     int dph = (env->CP0_PWCtl >> CP0PC_DPH) & 0x1;
     int psn = (env->CP0_PWCtl >> CP0PC_PSN) & 0x3F;
@@ -XXX,XX +XXX,XX @@ static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
     uint64_t w = 0;
 
     if (get_physical_address(env, &paddr, &prot, *vaddr, MMU_DATA_LOAD,
-                             cpu_mmu_index(env, false)) !=
-                             TLBRET_MATCH) {
+                             ptw_mmu_idx) != TLBRET_MATCH) {
         /* wrong base address */
         return 0;
     }
@@ -XXX,XX +XXX,XX @@ static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
                 *pw_entrylo0 = entry;
             }
             if (get_physical_address(env, &paddr, &prot, vaddr2, MMU_DATA_LOAD,
-                                     cpu_mmu_index(env, false)) !=
-                                     TLBRET_MATCH) {
+                                     ptw_mmu_idx) != TLBRET_MATCH) {
                 return 0;
             }
             if (!get_pte(env, vaddr2, leafentry_size, &entry)) {
@@ -XXX,XX +XXX,XX @@ static int walk_directory(CPUMIPSState *env, uint64_t *vaddr,
 }
 
 static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
-                                   int mmu_idx)
+                                   int ptw_mmu_idx)
 {
     int gdw = (env->CP0_PWSize >> CP0PS_GDW) & 0x3F;
     int udw = (env->CP0_PWSize >> CP0PS_UDW) & 0x3F;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
         vaddr |= goffset;
         switch (walk_directory(env, &vaddr, pf_gdw, &huge_page, &hgpg_gdhit,
                                &pw_entrylo0, &pw_entrylo1,
-                               directory_shift, leaf_shift))
+                               directory_shift, leaf_shift, ptw_mmu_idx))
         {
         case 0:
             return false;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
         vaddr |= uoffset;
         switch (walk_directory(env, &vaddr, pf_udw, &huge_page, &hgpg_udhit,
                                &pw_entrylo0, &pw_entrylo1,
-                               directory_shift, leaf_shift))
+                               directory_shift, leaf_shift, ptw_mmu_idx))
         {
         case 0:
             return false;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
         vaddr |= moffset;
         switch (walk_directory(env, &vaddr, pf_mdw, &huge_page, &hgpg_mdhit,
                                &pw_entrylo0, &pw_entrylo1,
-                               directory_shift, leaf_shift))
+                               directory_shift, leaf_shift, ptw_mmu_idx))
         {
         case 0:
             return false;
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
     /* Leaf Level Page Table - First half of PTE pair */
     vaddr |= ptoffset0;
     if (get_physical_address(env, &paddr, &prot, vaddr, MMU_DATA_LOAD,
-                             cpu_mmu_index(env, false)) !=
-                             TLBRET_MATCH) {
+                             ptw_mmu_idx) != TLBRET_MATCH) {
         return false;
     }
     if (!get_pte(env, vaddr, leafentry_size, &dir_entry)) {
@@ -XXX,XX +XXX,XX @@ static bool page_table_walk_refill(CPUMIPSState *env, vaddr address,
     /* Leaf Level Page Table - Second half of PTE pair */
     vaddr |= ptoffset1;
     if (get_physical_address(env, &paddr, &prot, vaddr, MMU_DATA_LOAD,
-                             cpu_mmu_index(env, false)) !=
-                             TLBRET_MATCH) {
+                             ptw_mmu_idx) != TLBRET_MATCH) {
         return false;
     }
     if (!get_pte(env, vaddr, leafentry_size, &dir_entry)) {
@@ -XXX,XX +XXX,XX @@ bool mips_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
          * Memory reads during hardware page table walking are performed
          * as if they were kernel-mode load instructions.
          */
-        int mode = (env->hflags & MIPS_HFLAG_KSU);
-        bool ret_walker;
-        env->hflags &= ~MIPS_HFLAG_KSU;
-        ret_walker = page_table_walk_refill(env, address, mmu_idx);
-        env->hflags |= mode;
-        if (ret_walker) {
+        int ptw_mmu_idx = (env->hflags & MIPS_HFLAG_ERL ?
+                           MMU_ERL_IDX : MMU_KERNEL_IDX);
+
+        if (page_table_walk_refill(env, address, ptw_mmu_idx)) {
             ret = get_physical_address(env, &physical, &prot, address,
                                        access_type, mmu_idx);
             if (ret == TLBRET_MATCH) {
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/mips/cpu.h                       |  7 ++++++-
 target/mips/sysemu/physaddr.c           |  2 +-
 target/mips/tcg/msa_helper.c            | 10 +++++-----
 target/mips/tcg/sysemu/cp0_helper.c     |  2 +-
 target/mips/tcg/sysemu/special_helper.c |  2 +-
 target/mips/tcg/sysemu/tlb_helper.c     |  2 +-
 6 files changed, 15 insertions(+), 10 deletions(-)

diff --git a/target/mips/cpu.h b/target/mips/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/cpu.h
+++ b/target/mips/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int hflags_mmu_index(uint32_t hflags)
     }
 }
 
-static inline int cpu_mmu_index(CPUMIPSState *env, bool ifetch)
+static inline int mips_env_mmu_index(CPUMIPSState *env)
 {
     return hflags_mmu_index(env->hflags);
 }
 
+static inline int cpu_mmu_index(CPUMIPSState *env, bool ifetch)
+{
+    return mips_env_mmu_index(env);
+}
+
 #include "exec/cpu-all.h"
 
 /* Exceptions */
diff --git a/target/mips/sysemu/physaddr.c b/target/mips/sysemu/physaddr.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/sysemu/physaddr.c
+++ b/target/mips/sysemu/physaddr.c
@@ -XXX,XX +XXX,XX @@ hwaddr mips_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
     int prot;
 
     if (get_physical_address(env, &phys_addr, &prot, addr, MMU_DATA_LOAD,
-                             cpu_mmu_index(env, false)) != 0) {
+                             mips_env_mmu_index(env)) != 0) {
         return -1;
     }
     return phys_addr;
diff --git a/target/mips/tcg/msa_helper.c b/target/mips/tcg/msa_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/msa_helper.c
+++ b/target/mips/tcg/msa_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_msa_ffint_u_df(CPUMIPSState *env, uint32_t df, uint32_t wd,
 #if !defined(CONFIG_USER_ONLY)
 #define MEMOP_IDX(DF)                                                   \
     MemOpIdx oi = make_memop_idx(MO_TE | DF | MO_UNALN,                 \
-                                 cpu_mmu_index(env, false));
+                                 mips_env_mmu_index(env));
 #else
 #define MEMOP_IDX(DF)
 #endif
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_b(CPUMIPSState *env, uint32_t wd,
                      target_ulong addr)
 {
     wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = mips_env_mmu_index(env);
     uintptr_t ra = GETPC();
 
     ensure_writable_pages(env, addr, mmu_idx, ra);
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_h(CPUMIPSState *env, uint32_t wd,
                      target_ulong addr)
 {
     wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = mips_env_mmu_index(env);
     uintptr_t ra = GETPC();
     uint64_t d0, d1;
 
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_w(CPUMIPSState *env, uint32_t wd,
                      target_ulong addr)
 {
     wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = mips_env_mmu_index(env);
     uintptr_t ra = GETPC();
     uint64_t d0, d1;
 
@@ -XXX,XX +XXX,XX @@ void helper_msa_st_d(CPUMIPSState *env, uint32_t wd,
                      target_ulong addr)
 {
     wr_t *pwd = &(env->active_fpu.fpr[wd].wr);
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = mips_env_mmu_index(env);
     uintptr_t ra = GETPC();
 
     ensure_writable_pages(env, addr, mmu_idx, GETPC());
diff --git a/target/mips/tcg/sysemu/cp0_helper.c b/target/mips/tcg/sysemu/cp0_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/sysemu/cp0_helper.c
+++ b/target/mips/tcg/sysemu/cp0_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_mtc0_status(CPUMIPSState *env, target_ulong arg1)
                 old, old & env->CP0_Cause & CP0Ca_IP_mask,
                 val, val & env->CP0_Cause & CP0Ca_IP_mask,
                 env->CP0_Cause);
-        switch (cpu_mmu_index(env, false)) {
+        switch (mips_env_mmu_index(env)) {
         case 3:
             qemu_log(", ERL\n");
             break;
diff --git a/target/mips/tcg/sysemu/special_helper.c b/target/mips/tcg/sysemu/special_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/sysemu/special_helper.c
+++ b/target/mips/tcg/sysemu/special_helper.c
@@ -XXX,XX +XXX,XX @@ static void debug_post_eret(CPUMIPSState *env)
         if (env->hflags & MIPS_HFLAG_DM) {
             qemu_log(" DEPC " TARGET_FMT_lx, env->CP0_DEPC);
         }
-        switch (cpu_mmu_index(env, false)) {
+        switch (mips_env_mmu_index(env)) {
         case 3:
             qemu_log(", ERL\n");
             break;
diff --git a/target/mips/tcg/sysemu/tlb_helper.c b/target/mips/tcg/sysemu/tlb_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/sysemu/tlb_helper.c
+++ b/target/mips/tcg/sysemu/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ hwaddr cpu_mips_translate_address(CPUMIPSState *env, target_ulong address,
 
     /* data access */
     ret = get_physical_address(env, &physical, &prot, address, access_type,
-                               cpu_mmu_index(env, false));
+                               mips_env_mmu_index(env));
     if (ret == TLBRET_MATCH) {
         return physical;
     }
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/nios2/cpu.h | 12 ++++++------
 target/nios2/cpu.c |  7 +++++++
 2 files changed, 13 insertions(+), 6 deletions(-)

diff --git a/target/nios2/cpu.h b/target/nios2/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/cpu.h
+++ b/target/nios2/cpu.h
@@ -XXX,XX +XXX,XX @@ void do_nios2_semihosting(CPUNios2State *env);
 #define MMU_SUPERVISOR_IDX  0
 #define MMU_USER_IDX        1
 
-static inline int cpu_mmu_index(CPUNios2State *env, bool ifetch)
-{
-    return (env->ctrl[CR_STATUS] & CR_STATUS_U) ? MMU_USER_IDX :
-                                                  MMU_SUPERVISOR_IDX;
-}
-
 #ifndef CONFIG_USER_ONLY
 hwaddr nios2_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
 bool nios2_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAGS, CRS0, 0, 1)  /* Set if CRS == 0. */
 FIELD(TBFLAGS, U, 1, 1)     /* Overlaps CR_STATUS_U */
 FIELD(TBFLAGS, R0_0, 2, 1)  /* Set if R0 == 0. */
 
+int nios2_cpu_mmu_index(CPUState *cs, bool ifetch);
+static inline int cpu_mmu_index(CPUNios2State *env, bool ifetch)
+{
+    return nios2_cpu_mmu_index(env_cpu(env), ifetch);
+}
+
 static inline void cpu_get_tb_cpu_state(CPUNios2State *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
 {
diff --git a/target/nios2/cpu.c b/target/nios2/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/cpu.c
+++ b/target/nios2/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool nios2_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & CPU_INTERRUPT_HARD;
 }
 
+int nios2_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    return (cpu_env(cs)->ctrl[CR_STATUS] & CR_STATUS_U
+            ? MMU_USER_IDX : MMU_SUPERVISOR_IDX);
+}
+
 static void nios2_cpu_reset_hold(Object *obj)
 {
     CPUState *cs = CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void nios2_cpu_class_init(ObjectClass *oc, void *data)
 
     cc->class_by_name = nios2_cpu_class_by_name;
     cc->has_work = nios2_cpu_has_work;
+    cc->mmu_index = nios2_cpu_mmu_index;
     cc->dump_state = nios2_cpu_dump_state;
     cc->set_pc = nios2_cpu_set_pc;
     cc->get_pc = nios2_cpu_get_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/openrisc/cpu.h | 10 ++--------
 target/openrisc/cpu.c | 13 +++++++++++++
 2 files changed, 15 insertions(+), 8 deletions(-)

diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.h
+++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUOpenRISCState *env, vaddr *pc,
            | (env->sr & (SR_SM | SR_DME | SR_IME | SR_OVE));
 }
 
+int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch);
 static inline int cpu_mmu_index(CPUOpenRISCState *env, bool ifetch)
 {
-    int ret = MMU_NOMMU_IDX;  /* mmu is disabled */
-
-    if (env->sr & (ifetch ? SR_IME : SR_DME)) {
-        /* The mmu is enabled; test supervisor state.  */
-        ret = env->sr & SR_SM ? MMU_SUPERVISOR_IDX : MMU_USER_IDX;
-    }
-
-    return ret;
+    return openrisc_cpu_mmu_index(env_cpu(env), ifetch);
 }
 
 static inline uint32_t cpu_get_sr(const CPUOpenRISCState *env)
diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.c
+++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool openrisc_cpu_has_work(CPUState *cs)
                                     CPU_INTERRUPT_TIMER);
 }
 
+int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    CPUOpenRISCState *env = cpu_env(cs);
+
+    if (env->sr & (ifetch ? SR_IME : SR_DME)) {
+        /* The mmu is enabled; test supervisor state.  */
+        return env->sr & SR_SM ? MMU_SUPERVISOR_IDX : MMU_USER_IDX;
+    }
+
+    return MMU_NOMMU_IDX;  /* mmu is disabled */
+}
+
 static void openrisc_disas_set_info(CPUState *cpu, disassemble_info *info)
 {
     info->print_insn = print_insn_or1k;
@@ -XXX,XX +XXX,XX @@ static void openrisc_cpu_class_init(ObjectClass *oc, void *data)
 
     cc->class_by_name = openrisc_cpu_class_by_name;
     cc->has_work = openrisc_cpu_has_work;
+    cc->mmu_index = openrisc_cpu_mmu_index;
     cc->dump_state = openrisc_cpu_dump_state;
     cc->set_pc = openrisc_cpu_set_pc;
     cc->get_pc = openrisc_cpu_get_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/ppc/cpu.h        |  7 ++++++-
 target/ppc/cpu_init.c   |  2 +-
 target/ppc/mem_helper.c | 10 +++++-----
 target/ppc/mmu_common.c |  4 ++--
 4 files changed, 14 insertions(+), 9 deletions(-)

diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu.h
+++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ int ppc_dcr_write(ppc_dcr_t *dcr_env, int dcrn, uint32_t val);
 
 /* MMU modes definitions */
 #define MMU_USER_IDX 0
-static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
+static inline int ppc_env_mmu_index(CPUPPCState *env, bool ifetch)
 {
 #ifdef CONFIG_USER_ONLY
     return MMU_USER_IDX;
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
 #endif
 }
 
+static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
+{
+    return ppc_env_mmu_index(env, ifetch);
+}
+
 /* Compatibility modes */
 #if defined(TARGET_PPC64)
 bool ppc_check_compat(PowerPCCPU *cpu, uint32_t compat_pvr,
diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu_init.c
+++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ void ppc_cpu_dump_state(CPUState *cs, FILE *f, int flags)
     qemu_fprintf(f, "MSR " TARGET_FMT_lx " HID0 " TARGET_FMT_lx "  HF "
                  "%08x iidx %d didx %d\n",
                  env->msr, env->spr[SPR_HID0], env->hflags,
-                 cpu_mmu_index(env, true), cpu_mmu_index(env, false));
+                 ppc_env_mmu_index(env, true), ppc_env_mmu_index(env, false));
 #if !defined(CONFIG_USER_ONLY)
     if (env->tb_env) {
         qemu_fprintf(f, "TB %08" PRIu32 " %08" PRIu64
diff --git a/target/ppc/mem_helper.c b/target/ppc/mem_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/mem_helper.c
+++ b/target/ppc/mem_helper.c
@@ -XXX,XX +XXX,XX @@ static void *probe_contiguous(CPUPPCState *env, target_ulong addr, uint32_t nb,
 void helper_lmw(CPUPPCState *env, target_ulong addr, uint32_t reg)
 {
     uintptr_t raddr = GETPC();
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = ppc_env_mmu_index(env, false);
     void *host = probe_contiguous(env, addr, (32 - reg) * 4,
                                   MMU_DATA_LOAD, mmu_idx, raddr);
 
@@ -XXX,XX +XXX,XX @@ void helper_lmw(CPUPPCState *env, target_ulong addr, uint32_t reg)
 void helper_stmw(CPUPPCState *env, target_ulong addr, uint32_t reg)
 {
     uintptr_t raddr = GETPC();
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = ppc_env_mmu_index(env, false);
     void *host = probe_contiguous(env, addr, (32 - reg) * 4,
                                   MMU_DATA_STORE, mmu_idx, raddr);
 
@@ -XXX,XX +XXX,XX @@ static void do_lsw(CPUPPCState *env, target_ulong addr, uint32_t nb,
         return;
     }
 
-    mmu_idx = cpu_mmu_index(env, false);
+    mmu_idx = ppc_env_mmu_index(env, false);
     host = probe_contiguous(env, addr, nb, MMU_DATA_LOAD, mmu_idx, raddr);
 
     if (likely(host)) {
@@ -XXX,XX +XXX,XX @@ void helper_stsw(CPUPPCState *env, target_ulong addr, uint32_t nb,
         return;
     }
 
-    mmu_idx = cpu_mmu_index(env, false);
+    mmu_idx = ppc_env_mmu_index(env, false);
     host = probe_contiguous(env, addr, nb, MMU_DATA_STORE, mmu_idx, raddr);
 
     if (likely(host)) {
@@ -XXX,XX +XXX,XX @@ static void dcbz_common(CPUPPCState *env, target_ulong addr,
     target_ulong mask, dcbz_size = env->dcache_line_size;
     uint32_t i;
     void *haddr;
-    int mmu_idx = epid ? PPC_TLB_EPID_STORE : cpu_mmu_index(env, false);
+    int mmu_idx = epid ? PPC_TLB_EPID_STORE : ppc_env_mmu_index(env, false);
 
 #if defined(TARGET_PPC64)
     /* Check for dcbz vs dcbzl on 970 */
diff --git a/target/ppc/mmu_common.c b/target/ppc/mmu_common.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/mmu_common.c
+++ b/target/ppc/mmu_common.c
@@ -XXX,XX +XXX,XX @@ hwaddr ppc_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
      * mapped by code TLBs, so we also try a MMU_INST_FETCH.
      */
     if (ppc_xlate(cpu, addr, MMU_DATA_LOAD, &raddr, &s, &p,
-                  cpu_mmu_index(&cpu->env, false), false) ||
+                  ppc_env_mmu_index(&cpu->env, false), false) ||
         ppc_xlate(cpu, addr, MMU_INST_FETCH, &raddr, &s, &p,
-                  cpu_mmu_index(&cpu->env, true), false)) {
+                  ppc_env_mmu_index(&cpu->env, true), false)) {
         return raddr & TARGET_PAGE_MASK;
     }
     return -1;
-- 
2.34.1

Free up the riscv_cpu_mmu_index name for other usage;
emphasize that the argument is 'env'.

Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/riscv/cpu.h        | 4 ++--
 target/riscv/cpu_helper.c | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu.h
+++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ target_ulong riscv_cpu_get_geilen(CPURISCVState *env);
 void riscv_cpu_set_geilen(CPURISCVState *env, target_ulong geilen);
 bool riscv_cpu_vector_enabled(CPURISCVState *env);
 void riscv_cpu_set_virt_enabled(CPURISCVState *env, bool enable);
-int riscv_cpu_mmu_index(CPURISCVState *env, bool ifetch);
+int riscv_env_mmu_index(CPURISCVState *env, bool ifetch);
 G_NORETURN void  riscv_cpu_do_unaligned_access(CPUState *cs, vaddr addr,
                                                MMUAccessType access_type,
                                                int mmu_idx, uintptr_t retaddr);
@@ -XXX,XX +XXX,XX @@ bool riscv_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
                         bool probe, uintptr_t retaddr);
 char *riscv_isa_string(RISCVCPU *cpu);
 
-#define cpu_mmu_index riscv_cpu_mmu_index
+#define cpu_mmu_index riscv_env_mmu_index
 
 #ifndef CONFIG_USER_ONLY
 void riscv_cpu_do_transaction_failed(CPUState *cs, hwaddr physaddr,
diff --git a/target/riscv/cpu_helper.c b/target/riscv/cpu_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu_helper.c
+++ b/target/riscv/cpu_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "debug.h"
 #include "tcg/oversized-guest.h"
 
-int riscv_cpu_mmu_index(CPURISCVState *env, bool ifetch)
+int riscv_env_mmu_index(CPURISCVState *env, bool ifetch)
 {
 #ifdef CONFIG_USER_ONLY
     return 0;
-- 
2.34.1

Use the target-specific function name in preference
to the generic name.

Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/riscv/cpu_helper.c    | 4 ++--
 target/riscv/op_helper.c     | 4 ++--
 target/riscv/vector_helper.c | 9 +++++----
 3 files changed, 9 insertions(+), 8 deletions(-)

diff --git a/target/riscv/cpu_helper.c b/target/riscv/cpu_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu_helper.c
+++ b/target/riscv/cpu_helper.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPURISCVState *env, vaddr *pc,
 #else
     flags = FIELD_DP32(flags, TB_FLAGS, PRIV, env->priv);
 
-    flags |= cpu_mmu_index(env, 0);
+    flags |= riscv_env_mmu_index(env, 0);
     fs = get_field(env->mstatus, MSTATUS_FS);
     vs = get_field(env->mstatus, MSTATUS_VS);
 
@@ -XXX,XX +XXX,XX @@ hwaddr riscv_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
     CPURISCVState *env = &cpu->env;
     hwaddr phys_addr;
     int prot;
-    int mmu_idx = cpu_mmu_index(&cpu->env, false);
+    int mmu_idx = riscv_env_mmu_index(&cpu->env, false);
 
     if (get_physical_address(env, &phys_addr, &prot, addr, NULL, 0, mmu_idx,
                              true, env->virt_enabled, true)) {
diff --git a/target/riscv/op_helper.c b/target/riscv/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/op_helper.c
+++ b/target/riscv/op_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_cbo_zero(CPURISCVState *env, target_ulong address)
 {
     RISCVCPU *cpu = env_archcpu(env);
     uint16_t cbozlen = cpu->cfg.cboz_blocksize;
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = riscv_env_mmu_index(env, false);
     uintptr_t ra = GETPC();
     void *mem;
 
@@ -XXX,XX +XXX,XX @@ static void check_zicbom_access(CPURISCVState *env,
                                 uintptr_t ra)
 {
     RISCVCPU *cpu = env_archcpu(env);
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = riscv_env_mmu_index(env, false);
     uint16_t cbomlen = cpu->cfg.cbom_blocksize;
     void *phost;
     int ret;
diff --git a/target/riscv/vector_helper.c b/target/riscv/vector_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/vector_helper.c
+++ b/target/riscv/vector_helper.c
@@ -XXX,XX +XXX,XX @@ static void probe_pages(CPURISCVState *env, target_ulong addr,
 {
     target_ulong pagelen = -(addr | TARGET_PAGE_MASK);
     target_ulong curlen = MIN(pagelen, len);
+    int mmu_index = riscv_env_mmu_index(env, false);
 
     probe_access(env, adjust_addr(env, addr), curlen, access_type,
-                 cpu_mmu_index(env, false), ra);
+                 mmu_index, ra);
     if (len > curlen) {
         addr += curlen;
         curlen = len - curlen;
         probe_access(env, adjust_addr(env, addr), curlen, access_type,
-                     cpu_mmu_index(env, false), ra);
+                     mmu_index, ra);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ vext_ldff(void *vd, void *v0, target_ulong base,
     uint32_t esz = 1 << log2_esz;
     uint32_t vma = vext_vma(desc);
     target_ulong addr, offset, remain;
+    int mmu_index = riscv_env_mmu_index(env, false);
 
     /* probe every access */
     for (i = env->vstart; i < env->vl; i++) {
@@ -XXX,XX +XXX,XX @@ vext_ldff(void *vd, void *v0, target_ulong base,
             remain = nf << log2_esz;
             while (remain > 0) {
                 offset = -(addr | TARGET_PAGE_MASK);
-                host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD,
-                                         cpu_mmu_index(env, false));
+                host = tlb_vaddr_to_host(env, addr, MMU_DATA_LOAD, mmu_index);
                 if (host) {
 #ifdef CONFIG_USER_ONLY
                     if (!page_check_range(addr, offset, PAGE_READ)) {
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/s390x/cpu.h            |  4 +++-
 target/s390x/tcg/mem_helper.c | 34 ++++++++++++++++++----------------
 2 files changed, 21 insertions(+), 17 deletions(-)

diff --git a/target/s390x/cpu.h b/target/s390x/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/cpu.h
+++ b/target/s390x/cpu.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_s390_cpu;
 #define MMU_HOME_IDX            2
 #define MMU_REAL_IDX            3
 
-static inline int cpu_mmu_index(CPUS390XState *env, bool ifetch)
+static inline int s390x_env_mmu_index(CPUS390XState *env, bool ifetch)
 {
 #ifdef CONFIG_USER_ONLY
     return MMU_USER_IDX;
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index(CPUS390XState *env, bool ifetch)
 #endif
 }
 
+#define cpu_mmu_index s390x_env_mmu_index
+
 #ifdef CONFIG_TCG
 
 #include "tcg/tcg_s390x.h"
diff --git a/target/s390x/tcg/mem_helper.c b/target/s390x/tcg/mem_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/mem_helper.c
+++ b/target/s390x/tcg/mem_helper.c
@@ -XXX,XX +XXX,XX @@ static int mmu_idx_from_as(uint8_t as)
 static uint32_t do_helper_nc(CPUS390XState *env, uint32_t l, uint64_t dest,
                              uint64_t src, uintptr_t ra)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     S390Access srca1, srca2, desta;
     uint32_t i;
     uint8_t c = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(nc)(CPUS390XState *env, uint32_t l, uint64_t dest,
 static uint32_t do_helper_xc(CPUS390XState *env, uint32_t l, uint64_t dest,
                              uint64_t src, uintptr_t ra)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     S390Access srca1, srca2, desta;
     uint32_t i;
     uint8_t c = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(xc)(CPUS390XState *env, uint32_t l, uint64_t dest,
 static uint32_t do_helper_oc(CPUS390XState *env, uint32_t l, uint64_t dest,
                              uint64_t src, uintptr_t ra)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     S390Access srca1, srca2, desta;
     uint32_t i;
     uint8_t c = 0;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(oc)(CPUS390XState *env, uint32_t l, uint64_t dest,
 static uint32_t do_helper_mvc(CPUS390XState *env, uint32_t l, uint64_t dest,
                               uint64_t src, uintptr_t ra)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     S390Access srca, desta;
     uint32_t i;
 
@@ -XXX,XX +XXX,XX @@ void HELPER(mvc)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 /* move right to left */
 void HELPER(mvcrl)(CPUS390XState *env, uint64_t l, uint64_t dest, uint64_t src)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     const uint64_t ra = GETPC();
     S390Access srca, desta;
     int32_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvcrl)(CPUS390XState *env, uint64_t l, uint64_t dest, uint64_t src)
 /* move inverse  */
 void HELPER(mvcin)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     S390Access srca, desta;
     uintptr_t ra = GETPC();
     int i;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvcin)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 /* move numerics  */
 void HELPER(mvn)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     S390Access srca1, srca2, desta;
     uintptr_t ra = GETPC();
     int i;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvn)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 /* move with offset  */
 void HELPER(mvo)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     /* MVO always processes one more byte than specified - maximum is 16 */
     const int len_dest = (l >> 4) + 1;
     const int len_src = (l & 0xf) + 1;
@@ -XXX,XX +XXX,XX @@ void HELPER(mvo)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 /* move zones  */
 void HELPER(mvz)(CPUS390XState *env, uint32_t l, uint64_t dest, uint64_t src)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     S390Access srca1, srca2, desta;
     uintptr_t ra = GETPC();
     int i;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(clm)(CPUS390XState *env, uint32_t r1, uint32_t mask,
 
     if (!mask) {
         /* Recognize access exceptions for the first byte */
-        probe_read(env, addr, 1, cpu_mmu_index(env, false), ra);
+        probe_read(env, addr, 1, s390x_env_mmu_index(env, false), ra);
     }
 
     while (mask) {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mvpg)(CPUS390XState *env, uint64_t r0, uint32_t r1, uint32_t r2)
 {
     const uint64_t src = get_address(env, r2) & TARGET_PAGE_MASK;
     const uint64_t dst = get_address(env, r1) & TARGET_PAGE_MASK;
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     const bool f = extract64(r0, 11, 1);
     const bool s = extract64(r0, 10, 1);
     const bool cco = extract64(r0, 8, 1);
@@ -XXX,XX +XXX,XX @@ inject_exc:
 /* string copy */
 uint32_t HELPER(mvst)(CPUS390XState *env, uint32_t r1, uint32_t r2)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     const uint64_t d = get_address(env, r1);
     const uint64_t s = get_address(env, r2);
     const uint8_t c = env->regs[0];
@@ -XXX,XX +XXX,XX @@ static inline uint32_t do_mvcl(CPUS390XState *env,
                                uint64_t *src, uint64_t *srclen,
                                uint16_t pad, int wordsize, uintptr_t ra)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     int len = MIN(*destlen, -(*dest | TARGET_PAGE_MASK));
     S390Access srca, desta;
     int i, cc;
@@ -XXX,XX +XXX,XX @@ static inline uint32_t do_mvcl(CPUS390XState *env,
 /* move long */
 uint32_t HELPER(mvcl)(CPUS390XState *env, uint32_t r1, uint32_t r2)
 {
-    const int mmu_idx = cpu_mmu_index(env, false);
+    const int mmu_idx = s390x_env_mmu_index(env, false);
     uintptr_t ra = GETPC();
     uint64_t destlen = env->regs[r1 + 1] & 0xffffff;
     uint64_t dest = get_address(env, r1);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(trXX)(CPUS390XState *env, uint32_t r1, uint32_t r2,
 static uint32_t do_csst(CPUS390XState *env, uint32_t r3, uint64_t a1,
                         uint64_t a2, bool parallel)
 {
-    uint32_t mem_idx = cpu_mmu_index(env, false);
+    uint32_t mem_idx = s390x_env_mmu_index(env, false);
     MemOpIdx oi16 = make_memop_idx(MO_TE | MO_128, mem_idx);
     MemOpIdx oi8 = make_memop_idx(MO_TE | MO_64, mem_idx);
     MemOpIdx oi4 = make_memop_idx(MO_TE | MO_32, mem_idx);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(cu42)(CPUS390XState *env, uint32_t r1, uint32_t r2, uint32_t m3)
 void probe_write_access(CPUS390XState *env, uint64_t addr, uint64_t len,
                         uintptr_t ra)
 {
+    const int mmu_idx = s390x_env_mmu_index(env, false);
+
     /* test the actual access, not just any access to the page due to LAP */
     while (len) {
         const uint64_t pagelen = -(addr | TARGET_PAGE_MASK);
         const uint64_t curlen = MIN(pagelen, len);
 
-        probe_write(env, addr, curlen, cpu_mmu_index(env, false), ra);
+        probe_write(env, addr, curlen, mmu_idx, ra);
         addr = wrap_address(env, addr + curlen);
         len -= curlen;
     }
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/s390x/cpu.c | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/cpu.c
+++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool s390_cpu_has_work(CPUState *cs)
     return s390_cpu_has_int(cpu);
 }
 
+static int s390x_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    return s390x_env_mmu_index(cpu_env(cs), ifetch);
+}
+
 static void s390_query_cpu_fast(CPUState *cpu, CpuInfoFast *value)
 {
     S390CPU *s390_cpu = S390_CPU(cpu);
@@ -XXX,XX +XXX,XX @@ static void s390_cpu_class_init(ObjectClass *oc, void *data)
     scc->reset = s390_cpu_reset;
     cc->class_by_name = s390_cpu_class_by_name,
     cc->has_work = s390_cpu_has_work;
+    cc->mmu_index = s390x_cpu_mmu_index;
     cc->dump_state = s390_cpu_dump_state;
     cc->query_cpu_fast = s390_query_cpu_fast;
     cc->set_pc = s390_cpu_set_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sh4/cpu.h | 16 ++++++----------
 target/sh4/cpu.c | 16 ++++++++++++++++
 2 files changed, 22 insertions(+), 10 deletions(-)

diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.h
+++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ void cpu_load_tlb(CPUSH4State * env);
 
 /* MMU modes definitions */
 #define MMU_USER_IDX 1
-static inline int cpu_mmu_index (CPUSH4State *env, bool ifetch)
-{
-    /* The instruction in a RTE delay slot is fetched in privileged
-       mode, but executed in user mode.  */
-    if (ifetch && (env->flags & TB_FLAG_DELAY_SLOT_RTE)) {
-        return 0;
-    } else {
-        return (env->sr & (1u << SR_MD)) == 0 ? 1 : 0;
-    }
-}
 
 #include "exec/cpu-all.h"
 
@@ -XXX,XX +XXX,XX @@ static inline void cpu_write_sr(CPUSH4State *env, target_ulong sr)
     env->sr = sr & ~((1u << SR_M) | (1u << SR_Q) | (1u << SR_T));
 }
 
+int sh4_cpu_mmu_index(CPUState *cs, bool ifetch);
+static inline int cpu_mmu_index(CPUSH4State *env, bool ifetch)
+{
+    return sh4_cpu_mmu_index(env_cpu(env), ifetch);
+}
+
 static inline void cpu_get_tb_cpu_state(CPUSH4State *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
 {
diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.c
+++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool superh_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & CPU_INTERRUPT_HARD;
 }
 
+int sh4_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    CPUSH4State *env = cpu_env(cs);
+
+    /*
+     * The instruction in a RTE delay slot is fetched in privileged mode,
+     * but executed in user mode.
+     */
+    if (ifetch && (env->flags & TB_FLAG_DELAY_SLOT_RTE)) {
+        return 0;
+    } else {
+        return (env->sr & (1u << SR_MD)) == 0 ? 1 : 0;
+    }
+}
+
 static void superh_cpu_reset_hold(Object *obj)
 {
     CPUState *s = CPU(obj);
@@ -XXX,XX +XXX,XX @@ static void superh_cpu_class_init(ObjectClass *oc, void *data)
 
     cc->class_by_name = superh_cpu_class_by_name;
     cc->has_work = superh_cpu_has_work;
+    cc->mmu_index = sh4_cpu_mmu_index;
     cc->dump_state = superh_cpu_dump_state;
     cc->set_pc = superh_cpu_set_pc;
     cc->get_pc = superh_cpu_get_pc;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sparc/cpu.h | 34 ++++++----------------------------
 target/sparc/cpu.c | 29 +++++++++++++++++++++++++++++
 2 files changed, 35 insertions(+), 28 deletions(-)

diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int cpu_supervisor_mode(CPUSPARCState *env1)
 }
 #endif
 
-static inline int cpu_mmu_index(CPUSPARCState *env, bool ifetch)
-{
-#if defined(CONFIG_USER_ONLY)
-    return MMU_USER_IDX;
-#elif !defined(TARGET_SPARC64)
-    if ((env->mmuregs[0] & MMU_E) == 0) { /* MMU disabled */
-        return MMU_PHYS_IDX;
-    } else {
-        return env->psrs;
-    }
-#else
-    /* IMMU or DMMU disabled.  */
-    if (ifetch
-        ? (env->lsu & IMMU_E) == 0 || (env->pstate & PS_RED) != 0
-        : (env->lsu & DMMU_E) == 0) {
-        return MMU_PHYS_IDX;
-    } else if (cpu_hypervisor_mode(env)) {
-        return MMU_PHYS_IDX;
-    } else if (env->tl > 0) {
-        return MMU_NUCLEUS_IDX;
-    } else if (cpu_supervisor_mode(env)) {
-        return MMU_KERNEL_IDX;
-    } else {
-        return MMU_USER_IDX;
-    }
-#endif
-}
-
 static inline int cpu_interrupts_enabled(CPUSPARCState *env1)
 {
 #if !defined (TARGET_SPARC64)
@@ -XXX,XX +XXX,XX @@ trap_state* cpu_tsptr(CPUSPARCState* env);
 #define TB_FLAG_HYPER        (1 << 7)
 #define TB_FLAG_ASI_SHIFT    24
 
+int sparc_cpu_mmu_index(CPUState *cs, bool ifetch);
+static inline int cpu_mmu_index(CPUSPARCState *env, bool ifetch)
+{
+    return sparc_cpu_mmu_index(env_cpu(env), ifetch);
+}
+
 static inline void cpu_get_tb_cpu_state(CPUSPARCState *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *pflags)
 {
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool sparc_cpu_has_work(CPUState *cs)
            cpu_interrupts_enabled(env);
 }
 
+int sparc_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    CPUSPARCState *env = cpu_env(cs);
+
+#ifndef TARGET_SPARC64
+    if ((env->mmuregs[0] & MMU_E) == 0) { /* MMU disabled */
+        return MMU_PHYS_IDX;
+    } else {
+        return env->psrs;
+    }
+#else
+    /* IMMU or DMMU disabled.  */
+    if (ifetch
+        ? (env->lsu & IMMU_E) == 0 || (env->pstate & PS_RED) != 0
+        : (env->lsu & DMMU_E) == 0) {
+        return MMU_PHYS_IDX;
+    } else if (cpu_hypervisor_mode(env)) {
+        return MMU_PHYS_IDX;
+    } else if (env->tl > 0) {
+        return MMU_NUCLEUS_IDX;
+    } else if (cpu_supervisor_mode(env)) {
+        return MMU_KERNEL_IDX;
+    } else {
+        return MMU_USER_IDX;
+    }
+#endif
+}
+
 static char *sparc_cpu_type_name(const char *cpu_model)
 {
     char *name = g_strdup_printf(SPARC_CPU_TYPE_NAME("%s"), cpu_model);
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_class_init(ObjectClass *oc, void *data)
     cc->class_by_name = sparc_cpu_class_by_name;
     cc->parse_features = sparc_cpu_parse_features;
     cc->has_work = sparc_cpu_has_work;
+    cc->mmu_index = sparc_cpu_mmu_index;
     cc->dump_state = sparc_cpu_dump_state;
 #if !defined(TARGET_SPARC64) && !defined(CONFIG_USER_ONLY)
     cc->memory_rw_debug = sparc_cpu_memory_rw_debug;
-- 
2.34.1

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/tricore/cpu.c | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.c
+++ b/target/tricore/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool tricore_cpu_has_work(CPUState *cs)
     return true;
 }
 
+static int tricore_cpu_mmu_index(CPUState *cs, bool ifetch)
+{
+    return 0;
+}
+
 static void tricore_cpu_realizefn(DeviceState *dev, Error **errp)
 {
     CPUState *cs = CPU(dev);
@@ -XXX,XX +XXX,XX @@ static void tricore_cpu_class_init(ObjectClass *c, void *data)
                                        &mcc->parent_phases);
     cc->class_by_name = tricore_cpu_class_by_name;
     cc->has_work = tricore_cpu_has_work;
+    cc->mmu_index = tricore_cpu_mmu_index;
 
     cc->gdb_read_register = tricore_cpu_gdb_read_register;
     cc->gdb_write_register = tricore_cpu_gdb_write_register;
-- 
2.34.1

For user-only mode, use MMU_USER_IDX.
For system mode, use CPUClass.mmu_index.

diff --git a/include/exec/cpu-all.h b/include/exec/cpu-all.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-all.h
+++ b/include/exec/cpu-all.h
@@ -XXX,XX +XXX,XX @@ CPUArchState *cpu_copy(CPUArchState *env);
 #define TLB_MMIO            (1 << (TARGET_PAGE_BITS_MIN - 2))
 #define TLB_WATCHPOINT      0
 
+static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
+{
+    return MMU_USER_IDX;
+}
 #else
 
 /*
diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-common.h
+++ b/include/exec/cpu-common.h
@@ -XXX,XX +XXX,XX @@
 #include "exec/hwaddr.h"
 #endif
 #include "hw/core/cpu.h"
+#include "tcg/debug-assert.h"
 
 #define EXCP_INTERRUPT  0x10000 /* async interruption */
 #define EXCP_HLT        0x10001 /* hlt instruction reached */
@@ -XXX,XX +XXX,XX @@ static inline CPUState *env_cpu(CPUArchState *env)
     return (void *)env - sizeof(CPUState);
 }
 
+#ifndef CONFIG_USER_ONLY
+/**
+ * cpu_mmu_index:
+ * @env: The cpu environment
+ * @ifetch: True for code access, false for data access.
+ *
+ * Return the core mmu index for the current translation regime.
+ * This function is used by generic TCG code paths.
+ *
+ * The user-only version of this function is inline in cpu-all.h,
+ * where it always returns MMU_USER_IDX.
+ */
+static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
+{
+    CPUState *cs = env_cpu(env);
+    int ret = cs->cc->mmu_index(cs, ifetch);
+    tcg_debug_assert(ret >= 0 && ret < NB_MMU_MODES);
+    return ret;
+}
+#endif /* !CONFIG_USER_ONLY */
+
 #endif /* CPU_COMMON_H */
diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.h
+++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int alpha_env_mmu_index(CPUAlphaState *env)
     return ret;
 }
 
-static inline int cpu_mmu_index(CPUAlphaState *env, bool ifetch)
-{
-    return alpha_env_mmu_index(env);
-}
-
 enum {
     IR_V0   = 0,
     IR_T0   = 1,
diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, NV2_MEM_BE, 36, 1)
 #define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_M32, WHICH)
 #define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags2, TBFLAG_AM32, WHICH)
 
-/**
- * cpu_mmu_index:
- * @env: The cpu environment
- * @ifetch: True for code access, false for data access.
- *
- * Return the core mmu index for the current translation regime.
- * This function is used by generic TCG code paths.
- */
-static inline int cpu_mmu_index(CPUARMState *env, bool ifetch)
-{
-    return EX_TBFLAG_ANY(env->hflags, MMUIDX);
-}
-
 /**
  * sve_vq
  * @env: the cpu context
diff --git a/target/avr/cpu.h b/target/avr/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.h
+++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
     env->features |= (1U << feature);
 }
 
-static inline int cpu_mmu_index(CPUAVRState *env, bool ifetch)
-{
-    return ifetch ? MMU_CODE_IDX : MMU_DATA_IDX;
-}
-
 void avr_cpu_tcg_init(void);
 
 int cpu_avr_exec(CPUState *cpu);
diff --git a/target/cris/cpu.h b/target/cris/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/cpu.h
+++ b/target/cris/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 
 /* MMU modes definitions */
 #define MMU_USER_IDX 1
-static inline int cpu_mmu_index (CPUCRISState *env, bool ifetch)
-{
-	return !!(env->pregs[PR_CCS] & U_FLAG);
-}
 
 /* Support function regs.  */
 #define SFR_RW_GC_CFG      0][0
diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.h
+++ b/target/hexagon/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
     *flags = hex_flags;
 }
 
-static inline int cpu_mmu_index(CPUHexagonState *env, bool ifetch)
-{
-#ifdef CONFIG_USER_ONLY
-    return MMU_USER_IDX;
-#else
-#error System mode not supported on Hexagon yet
-#endif
-}
-
 typedef HexagonCPU ArchCPU;
 
 void hexagon_translate_init(void);
diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.h
+++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
     return hppa_is_pa20(env) ? 0 : PA10_BTLB_FIXED + PA10_BTLB_VARIABLE;
 }
 
-int hppa_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPUHPPAState *env, bool ifetch)
-{
-#ifdef CONFIG_USER_ONLY
-    return MMU_USER_IDX;
-#else
-    return hppa_cpu_mmu_index(env_cpu(env), ifetch);
-#endif
-}
-
 void hppa_translate_init(void);
 
 #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
diff --git a/target/i386/cpu.h b/target/i386/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/cpu.h
+++ b/target/i386/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int cpu_mmu_index_kernel(CPUX86State *env)
 #include "hw/i386/apic.h"
 #endif
 
-int x86_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPUX86State *env, bool ifetch)
-{
-    return x86_cpu_mmu_index(env_cpu(env), ifetch);
-}
-
 static inline void cpu_get_tb_cpu_state(CPUX86State *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
 {
diff --git a/target/loongarch/cpu.h b/target/loongarch/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.h
+++ b/target/loongarch/cpu.h
@@ -XXX,XX +XXX,XX @@ struct LoongArchCPUClass {
 #define MMU_USER_IDX     MMU_PLV_USER
 #define MMU_DA_IDX       4
 
-int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPULoongArchState *env, bool ifetch)
-{
-#ifdef CONFIG_USER_ONLY
-    return MMU_USER_IDX;
-#else
-    return loongarch_cpu_mmu_index(env_cpu(env), ifetch);
-#endif
-}
-
 static inline bool is_la64(CPULoongArchState *env)
 {
     return FIELD_EX32(env->cpucfg[1], CPUCFG1, ARCH) == CPUCFG1_ARCH_LA64;
diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.h
+++ b/target/m68k/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 /* MMU modes definitions */
 #define MMU_KERNEL_IDX 0
 #define MMU_USER_IDX 1
-static inline int cpu_mmu_index (CPUM68KState *env, bool ifetch)
-{
-    return (env->sr & SR_S) == 0 ? 1 : 0;
-}
 
 bool m68k_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
                        MMUAccessType access_type, int mmu_idx,
diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.h
+++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ void mb_cpu_transaction_failed(CPUState *cs, hwaddr physaddr, vaddr addr,
                                MemTxResult response, uintptr_t retaddr);
 #endif
 
-int mb_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPUMBState *env, bool ifetch)
-{
-    return mb_cpu_mmu_index(env_cpu(env), ifetch);
-}
-
 #ifndef CONFIG_USER_ONLY
 extern const VMStateDescription vmstate_mb_cpu;
 #endif
diff --git a/target/mips/cpu.h b/target/mips/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/cpu.h
+++ b/target/mips/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int mips_env_mmu_index(CPUMIPSState *env)
     return hflags_mmu_index(env->hflags);
 }
 
-static inline int cpu_mmu_index(CPUMIPSState *env, bool ifetch)
-{
-    return mips_env_mmu_index(env);
-}
-
 #include "exec/cpu-all.h"
 
 /* Exceptions */
diff --git a/target/nios2/cpu.h b/target/nios2/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/cpu.h
+++ b/target/nios2/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAGS, CRS0, 0, 1)  /* Set if CRS == 0. */
 FIELD(TBFLAGS, U, 1, 1)     /* Overlaps CR_STATUS_U */
 FIELD(TBFLAGS, R0_0, 2, 1)  /* Set if R0 == 0. */
 
-int nios2_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPUNios2State *env, bool ifetch)
-{
-    return nios2_cpu_mmu_index(env_cpu(env), ifetch);
-}
-
 static inline void cpu_get_tb_cpu_state(CPUNios2State *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
 {
diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.h
+++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUOpenRISCState *env, vaddr *pc,
            | (env->sr & (SR_SM | SR_DME | SR_IME | SR_OVE));
 }
 
-int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPUOpenRISCState *env, bool ifetch)
-{
-    return openrisc_cpu_mmu_index(env_cpu(env), ifetch);
-}
-
 static inline uint32_t cpu_get_sr(const CPUOpenRISCState *env)
 {
     return (env->sr
diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu.h
+++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int ppc_env_mmu_index(CPUPPCState *env, bool ifetch)
 #endif
 }
 
-static inline int cpu_mmu_index(CPUPPCState *env, bool ifetch)
-{
-    return ppc_env_mmu_index(env, ifetch);
-}
-
 /* Compatibility modes */
 #if defined(TARGET_PPC64)
 bool ppc_check_compat(PowerPCCPU *cpu, uint32_t compat_pvr,
diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu.h
+++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ bool riscv_cpu_tlb_fill(CPUState *cs, vaddr address, int size,
                         bool probe, uintptr_t retaddr);
 char *riscv_isa_string(RISCVCPU *cpu);
 
-#define cpu_mmu_index riscv_env_mmu_index
-
 #ifndef CONFIG_USER_ONLY
 void riscv_cpu_do_transaction_failed(CPUState *cs, hwaddr physaddr,
                                      vaddr addr, unsigned size,
diff --git a/target/rx/cpu.h b/target/rx/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.h
+++ b/target/rx/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPURXState *env, vaddr *pc,
     *flags = FIELD_DP32(*flags, PSW, U, env->psw_u);
 }
 
-static inline int cpu_mmu_index(CPURXState *env, bool ifetch)
-{
-    return 0;
-}
-
 static inline uint32_t rx_cpu_pack_psw(CPURXState *env)
 {
     uint32_t psw = 0;
diff --git a/target/s390x/cpu.h b/target/s390x/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/cpu.h
+++ b/target/s390x/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int s390x_env_mmu_index(CPUS390XState *env, bool ifetch)
 #endif
 }
 
-#define cpu_mmu_index s390x_env_mmu_index
-
 #ifdef CONFIG_TCG
 
 #include "tcg/tcg_s390x.h"
diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.h
+++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_write_sr(CPUSH4State *env, target_ulong sr)
     env->sr = sr & ~((1u << SR_M) | (1u << SR_Q) | (1u << SR_T));
 }
 
-int sh4_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPUSH4State *env, bool ifetch)
-{
-    return sh4_cpu_mmu_index(env_cpu(env), ifetch);
-}
-
 static inline void cpu_get_tb_cpu_state(CPUSH4State *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
 {
diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ trap_state* cpu_tsptr(CPUSPARCState* env);
 #define TB_FLAG_HYPER        (1 << 7)
 #define TB_FLAG_ASI_SHIFT    24
 
-int sparc_cpu_mmu_index(CPUState *cs, bool ifetch);
-static inline int cpu_mmu_index(CPUSPARCState *env, bool ifetch)
-{
-    return sparc_cpu_mmu_index(env_cpu(env), ifetch);
-}
-
 static inline void cpu_get_tb_cpu_state(CPUSPARCState *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *pflags)
 {
diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.h
+++ b/target/tricore/cpu.h
@@ -XXX,XX +XXX,XX @@ void fpu_set_state(CPUTriCoreState *env);
 
 #define MMU_USER_IDX 2
 
-static inline int cpu_mmu_index(CPUTriCoreState *env, bool ifetch)
-{
-    return 0;
-}
-
 #include "exec/cpu-all.h"
 
 FIELD(TB_FLAGS, PRIV, 0, 2)
diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.h
+++ b/target/xtensa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t xtensa_replicate_windowstart(CPUXtensaState *env)
 /* MMU modes definitions */
 #define MMU_USER_IDX 3
 
-static inline int cpu_mmu_index(CPUXtensaState *env, bool ifetch)
-{
-    return xtensa_get_cring(env);
-}
-
 #define XTENSA_TBFLAG_RING_MASK 0x3
 #define XTENSA_TBFLAG_EXCM 0x4
 #define XTENSA_TBFLAG_LITBASE 0x8
diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.c
+++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool hppa_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
 }
 
-int hppa_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int hppa_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     CPUHPPAState *env = cpu_env(cs);
 
diff --git a/target/i386/cpu.c b/target/i386/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/cpu.c
+++ b/target/i386/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_cpu_has_work(CPUState *cs)
     return x86_cpu_pending_interrupt(cs, cs->interrupt_request) != 0;
 }
 
-int x86_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int x86_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     CPUX86State *env = cpu_env(cs);
 
diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.c
+++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool loongarch_cpu_has_work(CPUState *cs)
 #endif
 }
 
-int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int loongarch_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     CPULoongArchState *env = cpu_env(cs);
 
diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.c
+++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool mb_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & (CPU_INTERRUPT_HARD | CPU_INTERRUPT_NMI);
 }
 
-int mb_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int mb_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     CPUMBState *env = cpu_env(cs);
     MicroBlazeCPU *cpu = env_archcpu(env);
diff --git a/target/nios2/cpu.c b/target/nios2/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/cpu.c
+++ b/target/nios2/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool nios2_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & CPU_INTERRUPT_HARD;
 }
 
-int nios2_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int nios2_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     return (cpu_env(cs)->ctrl[CR_STATUS] & CR_STATUS_U
             ? MMU_USER_IDX : MMU_SUPERVISOR_IDX);
diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.c
+++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool openrisc_cpu_has_work(CPUState *cs)
                                     CPU_INTERRUPT_TIMER);
 }
 
-int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int openrisc_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     CPUOpenRISCState *env = cpu_env(cs);
 
diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.c
+++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool superh_cpu_has_work(CPUState *cs)
     return cs->interrupt_request & CPU_INTERRUPT_HARD;
 }
 
-int sh4_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int sh4_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     CPUSH4State *env = cpu_env(cs);
 
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static bool sparc_cpu_has_work(CPUState *cs)
            cpu_interrupts_enabled(env);
 }
 
-int sparc_cpu_mmu_index(CPUState *cs, bool ifetch)
+static int sparc_cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     CPUSPARCState *env = cpu_env(cs);
 
-- 
2.34.1

diff --git a/include/exec/cpu-all.h b/include/exec/cpu-all.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-all.h
+++ b/include/exec/cpu-all.h
@@ -XXX,XX +XXX,XX @@ CPUArchState *cpu_copy(CPUArchState *env);
 #define TLB_MMIO            (1 << (TARGET_PAGE_BITS_MIN - 2))
 #define TLB_WATCHPOINT      0
 
-static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
+static inline int cpu_mmu_index(CPUState *cs, bool ifetch)
 {
     return MMU_USER_IDX;
 }
diff --git a/include/exec/cpu-common.h b/include/exec/cpu-common.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/cpu-common.h
+++ b/include/exec/cpu-common.h
@@ -XXX,XX +XXX,XX @@ static inline CPUState *env_cpu(CPUArchState *env)
  * The user-only version of this function is inline in cpu-all.h,
  * where it always returns MMU_USER_IDX.
  */
-static inline int cpu_mmu_index(CPUArchState *env, bool ifetch)
+static inline int cpu_mmu_index(CPUState *cs, bool ifetch)
 {
-    CPUState *cs = env_cpu(env);
     int ret = cs->cc->mmu_index(cs, ifetch);
     tcg_debug_assert(ret >= 0 && ret < NB_MMU_MODES);
     return ret;
diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUSPARCState *env, vaddr *pc,
     uint32_t flags;
     *pc = env->pc;
     *cs_base = env->npc;
-    flags = cpu_mmu_index(env, false);
+    flags = cpu_mmu_index(env_cpu(env), false);
 #ifndef CONFIG_USER_ONLY
     if (cpu_supervisor_mode(env)) {
         flags |= TB_FLAG_SUPER;
diff --git a/accel/tcg/cputlb.c b/accel/tcg/cputlb.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cputlb.c
+++ b/accel/tcg/cputlb.c
@@ -XXX,XX +XXX,XX @@ tb_page_addr_t get_page_addr_code_hostp(CPUArchState *env, vaddr addr,
     void *p;
 
     (void)probe_access_internal(env_cpu(env), addr, 1, MMU_INST_FETCH,
-                                cpu_mmu_index(env, true), false,
+                                cpu_mmu_index(env_cpu(env), true), false,
                                 &p, &full, 0, false);
     if (p == NULL) {
         return -1;
@@ -XXX,XX +XXX,XX @@ static void do_st16_mmu(CPUState *cpu, vaddr addr, Int128 val,
 
 uint32_t cpu_ldub_code(CPUArchState *env, abi_ptr addr)
 {
-    MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(env, true));
-    return do_ld1_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
+    CPUState *cs = env_cpu(env);
+    MemOpIdx oi = make_memop_idx(MO_UB, cpu_mmu_index(cs, true));
+    return do_ld1_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint32_t cpu_lduw_code(CPUArchState *env, abi_ptr addr)
 {
-    MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(env, true));
-    return do_ld2_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
+    CPUState *cs = env_cpu(env);
+    MemOpIdx oi = make_memop_idx(MO_TEUW, cpu_mmu_index(cs, true));
+    return do_ld2_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint32_t cpu_ldl_code(CPUArchState *env, abi_ptr addr)
 {
-    MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(env, true));
-    return do_ld4_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
+    CPUState *cs = env_cpu(env);
+    MemOpIdx oi = make_memop_idx(MO_TEUL, cpu_mmu_index(cs, true));
+    return do_ld4_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint64_t cpu_ldq_code(CPUArchState *env, abi_ptr addr)
 {
-    MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(env, true));
-    return do_ld8_mmu(env_cpu(env), addr, oi, 0, MMU_INST_FETCH);
+    CPUState *cs = env_cpu(env);
+    MemOpIdx oi = make_memop_idx(MO_TEUQ, cpu_mmu_index(cs, true));
+    return do_ld8_mmu(cs, addr, oi, 0, MMU_INST_FETCH);
 }
 
 uint8_t cpu_ldb_code_mmu(CPUArchState *env, abi_ptr addr,
diff --git a/semihosting/uaccess.c b/semihosting/uaccess.c
index XXXXXXX..XXXXXXX 100644
--- a/semihosting/uaccess.c
+++ b/semihosting/uaccess.c
@@ -XXX,XX +XXX,XX @@ void *uaccess_lock_user(CPUArchState *env, target_ulong addr,
 
 ssize_t uaccess_strlen_user(CPUArchState *env, target_ulong addr)
 {
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = cpu_mmu_index(env_cpu(env), false);
     size_t len = 0;
 
     while (1) {
diff --git a/target/cris/translate.c b/target/cris/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/cris/translate.c
+++ b/target/cris/translate.c
@@ -XXX,XX +XXX,XX @@ static void cris_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     dc->cpu = env_archcpu(env);
     dc->ppc = pc_start;
     dc->pc = pc_start;
-    dc->mem_index = cpu_mmu_index(env, false);
+    dc->mem_index = cpu_mmu_index(cs, false);
     dc->flags_uptodate = 1;
     dc->flags_x = tb_flags & X_FLAG;
     dc->cc_x_uptodate = 0;
diff --git a/target/hppa/mem_helper.c b/target/hppa/mem_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/mem_helper.c
+++ b/target/hppa/mem_helper.c
@@ -XXX,XX +XXX,XX @@ int hppa_artype_for_page(CPUHPPAState *env, target_ulong vaddr)
 void HELPER(diag_btlb)(CPUHPPAState *env)
 {
     unsigned int phys_page, len, slot;
-    int mmu_idx = cpu_mmu_index(env, 0);
+    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
     uintptr_t ra = GETPC();
     HPPATLBEntry *btlb;
     uint64_t virt_page;
diff --git a/target/hppa/op_helper.c b/target/hppa/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/op_helper.c
+++ b/target/hppa/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(tcond)(CPUHPPAState *env, target_ulong cond)
 static void atomic_store_mask32(CPUHPPAState *env, target_ulong addr,
                                 uint32_t val, uint32_t mask, uintptr_t ra)
 {
-    int mmu_idx = cpu_mmu_index(env, 0);
+    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
     uint32_t old, new, cmp, *haddr;
     void *vaddr;
 
@@ -XXX,XX +XXX,XX @@ static void atomic_store_mask64(CPUHPPAState *env, target_ulong addr,
                                 int size, uintptr_t ra)
 {
 #ifdef CONFIG_ATOMIC64
-    int mmu_idx = cpu_mmu_index(env, 0);
+    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
     uint64_t old, new, cmp, *haddr;
     void *vaddr;
 
@@ -XXX,XX +XXX,XX @@ static void do_stby_e(CPUHPPAState *env, target_ulong addr, target_ulong val,
     default:
         /* Nothing is stored, but protection is checked and the
            cacheline is marked dirty.  */
-        probe_write(env, addr, 0, cpu_mmu_index(env, 0), ra);
+        probe_write(env, addr, 0, cpu_mmu_index(env_cpu(env), 0), ra);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void do_stdby_e(CPUHPPAState *env, target_ulong addr, uint64_t val,
     default:
         /* Nothing is stored, but protection is checked and the
            cacheline is marked dirty.  */
-        probe_write(env, addr, 0, cpu_mmu_index(env, 0), ra);
+        probe_write(env, addr, 0, cpu_mmu_index(env_cpu(env), 0), ra);
         break;
     }
 }
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void i386_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cpu)
     dc->cc_op_dirty = false;
     dc->popl_esp_hack = 0;
     /* select memory access functions */
-    dc->mem_index = cpu_mmu_index(env, false);
+    dc->mem_index = cpu_mmu_index(cpu, false);
     dc->cpuid_features = env->features[FEAT_1_EDX];
     dc->cpuid_ext_features = env->features[FEAT_1_ECX];
     dc->cpuid_ext2_features = env->features[FEAT_8000_0001_EDX];
diff --git a/target/loongarch/tcg/tlb_helper.c b/target/loongarch/tcg/tlb_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/tlb_helper.c
+++ b/target/loongarch/tcg/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ hwaddr loongarch_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
     int prot;
 
     if (get_physical_address(env, &phys_addr, &prot, addr, MMU_DATA_LOAD,
-                             cpu_mmu_index(env, false)) != 0) {
+                             cpu_mmu_index(cs, false)) != 0) {
         return -1;
     }
     return phys_addr;
@@ -XXX,XX +XXX,XX @@ static void invalidate_tlb_entry(CPULoongArchState *env, int index)
     uint8_t tlb_ps;
     LoongArchTLB *tlb = &env->tlb[index];
 
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = cpu_mmu_index(env_cpu(env), false);
     uint8_t tlb_v0 = FIELD_EX64(tlb->tlb_entry0, TLBENTRY, V);
     uint8_t tlb_v1 = FIELD_EX64(tlb->tlb_entry1, TLBENTRY, V);
     uint64_t tlb_vppn = FIELD_EX64(tlb->tlb_misc, TLB_MISC, VPPN);
diff --git a/target/m68k/op_helper.c b/target/m68k/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/op_helper.c
+++ b/target/m68k/op_helper.c
@@ -XXX,XX +XXX,XX @@ static void do_cas2l(CPUM68KState *env, uint32_t regs, uint32_t a1, uint32_t a2,
     uint32_t l1, l2;
     uintptr_t ra = GETPC();
 #if defined(CONFIG_ATOMIC64)
-    int mmu_idx = cpu_mmu_index(env, 0);
+    int mmu_idx = cpu_mmu_index(env_cpu(env), 0);
     MemOpIdx oi = make_memop_idx(MO_BEUQ, mmu_idx);
 #endif
 
diff --git a/target/microblaze/helper.c b/target/microblaze/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/helper.c
+++ b/target/microblaze/helper.c
@@ -XXX,XX +XXX,XX @@ hwaddr mb_cpu_get_phys_page_attrs_debug(CPUState *cs, vaddr addr,
                                         MemTxAttrs *attrs)
 {
     MicroBlazeCPU *cpu = MICROBLAZE_CPU(cs);
-    CPUMBState *env = &cpu->env;
     target_ulong vaddr, paddr = 0;
     MicroBlazeMMULookup lu;
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = cpu_mmu_index(cs, false);
     unsigned int hit;
 
     /* Caller doesn't initialize */
diff --git a/target/microblaze/mmu.c b/target/microblaze/mmu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/mmu.c
+++ b/target/microblaze/mmu.c
@@ -XXX,XX +XXX,XX @@ void mmu_write(CPUMBState *env, bool ext, uint32_t rn, uint32_t v)
             }
 
             hit = mmu_translate(cpu, &lu, v & TLB_EPN_MASK,
-                                0, cpu_mmu_index(env, false));
+                                0, cpu_mmu_index(env_cpu(env), false));
             if (hit) {
                 env->mmu.regs[MMU_R_TLBX] = lu.idx;
             } else {
diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/translate.c
+++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static void mb_tr_init_disas_context(DisasContextBase *dcb, CPUState *cs)
     dc->ext_imm = dc->base.tb->cs_base;
     dc->r0 = NULL;
     dc->r0_set = false;
-    dc->mem_index = cpu_mmu_index(&cpu->env, false);
+    dc->mem_index = cpu_mmu_index(cs, false);
     dc->jmp_cond = dc->tb_flags & D_FLAG ? TCG_COND_ALWAYS : TCG_COND_NEVER;
     dc->jmp_dest = -1;
 
diff --git a/target/nios2/translate.c b/target/nios2/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/nios2/translate.c
+++ b/target/nios2/translate.c
@@ -XXX,XX +XXX,XX @@ static void nios2_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     Nios2CPU *cpu = env_archcpu(env);
     int page_insns;
 
-    dc->mem_idx = cpu_mmu_index(env, false);
+    dc->mem_idx = cpu_mmu_index(cs, false);
     dc->cr_state = cpu->cr_state;
     dc->tb_flags = dc->base.tb->flags;
     dc->eic_present = cpu->eic_present;
diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/translate.c
+++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static void openrisc_tr_init_disas_context(DisasContextBase *dcb, CPUState *cs)
     CPUOpenRISCState *env = cpu_env(cs);
     int bound;
 
-    dc->mem_idx = cpu_mmu_index(env, false);
+    dc->mem_idx = cpu_mmu_index(cs, false);
     dc->tb_flags = dc->base.tb->flags;
     dc->delayed_branch = (dc->tb_flags & TB_FLAGS_DFLAG) != 0;
     dc->cpucfgr = env->cpucfgr;
diff --git a/target/sparc/ldst_helper.c b/target/sparc/ldst_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/ldst_helper.c
+++ b/target/sparc/ldst_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t helper_ld_asi(CPUSPARCState *env, target_ulong addr,
     case ASI_M_IODIAG:  /* Turbosparc IOTLB Diagnostic */
         break;
     case ASI_KERNELTXT: /* Supervisor code access */
-        oi = make_memop_idx(memop, cpu_mmu_index(env, true));
+        oi = make_memop_idx(memop, cpu_mmu_index(env_cpu(env), true));
         switch (size) {
         case 1:
             ret = cpu_ldb_code_mmu(env, addr, oi, GETPC());
diff --git a/target/sparc/mmu_helper.c b/target/sparc/mmu_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/mmu_helper.c
+++ b/target/sparc/mmu_helper.c
@@ -XXX,XX +XXX,XX @@ hwaddr sparc_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
     SPARCCPU *cpu = SPARC_CPU(cs);
     CPUSPARCState *env = &cpu->env;
     hwaddr phys_addr;
-    int mmu_idx = cpu_mmu_index(env, false);
+    int mmu_idx = cpu_mmu_index(cs, false);
 
     if (cpu_sparc_get_phys_page(env, &phys_addr, addr, 2, mmu_idx) != 0) {
         if (cpu_sparc_get_phys_page(env, &phys_addr, addr, 0, mmu_idx) != 0) {
diff --git a/target/tricore/helper.c b/target/tricore/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/helper.c
+++ b/target/tricore/helper.c
@@ -XXX,XX +XXX,XX @@ hwaddr tricore_cpu_get_phys_page_debug(CPUState *cs, vaddr addr)
     TriCoreCPU *cpu = TRICORE_CPU(cs);
     hwaddr phys_addr;
     int prot;
-    int mmu_idx = cpu_mmu_index(&cpu->env, false);
+    int mmu_idx = cpu_mmu_index(cs, false);
 
     if (get_physical_address(&cpu->env, &phys_addr, &prot, addr,
                              MMU_DATA_LOAD, mmu_idx)) {
diff --git a/target/tricore/translate.c b/target/tricore/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/translate.c
+++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static void tricore_tr_init_disas_context(DisasContextBase *dcbase,
 {
     DisasContext *ctx = container_of(dcbase, DisasContext, base);
     CPUTriCoreState *env = cpu_env(cs);
-    ctx->mem_idx = cpu_mmu_index(env, false);
+    ctx->mem_idx = cpu_mmu_index(cs, false);
 
     uint32_t tb_flags = (uint32_t)ctx->base.tb->flags;
     ctx->priv = FIELD_EX32(tb_flags, TB_FLAGS, PRIV);
diff --git a/target/xtensa/mmu_helper.c b/target/xtensa/mmu_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/mmu_helper.c
+++ b/target/xtensa/mmu_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(itlb_hit_test)(CPUXtensaState *env, uint32_t vaddr)
      * only the side-effects (ie any MMU or other exception)
      */
     probe_access(env, vaddr, 1, MMU_INST_FETCH,
-                 cpu_mmu_index(env, true), GETPC());
+                 cpu_mmu_index(env_cpu(env), true), GETPC());
 }
 
 void HELPER(wsr_rasid)(CPUXtensaState *env, uint32_t v)
diff --git a/accel/tcg/ldst_common.c.inc b/accel/tcg/ldst_common.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/ldst_common.c.inc
+++ b/accel/tcg/ldst_common.c.inc
@@ -XXX,XX +XXX,XX @@ void cpu_stq_le_mmuidx_ra(CPUArchState *env, abi_ptr addr, uint64_t val,
 
 uint32_t cpu_ldub_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 {
-    return cpu_ldub_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    return cpu_ldub_mmuidx_ra(env, addr, mmu_index, ra);
 }
 
 int cpu_ldsb_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
@@ -XXX,XX +XXX,XX @@ int cpu_ldsb_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 
 uint32_t cpu_lduw_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 {
-    return cpu_lduw_be_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    return cpu_lduw_be_mmuidx_ra(env, addr, mmu_index, ra);
 }
 
 int cpu_ldsw_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 
 uint32_t cpu_ldl_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 {
-    return cpu_ldl_be_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    return cpu_ldl_be_mmuidx_ra(env, addr, mmu_index, ra);
 }
 
 uint64_t cpu_ldq_be_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 {
-    return cpu_ldq_be_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    return cpu_ldq_be_mmuidx_ra(env, addr, mmu_index, ra);
 }
 
 uint32_t cpu_lduw_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 {
-    return cpu_lduw_le_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    return cpu_lduw_le_mmuidx_ra(env, addr, mmu_index, ra);
 }
 
 int cpu_ldsw_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
@@ -XXX,XX +XXX,XX @@ int cpu_ldsw_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 
 uint32_t cpu_ldl_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 {
-    return cpu_ldl_le_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    return cpu_ldl_le_mmuidx_ra(env, addr, mmu_index, ra);
 }
 
 uint64_t cpu_ldq_le_data_ra(CPUArchState *env, abi_ptr addr, uintptr_t ra)
 {
-    return cpu_ldq_le_mmuidx_ra(env, addr, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    return cpu_ldq_le_mmuidx_ra(env, addr, mmu_index, ra);
 }
 
 void cpu_stb_data_ra(CPUArchState *env, abi_ptr addr,
                      uint32_t val, uintptr_t ra)
 {
-    cpu_stb_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    cpu_stb_mmuidx_ra(env, addr, val, mmu_index, ra);
 }
 
 void cpu_stw_be_data_ra(CPUArchState *env, abi_ptr addr,
                         uint32_t val, uintptr_t ra)
 {
-    cpu_stw_be_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    cpu_stw_be_mmuidx_ra(env, addr, val, mmu_index, ra);
 }
 
 void cpu_stl_be_data_ra(CPUArchState *env, abi_ptr addr,
                         uint32_t val, uintptr_t ra)
 {
-    cpu_stl_be_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    cpu_stl_be_mmuidx_ra(env, addr, val, mmu_index, ra);
 }
 
 void cpu_stq_be_data_ra(CPUArchState *env, abi_ptr addr,
                         uint64_t val, uintptr_t ra)
 {
-    cpu_stq_be_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    cpu_stq_be_mmuidx_ra(env, addr, val, mmu_index, ra);
 }
 
 void cpu_stw_le_data_ra(CPUArchState *env, abi_ptr addr,
                         uint32_t val, uintptr_t ra)
 {
-    cpu_stw_le_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    cpu_stw_le_mmuidx_ra(env, addr, val, mmu_index, ra);
 }
 
 void cpu_stl_le_data_ra(CPUArchState *env, abi_ptr addr,
                         uint32_t val, uintptr_t ra)
 {
-    cpu_stl_le_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    cpu_stl_le_mmuidx_ra(env, addr, val, mmu_index, ra);
 }
 
 void cpu_stq_le_data_ra(CPUArchState *env, abi_ptr addr,
                         uint64_t val, uintptr_t ra)
 {
-    cpu_stq_le_mmuidx_ra(env, addr, val, cpu_mmu_index(env, false), ra);
+    int mmu_index = cpu_mmu_index(env_cpu(env), false);
+    cpu_stq_le_mmuidx_ra(env, addr, val, mmu_index, ra);
 }
 
 /*--------------------------*/
-- 
2.34.1

From: Ilya Leoshkevich <iii@linux.ibm.com>

The `if not probe_proc_self_mem` check never passes, because
probe_proc_self_mem is a function object, which is a truthy value.
Add parentheses in order to perform a function call.

Fixes: dc84d50a7f9b ("tests/tcg: Add the PROT_NONE gdbstub test")
Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
Message-Id: <20240131220245.235993-1-iii@linux.ibm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tests/tcg/multiarch/gdbstub/prot-none.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/tcg/multiarch/gdbstub/prot-none.py b/tests/tcg/multiarch/gdbstub/prot-none.py
index XXXXXXX..XXXXXXX 100644
--- a/tests/tcg/multiarch/gdbstub/prot-none.py
+++ b/tests/tcg/multiarch/gdbstub/prot-none.py
@@ -XXX,XX +XXX,XX @@ def probe_proc_self_mem():
 
 def run_test():
     """Run through the tests one by one"""
-    if not probe_proc_self_mem:
+    if not probe_proc_self_mem():
         print("SKIP: /proc/self/mem is not usable")
         exit(0)
     gdb.Breakpoint("break_here")
-- 
2.34.1

Because there are more call clobbered registers than
call saved registers, we begin with all registers as
call clobbered and then reset those that are saved.

This was missed when we introduced the LSX support.

Cc: qemu-stable@nongnu.org
Fixes: 16288ded944 ("tcg/loongarch64: Lower basic tcg vec ops to LSX")
Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2136
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Song Gao <gaosong@loongson.cn>
Message-Id: <20240201233414.500588-1-richard.henderson@linaro.org>
---
 tcg/loongarch64/tcg-target.c.inc | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tcg/loongarch64/tcg-target.c.inc b/tcg/loongarch64/tcg-target.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/tcg/loongarch64/tcg-target.c.inc
+++ b/tcg/loongarch64/tcg-target.c.inc
@@ -XXX,XX +XXX,XX @@ static void tcg_target_init(TCGContext *s)
     tcg_target_available_regs[TCG_TYPE_I32] = ALL_GENERAL_REGS;
     tcg_target_available_regs[TCG_TYPE_I64] = ALL_GENERAL_REGS;
 
-    tcg_target_call_clobber_regs = ALL_GENERAL_REGS;
+    tcg_target_call_clobber_regs = ALL_GENERAL_REGS | ALL_VECTOR_REGS;
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_S0);
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_S1);
     tcg_regset_reset_reg(tcg_target_call_clobber_regs, TCG_REG_S2);
-- 
2.34.1

Align the operation to the 32-byte cacheline.
Use 2 pair of i128 instead of 8 pair of i32.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-2-richard.henderson@linaro.org>
---
 target/sparc/translate.c | 43 +++++++++++++++++++++++-----------------
 1 file changed, 25 insertions(+), 18 deletions(-)

diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_st_asi(DisasContext *dc, DisasASI *da, TCGv src, TCGv addr)
 
     case GET_ASI_BCOPY:
         assert(TARGET_LONG_BITS == 32);
-        /* Copy 32 bytes from the address in SRC to ADDR.  */
-        /* ??? The original qemu code suggests 4-byte alignment, dropping
-           the low bits, but the only place I can see this used is in the
-           Linux kernel with 32 byte alignment, which would make more sense
-           as a cacheline-style operation.  */
+        /*
+         * Copy 32 bytes from the address in SRC to ADDR.
+         *
+         * From Ross RT625 hyperSPARC manual, section 4.6:
+         * "Block Copy and Block Fill will work only on cache line boundaries."
+         *
+         * It does not specify if an unaliged address is truncated or trapped.
+         * Previous qemu behaviour was to truncate to 4 byte alignment, which
+         * is obviously wrong.  The only place I can see this used is in the
+         * Linux kernel which begins with page alignment, advancing by 32,
+         * so is always aligned.  Assume truncation as the simpler option.
+         *
+         * Since the loads and stores are paired, allow the copy to happen
+         * in the host endianness.  The copy need not be atomic.
+         */
         {
+            MemOp mop = MO_128 | MO_ATOM_IFALIGN_PAIR;
             TCGv saddr = tcg_temp_new();
             TCGv daddr = tcg_temp_new();
-            TCGv four = tcg_constant_tl(4);
-            TCGv_i32 tmp = tcg_temp_new_i32();
-            int i;
+            TCGv_i128 tmp = tcg_temp_new_i128();
 
-            tcg_gen_andi_tl(saddr, src, -4);
-            tcg_gen_andi_tl(daddr, addr, -4);
-            for (i = 0; i < 32; i += 4) {
-                /* Since the loads and stores are paired, allow the
-                   copy to happen in the host endianness.  */
-                tcg_gen_qemu_ld_i32(tmp, saddr, da->mem_idx, MO_UL);
-                tcg_gen_qemu_st_i32(tmp, daddr, da->mem_idx, MO_UL);
-                tcg_gen_add_tl(saddr, saddr, four);
-                tcg_gen_add_tl(daddr, daddr, four);
-            }
+            tcg_gen_andi_tl(saddr, src, -32);
+            tcg_gen_andi_tl(daddr, addr, -32);
+            tcg_gen_qemu_ld_i128(tmp, saddr, da->mem_idx, mop);
+            tcg_gen_qemu_st_i128(tmp, daddr, da->mem_idx, mop);
+            tcg_gen_addi_tl(saddr, saddr, 16);
+            tcg_gen_addi_tl(daddr, daddr, 16);
+            tcg_gen_qemu_ld_i128(tmp, saddr, da->mem_idx, mop);
+            tcg_gen_qemu_st_i128(tmp, daddr, da->mem_idx, mop);
         }
         break;
 
-- 
2.34.1

Align the operation to the 32-byte cacheline.
Use 2 i128 instead of 4 i64.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-3-richard.henderson@linaro.org>
---
 target/sparc/translate.c | 29 ++++++++++++++---------------
 1 file changed, 14 insertions(+), 15 deletions(-)

Replace with tcg_temp_new_i32.

diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_store_fpr_F(DisasContext *dc, unsigned int dst, TCGv_i32 v)
     gen_update_fprs_dirty(dc, dst);
 }
 
-static TCGv_i32 gen_dest_fpr_F(DisasContext *dc)
-{
-    return tcg_temp_new_i32();
-}
-
 static TCGv_i64 gen_load_fpr_D(DisasContext *dc, unsigned int src)
 {
     src = DFPREG(src);
@@ -XXX,XX +XXX,XX @@ static void gen_ldf_asi(DisasContext *dc, DisasASI *da, MemOp orig_size,
         memop |= MO_ALIGN_4;
         switch (size) {
         case MO_32:
-            d32 = gen_dest_fpr_F(dc);
+            d32 = tcg_temp_new_i32();
             tcg_gen_qemu_ld_i32(d32, addr, da->mem_idx, memop);
             gen_store_fpr_F(dc, rd, d32);
             break;
@@ -XXX,XX +XXX,XX @@ static void gen_ldf_asi(DisasContext *dc, DisasASI *da, MemOp orig_size,
             case MO_32:
                 d64 = tcg_temp_new_i64();
                 gen_helper_ld_asi(d64, tcg_env, addr, r_asi, r_mop);
-                d32 = gen_dest_fpr_F(dc);
+                d32 = tcg_temp_new_i32();
                 tcg_gen_extrl_i64_i32(d32, d64);
                 gen_store_fpr_F(dc, rd, d32);
                 break;
@@ -XXX,XX +XXX,XX @@ static void gen_fmovs(DisasContext *dc, DisasCompare *cmp, int rd, int rs)
 
     s1 = gen_load_fpr_F(dc, rs);
     s2 = gen_load_fpr_F(dc, rd);
-    dst = gen_dest_fpr_F(dc);
+    dst = tcg_temp_new_i32();
     zero = tcg_constant_i32(0);
 
     tcg_gen_movcond_i32(TCG_COND_NE, dst, c32, zero, s1, s2);
@@ -XXX,XX +XXX,XX @@ static bool do_fd(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    dst = gen_dest_fpr_F(dc);
+    dst = tcg_temp_new_i32();
     src = gen_load_fpr_D(dc, a->rs);
     func(dst, src);
     gen_store_fpr_F(dc, a->rd, dst);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fd(DisasContext *dc, arg_r_r *a,
     }
 
     gen_op_clear_ieee_excp_and_FTT();
-    dst = gen_dest_fpr_F(dc);
+    dst = tcg_temp_new_i32();
     src = gen_load_fpr_D(dc, a->rs);
     func(dst, tcg_env, src);
     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
 
     gen_op_clear_ieee_excp_and_FTT();
     gen_op_load_fpr_QT1(QFPREG(a->rs));
-    dst = gen_dest_fpr_F(dc);
+    dst = tcg_temp_new_i32();
     func(dst, tcg_env);
     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_F(dc, a->rd, dst);
-- 
2.34.1

Use them for trans_FMOVq.

diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_dest_fpr_D(DisasContext *dc, unsigned int dst)
     return cpu_fpr[DFPREG(dst) / 2];
 }
 
+static TCGv_i128 gen_load_fpr_Q(DisasContext *dc, unsigned int src)
+{
+    TCGv_i128 ret = tcg_temp_new_i128();
+
+    src = QFPREG(src);
+    tcg_gen_concat_i64_i128(ret, cpu_fpr[src / 2 + 1], cpu_fpr[src / 2]);
+    return ret;
+}
+
+static void gen_store_fpr_Q(DisasContext *dc, unsigned int dst, TCGv_i128 v)
+{
+    dst = DFPREG(dst);
+    tcg_gen_extr_i128_i64(cpu_fpr[dst / 2 + 1], cpu_fpr[dst / 2], v);
+    gen_update_fprs_dirty(dc, dst);
+}
+
 static void gen_op_load_fpr_QT0(unsigned int src)
 {
     tcg_gen_st_i64(cpu_fpr[src / 2], tcg_env, offsetof(CPUSPARCState, qt0) +
@@ -XXX,XX +XXX,XX @@ TRANS(FsTOx, 64, do_env_df, a, gen_helper_fstox)
 
 static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
 {
-    int rd, rs;
+    TCGv_i128 t;
 
     if (!avail_64(dc)) {
         return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
     }
 
     gen_op_clear_ieee_excp_and_FTT();
-    rd = QFPREG(a->rd);
-    rs = QFPREG(a->rs);
-    tcg_gen_mov_i64(cpu_fpr[rd / 2], cpu_fpr[rs / 2]);
-    tcg_gen_mov_i64(cpu_fpr[rd / 2 + 1], cpu_fpr[rs / 2 + 1]);
-    gen_update_fprs_dirty(dc, rd);
+    t = gen_load_fpr_Q(dc, a->rs);
+    gen_store_fpr_Q(dc, a->rd, t);
     return advance_pc(dc);
 }
 
-- 
2.34.1

These are simple bit manipulation insns.
Begin using i128 for float128.
Implement FMOVq with do_qq.

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
 #endif
 DEF_HELPER_FLAGS_1(check_ieee_exceptions, TCG_CALL_NO_WG, tl, env)
 DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
-DEF_HELPER_FLAGS_1(fabss, TCG_CALL_NO_RWG_SE, f32, f32)
 DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_RWG, f32, env, f32)
 DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_RWG, f64, env, f64)
 DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, tl, env, f32, f32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_1(fsqrtq, TCG_CALL_NO_RWG, void, env)
 DEF_HELPER_FLAGS_1(fcmpq, TCG_CALL_NO_WG, tl, env)
 DEF_HELPER_FLAGS_1(fcmpeq, TCG_CALL_NO_WG, tl, env)
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_1(fabsd, TCG_CALL_NO_RWG_SE, f64, f64)
 DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, tl, env, f32, f32)
 DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, tl, env, f32, f32)
 DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
 DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, tl, env, f64, f64)
 DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, tl, env, f64, f64)
 DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_1(fabsq, TCG_CALL_NO_RWG, void, env)
 DEF_HELPER_FLAGS_1(fcmpq_fcc1, TCG_CALL_NO_WG, tl, env)
 DEF_HELPER_FLAGS_1(fcmpq_fcc2, TCG_CALL_NO_WG, tl, env)
 DEF_HELPER_FLAGS_1(fcmpq_fcc3, TCG_CALL_NO_WG, tl, env)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_RWG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
 DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, void, env, f64, f64)
 
-DEF_HELPER_FLAGS_1(fnegs, TCG_CALL_NO_RWG_SE, f32, f32)
 DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
 DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, void, env, s32)
 
 DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
 
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_1(fnegd, TCG_CALL_NO_RWG_SE, f64, f64)
-DEF_HELPER_FLAGS_1(fnegq, TCG_CALL_NO_RWG, void, env)
 DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_RWG, f32, env, s64)
 DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_RWG, f64, env, s64)
 DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ void helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
                        &env->fp_status);
 }
 
-float32 helper_fnegs(float32 src)
-{
-    return float32_chs(src);
-}
-
-#ifdef TARGET_SPARC64
-float64 helper_fnegd(float64 src)
-{
-    return float64_chs(src);
-}
-
-F_HELPER(neg, q)
-{
-    QT0 = float128_chs(QT1);
-}
-#endif
-
 /* Integer to float conversion.  */
 float32 helper_fitos(CPUSPARCState *env, int32_t src)
 {
@@ -XXX,XX +XXX,XX @@ int64_t helper_fqtox(CPUSPARCState *env)
 }
 #endif
 
-float32 helper_fabss(float32 src)
-{
-    return float32_abs(src);
-}
-
-#ifdef TARGET_SPARC64
-float64 helper_fabsd(float64 src)
-{
-    return float64_abs(src);
-}
-
-void helper_fabsq(CPUSPARCState *env)
-{
-    QT0 = float128_abs(QT1);
-}
-#endif
-
 float32 helper_fsqrts(CPUSPARCState *env, float32 src)
 {
     return float32_sqrt(src, &env->fp_status);
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@
 #else
 # define gen_helper_clear_softint(E, S)         qemu_build_not_reached()
 # define gen_helper_done(E)                     qemu_build_not_reached()
-# define gen_helper_fabsd(D, S)                 qemu_build_not_reached()
 # define gen_helper_flushw(E)                   qemu_build_not_reached()
-# define gen_helper_fnegd(D, S)                 qemu_build_not_reached()
 # define gen_helper_rdccr(D, E)                 qemu_build_not_reached()
 # define gen_helper_rdcwp(D, E)                 qemu_build_not_reached()
 # define gen_helper_restored(E)                 qemu_build_not_reached()
@@ -XXX,XX +XXX,XX @@
 # define gen_helper_write_softint(E, S)         qemu_build_not_reached()
 # define gen_helper_wrpil(E, S)                 qemu_build_not_reached()
 # define gen_helper_wrpstate(E, S)              qemu_build_not_reached()
-# define gen_helper_fabsq                ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fcmpeq16             ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fcmpeq32             ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fcmpgt16             ({ qemu_build_not_reached(); NULL; })
@@ -XXX,XX +XXX,XX @@
 # define gen_helper_fmul8x16             ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fmuld8sux16          ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fmuld8ulx16          ({ qemu_build_not_reached(); NULL; })
-# define gen_helper_fnegq                ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fpmerge              ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fqtox                ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fstox                ({ qemu_build_not_reached(); NULL; })
@@ -XXX,XX +XXX,XX @@ static void gen_op_fmovs(TCGv_i32 dst, TCGv_i32 src)
 static void gen_op_fnegs(TCGv_i32 dst, TCGv_i32 src)
 {
     gen_op_clear_ieee_excp_and_FTT();
-    gen_helper_fnegs(dst, src);
+    tcg_gen_xori_i32(dst, src, 1u << 31);
 }
 
 static void gen_op_fabss(TCGv_i32 dst, TCGv_i32 src)
 {
     gen_op_clear_ieee_excp_and_FTT();
-    gen_helper_fabss(dst, src);
+    tcg_gen_andi_i32(dst, src, ~(1u << 31));
 }
 
 static void gen_op_fmovd(TCGv_i64 dst, TCGv_i64 src)
@@ -XXX,XX +XXX,XX @@ static void gen_op_fmovd(TCGv_i64 dst, TCGv_i64 src)
 static void gen_op_fnegd(TCGv_i64 dst, TCGv_i64 src)
 {
     gen_op_clear_ieee_excp_and_FTT();
-    gen_helper_fnegd(dst, src);
+    tcg_gen_xori_i64(dst, src, 1ull << 63);
 }
 
 static void gen_op_fabsd(TCGv_i64 dst, TCGv_i64 src)
 {
     gen_op_clear_ieee_excp_and_FTT();
-    gen_helper_fabsd(dst, src);
+    tcg_gen_andi_i64(dst, src, ~(1ull << 63));
+}
+
+static void gen_op_fnegq(TCGv_i128 dst, TCGv_i128 src)
+{
+    TCGv_i64 l = tcg_temp_new_i64();
+    TCGv_i64 h = tcg_temp_new_i64();
+
+    tcg_gen_extr_i128_i64(l, h, src);
+    tcg_gen_xori_i64(h, h, 1ull << 63);
+    tcg_gen_concat_i64_i128(dst, l, h);
+}
+
+static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
+{
+    TCGv_i64 l = tcg_temp_new_i64();
+    TCGv_i64 h = tcg_temp_new_i64();
+
+    tcg_gen_extr_i128_i64(l, h, src);
+    tcg_gen_andi_i64(h, h, ~(1ull << 63));
+    tcg_gen_concat_i64_i128(dst, l, h);
 }
 
 #ifdef TARGET_SPARC64
@@ -XXX,XX +XXX,XX @@ TRANS(FiTOd, ALL, do_env_df, a, gen_helper_fitod)
 TRANS(FsTOd, ALL, do_env_df, a, gen_helper_fstod)
 TRANS(FsTOx, 64, do_env_df, a, gen_helper_fstox)
 
-static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
+static bool do_qq(DisasContext *dc, arg_r_r *a,
+                  void (*func)(TCGv_i128, TCGv_i128))
 {
     TCGv_i128 t;
 
-    if (!avail_64(dc)) {
-        return false;
-    }
     if (gen_trap_ifnofpu(dc)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool trans_FMOVq(DisasContext *dc, arg_FMOVq *a)
 
     gen_op_clear_ieee_excp_and_FTT();
     t = gen_load_fpr_Q(dc, a->rs);
+    func(t, t);
     gen_store_fpr_Q(dc, a->rd, t);
     return advance_pc(dc);
 }
 
-static bool do_qq(DisasContext *dc, arg_r_r *a,
-                  void (*func)(TCGv_env))
-{
-    if (gen_trap_ifnofpu(dc)) {
-        return true;
-    }
-    if (gen_trap_float128(dc)) {
-        return true;
-    }
-
-    gen_op_clear_ieee_excp_and_FTT();
-    gen_op_load_fpr_QT1(QFPREG(a->rs));
-    func(tcg_env);
-    gen_op_store_QT0_fpr(QFPREG(a->rd));
-    gen_update_fprs_dirty(dc, QFPREG(a->rd));
-    return advance_pc(dc);
-}
-
-TRANS(FNEGq, 64, do_qq, a, gen_helper_fnegq)
-TRANS(FABSq, 64, do_qq, a, gen_helper_fabsq)
+TRANS(FMOVq, 64, do_qq, a, tcg_gen_mov_i128)
+TRANS(FNEGq, 64, do_qq, a, gen_op_fnegq)
+TRANS(FABSq, 64, do_qq, a, gen_op_fabsq)
 
 static bool do_env_qq(DisasContext *dc, arg_r_r *a,
                        void (*func)(TCGv_env))
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-7-richard.henderson@linaro.org>
---
 target/sparc/helper.h     |  2 +-
 target/sparc/fop_helper.c | 26 ++++++++++++++++++++++++--
 target/sparc/translate.c  | 12 +++++++-----
 3 files changed, 32 insertions(+), 8 deletions(-)

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-8-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 12 +++++-------
 target/sparc/fop_helper.c | 29 ++++++++++++++---------------
 target/sparc/translate.c  | 13 +++++++------
 3 files changed, 26 insertions(+), 28 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_1(fcmpeq_fcc2, TCG_CALL_NO_WG, tl, env)
 DEF_HELPER_FLAGS_1(fcmpeq_fcc3, TCG_CALL_NO_WG, tl, env)
 #endif
 DEF_HELPER_2(raise_exception, noreturn, env, int)
-#define F_HELPER_0_1(name) \
-  DEF_HELPER_FLAGS_1(f ## name, TCG_CALL_NO_RWG, void, env)
 
 DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_RWG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_RWG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_RWG, f64, env, f64, f64)
 DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_RWG, f64, env, f64, f64)
-F_HELPER_0_1(addq)
-F_HELPER_0_1(subq)
-F_HELPER_0_1(mulq)
-F_HELPER_0_1(divq)
+
+DEF_HELPER_FLAGS_3(faddq, TCG_CALL_NO_RWG, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fsubq, TCG_CALL_NO_RWG, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fmulq, TCG_CALL_NO_RWG, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fdivq, TCG_CALL_NO_RWG, i128, env, i128, i128)
 
 DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_RWG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_RWG, f32, env, f32, f32)
@@ -XXX,XX +XXX,XX @@ VIS_CMPHELPER(cmpeq)
 VIS_CMPHELPER(cmple)
 VIS_CMPHELPER(cmpne)
 #endif
-#undef F_HELPER_0_1
 #undef VIS_HELPER
 #undef VIS_CMPHELPER
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ target_ulong helper_check_ieee_exceptions(CPUSPARCState *env)
     return do_check_ieee_exceptions(env, GETPC());
 }
 
-#define F_HELPER(name, p) void helper_f##name##p(CPUSPARCState *env)
-
-#define F_BINOP(name)                                           \
+#define F_BINOP(name)                                                \
     float32 helper_f ## name ## s (CPUSPARCState *env, float32 src1, \
-                                   float32 src2)                \
-    {                                                           \
-        return float32_ ## name (src1, src2, &env->fp_status);  \
-    }                                                           \
+                                   float32 src2)                     \
+    {                                                                \
+        return float32_ ## name (src1, src2, &env->fp_status);       \
+    }                                                                \
     float64 helper_f ## name ## d (CPUSPARCState * env, float64 src1,\
-                                   float64 src2)                \
-    {                                                           \
-        return float64_ ## name (src1, src2, &env->fp_status);  \
-    }                                                           \
-    F_HELPER(name, q)                                           \
-    {                                                           \
-        QT0 = float128_ ## name (QT0, QT1, &env->fp_status);    \
+                                   float64 src2)                     \
+    {                                                                \
+        return float64_ ## name (src1, src2, &env->fp_status);       \
+    }                                                                \
+    Int128 helper_f ## name ## q(CPUSPARCState * env, Int128 src1,   \
+                                 Int128 src2)                        \
+    {                                                                \
+        return f128_ret(float128_ ## name (f128_in(src1), f128_in(src2), \
+                                           &env->fp_status));        \
     }
 
 F_BINOP(add);
@@ -XXX,XX +XXX,XX @@ void helper_fxtoq(CPUSPARCState *env, int64_t src)
     QT0 = int64_to_float128(src, &env->fp_status);
 }
 #endif
-#undef F_HELPER
 
 /* floating point conversion */
 float32 helper_fdtos(CPUSPARCState *env, float64 src)
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_dddd(DisasContext *dc, arg_r_r_r *a,
 TRANS(PDIST, VIS1, do_dddd, a, gen_helper_pdist)
 
 static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
-                       void (*func)(TCGv_env))
+                       void (*func)(TCGv_i128, TCGv_env, TCGv_i128, TCGv_i128))
 {
+    TCGv_i128 src1, src2;
+
     if (gen_trap_ifnofpu(dc)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
     }
 
     gen_op_clear_ieee_excp_and_FTT();
-    gen_op_load_fpr_QT0(QFPREG(a->rs1));
-    gen_op_load_fpr_QT1(QFPREG(a->rs2));
-    func(tcg_env);
+    src1 = gen_load_fpr_Q(dc, a->rs1);
+    src2 = gen_load_fpr_Q(dc, a->rs2);
+    func(src1, tcg_env, src1, src2);
     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
-    gen_op_store_QT0_fpr(QFPREG(a->rd));
-    gen_update_fprs_dirty(dc, QFPREG(a->rd));
+    gen_store_fpr_Q(dc, a->rd, src1);
     return advance_pc(dc);
 }
 
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-9-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 4 ++--
 target/sparc/fop_helper.c | 8 ++++----
 target/sparc/translate.c  | 7 ++++---
 3 files changed, 10 insertions(+), 9 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
 #endif
 DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
 DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
-DEF_HELPER_FLAGS_1(fqtos, TCG_CALL_NO_RWG, f32, env)
+DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
 DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, void, env, f32)
 DEF_HELPER_FLAGS_1(fqtod, TCG_CALL_NO_RWG, f64, env)
 DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, void, env, f64)
 DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
 DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_RWG, s32, env, f64)
-DEF_HELPER_FLAGS_1(fqtoi, TCG_CALL_NO_RWG, s32, env)
+DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_RWG, s32, env, i128)
 #ifdef TARGET_SPARC64
 DEF_HELPER_FLAGS_2(fstox, TCG_CALL_NO_RWG, s64, env, f32)
 DEF_HELPER_FLAGS_2(fdtox, TCG_CALL_NO_RWG, s64, env, f64)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ float64 helper_fstod(CPUSPARCState *env, float32 src)
     return float32_to_float64(src, &env->fp_status);
 }
 
-float32 helper_fqtos(CPUSPARCState *env)
+float32 helper_fqtos(CPUSPARCState *env, Int128 src)
 {
-    return float128_to_float32(QT1, &env->fp_status);
+    return float128_to_float32(f128_in(src), &env->fp_status);
 }
 
 void helper_fstoq(CPUSPARCState *env, float32 src)
@@ -XXX,XX +XXX,XX @@ int32_t helper_fdtoi(CPUSPARCState *env, float64 src)
     return float64_to_int32_round_to_zero(src, &env->fp_status);
 }
 
-int32_t helper_fqtoi(CPUSPARCState *env)
+int32_t helper_fqtoi(CPUSPARCState *env, Int128 src)
 {
-    return float128_to_int32_round_to_zero(QT1, &env->fp_status);
+    return float128_to_int32_round_to_zero(f128_in(src), &env->fp_status);
 }
 
 #ifdef TARGET_SPARC64
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_env_qq(DisasContext *dc, arg_r_r *a,
 TRANS(FSQRTq, ALL, do_env_qq, a, gen_helper_fsqrtq)
 
 static bool do_env_fq(DisasContext *dc, arg_r_r *a,
-                      void (*func)(TCGv_i32, TCGv_env))
+                      void (*func)(TCGv_i32, TCGv_env, TCGv_i128))
 {
+    TCGv_i128 src;
     TCGv_i32 dst;
 
     if (gen_trap_ifnofpu(dc)) {
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
     }
 
     gen_op_clear_ieee_excp_and_FTT();
-    gen_op_load_fpr_QT1(QFPREG(a->rs));
+    src = gen_load_fpr_Q(dc, a->rs);
     dst = tcg_temp_new_i32();
-    func(dst, tcg_env);
+    func(dst, tcg_env, src);
     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_F(dc, a->rd, dst);
     return advance_pc(dc);
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-10-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 4 ++--
 target/sparc/fop_helper.c | 8 ++++----
 target/sparc/translate.c  | 7 ++++---
 3 files changed, 10 insertions(+), 9 deletions(-)

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-11-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 16 ++++++------
 target/sparc/fop_helper.c | 23 +++++++++--------
 target/sparc/translate.c  | 54 +++++++++++++++------------------------
 3 files changed, 41 insertions(+), 52 deletions(-)

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-12-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 4 ++--
 target/sparc/fop_helper.c | 8 ++++----
 target/sparc/translate.c  | 9 +++++----
 3 files changed, 11 insertions(+), 10 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
 DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, void, env, f64, f64)
 
 DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
-DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, void, env, s32)
+DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, i128, env, s32)
 
 DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
 
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
 DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
 DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
 DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
-DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, void, env, f32)
+DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, i128, env, f32)
 DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_RWG, f64, env, i128)
 DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, void, env, f64)
 DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ float64 helper_fitod(CPUSPARCState *env, int32_t src)
     return int32_to_float64(src, &env->fp_status);
 }
 
-void helper_fitoq(CPUSPARCState *env, int32_t src)
+Int128 helper_fitoq(CPUSPARCState *env, int32_t src)
 {
-    QT0 = int32_to_float128(src, &env->fp_status);
+    return f128_ret(int32_to_float128(src, &env->fp_status));
 }
 
 #ifdef TARGET_SPARC64
@@ -XXX,XX +XXX,XX @@ float32 helper_fqtos(CPUSPARCState *env, Int128 src)
     return float128_to_float32(f128_in(src), &env->fp_status);
 }
 
-void helper_fstoq(CPUSPARCState *env, float32 src)
+Int128 helper_fstoq(CPUSPARCState *env, float32 src)
 {
-    QT0 = float32_to_float128(src, &env->fp_status);
+    return f128_ret(float32_to_float128(src, &env->fp_status));
 }
 
 float64 helper_fqtod(CPUSPARCState *env, Int128 src)
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ TRANS(FqTOd, ALL, do_env_dq, a, gen_helper_fqtod)
 TRANS(FqTOx, 64, do_env_dq, a, gen_helper_fqtox)
 
 static bool do_env_qf(DisasContext *dc, arg_r_r *a,
-                      void (*func)(TCGv_env, TCGv_i32))
+                      void (*func)(TCGv_i128, TCGv_env, TCGv_i32))
 {
     TCGv_i32 src;
+    TCGv_i128 dst;
 
     if (gen_trap_ifnofpu(dc)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool do_env_qf(DisasContext *dc, arg_r_r *a,
 
     gen_op_clear_ieee_excp_and_FTT();
     src = gen_load_fpr_F(dc, a->rs);
-    func(tcg_env, src);
-    gen_op_store_QT0_fpr(QFPREG(a->rd));
-    gen_update_fprs_dirty(dc, QFPREG(a->rd));
+    dst = tcg_temp_new_i128();
+    func(dst, tcg_env, src);
+    gen_store_fpr_Q(dc, a->rd, dst);
     return advance_pc(dc);
 }
 
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-13-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 4 ++--
 target/sparc/fop_helper.c | 8 ++++----
 target/sparc/translate.c  | 9 +++++----
 3 files changed, 11 insertions(+), 10 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
 #ifdef TARGET_SPARC64
 DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_RWG, f32, env, s64)
 DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_RWG, f64, env, s64)
-DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, void, env, s64)
+DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, i128, env, s64)
 #endif
 DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
 DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
 DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
 DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, i128, env, f32)
 DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_RWG, f64, env, i128)
-DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, void, env, f64)
+DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, i128, env, f64)
 DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
 DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_RWG, s32, env, f64)
 DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_RWG, s32, env, i128)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ float64 helper_fxtod(CPUSPARCState *env, int64_t src)
     return int64_to_float64(src, &env->fp_status);
 }
 
-void helper_fxtoq(CPUSPARCState *env, int64_t src)
+Int128 helper_fxtoq(CPUSPARCState *env, int64_t src)
 {
-    QT0 = int64_to_float128(src, &env->fp_status);
+    return f128_ret(int64_to_float128(src, &env->fp_status));
 }
 #endif
 
@@ -XXX,XX +XXX,XX @@ float64 helper_fqtod(CPUSPARCState *env, Int128 src)
     return float128_to_float64(f128_in(src), &env->fp_status);
 }
 
-void helper_fdtoq(CPUSPARCState *env, float64 src)
+Int128 helper_fdtoq(CPUSPARCState *env, float64 src)
 {
-    QT0 = float64_to_float128(src, &env->fp_status);
+    return f128_ret(float64_to_float128(src, &env->fp_status));
 }
 
 /* Float to integer conversion.  */
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ TRANS(FiTOq, ALL, do_env_qf, a, gen_helper_fitoq)
 TRANS(FsTOq, ALL, do_env_qf, a, gen_helper_fstoq)
 
 static bool do_env_qd(DisasContext *dc, arg_r_r *a,
-                      void (*func)(TCGv_env, TCGv_i64))
+                      void (*func)(TCGv_i128, TCGv_env, TCGv_i64))
 {
     TCGv_i64 src;
+    TCGv_i128 dst;
 
     if (gen_trap_ifnofpu(dc)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool do_env_qd(DisasContext *dc, arg_r_r *a,
 
     gen_op_clear_ieee_excp_and_FTT();
     src = gen_load_fpr_D(dc, a->rs);
-    func(tcg_env, src);
-    gen_op_store_QT0_fpr(QFPREG(a->rd));
-    gen_update_fprs_dirty(dc, QFPREG(a->rd));
+    dst = tcg_temp_new_i128();
+    func(dst, tcg_env, src);
+    gen_store_fpr_Q(dc, a->rd, dst);
     return advance_pc(dc);
 }
 
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-14-richard.henderson@linaro.org>
---
 target/sparc/helper.h     |  2 +-
 target/sparc/fop_helper.c |  8 ++++----
 target/sparc/translate.c  | 15 ++++-----------
 3 files changed, 9 insertions(+), 16 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_RWG, f32, env, f32, f32)
 DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_RWG, f32, env, f32, f32)
 
 DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
-DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, i128, env, f64, f64)
 
 DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
 DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, i128, env, s32)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ float64 helper_fsmuld(CPUSPARCState *env, float32 src1, float32 src2)
                        &env->fp_status);
 }
 
-void helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
+Int128 helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
 {
-    QT0 = float128_mul(float64_to_float128(src1, &env->fp_status),
-                       float64_to_float128(src2, &env->fp_status),
-                       &env->fp_status);
+    return f128_ret(float128_mul(float64_to_float128(src1, &env->fp_status),
+                                 float64_to_float128(src2, &env->fp_status),
+                                 &env->fp_status));
 }
 
 /* Integer to float conversion.  */
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_store_fpr_Q(DisasContext *dc, unsigned int dst, TCGv_i128 v)
     gen_update_fprs_dirty(dc, dst);
 }
 
-static void gen_op_store_QT0_fpr(unsigned int dst)
-{
-    tcg_gen_ld_i64(cpu_fpr[dst / 2], tcg_env, offsetof(CPUSPARCState, qt0) +
-                   offsetof(CPU_QuadU, ll.upper));
-    tcg_gen_ld_i64(cpu_fpr[dst/2 + 1], tcg_env, offsetof(CPUSPARCState, qt0) +
-                   offsetof(CPU_QuadU, ll.lower));
-}
-
 /* moves */
 #ifdef CONFIG_USER_ONLY
 #define supervisor(dc) 0
@@ -XXX,XX +XXX,XX @@ TRANS(FDIVq, ALL, do_env_qqq, a, gen_helper_fdivq)
 static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
 {
     TCGv_i64 src1, src2;
+    TCGv_i128 dst;
 
     if (gen_trap_ifnofpu(dc)) {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
     gen_op_clear_ieee_excp_and_FTT();
     src1 = gen_load_fpr_D(dc, a->rs1);
     src2 = gen_load_fpr_D(dc, a->rs2);
-    gen_helper_fdmulq(tcg_env, src1, src2);
+    dst = tcg_temp_new_i128();
+    gen_helper_fdmulq(dst, tcg_env, src1, src2);
     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
-    gen_op_store_QT0_fpr(QFPREG(a->rd));
-    gen_update_fprs_dirty(dc, QFPREG(a->rd));
+    gen_store_fpr_Q(dc, a->rd, dst);
     return advance_pc(dc);
 }
 
-- 
2.34.1

These are no longer used for passing data to/from helpers.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-15-richard.henderson@linaro.org>
---
 target/sparc/cpu.h         | 2 --
 target/sparc/fop_helper.c  | 3 ---
 target/sparc/ldst_helper.c | 3 ---
 3 files changed, 8 deletions(-)

diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ struct CPUArchState {
     uint64_t mmubpregs[4];
     uint64_t prom_addr;
 #endif
-    /* temporary float registers */
-    float128 qt0, qt1;
     float_status fp_status;
 #if defined(TARGET_SPARC64)
 #define MAXTL_MAX 8
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 #include "fpu/softfloat.h"
 
-#define QT0 (env->qt0)
-#define QT1 (env->qt1)
-
 static inline float128 f128_in(Int128 i)
 {
     union {
diff --git a/target/sparc/ldst_helper.c b/target/sparc/ldst_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/ldst_helper.c
+++ b/target/sparc/ldst_helper.c
@@ -XXX,XX +XXX,XX @@
 #endif
 #endif
 
-#define QT0 (env->qt0)
-#define QT1 (env->qt1)
-
 #if defined(TARGET_SPARC64) && !defined(CONFIG_USER_ONLY)
 /* Calculates TSB pointer value for fault page size
  * UltraSPARC IIi has fixed sizes (8k or 64k) for the page pointers
-- 
2.34.1

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-16-richard.henderson@linaro.org>
---
 target/sparc/cpu.h          |  4 +++-
 target/sparc/helper.h       |  1 +
 linux-user/sparc/cpu_loop.c |  2 +-
 linux-user/sparc/signal.c   | 14 +++++++++-----
 target/sparc/cpu.c          |  5 +++--
 target/sparc/fop_helper.c   | 21 +++++++++++++++++++--
 target/sparc/gdbstub.c      |  8 ++++----
 target/sparc/machine.c      | 36 ++++++++++++++++++++++++++++++++++--
 target/sparc/translate.c    |  7 ++++++-
 9 files changed, 80 insertions(+), 18 deletions(-)

diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ void sparc_restore_state_to_opc(CPUState *cs,
                                 const TranslationBlock *tb,
                                 const uint64_t *data);
 
-/* cpu-exec.c */
+/* fop_helper.c */
+target_ulong cpu_get_fsr(CPUSPARCState *);
+void cpu_put_fsr(CPUSPARCState *, target_ulong);
 
 /* win_helper.c */
 target_ulong cpu_get_psr(CPUSPARCState *env1);
diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
 DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
 #endif
 DEF_HELPER_FLAGS_1(check_ieee_exceptions, TCG_CALL_NO_WG, tl, env)
+DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
 DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
 DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_RWG, f32, env, f32)
 DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_RWG, f64, env, f64)
diff --git a/linux-user/sparc/cpu_loop.c b/linux-user/sparc/cpu_loop.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/sparc/cpu_loop.c
+++ b/linux-user/sparc/cpu_loop.c
@@ -XXX,XX +XXX,XX @@ void cpu_loop (CPUSPARCState *env)
         case TT_FP_EXCP:
             {
                 int code = TARGET_FPE_FLTUNK;
-                target_ulong fsr = env->fsr;
+                target_ulong fsr = cpu_get_fsr(env);
 
                 if ((fsr & FSR_FTT_MASK) == FSR_FTT_IEEE_EXCP) {
                     if (fsr & FSR_NVC) {
diff --git a/linux-user/sparc/signal.c b/linux-user/sparc/signal.c
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/sparc/signal.c
+++ b/linux-user/sparc/signal.c
@@ -XXX,XX +XXX,XX @@ static void save_fpu(struct target_siginfo_fpu *fpu, CPUSPARCState *env)
     for (i = 0; i < 32; ++i) {
         __put_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
     }
-    __put_user(env->fsr, &fpu->si_fsr);
+    __put_user(cpu_get_fsr(env), &fpu->si_fsr);
     __put_user(env->gsr, &fpu->si_gsr);
     __put_user(env->fprs, &fpu->si_fprs);
 #else
     for (i = 0; i < 16; ++i) {
         __put_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
     }
-    __put_user(env->fsr, &fpu->si_fsr);
+    __put_user(cpu_get_fsr(env), &fpu->si_fsr);
     __put_user(0, &fpu->si_fpqdepth);
 #endif
 }
 
 static void restore_fpu(struct target_siginfo_fpu *fpu, CPUSPARCState *env)
 {
+    target_ulong fsr;
     int i;
 
 #ifdef TARGET_SPARC64
@@ -XXX,XX +XXX,XX @@ static void restore_fpu(struct target_siginfo_fpu *fpu, CPUSPARCState *env)
             __get_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
         }
     }
-    __get_user(env->fsr, &fpu->si_fsr);
     __get_user(env->gsr, &fpu->si_gsr);
     env->fprs |= fprs;
 #else
     for (i = 0; i < 16; ++i) {
         __get_user(env->fpr[i].ll, &fpu->si_double_regs[i]);
     }
-    __get_user(env->fsr, &fpu->si_fsr);
 #endif
+
+    __get_user(fsr, &fpu->si_fsr);
+    cpu_put_fsr(env, fsr);
 }
 
 #ifdef TARGET_ARCH_HAS_SETUP_FRAME
@@ -XXX,XX +XXX,XX @@ void sparc64_set_context(CPUSPARCState *env)
     __get_user(fenab, &(fpup->mcfpu_enab));
     if (fenab) {
         abi_ulong fprs;
+        abi_ulong fsr;
 
         /*
          * We use the FPRS from the guest only in deciding whether
@@ -XXX,XX +XXX,XX @@ void sparc64_set_context(CPUSPARCState *env)
                 __get_user(env->fpr[i].ll, &(fpup->mcfpu_fregs.dregs[i]));
             }
         }
-        __get_user(env->fsr, &(fpup->mcfpu_fsr));
+        __get_user(fsr, &(fpup->mcfpu_fsr));
+        cpu_put_fsr(env, fsr);
         __get_user(env->gsr, &(fpup->mcfpu_gsr));
     }
     unlock_user_struct(ucp, ucp_addr, 0);
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_dump_state(CPUState *cs, FILE *f, int flags)
                  env->cansave, env->canrestore, env->otherwin, env->wstate,
                  env->cleanwin, env->nwindows - 1 - env->cwp);
     qemu_fprintf(f, "fsr: " TARGET_FMT_lx " y: " TARGET_FMT_lx " fprs: %016x\n",
-                 env->fsr, env->y, env->fprs);
+                 cpu_get_fsr(env), env->y, env->fprs);
 
 #else
     qemu_fprintf(f, "psr: %08x (icc: ", cpu_get_psr(env));
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_dump_state(CPUState *cs, FILE *f, int flags)
                  env->psrps ? 'P' : '-', env->psret ? 'E' : '-',
                  env->wim);
     qemu_fprintf(f, "fsr: " TARGET_FMT_lx " y: " TARGET_FMT_lx "\n",
-                 env->fsr, env->y);
+                 cpu_get_fsr(env), env->y);
 #endif
     qemu_fprintf(f, "\n");
 }
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_realizefn(DeviceState *dev, Error **errp)
     env->version |= env->def.maxtl << 8;
     env->version |= env->def.nwindows - 1;
 #endif
+    cpu_put_fsr(env, 0);
 
     cpu_exec_realizefn(cs, &local_err);
     if (local_err != NULL) {
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
 #undef GEN_FCMP_T
 #undef GEN_FCMP
 
-static void set_fsr(CPUSPARCState *env, target_ulong fsr)
+target_ulong cpu_get_fsr(CPUSPARCState *env)
+{
+    return env->fsr;
+}
+
+target_ulong helper_get_fsr(CPUSPARCState *env)
+{
+    return cpu_get_fsr(env);
+}
+
+static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
 {
     int rnd_mode;
 
+    env->fsr = fsr;
+
     switch (fsr & FSR_RD_MASK) {
     case FSR_RD_NEAREST:
         rnd_mode = float_round_nearest_even;
@@ -XXX,XX +XXX,XX @@ static void set_fsr(CPUSPARCState *env, target_ulong fsr)
     set_float_rounding_mode(rnd_mode, &env->fp_status);
 }
 
+void cpu_put_fsr(CPUSPARCState *env, target_ulong fsr)
+{
+    set_fsr_nonsplit(env, fsr);
+}
+
 void helper_set_fsr(CPUSPARCState *env, target_ulong fsr)
 {
-    set_fsr(env, fsr);
+    set_fsr_nonsplit(env, fsr);
 }
diff --git a/target/sparc/gdbstub.c b/target/sparc/gdbstub.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/gdbstub.c
+++ b/target/sparc/gdbstub.c
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
     case 69:
         return gdb_get_rega(mem_buf, env->npc);
     case 70:
-        return gdb_get_rega(mem_buf, env->fsr);
+        return gdb_get_rega(mem_buf, cpu_get_fsr(env));
     case 71:
         return gdb_get_rega(mem_buf, 0); /* csr */
     default:
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
                                      ((env->pstate & 0xfff) << 8) |
                                      cpu_get_cwp64(env));
     case 83:
-        return gdb_get_regl(mem_buf, env->fsr);
+        return gdb_get_regl(mem_buf, cpu_get_fsr(env));
     case 84:
         return gdb_get_regl(mem_buf, env->fprs);
     case 85:
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
             env->npc = tmp;
             break;
         case 70:
-            env->fsr = tmp;
+            cpu_put_fsr(env, tmp);
             break;
         default:
             return 0;
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
             cpu_put_cwp64(env, tmp & 0xff);
             break;
         case 83:
-            env->fsr = tmp;
+            cpu_put_fsr(env, tmp);
             break;
         case 84:
             env->fprs = tmp;
diff --git a/target/sparc/machine.c b/target/sparc/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/machine.c
+++ b/target/sparc/machine.c
@@ -XXX,XX +XXX,XX @@ static const VMStateInfo vmstate_psr = {
     .put = put_psr,
 };
 
+static int get_fsr(QEMUFile *f, void *opaque, size_t size,
+                   const VMStateField *field)
+{
+    SPARCCPU *cpu = opaque;
+    target_ulong val = qemu_get_betl(f);
+
+    cpu_put_fsr(&cpu->env, val);
+    return 0;
+}
+
+static int put_fsr(QEMUFile *f, void *opaque, size_t size,
+                   const VMStateField *field, JSONWriter *vmdesc)
+{
+    SPARCCPU *cpu = opaque;
+    target_ulong val = cpu_get_fsr(&cpu->env);
+
+    qemu_put_betl(f, val);
+    return 0;
+}
+
+static const VMStateInfo vmstate_fsr = {
+    .name = "fsr",
+    .get = get_fsr,
+    .put = put_fsr,
+};
+
 #ifdef TARGET_SPARC64
 static int get_xcc(QEMUFile *f, void *opaque, size_t size,
                    const VMStateField *field)
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_sparc_cpu = {
         VMSTATE_UINTTL(env.npc, SPARCCPU),
         VMSTATE_UINTTL(env.y, SPARCCPU),
         {
-
             .name = "psr",
             .version_id = 0,
             .size = sizeof(uint32_t),
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_sparc_cpu = {
             .flags = VMS_SINGLE,
             .offset = 0,
         },
-        VMSTATE_UINTTL(env.fsr, SPARCCPU),
+        {
+            .name = "fsr",
+            .version_id = 0,
+            .size = sizeof(target_ulong),
+            .info = &vmstate_fsr,
+            .flags = VMS_SINGLE,
+            .offset = 0,
+        },
         VMSTATE_UINTTL(env.tbr, SPARCCPU),
         VMSTATE_INT32(env.interrupt_index, SPARCCPU),
         VMSTATE_UINT32(env.pil_in, SPARCCPU),
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ TRANS(LDXFSR, 64, do_ldfsr, a, MO_TEUQ, FSR_LDXFSR_MASK, FSR_LDXFSR_OLDMASK)
 static bool do_stfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop)
 {
     TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
+    TCGv fsr;
+
     if (addr == NULL) {
         return false;
     }
     if (gen_trap_ifnofpu(dc)) {
         return true;
     }
-    tcg_gen_qemu_st_tl(cpu_fsr, addr, dc->mem_idx, mop | MO_ALIGN);
+
+    fsr = tcg_temp_new();
+    gen_helper_get_fsr(fsr, tcg_env);
+    tcg_gen_qemu_st_tl(fsr, addr, dc->mem_idx, mop | MO_ALIGN);
     return advance_pc(dc);
 }
 
-- 
2.34.1

This field is read-only.  It is easier to store it separately
and merge it only upon read.

While we're at it, use FSR_VER_SHIFT to initialize fpu_version.

diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 #define FSR_NXC   (1ULL << 0)
 #define FSR_CEXC_MASK (FSR_NVC | FSR_OFC | FSR_UFC | FSR_DZC | FSR_NXC)
 
+#define FSR_VER_SHIFT  17
+#define FSR_VER_MASK   (7 << FSR_VER_SHIFT)
+
 #define FSR_FTT2   (1ULL << 16)
 #define FSR_FTT1   (1ULL << 15)
 #define FSR_FTT0   (1ULL << 14)
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "Fujitsu MB86904",
         .iu_version = 0x04 << 24, /* Impl 0, ver 4 */
-        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
+        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
         .mmu_version = 0x04 << 24, /* Impl 0, ver 4 */
         .mmu_bm = 0x00004000,
         .mmu_ctpr_mask = 0x00ffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "Fujitsu MB86907",
         .iu_version = 0x05 << 24, /* Impl 0, ver 5 */
-        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
+        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
         .mmu_version = 0x05 << 24, /* Impl 0, ver 5 */
         .mmu_bm = 0x00004000,
         .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI MicroSparc I",
         .iu_version = 0x41000000,
-        .fpu_version = 4 << 17,
+        .fpu_version = 4 << FSR_VER_SHIFT,
         .mmu_version = 0x41000000,
         .mmu_bm = 0x00004000,
         .mmu_ctpr_mask = 0x007ffff0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI MicroSparc II",
         .iu_version = 0x42000000,
-        .fpu_version = 4 << 17,
+        .fpu_version = 4 << FSR_VER_SHIFT,
         .mmu_version = 0x02000000,
         .mmu_bm = 0x00004000,
         .mmu_ctpr_mask = 0x00ffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI MicroSparc IIep",
         .iu_version = 0x42000000,
-        .fpu_version = 4 << 17,
+        .fpu_version = 4 << FSR_VER_SHIFT,
         .mmu_version = 0x04000000,
         .mmu_bm = 0x00004000,
         .mmu_ctpr_mask = 0x00ffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI SuperSparc 40", /* STP1020NPGA */
         .iu_version = 0x41000000, /* SuperSPARC 2.x */
-        .fpu_version = 0 << 17,
+        .fpu_version = 0 << FSR_VER_SHIFT,
         .mmu_version = 0x00000800, /* SuperSPARC 2.x, no MXCC */
         .mmu_bm = 0x00002000,
         .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI SuperSparc 50", /* STP1020PGA */
         .iu_version = 0x40000000, /* SuperSPARC 3.x */
-        .fpu_version = 0 << 17,
+        .fpu_version = 0 << FSR_VER_SHIFT,
         .mmu_version = 0x01000800, /* SuperSPARC 3.x, no MXCC */
         .mmu_bm = 0x00002000,
         .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI SuperSparc 51",
         .iu_version = 0x40000000, /* SuperSPARC 3.x */
-        .fpu_version = 0 << 17,
+        .fpu_version = 0 << FSR_VER_SHIFT,
         .mmu_version = 0x01000000, /* SuperSPARC 3.x, MXCC */
         .mmu_bm = 0x00002000,
         .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI SuperSparc 60", /* STP1020APGA */
         .iu_version = 0x40000000, /* SuperSPARC 3.x */
-        .fpu_version = 0 << 17,
+        .fpu_version = 0 << FSR_VER_SHIFT,
         .mmu_version = 0x01000800, /* SuperSPARC 3.x, no MXCC */
         .mmu_bm = 0x00002000,
         .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI SuperSparc 61",
         .iu_version = 0x44000000, /* SuperSPARC 3.x */
-        .fpu_version = 0 << 17,
+        .fpu_version = 0 << FSR_VER_SHIFT,
         .mmu_version = 0x01000000, /* SuperSPARC 3.x, MXCC */
         .mmu_bm = 0x00002000,
         .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "TI SuperSparc II",
         .iu_version = 0x40000000, /* SuperSPARC II 1.x */
-        .fpu_version = 0 << 17,
+        .fpu_version = 0 << FSR_VER_SHIFT,
         .mmu_version = 0x08000000, /* SuperSPARC II 1.x, MXCC */
         .mmu_bm = 0x00002000,
         .mmu_ctpr_mask = 0xffffffc0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "LEON2",
         .iu_version = 0xf2000000,
-        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
+        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
         .mmu_version = 0xf2000000,
         .mmu_bm = 0x00004000,
         .mmu_ctpr_mask = 0x007ffff0,
@@ -XXX,XX +XXX,XX @@ static const sparc_def_t sparc_defs[] = {
     {
         .name = "LEON3",
         .iu_version = 0xf3000000,
-        .fpu_version = 4 << 17, /* FPU version 4 (Meiko) */
+        .fpu_version = 4 << FSR_VER_SHIFT, /* FPU version 4 (Meiko) */
         .mmu_version = 0xf3000000,
         .mmu_bm = 0x00000000,
         .mmu_ctpr_mask = 0xfffffffc,
@@ -XXX,XX +XXX,XX @@ static void sparc_cpu_realizefn(DeviceState *dev, Error **errp)
 #endif
 
     env->version = env->def.iu_version;
-    env->fsr = env->def.fpu_version;
     env->nwindows = env->def.nwindows;
 #if !defined(TARGET_SPARC64)
     env->mmuregs[0] |= env->def.mmu_version;
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
 
 target_ulong cpu_get_fsr(CPUSPARCState *env)
 {
-    return env->fsr;
+    target_ulong fsr = env->fsr;
+
+    /* VER is kept completely separate until re-assembly. */
+    fsr |= env->def.fpu_version;
+
+    return fsr;
 }
 
 target_ulong helper_get_fsr(CPUSPARCState *env)
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
 {
     int rnd_mode;
 
-    env->fsr = fsr;
+    env->fsr = fsr & ~FSR_VER_MASK;
 
     switch (fsr & FSR_RD_MASK) {
     case FSR_RD_NEAREST:
-- 
2.34.1

Don't do the clearing explicitly before each FPop,
rather do it as part of the rest of exception handling.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-18-richard.henderson@linaro.org>
---
 target/sparc/fop_helper.c |  2 ++
 target/sparc/translate.c  | 16 ----------------
 2 files changed, 2 insertions(+), 16 deletions(-)

diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ static target_ulong do_check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
     target_ulong status = get_float_exception_flags(&env->fp_status);
     target_ulong fsr = env->fsr;
 
+    fsr &= FSR_FTT_CEXC_NMASK;
+
     if (unlikely(status)) {
         /* Keep exception flags clear for next time.  */
         set_float_exception_flags(0, &env->fp_status);
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_env_ff(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     tmp = gen_load_fpr_F(dc, a->rs);
     func(tmp, tcg_env, tmp);
     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fd(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     dst = tcg_temp_new_i32();
     src = gen_load_fpr_D(dc, a->rs);
     func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_dd(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     dst = gen_dest_fpr_D(dc, a->rd);
     src = gen_load_fpr_D(dc, a->rs);
     func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_df(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     dst = gen_dest_fpr_D(dc, a->rd);
     src = gen_load_fpr_F(dc, a->rs);
     func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_qq(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
-
     t = gen_load_fpr_Q(dc, a->rs);
     func(t, tcg_env, t);
     gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src = gen_load_fpr_Q(dc, a->rs);
     dst = tcg_temp_new_i32();
     func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_dq(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src = gen_load_fpr_Q(dc, a->rs);
     dst = gen_dest_fpr_D(dc, a->rd);
     func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fff(DisasContext *dc, arg_r_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src1 = gen_load_fpr_F(dc, a->rs1);
     src2 = gen_load_fpr_F(dc, a->rs2);
     func(src1, tcg_env, src1, src2);
@@ -XXX,XX +XXX,XX @@ static bool do_env_ddd(DisasContext *dc, arg_r_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     dst = gen_dest_fpr_D(dc, a->rd);
     src1 = gen_load_fpr_D(dc, a->rs1);
     src2 = gen_load_fpr_D(dc, a->rs2);
@@ -XXX,XX +XXX,XX @@ static bool trans_FsMULd(DisasContext *dc, arg_r_r_r *a)
         return raise_unimpfpop(dc);
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     dst = gen_dest_fpr_D(dc, a->rd);
     src1 = gen_load_fpr_F(dc, a->rs1);
     src2 = gen_load_fpr_F(dc, a->rs2);
@@ -XXX,XX +XXX,XX @@ static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src1 = gen_load_fpr_Q(dc, a->rs1);
     src2 = gen_load_fpr_Q(dc, a->rs2);
     func(src1, tcg_env, src1, src2);
@@ -XXX,XX +XXX,XX @@ static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src1 = gen_load_fpr_D(dc, a->rs1);
     src2 = gen_load_fpr_D(dc, a->rs2);
     dst = tcg_temp_new_i128();
@@ -XXX,XX +XXX,XX @@ static bool do_fcmps(DisasContext *dc, arg_FCMPs *a, bool e)
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src1 = gen_load_fpr_F(dc, a->rs1);
     src2 = gen_load_fpr_F(dc, a->rs2);
     if (e) {
@@ -XXX,XX +XXX,XX @@ static bool do_fcmpd(DisasContext *dc, arg_FCMPd *a, bool e)
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src1 = gen_load_fpr_D(dc, a->rs1);
     src2 = gen_load_fpr_D(dc, a->rs2);
     if (e) {
@@ -XXX,XX +XXX,XX @@ static bool do_fcmpq(DisasContext *dc, arg_FCMPq *a, bool e)
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src1 = gen_load_fpr_Q(dc, a->rs1);
     src2 = gen_load_fpr_Q(dc, a->rs2);
     if (e) {
-- 
2.34.1

If an exception is to be raised, the destination fp register
should be unmodified.  The current implementation is incorrect,
in that double results will be written back before calling
gen_helper_check_ieee_exceptions, despite the placement of
gen_store_fpr_D, since gen_dest_fpr_D returns cpu_fpr[].

We can simplify the entire implementation by having each
FPOp helper call check_ieee_exceptions.  For the moment this
requires that all FPop helpers write to the TCG global cpu_fsr,
so remove TCG_CALL_NO_WG from the DEF_HELPER_FLAGS_*.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-19-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 119 +++++++++++----------
 target/sparc/fop_helper.c | 215 ++++++++++++++++++++++++++++----------
 target/sparc/translate.c  |  14 ---
 3 files changed, 219 insertions(+), 129 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(tsubcctv, tl, env, tl, tl)
 DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
 DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
 #endif
-DEF_HELPER_FLAGS_1(check_ieee_exceptions, TCG_CALL_NO_WG, tl, env)
 DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
 DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
-DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_RWG, f32, env, f32)
-DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_RWG, f64, env, f64)
-DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_RWG, i128, env, i128)
-DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, tl, env, i128, i128)
+DEF_HELPER_FLAGS_2(fsqrts, 0, f32, env, f32)
+DEF_HELPER_FLAGS_2(fsqrtd, 0, f64, env, f64)
+DEF_HELPER_FLAGS_2(fsqrtq, 0, i128, env, i128)
+DEF_HELPER_FLAGS_3(fcmps, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpd, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpes, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmped, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpq, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq, 0, tl, env, i128, i128)
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpd_fcc1, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpd_fcc2, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpd_fcc3, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpes_fcc1, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpes_fcc2, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpq_fcc1, TCG_CALL_NO_WG, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpq_fcc2, TCG_CALL_NO_WG, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpq_fcc3, TCG_CALL_NO_WG, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc1, TCG_CALL_NO_WG, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc2, TCG_CALL_NO_WG, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc3, TCG_CALL_NO_WG, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmps_fcc1, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmps_fcc2, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmps_fcc3, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpd_fcc1, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpd_fcc2, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpd_fcc3, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpes_fcc1, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpes_fcc2, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpes_fcc3, 0, tl, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmped_fcc1, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmped_fcc2, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmped_fcc3, 0, tl, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpq_fcc1, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpq_fcc2, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpq_fcc3, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq_fcc1, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq_fcc2, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq_fcc3, 0, tl, env, i128, i128)
 #endif
 DEF_HELPER_2(raise_exception, noreturn, env, int)
 
-DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_RWG, f64, env, f64, f64)
-DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_RWG, f64, env, f64, f64)
-DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_RWG, f64, env, f64, f64)
-DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_RWG, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(faddd, 0, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(fsubd, 0, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(fmuld, 0, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(fdivd, 0, f64, env, f64, f64)
 
-DEF_HELPER_FLAGS_3(faddq, TCG_CALL_NO_RWG, i128, env, i128, i128)
-DEF_HELPER_FLAGS_3(fsubq, TCG_CALL_NO_RWG, i128, env, i128, i128)
-DEF_HELPER_FLAGS_3(fmulq, TCG_CALL_NO_RWG, i128, env, i128, i128)
-DEF_HELPER_FLAGS_3(fdivq, TCG_CALL_NO_RWG, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(faddq, 0, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fsubq, 0, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fmulq, 0, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fdivq, 0, i128, env, i128, i128)
 
-DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_RWG, f32, env, f32, f32)
-DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_RWG, f32, env, f32, f32)
-DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_RWG, f32, env, f32, f32)
-DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_RWG, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fadds, 0, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fsubs, 0, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fmuls, 0, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fdivs, 0, f32, env, f32, f32)
 
-DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_RWG, f64, env, f32, f32)
-DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_RWG, i128, env, f64, f64)
+DEF_HELPER_FLAGS_3(fsmuld, 0, f64, env, f32, f32)
+DEF_HELPER_FLAGS_3(fdmulq, 0, i128, env, f64, f64)
 
-DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_RWG_SE, f64, env, s32)
-DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_RWG, i128, env, s32)
+DEF_HELPER_FLAGS_2(fitod, 0, f64, env, s32)
+DEF_HELPER_FLAGS_2(fitoq, 0, i128, env, s32)
 
-DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_RWG, f32, env, s32)
+DEF_HELPER_FLAGS_2(fitos, 0, f32, env, s32)
 
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_RWG, f32, env, s64)
-DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_RWG, f64, env, s64)
-DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_RWG, i128, env, s64)
+DEF_HELPER_FLAGS_2(fxtos, 0, f32, env, s64)
+DEF_HELPER_FLAGS_2(fxtod, 0, f64, env, s64)
+DEF_HELPER_FLAGS_2(fxtoq, 0, i128, env, s64)
 #endif
-DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_RWG, f32, env, f64)
-DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_RWG, f64, env, f32)
-DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_RWG, f32, env, i128)
-DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_RWG, i128, env, f32)
-DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_RWG, f64, env, i128)
-DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_RWG, i128, env, f64)
-DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_RWG, s32, env, f32)
-DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_RWG, s32, env, f64)
-DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_RWG, s32, env, i128)
+DEF_HELPER_FLAGS_2(fdtos, 0, f32, env, f64)
+DEF_HELPER_FLAGS_2(fstod, 0, f64, env, f32)
+DEF_HELPER_FLAGS_2(fqtos, 0, f32, env, i128)
+DEF_HELPER_FLAGS_2(fstoq, 0, i128, env, f32)
+DEF_HELPER_FLAGS_2(fqtod, 0, f64, env, i128)
+DEF_HELPER_FLAGS_2(fdtoq, 0, i128, env, f64)
+DEF_HELPER_FLAGS_2(fstoi, 0, s32, env, f32)
+DEF_HELPER_FLAGS_2(fdtoi, 0, s32, env, f64)
+DEF_HELPER_FLAGS_2(fqtoi, 0, s32, env, i128)
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_2(fstox, TCG_CALL_NO_RWG, s64, env, f32)
-DEF_HELPER_FLAGS_2(fdtox, TCG_CALL_NO_RWG, s64, env, f64)
-DEF_HELPER_FLAGS_2(fqtox, TCG_CALL_NO_RWG, s64, env, i128)
+DEF_HELPER_FLAGS_2(fstox, 0, s64, env, f32)
+DEF_HELPER_FLAGS_2(fdtox, 0, s64, env, f64)
+DEF_HELPER_FLAGS_2(fqtox, 0, s64, env, i128)
 
 DEF_HELPER_FLAGS_2(fpmerge, TCG_CALL_NO_RWG_SE, i64, i64, i64)
 DEF_HELPER_FLAGS_2(fmul8x16, TCG_CALL_NO_RWG_SE, i64, i64, i64)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ static inline Int128 f128_ret(float128 f)
     return u.i;
 }
 
-static target_ulong do_check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
+static void check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
 {
     target_ulong status = get_float_exception_flags(&env->fp_status);
     target_ulong fsr = env->fsr;
@@ -XXX,XX +XXX,XX @@ static target_ulong do_check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
         }
     }
 
-    return fsr;
+    env->fsr = fsr;
 }
 
-target_ulong helper_check_ieee_exceptions(CPUSPARCState *env)
+float32 helper_fadds(CPUSPARCState *env, float32 src1, float32 src2)
 {
-    return do_check_ieee_exceptions(env, GETPC());
+    float32 ret = float32_add(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
-#define F_BINOP(name)                                                \
-    float32 helper_f ## name ## s (CPUSPARCState *env, float32 src1, \
-                                   float32 src2)                     \
-    {                                                                \
-        return float32_ ## name (src1, src2, &env->fp_status);       \
-    }                                                                \
-    float64 helper_f ## name ## d (CPUSPARCState * env, float64 src1,\
-                                   float64 src2)                     \
-    {                                                                \
-        return float64_ ## name (src1, src2, &env->fp_status);       \
-    }                                                                \
-    Int128 helper_f ## name ## q(CPUSPARCState * env, Int128 src1,   \
-                                 Int128 src2)                        \
-    {                                                                \
-        return f128_ret(float128_ ## name (f128_in(src1), f128_in(src2), \
-                                           &env->fp_status));        \
-    }
+float32 helper_fsubs(CPUSPARCState *env, float32 src1, float32 src2)
+{
+    float32 ret = float32_sub(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
+}
 
-F_BINOP(add);
-F_BINOP(sub);
-F_BINOP(mul);
-F_BINOP(div);
-#undef F_BINOP
+float32 helper_fmuls(CPUSPARCState *env, float32 src1, float32 src2)
+{
+    float32 ret = float32_mul(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
+}
+
+float32 helper_fdivs(CPUSPARCState *env, float32 src1, float32 src2)
+{
+    float32 ret = float32_div(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
+}
+
+float64 helper_faddd(CPUSPARCState *env, float64 src1, float64 src2)
+{
+    float64 ret = float64_add(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
+}
+
+float64 helper_fsubd(CPUSPARCState *env, float64 src1, float64 src2)
+{
+    float64 ret = float64_sub(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
+}
+
+float64 helper_fmuld(CPUSPARCState *env, float64 src1, float64 src2)
+{
+    float64 ret = float64_mul(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
+}
+
+float64 helper_fdivd(CPUSPARCState *env, float64 src1, float64 src2)
+{
+    float64 ret = float64_div(src1, src2, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
+}
+
+Int128 helper_faddq(CPUSPARCState *env, Int128 src1, Int128 src2)
+{
+    float128 ret = float128_add(f128_in(src1), f128_in(src2), &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
+}
+
+Int128 helper_fsubq(CPUSPARCState *env, Int128 src1, Int128 src2)
+{
+    float128 ret = float128_sub(f128_in(src1), f128_in(src2), &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
+}
+
+Int128 helper_fmulq(CPUSPARCState *env, Int128 src1, Int128 src2)
+{
+    float128 ret = float128_mul(f128_in(src1), f128_in(src2), &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
+}
+
+Int128 helper_fdivq(CPUSPARCState *env, Int128 src1, Int128 src2)
+{
+    float128 ret = float128_div(f128_in(src1), f128_in(src2), &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
+}
 
 float64 helper_fsmuld(CPUSPARCState *env, float32 src1, float32 src2)
 {
-    return float64_mul(float32_to_float64(src1, &env->fp_status),
-                       float32_to_float64(src2, &env->fp_status),
-                       &env->fp_status);
+    float64 ret = float64_mul(float32_to_float64(src1, &env->fp_status),
+                              float32_to_float64(src2, &env->fp_status),
+                              &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 Int128 helper_fdmulq(CPUSPARCState *env, float64 src1, float64 src2)
 {
-    return f128_ret(float128_mul(float64_to_float128(src1, &env->fp_status),
-                                 float64_to_float128(src2, &env->fp_status),
-                                 &env->fp_status));
+    float128 ret = float128_mul(float64_to_float128(src1, &env->fp_status),
+                                float64_to_float128(src2, &env->fp_status),
+                                &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
 }
 
 /* Integer to float conversion.  */
 float32 helper_fitos(CPUSPARCState *env, int32_t src)
 {
-    return int32_to_float32(src, &env->fp_status);
+    float32 ret = int32_to_float32(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 float64 helper_fitod(CPUSPARCState *env, int32_t src)
 {
-    return int32_to_float64(src, &env->fp_status);
+    float64 ret = int32_to_float64(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 Int128 helper_fitoq(CPUSPARCState *env, int32_t src)
 {
-    return f128_ret(int32_to_float128(src, &env->fp_status));
+    float128 ret = int32_to_float128(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
 }
 
 #ifdef TARGET_SPARC64
 float32 helper_fxtos(CPUSPARCState *env, int64_t src)
 {
-    return int64_to_float32(src, &env->fp_status);
+    float32 ret = int64_to_float32(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 float64 helper_fxtod(CPUSPARCState *env, int64_t src)
 {
-    return int64_to_float64(src, &env->fp_status);
+    float64 ret = int64_to_float64(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 Int128 helper_fxtoq(CPUSPARCState *env, int64_t src)
 {
-    return f128_ret(int64_to_float128(src, &env->fp_status));
+    float128 ret = int64_to_float128(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
 }
 #endif
 
 /* floating point conversion */
 float32 helper_fdtos(CPUSPARCState *env, float64 src)
 {
-    return float64_to_float32(src, &env->fp_status);
+    float32 ret = float64_to_float32(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 float64 helper_fstod(CPUSPARCState *env, float32 src)
 {
-    return float32_to_float64(src, &env->fp_status);
+    float64 ret = float32_to_float64(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 float32 helper_fqtos(CPUSPARCState *env, Int128 src)
 {
-    return float128_to_float32(f128_in(src), &env->fp_status);
+    float32 ret = float128_to_float32(f128_in(src), &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 Int128 helper_fstoq(CPUSPARCState *env, float32 src)
 {
-    return f128_ret(float32_to_float128(src, &env->fp_status));
+    float128 ret = float32_to_float128(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
 }
 
 float64 helper_fqtod(CPUSPARCState *env, Int128 src)
 {
-    return float128_to_float64(f128_in(src), &env->fp_status);
+    float64 ret = float128_to_float64(f128_in(src), &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 Int128 helper_fdtoq(CPUSPARCState *env, float64 src)
 {
-    return f128_ret(float64_to_float128(src, &env->fp_status));
+    float128 ret = float64_to_float128(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
 }
 
 /* Float to integer conversion.  */
 int32_t helper_fstoi(CPUSPARCState *env, float32 src)
 {
-    return float32_to_int32_round_to_zero(src, &env->fp_status);
+    int32_t ret = float32_to_int32_round_to_zero(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 int32_t helper_fdtoi(CPUSPARCState *env, float64 src)
 {
-    return float64_to_int32_round_to_zero(src, &env->fp_status);
+    int32_t ret = float64_to_int32_round_to_zero(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 int32_t helper_fqtoi(CPUSPARCState *env, Int128 src)
 {
-    return float128_to_int32_round_to_zero(f128_in(src), &env->fp_status);
+    int32_t ret = float128_to_int32_round_to_zero(f128_in(src),
+                                                  &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 #ifdef TARGET_SPARC64
 int64_t helper_fstox(CPUSPARCState *env, float32 src)
 {
-    return float32_to_int64_round_to_zero(src, &env->fp_status);
+    int64_t ret = float32_to_int64_round_to_zero(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 int64_t helper_fdtox(CPUSPARCState *env, float64 src)
 {
-    return float64_to_int64_round_to_zero(src, &env->fp_status);
+    int64_t ret = float64_to_int64_round_to_zero(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 int64_t helper_fqtox(CPUSPARCState *env, Int128 src)
 {
-    return float128_to_int64_round_to_zero(f128_in(src), &env->fp_status);
+    int64_t ret = float128_to_int64_round_to_zero(f128_in(src),
+                                                  &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 #endif
 
 float32 helper_fsqrts(CPUSPARCState *env, float32 src)
 {
-    return float32_sqrt(src, &env->fp_status);
+    float32 ret = float32_sqrt(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 float64 helper_fsqrtd(CPUSPARCState *env, float64 src)
 {
-    return float64_sqrt(src, &env->fp_status);
+    float64 ret = float64_sqrt(src, &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return ret;
 }
 
 Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
 {
-    return f128_ret(float128_sqrt(f128_in(src), &env->fp_status));
+    float128 ret = float128_sqrt(f128_in(src), &env->fp_status);
+    check_ieee_exceptions(env, GETPC());
+    return f128_ret(ret);
 }
 
 #define GEN_FCMP(name, size, FS, E)                                     \
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
             ret = glue(size, _compare_quiet)(reg1, reg2,                \
                                              &env->fp_status);          \
         }                                                               \
-        fsr = do_check_ieee_exceptions(env, GETPC());                   \
+        check_ieee_exceptions(env, GETPC());                            \
+        fsr = env->fsr;                                                 \
         switch (ret) {                                                  \
         case float_relation_unordered:                                  \
             fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
             ret = glue(size, _compare_quiet)(src1, src2,                \
                                              &env->fp_status);          \
         }                                                               \
-        fsr = do_check_ieee_exceptions(env, GETPC());                   \
+        check_ieee_exceptions(env, GETPC());                            \
+        fsr = env->fsr;                                                 \
         switch (ret) {                                                  \
         case float_relation_unordered:                                  \
             fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool do_env_ff(DisasContext *dc, arg_r_r *a,
 
     tmp = gen_load_fpr_F(dc, a->rs);
     func(tmp, tcg_env, tmp);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_F(dc, a->rd, tmp);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_fd(DisasContext *dc, arg_r_r *a,
     dst = tcg_temp_new_i32();
     src = gen_load_fpr_D(dc, a->rs);
     func(dst, tcg_env, src);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_F(dc, a->rd, dst);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_dd(DisasContext *dc, arg_r_r *a,
     dst = gen_dest_fpr_D(dc, a->rd);
     src = gen_load_fpr_D(dc, a->rs);
     func(dst, tcg_env, src);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_D(dc, a->rd, dst);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_df(DisasContext *dc, arg_r_r *a,
     dst = gen_dest_fpr_D(dc, a->rd);
     src = gen_load_fpr_F(dc, a->rs);
     func(dst, tcg_env, src);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_D(dc, a->rd, dst);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_qq(DisasContext *dc, arg_r_r *a,
 
     t = gen_load_fpr_Q(dc, a->rs);
     func(t, tcg_env, t);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_Q(dc, a->rd, t);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_fq(DisasContext *dc, arg_r_r *a,
     src = gen_load_fpr_Q(dc, a->rs);
     dst = tcg_temp_new_i32();
     func(dst, tcg_env, src);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_F(dc, a->rd, dst);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_dq(DisasContext *dc, arg_r_r *a,
     src = gen_load_fpr_Q(dc, a->rs);
     dst = gen_dest_fpr_D(dc, a->rd);
     func(dst, tcg_env, src);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_D(dc, a->rd, dst);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_qf(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src = gen_load_fpr_F(dc, a->rs);
     dst = tcg_temp_new_i128();
     func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_qd(DisasContext *dc, arg_r_r *a,
         return true;
     }
 
-    gen_op_clear_ieee_excp_and_FTT();
     src = gen_load_fpr_D(dc, a->rs);
     dst = tcg_temp_new_i128();
     func(dst, tcg_env, src);
@@ -XXX,XX +XXX,XX @@ static bool do_env_fff(DisasContext *dc, arg_r_r_r *a,
     src1 = gen_load_fpr_F(dc, a->rs1);
     src2 = gen_load_fpr_F(dc, a->rs2);
     func(src1, tcg_env, src1, src2);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_F(dc, a->rd, src1);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_ddd(DisasContext *dc, arg_r_r_r *a,
     src1 = gen_load_fpr_D(dc, a->rs1);
     src2 = gen_load_fpr_D(dc, a->rs2);
     func(dst, tcg_env, src1, src2);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_D(dc, a->rd, dst);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool trans_FsMULd(DisasContext *dc, arg_r_r_r *a)
     src1 = gen_load_fpr_F(dc, a->rs1);
     src2 = gen_load_fpr_F(dc, a->rs2);
     gen_helper_fsmuld(dst, tcg_env, src1, src2);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_D(dc, a->rd, dst);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_env_qqq(DisasContext *dc, arg_r_r_r *a,
     src1 = gen_load_fpr_Q(dc, a->rs1);
     src2 = gen_load_fpr_Q(dc, a->rs2);
     func(src1, tcg_env, src1, src2);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_Q(dc, a->rd, src1);
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool trans_FdMULq(DisasContext *dc, arg_r_r_r *a)
     src2 = gen_load_fpr_D(dc, a->rs2);
     dst = tcg_temp_new_i128();
     gen_helper_fdmulq(dst, tcg_env, src1, src2);
-    gen_helper_check_ieee_exceptions(cpu_fsr, tcg_env);
     gen_store_fpr_Q(dc, a->rd, dst);
     return advance_pc(dc);
 }
-- 
2.34.1

These two fields are adjusted by all FPop insns.
Having them separate makes it easier to set without masking.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-20-richard.henderson@linaro.org>
---
 target/sparc/cpu.h        |  7 +++++-
 target/sparc/helper.h     |  2 +-
 target/sparc/fop_helper.c | 46 ++++++++++++++++++---------------------
 target/sparc/translate.c  | 31 ++++++++++++++++----------
 4 files changed, 48 insertions(+), 38 deletions(-)

diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 #define FSR_DZM   (1ULL << 24)
 #define FSR_NXM   (1ULL << 23)
 #define FSR_TEM_MASK (FSR_NVM | FSR_OFM | FSR_UFM | FSR_DZM | FSR_NXM)
+#define FSR_TEM_SHIFT  23
 
 #define FSR_NVA   (1ULL << 9)
 #define FSR_OFA   (1ULL << 8)
@@ -XXX,XX +XXX,XX @@ enum {
 #define FSR_DZA   (1ULL << 6)
 #define FSR_NXA   (1ULL << 5)
 #define FSR_AEXC_MASK (FSR_NVA | FSR_OFA | FSR_UFA | FSR_DZA | FSR_NXA)
+#define FSR_AEXC_SHIFT 5
 
 #define FSR_NVC   (1ULL << 4)
 #define FSR_OFC   (1ULL << 3)
@@ -XXX,XX +XXX,XX @@ struct CPUArchState {
     target_ulong cond; /* conditional branch result (XXX: save it in a
                           temporary register when possible) */
 
-    target_ulong fsr;      /* FPU state register */
+    /* FPU State Register, in parts */
+    target_ulong fsr;       /* rm, tem, aexc, fcc* */
+    uint32_t fsr_cexc_ftt;  /* cexc, ftt */
+
     CPU_DoubleU fpr[TARGET_DPREGS];  /* floating point registers */
     uint32_t cwp;      /* index of current register window (extracted
                           from PSR) */
diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
 DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
 #endif
 DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
-DEF_HELPER_FLAGS_2(set_fsr, TCG_CALL_NO_RWG, void, env, tl)
+DEF_HELPER_FLAGS_2(set_fsr_noftt, 0, void, env, tl)
 DEF_HELPER_FLAGS_2(fsqrts, 0, f32, env, f32)
 DEF_HELPER_FLAGS_2(fsqrtd, 0, f64, env, f64)
 DEF_HELPER_FLAGS_2(fsqrtq, 0, i128, env, i128)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ static inline Int128 f128_ret(float128 f)
 static void check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
 {
     target_ulong status = get_float_exception_flags(&env->fp_status);
-    target_ulong fsr = env->fsr;
-
-    fsr &= FSR_FTT_CEXC_NMASK;
+    uint32_t cexc = 0;
 
     if (unlikely(status)) {
         /* Keep exception flags clear for next time.  */
@@ -XXX,XX +XXX,XX @@ static void check_ieee_exceptions(CPUSPARCState *env, uintptr_t ra)
 
         /* Copy IEEE 754 flags into FSR */
         if (status & float_flag_invalid) {
-            fsr |= FSR_NVC;
+            cexc |= FSR_NVC;
         }
         if (status & float_flag_overflow) {
-            fsr |= FSR_OFC;
+            cexc |= FSR_OFC;
         }
         if (status & float_flag_underflow) {
-            fsr |= FSR_UFC;
+            cexc |= FSR_UFC;
         }
         if (status & float_flag_divbyzero) {
-            fsr |= FSR_DZC;
+            cexc |= FSR_DZC;
         }
         if (status & float_flag_inexact) {
-            fsr |= FSR_NXC;
+            cexc |= FSR_NXC;
         }
 
-        if ((fsr & FSR_CEXC_MASK) & ((fsr & FSR_TEM_MASK) >> 23)) {
-            CPUState *cs = env_cpu(env);
-
-            /* Unmasked exception, generate a trap.  Note that while
-               the helper is marked as NO_WG, we can get away with
-               writing to cpu state along the exception path, since
-               TCG generated code will never see the write.  */
-            env->fsr = fsr | FSR_FTT_IEEE_EXCP;
-            cs->exception_index = TT_FP_EXCP;
-            cpu_loop_exit_restore(cs, ra);
-        } else {
-            /* Accumulate exceptions */
-            fsr |= (fsr & FSR_CEXC_MASK) << 5;
+        if (cexc & (env->fsr >> FSR_TEM_SHIFT)) {
+            /* Unmasked exception, generate an IEEE trap. */
+            env->fsr_cexc_ftt = cexc | FSR_FTT_IEEE_EXCP;
+            cpu_raise_exception_ra(env, TT_FP_EXCP, ra);
         }
+
+        /* Accumulate exceptions */
+        env->fsr |= cexc << FSR_AEXC_SHIFT;
     }
 
-    env->fsr = fsr;
+    /* No trap, so FTT is cleared. */
+    env->fsr_cexc_ftt = cexc;
 }
 
 float32 helper_fadds(CPUSPARCState *env, float32 src1, float32 src2)
@@ -XXX,XX +XXX,XX @@ GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
 
 target_ulong cpu_get_fsr(CPUSPARCState *env)
 {
-    target_ulong fsr = env->fsr;
+    target_ulong fsr = env->fsr | env->fsr_cexc_ftt;
 
     /* VER is kept completely separate until re-assembly. */
     fsr |= env->def.fpu_version;
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
 {
     int rnd_mode;
 
-    env->fsr = fsr & ~FSR_VER_MASK;
+    env->fsr = fsr & ~(FSR_VER_MASK | FSR_CEXC_MASK | FSR_FTT_MASK);
 
     switch (fsr & FSR_RD_MASK) {
     case FSR_RD_NEAREST:
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
 
 void cpu_put_fsr(CPUSPARCState *env, target_ulong fsr)
 {
+    env->fsr_cexc_ftt = fsr & (FSR_CEXC_MASK | FSR_FTT_MASK);
     set_fsr_nonsplit(env, fsr);
 }
 
-void helper_set_fsr(CPUSPARCState *env, target_ulong fsr)
+void helper_set_fsr_noftt(CPUSPARCState *env, target_ulong fsr)
 {
+    env->fsr_cexc_ftt &= FSR_FTT_MASK;
+    env->fsr_cexc_ftt |= fsr & FSR_CEXC_MASK;
     set_fsr_nonsplit(env, fsr);
 }
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static bool gen_compare_reg(DisasCompare *cmp, int cond, TCGv r_src)
 
 static void gen_op_clear_ieee_excp_and_FTT(void)
 {
-    tcg_gen_andi_tl(cpu_fsr, cpu_fsr, FSR_FTT_CEXC_NMASK);
+    tcg_gen_st_i32(tcg_constant_i32(0), tcg_env,
+                   offsetof(CPUSPARCState, fsr_cexc_ftt));
 }
 
 static void gen_op_fmovs(TCGv_i32 dst, TCGv_i32 src)
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 }
 #endif
 
-static void gen_op_fpexception_im(DisasContext *dc, int fsr_flags)
+static void gen_op_fpexception_im(DisasContext *dc, int ftt)
 {
-    tcg_gen_andi_tl(cpu_fsr, cpu_fsr, FSR_FTT_NMASK);
-    tcg_gen_ori_tl(cpu_fsr, cpu_fsr, fsr_flags);
+    /*
+     * CEXC is only set when succesfully completing an FPop,
+     * or when raising FSR_FTT_IEEE_EXCP, i.e. check_ieee_exception.
+     * Thus we can simply store FTT into this field.
+     */
+    tcg_gen_st_i32(tcg_constant_i32(ftt), tcg_env,
+                   offsetof(CPUSPARCState, fsr_cexc_ftt));
     gen_exception(dc, TT_FP_EXCP);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_STDFQ(DisasContext *dc, arg_STDFQ *a)
 static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
                      target_ulong new_mask, target_ulong old_mask)
 {
-    TCGv tmp, addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
+    TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
+    TCGv tnew, told;
+
     if (addr == NULL) {
         return false;
     }
     if (gen_trap_ifnofpu(dc)) {
         return true;
     }
-    tmp = tcg_temp_new();
-    tcg_gen_qemu_ld_tl(tmp, addr, dc->mem_idx, mop | MO_ALIGN);
-    tcg_gen_andi_tl(tmp, tmp, new_mask);
-    tcg_gen_andi_tl(cpu_fsr, cpu_fsr, old_mask);
-    tcg_gen_or_tl(cpu_fsr, cpu_fsr, tmp);
-    gen_helper_set_fsr(tcg_env, cpu_fsr);
+    tnew = tcg_temp_new();
+    told = tcg_temp_new();
+    tcg_gen_qemu_ld_tl(tnew, addr, dc->mem_idx, mop | MO_ALIGN);
+    tcg_gen_andi_tl(tnew, tnew, new_mask);
+    tcg_gen_andi_tl(told, cpu_fsr, old_mask);
+    tcg_gen_or_tl(tnew, tnew, told);
+    gen_helper_set_fsr_noftt(tcg_env, tnew);
     return advance_pc(dc);
 }
 
-- 
2.34.1

Drop this field as a tcg global, loading it explicitly in the
few places required.  This means that all FPop helpers may
once again be TCG_CALL_NO_WG.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-21-richard.henderson@linaro.org>
---
 target/sparc/helper.h     | 120 +++++++++++++++++++-------------------
 target/sparc/fop_helper.c |   9 ++-
 target/sparc/translate.c  |  98 ++++++++++++++++---------------
 3 files changed, 114 insertions(+), 113 deletions(-)

diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
 DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
 #endif
 DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
-DEF_HELPER_FLAGS_2(set_fsr_noftt, 0, void, env, tl)
-DEF_HELPER_FLAGS_2(fsqrts, 0, f32, env, f32)
-DEF_HELPER_FLAGS_2(fsqrtd, 0, f64, env, f64)
-DEF_HELPER_FLAGS_2(fsqrtq, 0, i128, env, i128)
-DEF_HELPER_FLAGS_3(fcmps, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpd, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpes, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmped, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpq, 0, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_2(set_fsr_noftt, TCG_CALL_NO_RWG, void, env, tl)
+DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_WG, f32, env, f32)
+DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_WG, f64, env, f64)
+DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_WG, i128, env, i128)
+DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, void, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, void, env, i128, i128)
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_3(fcmps_fcc1, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmps_fcc2, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmps_fcc3, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpd_fcc1, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpd_fcc2, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpd_fcc3, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpes_fcc1, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpes_fcc2, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpes_fcc3, 0, tl, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmped_fcc1, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmped_fcc2, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmped_fcc3, 0, tl, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpq_fcc1, 0, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpq_fcc2, 0, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpq_fcc3, 0, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc1, 0, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc2, 0, tl, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc3, 0, tl, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpd_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpd_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpd_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpes_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpes_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
 #endif
 DEF_HELPER_2(raise_exception, noreturn, env, int)
 
-DEF_HELPER_FLAGS_3(faddd, 0, f64, env, f64, f64)
-DEF_HELPER_FLAGS_3(fsubd, 0, f64, env, f64, f64)
-DEF_HELPER_FLAGS_3(fmuld, 0, f64, env, f64, f64)
-DEF_HELPER_FLAGS_3(fdivd, 0, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(fsubd, TCG_CALL_NO_WG, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(fmuld, TCG_CALL_NO_WG, f64, env, f64, f64)
+DEF_HELPER_FLAGS_3(fdivd, TCG_CALL_NO_WG, f64, env, f64, f64)
 
-DEF_HELPER_FLAGS_3(faddq, 0, i128, env, i128, i128)
-DEF_HELPER_FLAGS_3(fsubq, 0, i128, env, i128, i128)
-DEF_HELPER_FLAGS_3(fmulq, 0, i128, env, i128, i128)
-DEF_HELPER_FLAGS_3(fdivq, 0, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(faddq, TCG_CALL_NO_WG, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fsubq, TCG_CALL_NO_WG, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fmulq, TCG_CALL_NO_WG, i128, env, i128, i128)
+DEF_HELPER_FLAGS_3(fdivq, TCG_CALL_NO_WG, i128, env, i128, i128)
 
-DEF_HELPER_FLAGS_3(fadds, 0, f32, env, f32, f32)
-DEF_HELPER_FLAGS_3(fsubs, 0, f32, env, f32, f32)
-DEF_HELPER_FLAGS_3(fmuls, 0, f32, env, f32, f32)
-DEF_HELPER_FLAGS_3(fdivs, 0, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fadds, TCG_CALL_NO_WG, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fsubs, TCG_CALL_NO_WG, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fmuls, TCG_CALL_NO_WG, f32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fdivs, TCG_CALL_NO_WG, f32, env, f32, f32)
 
-DEF_HELPER_FLAGS_3(fsmuld, 0, f64, env, f32, f32)
-DEF_HELPER_FLAGS_3(fdmulq, 0, i128, env, f64, f64)
+DEF_HELPER_FLAGS_3(fsmuld, TCG_CALL_NO_WG, f64, env, f32, f32)
+DEF_HELPER_FLAGS_3(fdmulq, TCG_CALL_NO_WG, i128, env, f64, f64)
 
-DEF_HELPER_FLAGS_2(fitod, 0, f64, env, s32)
-DEF_HELPER_FLAGS_2(fitoq, 0, i128, env, s32)
+DEF_HELPER_FLAGS_2(fitod, TCG_CALL_NO_WG, f64, env, s32)
+DEF_HELPER_FLAGS_2(fitoq, TCG_CALL_NO_WG, i128, env, s32)
 
-DEF_HELPER_FLAGS_2(fitos, 0, f32, env, s32)
+DEF_HELPER_FLAGS_2(fitos, TCG_CALL_NO_WG, f32, env, s32)
 
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_2(fxtos, 0, f32, env, s64)
-DEF_HELPER_FLAGS_2(fxtod, 0, f64, env, s64)
-DEF_HELPER_FLAGS_2(fxtoq, 0, i128, env, s64)
+DEF_HELPER_FLAGS_2(fxtos, TCG_CALL_NO_WG, f32, env, s64)
+DEF_HELPER_FLAGS_2(fxtod, TCG_CALL_NO_WG, f64, env, s64)
+DEF_HELPER_FLAGS_2(fxtoq, TCG_CALL_NO_WG, i128, env, s64)
 #endif
-DEF_HELPER_FLAGS_2(fdtos, 0, f32, env, f64)
-DEF_HELPER_FLAGS_2(fstod, 0, f64, env, f32)
-DEF_HELPER_FLAGS_2(fqtos, 0, f32, env, i128)
-DEF_HELPER_FLAGS_2(fstoq, 0, i128, env, f32)
-DEF_HELPER_FLAGS_2(fqtod, 0, f64, env, i128)
-DEF_HELPER_FLAGS_2(fdtoq, 0, i128, env, f64)
-DEF_HELPER_FLAGS_2(fstoi, 0, s32, env, f32)
-DEF_HELPER_FLAGS_2(fdtoi, 0, s32, env, f64)
-DEF_HELPER_FLAGS_2(fqtoi, 0, s32, env, i128)
+DEF_HELPER_FLAGS_2(fdtos, TCG_CALL_NO_WG, f32, env, f64)
+DEF_HELPER_FLAGS_2(fstod, TCG_CALL_NO_WG, f64, env, f32)
+DEF_HELPER_FLAGS_2(fqtos, TCG_CALL_NO_WG, f32, env, i128)
+DEF_HELPER_FLAGS_2(fstoq, TCG_CALL_NO_WG, i128, env, f32)
+DEF_HELPER_FLAGS_2(fqtod, TCG_CALL_NO_WG, f64, env, i128)
+DEF_HELPER_FLAGS_2(fdtoq, TCG_CALL_NO_WG, i128, env, f64)
+DEF_HELPER_FLAGS_2(fstoi, TCG_CALL_NO_WG, s32, env, f32)
+DEF_HELPER_FLAGS_2(fdtoi, TCG_CALL_NO_WG, s32, env, f64)
+DEF_HELPER_FLAGS_2(fqtoi, TCG_CALL_NO_WG, s32, env, i128)
 #ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_2(fstox, 0, s64, env, f32)
-DEF_HELPER_FLAGS_2(fdtox, 0, s64, env, f64)
-DEF_HELPER_FLAGS_2(fqtox, 0, s64, env, i128)
+DEF_HELPER_FLAGS_2(fstox, TCG_CALL_NO_WG, s64, env, f32)
+DEF_HELPER_FLAGS_2(fdtox, TCG_CALL_NO_WG, s64, env, f64)
+DEF_HELPER_FLAGS_2(fqtox, TCG_CALL_NO_WG, s64, env, i128)
 
 DEF_HELPER_FLAGS_2(fpmerge, TCG_CALL_NO_RWG_SE, i64, i64, i64)
 DEF_HELPER_FLAGS_2(fmul8x16, TCG_CALL_NO_RWG_SE, i64, i64, i64)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
 }
 
 #define GEN_FCMP(name, size, FS, E)                                     \
-    target_ulong glue(helper_, name) (CPUSPARCState *env,               \
-                                      Int128 src1, Int128 src2)         \
+    void glue(helper_, name)(CPUSPARCState *env, Int128 src1, Int128 src2) \
     {                                                                   \
         float128 reg1 = f128_in(src1);                                  \
         float128 reg2 = f128_in(src2);                                  \
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
             fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
             break;                                                      \
         }                                                               \
-        return fsr;                                                     \
+        env->fsr = fsr;                                                 \
     }
 #define GEN_FCMP_T(name, size, FS, E)                                   \
-    target_ulong glue(helper_, name)(CPUSPARCState *env, size src1, size src2)\
+    void glue(helper_, name)(CPUSPARCState *env, size src1, size src2)  \
     {                                                                   \
         FloatRelation ret;                                              \
         target_ulong fsr;                                               \
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
             fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
             break;                                                      \
         }                                                               \
-        return fsr;                                                     \
+        env->fsr = fsr;                                                 \
     }
 
 GEN_FCMP_T(fcmps, float32, 0, 0);
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@
 
 /* global register indexes */
 static TCGv_ptr cpu_regwptr;
-static TCGv cpu_fsr, cpu_pc, cpu_npc;
+static TCGv cpu_pc, cpu_npc;
 static TCGv cpu_regs[32];
 static TCGv cpu_y;
 static TCGv cpu_tbr;
@@ -XXX,XX +XXX,XX @@ static void gen_compare(DisasCompare *cmp, bool xcc, unsigned int cond,
 static void gen_fcompare(DisasCompare *cmp, unsigned int cc, unsigned int cond)
 {
     unsigned int offset;
-    TCGv r_dst;
+    TCGv r_dst, fsr;
 
     /* For now we still generate a straight boolean result.  */
     cmp->cond = TCG_COND_NE;
@@ -XXX,XX +XXX,XX @@ static void gen_fcompare(DisasCompare *cmp, unsigned int cc, unsigned int cond)
         break;
     }
 
+    fsr = tcg_temp_new();
+    tcg_gen_ld_tl(fsr, tcg_env, offsetof(CPUSPARCState, fsr));
     switch (cond) {
     case 0x0:
         gen_op_eval_bn(r_dst);
         break;
     case 0x1:
-        gen_op_eval_fbne(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbne(r_dst, fsr, offset);
         break;
     case 0x2:
-        gen_op_eval_fblg(r_dst, cpu_fsr, offset);
+        gen_op_eval_fblg(r_dst, fsr, offset);
         break;
     case 0x3:
-        gen_op_eval_fbul(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbul(r_dst, fsr, offset);
         break;
     case 0x4:
-        gen_op_eval_fbl(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbl(r_dst, fsr, offset);
         break;
     case 0x5:
-        gen_op_eval_fbug(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbug(r_dst, fsr, offset);
         break;
     case 0x6:
-        gen_op_eval_fbg(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbg(r_dst, fsr, offset);
         break;
     case 0x7:
-        gen_op_eval_fbu(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbu(r_dst, fsr, offset);
         break;
     case 0x8:
         gen_op_eval_ba(r_dst);
         break;
     case 0x9:
-        gen_op_eval_fbe(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbe(r_dst, fsr, offset);
         break;
     case 0xa:
-        gen_op_eval_fbue(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbue(r_dst, fsr, offset);
         break;
     case 0xb:
-        gen_op_eval_fbge(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbge(r_dst, fsr, offset);
         break;
     case 0xc:
-        gen_op_eval_fbuge(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbuge(r_dst, fsr, offset);
         break;
     case 0xd:
-        gen_op_eval_fble(r_dst, cpu_fsr, offset);
+        gen_op_eval_fble(r_dst, fsr, offset);
         break;
     case 0xe:
-        gen_op_eval_fbule(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbule(r_dst, fsr, offset);
         break;
     case 0xf:
-        gen_op_eval_fbo(r_dst, cpu_fsr, offset);
+        gen_op_eval_fbo(r_dst, fsr, offset);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmps(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
 {
     switch (fccno) {
     case 0:
-        gen_helper_fcmps(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
         break;
     case 1:
-        gen_helper_fcmps_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmps_fcc1(tcg_env, r_rs1, r_rs2);
         break;
     case 2:
-        gen_helper_fcmps_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmps_fcc2(tcg_env, r_rs1, r_rs2);
         break;
     case 3:
-        gen_helper_fcmps_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmps_fcc3(tcg_env, r_rs1, r_rs2);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 {
     switch (fccno) {
     case 0:
-        gen_helper_fcmpd(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
         break;
     case 1:
-        gen_helper_fcmpd_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpd_fcc1(tcg_env, r_rs1, r_rs2);
         break;
     case 2:
-        gen_helper_fcmpd_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpd_fcc2(tcg_env, r_rs1, r_rs2);
         break;
     case 3:
-        gen_helper_fcmpd_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpd_fcc3(tcg_env, r_rs1, r_rs2);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 {
     switch (fccno) {
     case 0:
-        gen_helper_fcmpq(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
         break;
     case 1:
-        gen_helper_fcmpq_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpq_fcc1(tcg_env, r_rs1, r_rs2);
         break;
     case 2:
-        gen_helper_fcmpq_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpq_fcc2(tcg_env, r_rs1, r_rs2);
         break;
     case 3:
-        gen_helper_fcmpq_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpq_fcc3(tcg_env, r_rs1, r_rs2);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpes(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
 {
     switch (fccno) {
     case 0:
-        gen_helper_fcmpes(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
         break;
     case 1:
-        gen_helper_fcmpes_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpes_fcc1(tcg_env, r_rs1, r_rs2);
         break;
     case 2:
-        gen_helper_fcmpes_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpes_fcc2(tcg_env, r_rs1, r_rs2);
         break;
     case 3:
-        gen_helper_fcmpes_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpes_fcc3(tcg_env, r_rs1, r_rs2);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 {
     switch (fccno) {
     case 0:
-        gen_helper_fcmped(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
         break;
     case 1:
-        gen_helper_fcmped_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmped_fcc1(tcg_env, r_rs1, r_rs2);
         break;
     case 2:
-        gen_helper_fcmped_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmped_fcc2(tcg_env, r_rs1, r_rs2);
         break;
     case 3:
-        gen_helper_fcmped_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmped_fcc3(tcg_env, r_rs1, r_rs2);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 {
     switch (fccno) {
     case 0:
-        gen_helper_fcmpeq(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
         break;
     case 1:
-        gen_helper_fcmpeq_fcc1(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpeq_fcc1(tcg_env, r_rs1, r_rs2);
         break;
     case 2:
-        gen_helper_fcmpeq_fcc2(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpeq_fcc2(tcg_env, r_rs1, r_rs2);
         break;
     case 3:
-        gen_helper_fcmpeq_fcc3(cpu_fsr, tcg_env, r_rs1, r_rs2);
+        gen_helper_fcmpeq_fcc3(tcg_env, r_rs1, r_rs2);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 
 static void gen_op_fcmps(int fccno, TCGv r_rs1, TCGv r_rs2)
 {
-    gen_helper_fcmps(cpu_fsr, tcg_env, r_rs1, r_rs2);
+    gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
 }
 
 static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 {
-    gen_helper_fcmpd(cpu_fsr, tcg_env, r_rs1, r_rs2);
+    gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
 }
 
 static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 {
-    gen_helper_fcmpq(cpu_fsr, tcg_env, r_rs1, r_rs2);
+    gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
 }
 
 static void gen_op_fcmpes(int fccno, TCGv r_rs1, TCGv r_rs2)
 {
-    gen_helper_fcmpes(cpu_fsr, tcg_env, r_rs1, r_rs2);
+    gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
 }
 
 static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
 {
-    gen_helper_fcmped(cpu_fsr, tcg_env, r_rs1, r_rs2);
+    gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
 }
 
 static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
 {
-    gen_helper_fcmpeq(cpu_fsr, tcg_env, r_rs1, r_rs2);
+    gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
 }
 #endif
 
@@ -XXX,XX +XXX,XX @@ static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
     tnew = tcg_temp_new();
     told = tcg_temp_new();
     tcg_gen_qemu_ld_tl(tnew, addr, dc->mem_idx, mop | MO_ALIGN);
+    tcg_gen_ld_tl(told, tcg_env, offsetof(CPUSPARCState, fsr));
     tcg_gen_andi_tl(tnew, tnew, new_mask);
-    tcg_gen_andi_tl(told, cpu_fsr, old_mask);
+    tcg_gen_andi_tl(told, told, old_mask);
     tcg_gen_or_tl(tnew, tnew, told);
     gen_helper_set_fsr_noftt(tcg_env, tnew);
     return advance_pc(dc);
@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
         { &cpu_icc_Z, offsetof(CPUSPARCState, icc_Z), "icc_Z" },
         { &cpu_icc_C, offsetof(CPUSPARCState, icc_C), "icc_C" },
         { &cpu_cond, offsetof(CPUSPARCState, cond), "cond" },
-        { &cpu_fsr, offsetof(CPUSPARCState, fsr), "fsr" },
         { &cpu_pc, offsetof(CPUSPARCState, pc), "pc" },
         { &cpu_npc, offsetof(CPUSPARCState, npc), "npc" },
         { &cpu_y, offsetof(CPUSPARCState, y), "y" },
-- 
2.34.1

Represent each fcc field separately from the rest of fsr.
This vastly simplifies floating-point comparisons.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Acked-by: Mark Cave-Ayland <mark.cave-ayland@ilande.co.uk>
Message-Id: <20231103173841.33651-22-richard.henderson@linaro.org>
---
 target/sparc/cpu.h        |  20 +-
 target/sparc/helper.h     |  34 +--
 target/sparc/fop_helper.c | 169 ++++++-------
 target/sparc/translate.c  | 503 +++++++++-----------------------------
 4 files changed, 201 insertions(+), 525 deletions(-)

diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@
 
 #if !defined(TARGET_SPARC64)
 #define TARGET_DPREGS 16
+#define TARGET_FCCREGS 1
 #else
 #define TARGET_DPREGS 32
+#define TARGET_FCCREGS 4
 #endif
 
 /*#define EXCP_INTERRUPT 0x100*/
@@ -XXX,XX +XXX,XX @@ enum {
 #ifdef TARGET_SPARC64
 #define FSR_FTT_NMASK      0xfffffffffffe3fffULL
 #define FSR_FTT_CEXC_NMASK 0xfffffffffffe3fe0ULL
-#define FSR_LDFSR_OLDMASK  0x0000003f000fc000ULL
-#define FSR_LDXFSR_MASK    0x0000003fcfc00fffULL
-#define FSR_LDXFSR_OLDMASK 0x00000000000fc000ULL
 #else
 #define FSR_FTT_NMASK      0xfffe3fffULL
 #define FSR_FTT_CEXC_NMASK 0xfffe3fe0ULL
-#define FSR_LDFSR_OLDMASK  0x000fc000ULL
 #endif
-#define FSR_LDFSR_MASK     0xcfc00fffULL
 #define FSR_FTT_IEEE_EXCP (1ULL << 14)
 #define FSR_FTT_UNIMPFPOP (3ULL << 14)
 #define FSR_FTT_SEQ_ERROR (4ULL << 14)
 #define FSR_FTT_INVAL_FPR (6ULL << 14)
 
-#define FSR_FCC1_SHIFT 11
-#define FSR_FCC1  (1ULL << FSR_FCC1_SHIFT)
-#define FSR_FCC0_SHIFT 10
-#define FSR_FCC0  (1ULL << FSR_FCC0_SHIFT)
+#define FSR_FCC0_SHIFT    10
+#define FSR_FCC1_SHIFT    32
+#define FSR_FCC2_SHIFT    34
+#define FSR_FCC3_SHIFT    36
 
 /* MMU */
 #define MMU_E     (1<<0)
@@ -XXX,XX +XXX,XX @@ struct CPUArchState {
                           temporary register when possible) */
 
     /* FPU State Register, in parts */
-    target_ulong fsr;       /* rm, tem, aexc, fcc* */
-    uint32_t fsr_cexc_ftt;  /* cexc, ftt */
+    uint32_t fsr;                    /* rm, tem, aexc */
+    uint32_t fsr_cexc_ftt;           /* cexc, ftt */
+    uint32_t fcc[TARGET_FCCREGS];    /* fcc* */
 
     CPU_DoubleU fpr[TARGET_DPREGS];  /* floating point registers */
     uint32_t cwp;      /* index of current register window (extracted
diff --git a/target/sparc/helper.h b/target/sparc/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/helper.h
+++ b/target/sparc/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(ld_asi, TCG_CALL_NO_WG, i64, env, tl, int, i32)
 DEF_HELPER_FLAGS_5(st_asi, TCG_CALL_NO_WG, void, env, tl, i64, int, i32)
 #endif
 DEF_HELPER_FLAGS_1(get_fsr, TCG_CALL_NO_WG_SE, tl, env)
-DEF_HELPER_FLAGS_2(set_fsr_noftt, TCG_CALL_NO_RWG, void, env, tl)
+DEF_HELPER_FLAGS_2(set_fsr_nofcc_noftt, TCG_CALL_NO_RWG, void, env, i32)
 DEF_HELPER_FLAGS_2(fsqrts, TCG_CALL_NO_WG, f32, env, f32)
 DEF_HELPER_FLAGS_2(fsqrtd, TCG_CALL_NO_WG, f64, env, f64)
 DEF_HELPER_FLAGS_2(fsqrtq, TCG_CALL_NO_WG, i128, env, i128)
-DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, void, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, void, env, i128, i128)
-#ifdef TARGET_SPARC64
-DEF_HELPER_FLAGS_3(fcmps_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmps_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmps_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpd_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpd_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpd_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpes_fcc1, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpes_fcc2, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmpes_fcc3, TCG_CALL_NO_WG, void, env, f32, f32)
-DEF_HELPER_FLAGS_3(fcmped_fcc1, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmped_fcc2, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmped_fcc3, TCG_CALL_NO_WG, void, env, f64, f64)
-DEF_HELPER_FLAGS_3(fcmpq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc1, TCG_CALL_NO_WG, void, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc2, TCG_CALL_NO_WG, void, env, i128, i128)
-DEF_HELPER_FLAGS_3(fcmpeq_fcc3, TCG_CALL_NO_WG, void, env, i128, i128)
-#endif
+DEF_HELPER_FLAGS_3(fcmps, TCG_CALL_NO_WG, i32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpes, TCG_CALL_NO_WG, i32, env, f32, f32)
+DEF_HELPER_FLAGS_3(fcmpd, TCG_CALL_NO_WG, i32, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmped, TCG_CALL_NO_WG, i32, env, f64, f64)
+DEF_HELPER_FLAGS_3(fcmpq, TCG_CALL_NO_WG, i32, env, i128, i128)
+DEF_HELPER_FLAGS_3(fcmpeq, TCG_CALL_NO_WG, i32, env, i128, i128)
 DEF_HELPER_2(raise_exception, noreturn, env, int)
 
 DEF_HELPER_FLAGS_3(faddd, TCG_CALL_NO_WG, f64, env, f64, f64)
diff --git a/target/sparc/fop_helper.c b/target/sparc/fop_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/fop_helper.c
+++ b/target/sparc/fop_helper.c
@@ -XXX,XX +XXX,XX @@ Int128 helper_fsqrtq(CPUSPARCState *env, Int128 src)
     return f128_ret(ret);
 }
 
-#define GEN_FCMP(name, size, FS, E)                                     \
-    void glue(helper_, name)(CPUSPARCState *env, Int128 src1, Int128 src2) \
-    {                                                                   \
-        float128 reg1 = f128_in(src1);                                  \
-        float128 reg2 = f128_in(src2);                                  \
-        FloatRelation ret;                                              \
-        target_ulong fsr;                                               \
-        if (E) {                                                        \
-            ret = glue(size, _compare)(reg1, reg2, &env->fp_status);    \
-        } else {                                                        \
-            ret = glue(size, _compare_quiet)(reg1, reg2,                \
-                                             &env->fp_status);          \
-        }                                                               \
-        check_ieee_exceptions(env, GETPC());                            \
-        fsr = env->fsr;                                                 \
-        switch (ret) {                                                  \
-        case float_relation_unordered:                                  \
-            fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
-            fsr |= FSR_NVA;                                             \
-            break;                                                      \
-        case float_relation_less:                                       \
-            fsr &= ~(FSR_FCC1) << FS;                                   \
-            fsr |= FSR_FCC0 << FS;                                      \
-            break;                                                      \
-        case float_relation_greater:                                    \
-            fsr &= ~(FSR_FCC0) << FS;                                   \
-            fsr |= FSR_FCC1 << FS;                                      \
-            break;                                                      \
-        default:                                                        \
-            fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
-            break;                                                      \
-        }                                                               \
-        env->fsr = fsr;                                                 \
-    }
-#define GEN_FCMP_T(name, size, FS, E)                                   \
-    void glue(helper_, name)(CPUSPARCState *env, size src1, size src2)  \
-    {                                                                   \
-        FloatRelation ret;                                              \
-        target_ulong fsr;                                               \
-        if (E) {                                                        \
-            ret = glue(size, _compare)(src1, src2, &env->fp_status);    \
-        } else {                                                        \
-            ret = glue(size, _compare_quiet)(src1, src2,                \
-                                             &env->fp_status);          \
-        }                                                               \
-        check_ieee_exceptions(env, GETPC());                            \
-        fsr = env->fsr;                                                 \
-        switch (ret) {                                                  \
-        case float_relation_unordered:                                  \
-            fsr |= (FSR_FCC1 | FSR_FCC0) << FS;                         \
-            break;                                                      \
-        case float_relation_less:                                       \
-            fsr &= ~(FSR_FCC1 << FS);                                   \
-            fsr |= FSR_FCC0 << FS;                                      \
-            break;                                                      \
-        case float_relation_greater:                                    \
-            fsr &= ~(FSR_FCC0 << FS);                                   \
-            fsr |= FSR_FCC1 << FS;                                      \
-            break;                                                      \
-        default:                                                        \
-            fsr &= ~((FSR_FCC1 | FSR_FCC0) << FS);                      \
-            break;                                                      \
-        }                                                               \
-        env->fsr = fsr;                                                 \
+static uint32_t finish_fcmp(CPUSPARCState *env, FloatRelation r, uintptr_t ra)
+{
+    check_ieee_exceptions(env, ra);
+
+    /*
+     * FCC values:
+     * 0 =
+     * 1 <
+     * 2 >
+     * 3 unordered
+     */
+    switch (r) {
+    case float_relation_equal:
+        return 0;
+    case float_relation_less:
+        return 1;
+    case float_relation_greater:
+        return 2;
+    case float_relation_unordered:
+        env->fsr |= FSR_NVA;
+        return 3;
     }
+    g_assert_not_reached();
+}
 
-GEN_FCMP_T(fcmps, float32, 0, 0);
-GEN_FCMP_T(fcmpd, float64, 0, 0);
+uint32_t helper_fcmps(CPUSPARCState *env, float32 src1, float32 src2)
+{
+    FloatRelation r = float32_compare_quiet(src1, src2, &env->fp_status);
+    return finish_fcmp(env, r, GETPC());
+}
 
-GEN_FCMP_T(fcmpes, float32, 0, 1);
-GEN_FCMP_T(fcmped, float64, 0, 1);
+uint32_t helper_fcmpes(CPUSPARCState *env, float32 src1, float32 src2)
+{
+    FloatRelation r = float32_compare(src1, src2, &env->fp_status);
+    return finish_fcmp(env, r, GETPC());
+}
 
-GEN_FCMP(fcmpq, float128, 0, 0);
-GEN_FCMP(fcmpeq, float128, 0, 1);
+uint32_t helper_fcmpd(CPUSPARCState *env, float64 src1, float64 src2)
+{
+    FloatRelation r = float64_compare_quiet(src1, src2, &env->fp_status);
+    return finish_fcmp(env, r, GETPC());
+}
 
-#ifdef TARGET_SPARC64
-GEN_FCMP_T(fcmps_fcc1, float32, 22, 0);
-GEN_FCMP_T(fcmpd_fcc1, float64, 22, 0);
-GEN_FCMP(fcmpq_fcc1, float128, 22, 0);
+uint32_t helper_fcmped(CPUSPARCState *env, float64 src1, float64 src2)
+{
+    FloatRelation r = float64_compare(src1, src2, &env->fp_status);
+    return finish_fcmp(env, r, GETPC());
+}
 
-GEN_FCMP_T(fcmps_fcc2, float32, 24, 0);
-GEN_FCMP_T(fcmpd_fcc2, float64, 24, 0);
-GEN_FCMP(fcmpq_fcc2, float128, 24, 0);
+uint32_t helper_fcmpq(CPUSPARCState *env, Int128 src1, Int128 src2)
+{
+    FloatRelation r = float128_compare_quiet(f128_in(src1), f128_in(src2),
+                                             &env->fp_status);
+    return finish_fcmp(env, r, GETPC());
+}
 
-GEN_FCMP_T(fcmps_fcc3, float32, 26, 0);
-GEN_FCMP_T(fcmpd_fcc3, float64, 26, 0);
-GEN_FCMP(fcmpq_fcc3, float128, 26, 0);
-
-GEN_FCMP_T(fcmpes_fcc1, float32, 22, 1);
-GEN_FCMP_T(fcmped_fcc1, float64, 22, 1);
-GEN_FCMP(fcmpeq_fcc1, float128, 22, 1);
-
-GEN_FCMP_T(fcmpes_fcc2, float32, 24, 1);
-GEN_FCMP_T(fcmped_fcc2, float64, 24, 1);
-GEN_FCMP(fcmpeq_fcc2, float128, 24, 1);
-
-GEN_FCMP_T(fcmpes_fcc3, float32, 26, 1);
-GEN_FCMP_T(fcmped_fcc3, float64, 26, 1);
-GEN_FCMP(fcmpeq_fcc3, float128, 26, 1);
-#endif
-#undef GEN_FCMP_T
-#undef GEN_FCMP
+uint32_t helper_fcmpeq(CPUSPARCState *env, Int128 src1, Int128 src2)
+{
+    FloatRelation r = float128_compare(f128_in(src1), f128_in(src2),
+                                       &env->fp_status);
+    return finish_fcmp(env, r, GETPC());
+}
 
 target_ulong cpu_get_fsr(CPUSPARCState *env)
 {
     target_ulong fsr = env->fsr | env->fsr_cexc_ftt;
 
+    fsr |= env->fcc[0] << FSR_FCC0_SHIFT;
+#ifdef TARGET_SPARC64
+    fsr |= (uint64_t)env->fcc[1] << FSR_FCC1_SHIFT;
+    fsr |= (uint64_t)env->fcc[2] << FSR_FCC2_SHIFT;
+    fsr |= (uint64_t)env->fcc[3] << FSR_FCC3_SHIFT;
+#endif
+
     /* VER is kept completely separate until re-assembly. */
     fsr |= env->def.fpu_version;
 
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
 {
     int rnd_mode;
 
-    env->fsr = fsr & ~(FSR_VER_MASK | FSR_CEXC_MASK | FSR_FTT_MASK);
+    env->fsr = fsr & (FSR_RD_MASK | FSR_TEM_MASK | FSR_AEXC_MASK);
 
     switch (fsr & FSR_RD_MASK) {
     case FSR_RD_NEAREST:
@@ -XXX,XX +XXX,XX @@ static void set_fsr_nonsplit(CPUSPARCState *env, target_ulong fsr)
 void cpu_put_fsr(CPUSPARCState *env, target_ulong fsr)
 {
     env->fsr_cexc_ftt = fsr & (FSR_CEXC_MASK | FSR_FTT_MASK);
+
+    env->fcc[0] = extract32(fsr, FSR_FCC0_SHIFT, 2);
+#ifdef TARGET_SPARC64
+    env->fcc[1] = extract64(fsr, FSR_FCC1_SHIFT, 2);
+    env->fcc[2] = extract64(fsr, FSR_FCC2_SHIFT, 2);
+    env->fcc[3] = extract64(fsr, FSR_FCC3_SHIFT, 2);
+#endif
+
     set_fsr_nonsplit(env, fsr);
 }
 
-void helper_set_fsr_noftt(CPUSPARCState *env, target_ulong fsr)
+void helper_set_fsr_nofcc_noftt(CPUSPARCState *env, uint32_t fsr)
 {
     env->fsr_cexc_ftt &= FSR_FTT_MASK;
     env->fsr_cexc_ftt |= fsr & FSR_CEXC_MASK;
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@
 # define gen_helper_fxtoq                ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_fxtos                ({ qemu_build_not_reached(); NULL; })
 # define gen_helper_pdist                ({ qemu_build_not_reached(); NULL; })
-# define FSR_LDXFSR_MASK                        0
-# define FSR_LDXFSR_OLDMASK                     0
 # define MAXTL_MASK                             0
 #endif
 
@@ -XXX,XX +XXX,XX @@ static TCGv cpu_gsr;
 
 /* Floating point registers */
 static TCGv_i64 cpu_fpr[TARGET_DPREGS];
+static TCGv_i32 cpu_fcc[TARGET_FCCREGS];
 
 #define env_field_offsetof(X)     offsetof(CPUSPARCState, X)
 #ifdef TARGET_SPARC64
@@ -XXX,XX +XXX,XX @@ static void gen_op_bshuffle(TCGv_i64 dst, TCGv_i64 src1, TCGv_i64 src2)
 #endif
 }
 
-// 1
-static void gen_op_eval_ba(TCGv dst)
-{
-    tcg_gen_movi_tl(dst, 1);
-}
-
-// 0
-static void gen_op_eval_bn(TCGv dst)
-{
-    tcg_gen_movi_tl(dst, 0);
-}
-
-/*
-  FPSR bit field FCC1 | FCC0:
-   0 =
-   1 <
-   2 >
-   3 unordered
-*/
-static void gen_mov_reg_FCC0(TCGv reg, TCGv src,
-                                    unsigned int fcc_offset)
-{
-    tcg_gen_shri_tl(reg, src, FSR_FCC0_SHIFT + fcc_offset);
-    tcg_gen_andi_tl(reg, reg, 0x1);
-}
-
-static void gen_mov_reg_FCC1(TCGv reg, TCGv src, unsigned int fcc_offset)
-{
-    tcg_gen_shri_tl(reg, src, FSR_FCC1_SHIFT + fcc_offset);
-    tcg_gen_andi_tl(reg, reg, 0x1);
-}
-
-// !0: FCC0 | FCC1
-static void gen_op_eval_fbne(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_or_tl(dst, dst, t0);
-}
-
-// 1 or 2: FCC0 ^ FCC1
-static void gen_op_eval_fblg(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_xor_tl(dst, dst, t0);
-}
-
-// 1 or 3: FCC0
-static void gen_op_eval_fbul(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-}
-
-// 1: FCC0 & !FCC1
-static void gen_op_eval_fbl(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_andc_tl(dst, dst, t0);
-}
-
-// 2 or 3: FCC1
-static void gen_op_eval_fbug(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    gen_mov_reg_FCC1(dst, src, fcc_offset);
-}
-
-// 2: !FCC0 & FCC1
-static void gen_op_eval_fbg(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_andc_tl(dst, t0, dst);
-}
-
-// 3: FCC0 & FCC1
-static void gen_op_eval_fbu(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_and_tl(dst, dst, t0);
-}
-
-// 0: !(FCC0 | FCC1)
-static void gen_op_eval_fbe(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_or_tl(dst, dst, t0);
-    tcg_gen_xori_tl(dst, dst, 0x1);
-}
-
-// 0 or 3: !(FCC0 ^ FCC1)
-static void gen_op_eval_fbue(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_xor_tl(dst, dst, t0);
-    tcg_gen_xori_tl(dst, dst, 0x1);
-}
-
-// 0 or 2: !FCC0
-static void gen_op_eval_fbge(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    tcg_gen_xori_tl(dst, dst, 0x1);
-}
-
-// !1: !(FCC0 & !FCC1)
-static void gen_op_eval_fbuge(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_andc_tl(dst, dst, t0);
-    tcg_gen_xori_tl(dst, dst, 0x1);
-}
-
-// 0 or 1: !FCC1
-static void gen_op_eval_fble(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    gen_mov_reg_FCC1(dst, src, fcc_offset);
-    tcg_gen_xori_tl(dst, dst, 0x1);
-}
-
-// !2: !(!FCC0 & FCC1)
-static void gen_op_eval_fbule(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_andc_tl(dst, t0, dst);
-    tcg_gen_xori_tl(dst, dst, 0x1);
-}
-
-// !3: !(FCC0 & FCC1)
-static void gen_op_eval_fbo(TCGv dst, TCGv src, unsigned int fcc_offset)
-{
-    TCGv t0 = tcg_temp_new();
-    gen_mov_reg_FCC0(dst, src, fcc_offset);
-    gen_mov_reg_FCC1(t0, src, fcc_offset);
-    tcg_gen_and_tl(dst, dst, t0);
-    tcg_gen_xori_tl(dst, dst, 0x1);
-}
-
 static void finishing_insn(DisasContext *dc)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static void gen_compare(DisasCompare *cmp, bool xcc, unsigned int cond,
 
 static void gen_fcompare(DisasCompare *cmp, unsigned int cc, unsigned int cond)
 {
-    unsigned int offset;
-    TCGv r_dst, fsr;
+    TCGv_i32 fcc = cpu_fcc[cc];
+    TCGv_i32 c1 = fcc;
+    int c2 = 0;
+    TCGCond tcond;
 
-    /* For now we still generate a straight boolean result.  */
-    cmp->cond = TCG_COND_NE;
-    cmp->c1 = r_dst = tcg_temp_new();
-    cmp->c2 = 0;
-
-    switch (cc) {
-    default:
-    case 0x0:
-        offset = 0;
+    /*
+     * FCC values:
+     * 0 =
+     * 1 <
+     * 2 >
+     * 3 unordered
+     */
+    switch (cond & 7) {
+    case 0x0: /* fbn */
+        tcond = TCG_COND_NEVER;
         break;
-    case 0x1:
-        offset = 32 - 10;
+    case 0x1: /* fbne : !0 */
+        tcond = TCG_COND_NE;
         break;
-    case 0x2:
-        offset = 34 - 10;
+    case 0x2: /* fblg : 1 or 2 */
+        /* fcc in {1,2} - 1 -> fcc in {0,1} */
+        c1 = tcg_temp_new_i32();
+        tcg_gen_addi_i32(c1, fcc, -1);
+        c2 = 1;
+        tcond = TCG_COND_LEU;
         break;
-    case 0x3:
-        offset = 36 - 10;
+    case 0x3: /* fbul : 1 or 3 */
+        c1 = tcg_temp_new_i32();
+        tcg_gen_andi_i32(c1, fcc, 1);
+        tcond = TCG_COND_NE;
+        break;
+    case 0x4: /* fbl  : 1 */
+        c2 = 1;
+        tcond = TCG_COND_EQ;
+        break;
+    case 0x5: /* fbug : 2 or 3 */
+        c2 = 2;
+        tcond = TCG_COND_GEU;
+        break;
+    case 0x6: /* fbg  : 2 */
+        c2 = 2;
+        tcond = TCG_COND_EQ;
+        break;
+    case 0x7: /* fbu  : 3 */
+        c2 = 3;
+        tcond = TCG_COND_EQ;
         break;
     }
-
-    fsr = tcg_temp_new();
-    tcg_gen_ld_tl(fsr, tcg_env, offsetof(CPUSPARCState, fsr));
-    switch (cond) {
-    case 0x0:
-        gen_op_eval_bn(r_dst);
-        break;
-    case 0x1:
-        gen_op_eval_fbne(r_dst, fsr, offset);
-        break;
-    case 0x2:
-        gen_op_eval_fblg(r_dst, fsr, offset);
-        break;
-    case 0x3:
-        gen_op_eval_fbul(r_dst, fsr, offset);
-        break;
-    case 0x4:
-        gen_op_eval_fbl(r_dst, fsr, offset);
-        break;
-    case 0x5:
-        gen_op_eval_fbug(r_dst, fsr, offset);
-        break;
-    case 0x6:
-        gen_op_eval_fbg(r_dst, fsr, offset);
-        break;
-    case 0x7:
-        gen_op_eval_fbu(r_dst, fsr, offset);
-        break;
-    case 0x8:
-        gen_op_eval_ba(r_dst);
-        break;
-    case 0x9:
-        gen_op_eval_fbe(r_dst, fsr, offset);
-        break;
-    case 0xa:
-        gen_op_eval_fbue(r_dst, fsr, offset);
-        break;
-    case 0xb:
-        gen_op_eval_fbge(r_dst, fsr, offset);
-        break;
-    case 0xc:
-        gen_op_eval_fbuge(r_dst, fsr, offset);
-        break;
-    case 0xd:
-        gen_op_eval_fble(r_dst, fsr, offset);
-        break;
-    case 0xe:
-        gen_op_eval_fbule(r_dst, fsr, offset);
-        break;
-    case 0xf:
-        gen_op_eval_fbo(r_dst, fsr, offset);
-        break;
+    if (cond & 8) {
+        tcond = tcg_invert_cond(tcond);
     }
+
+    cmp->cond = tcond;
+    cmp->c2 = c2;
+    cmp->c1 = tcg_temp_new();
+    tcg_gen_extu_i32_tl(cmp->c1, c1);
 }
 
 static bool gen_compare_reg(DisasCompare *cmp, int cond, TCGv r_src)
@@ -XXX,XX +XXX,XX @@ static void gen_op_fabsq(TCGv_i128 dst, TCGv_i128 src)
     tcg_gen_concat_i64_i128(dst, l, h);
 }
 
-#ifdef TARGET_SPARC64
-static void gen_op_fcmps(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
-{
-    switch (fccno) {
-    case 0:
-        gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
-        break;
-    case 1:
-        gen_helper_fcmps_fcc1(tcg_env, r_rs1, r_rs2);
-        break;
-    case 2:
-        gen_helper_fcmps_fcc2(tcg_env, r_rs1, r_rs2);
-        break;
-    case 3:
-        gen_helper_fcmps_fcc3(tcg_env, r_rs1, r_rs2);
-        break;
-    }
-}
-
-static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
-{
-    switch (fccno) {
-    case 0:
-        gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
-        break;
-    case 1:
-        gen_helper_fcmpd_fcc1(tcg_env, r_rs1, r_rs2);
-        break;
-    case 2:
-        gen_helper_fcmpd_fcc2(tcg_env, r_rs1, r_rs2);
-        break;
-    case 3:
-        gen_helper_fcmpd_fcc3(tcg_env, r_rs1, r_rs2);
-        break;
-    }
-}
-
-static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
-{
-    switch (fccno) {
-    case 0:
-        gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
-        break;
-    case 1:
-        gen_helper_fcmpq_fcc1(tcg_env, r_rs1, r_rs2);
-        break;
-    case 2:
-        gen_helper_fcmpq_fcc2(tcg_env, r_rs1, r_rs2);
-        break;
-    case 3:
-        gen_helper_fcmpq_fcc3(tcg_env, r_rs1, r_rs2);
-        break;
-    }
-}
-
-static void gen_op_fcmpes(int fccno, TCGv_i32 r_rs1, TCGv_i32 r_rs2)
-{
-    switch (fccno) {
-    case 0:
-        gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
-        break;
-    case 1:
-        gen_helper_fcmpes_fcc1(tcg_env, r_rs1, r_rs2);
-        break;
-    case 2:
-        gen_helper_fcmpes_fcc2(tcg_env, r_rs1, r_rs2);
-        break;
-    case 3:
-        gen_helper_fcmpes_fcc3(tcg_env, r_rs1, r_rs2);
-        break;
-    }
-}
-
-static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
-{
-    switch (fccno) {
-    case 0:
-        gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
-        break;
-    case 1:
-        gen_helper_fcmped_fcc1(tcg_env, r_rs1, r_rs2);
-        break;
-    case 2:
-        gen_helper_fcmped_fcc2(tcg_env, r_rs1, r_rs2);
-        break;
-    case 3:
-        gen_helper_fcmped_fcc3(tcg_env, r_rs1, r_rs2);
-        break;
-    }
-}
-
-static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
-{
-    switch (fccno) {
-    case 0:
-        gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
-        break;
-    case 1:
-        gen_helper_fcmpeq_fcc1(tcg_env, r_rs1, r_rs2);
-        break;
-    case 2:
-        gen_helper_fcmpeq_fcc2(tcg_env, r_rs1, r_rs2);
-        break;
-    case 3:
-        gen_helper_fcmpeq_fcc3(tcg_env, r_rs1, r_rs2);
-        break;
-    }
-}
-
-#else
-
-static void gen_op_fcmps(int fccno, TCGv r_rs1, TCGv r_rs2)
-{
-    gen_helper_fcmps(tcg_env, r_rs1, r_rs2);
-}
-
-static void gen_op_fcmpd(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
-{
-    gen_helper_fcmpd(tcg_env, r_rs1, r_rs2);
-}
-
-static void gen_op_fcmpq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
-{
-    gen_helper_fcmpq(tcg_env, r_rs1, r_rs2);
-}
-
-static void gen_op_fcmpes(int fccno, TCGv r_rs1, TCGv r_rs2)
-{
-    gen_helper_fcmpes(tcg_env, r_rs1, r_rs2);
-}
-
-static void gen_op_fcmped(int fccno, TCGv_i64 r_rs1, TCGv_i64 r_rs2)
-{
-    gen_helper_fcmped(tcg_env, r_rs1, r_rs2);
-}
-
-static void gen_op_fcmpeq(int fccno, TCGv_i128 r_rs1, TCGv_i128 r_rs2)
-{
-    gen_helper_fcmpeq(tcg_env, r_rs1, r_rs2);
-}
-#endif
-
 static void gen_op_fpexception_im(DisasContext *dc, int ftt)
 {
     /*
@@ -XXX,XX +XXX,XX @@ static bool trans_STDFQ(DisasContext *dc, arg_STDFQ *a)
     return true;
 }
 
-static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
-                     target_ulong new_mask, target_ulong old_mask)
+static bool trans_LDFSR(DisasContext *dc, arg_r_r_ri *a)
 {
     TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
-    TCGv tnew, told;
+    TCGv_i32 tmp;
 
     if (addr == NULL) {
         return false;
@@ -XXX,XX +XXX,XX @@ static bool do_ldfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop,
     if (gen_trap_ifnofpu(dc)) {
         return true;
     }
-    tnew = tcg_temp_new();
-    told = tcg_temp_new();
-    tcg_gen_qemu_ld_tl(tnew, addr, dc->mem_idx, mop | MO_ALIGN);
-    tcg_gen_ld_tl(told, tcg_env, offsetof(CPUSPARCState, fsr));
-    tcg_gen_andi_tl(tnew, tnew, new_mask);
-    tcg_gen_andi_tl(told, told, old_mask);
-    tcg_gen_or_tl(tnew, tnew, told);
-    gen_helper_set_fsr_noftt(tcg_env, tnew);
+
+    tmp = tcg_temp_new_i32();
+    tcg_gen_qemu_ld_i32(tmp, addr, dc->mem_idx, MO_TEUL | MO_ALIGN);
+
+    tcg_gen_extract_i32(cpu_fcc[0], tmp, FSR_FCC0_SHIFT, 2);
+    /* LDFSR does not change FCC[1-3]. */
+
+    gen_helper_set_fsr_nofcc_noftt(tcg_env, tmp);
     return advance_pc(dc);
 }
 
-TRANS(LDFSR, ALL, do_ldfsr, a, MO_TEUL, FSR_LDFSR_MASK, FSR_LDFSR_OLDMASK)
-TRANS(LDXFSR, 64, do_ldfsr, a, MO_TEUQ, FSR_LDXFSR_MASK, FSR_LDXFSR_OLDMASK)
+static bool trans_LDXFSR(DisasContext *dc, arg_r_r_ri *a)
+{
+#ifdef TARGET_SPARC64
+    TCGv addr = gen_ldst_addr(dc, a->rs1, a->imm, a->rs2_or_imm);
+    TCGv_i64 t64;
+    TCGv_i32 lo, hi;
+
+    if (addr == NULL) {
+        return false;
+    }
+    if (gen_trap_ifnofpu(dc)) {
+        return true;
+    }
+
+    t64 = tcg_temp_new_i64();
+    tcg_gen_qemu_ld_i64(t64, addr, dc->mem_idx, MO_TEUQ | MO_ALIGN);
+
+    lo = tcg_temp_new_i32();
+    hi = cpu_fcc[3];
+    tcg_gen_extr_i64_i32(lo, hi, t64);
+    tcg_gen_extract_i32(cpu_fcc[0], lo, FSR_FCC0_SHIFT, 2);
+    tcg_gen_extract_i32(cpu_fcc[1], hi, FSR_FCC1_SHIFT - 32, 2);
+    tcg_gen_extract_i32(cpu_fcc[2], hi, FSR_FCC2_SHIFT - 32, 2);
+    tcg_gen_extract_i32(cpu_fcc[3], hi, FSR_FCC3_SHIFT - 32, 2);
+
+    gen_helper_set_fsr_nofcc_noftt(tcg_env, lo);
+    return advance_pc(dc);
+#else
+    return false;
+#endif
+}
 
 static bool do_stfsr(DisasContext *dc, arg_r_r_ri *a, MemOp mop)
 {
@@ -XXX,XX +XXX,XX @@ static bool do_fcmps(DisasContext *dc, arg_FCMPs *a, bool e)
     src1 = gen_load_fpr_F(dc, a->rs1);
     src2 = gen_load_fpr_F(dc, a->rs2);
     if (e) {
-        gen_op_fcmpes(a->cc, src1, src2);
+        gen_helper_fcmpes(cpu_fcc[a->cc], tcg_env, src1, src2);
     } else {
-        gen_op_fcmps(a->cc, src1, src2);
+        gen_helper_fcmps(cpu_fcc[a->cc], tcg_env, src1, src2);
     }
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_fcmpd(DisasContext *dc, arg_FCMPd *a, bool e)
     src1 = gen_load_fpr_D(dc, a->rs1);
     src2 = gen_load_fpr_D(dc, a->rs2);
     if (e) {
-        gen_op_fcmped(a->cc, src1, src2);
+        gen_helper_fcmped(cpu_fcc[a->cc], tcg_env, src1, src2);
     } else {
-        gen_op_fcmpd(a->cc, src1, src2);
+        gen_helper_fcmpd(cpu_fcc[a->cc], tcg_env, src1, src2);
     }
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ static bool do_fcmpq(DisasContext *dc, arg_FCMPq *a, bool e)
     src1 = gen_load_fpr_Q(dc, a->rs1);
     src2 = gen_load_fpr_Q(dc, a->rs2);
     if (e) {
-        gen_op_fcmpeq(a->cc, src1, src2);
+        gen_helper_fcmpeq(cpu_fcc[a->cc], tcg_env, src1, src2);
     } else {
-        gen_op_fcmpq(a->cc, src1, src2);
+        gen_helper_fcmpq(cpu_fcc[a->cc], tcg_env, src1, src2);
     }
     return advance_pc(dc);
 }
@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
         "f48", "f50", "f52", "f54", "f56", "f58", "f60", "f62",
     };
 
+    static const struct { TCGv_i32 *ptr; int off; const char *name; } r32[] = {
+#ifdef TARGET_SPARC64
+        { &cpu_fprs, offsetof(CPUSPARCState, fprs), "fprs" },
+        { &cpu_fcc[0], offsetof(CPUSPARCState, fcc[0]), "fcc0" },
+        { &cpu_fcc[1], offsetof(CPUSPARCState, fcc[1]), "fcc1" },
+        { &cpu_fcc[2], offsetof(CPUSPARCState, fcc[2]), "fcc2" },
+        { &cpu_fcc[3], offsetof(CPUSPARCState, fcc[3]), "fcc3" },
+#else
+        { &cpu_fcc[0], offsetof(CPUSPARCState, fcc[0]), "fcc" },
+#endif
+    };
+
     static const struct { TCGv *ptr; int off; const char *name; } rtl[] = {
 #ifdef TARGET_SPARC64
         { &cpu_gsr, offsetof(CPUSPARCState, gsr), "gsr" },
@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
                                          offsetof(CPUSPARCState, regwptr),
                                          "regwptr");
 
+    for (i = 0; i < ARRAY_SIZE(r32); ++i) {
+        *r32[i].ptr = tcg_global_mem_new_i32(tcg_env, r32[i].off, r32[i].name);
+    }
+
     for (i = 0; i < ARRAY_SIZE(rtl); ++i) {
         *rtl[i].ptr = tcg_global_mem_new(tcg_env, rtl[i].off, rtl[i].name);
     }
@@ -XXX,XX +XXX,XX @@ void sparc_tcg_init(void)
                                             offsetof(CPUSPARCState, fpr[i]),
                                             fregnames[i]);
     }
-
-#ifdef TARGET_SPARC64
-    cpu_fprs = tcg_global_mem_new_i32(tcg_env,
-                                      offsetof(CPUSPARCState, fprs), "fprs");
-#endif
 }
 
 void sparc_restore_state_to_opc(CPUState *cs,
-- 
2.34.1

Without this padding, an unwind through the signal handler
will pick up the unwind info for the preceding syscall.

This fixes gcc's 30_threads/thread/native_handle/cancel.cc.

Cc: qemu-stable@nongnu.org
Fixes: ee95fae075c6 ("linux-user/aarch64: Add vdso")
Resolves: https://linaro.atlassian.net/browse/GNU-974
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 linux-user/aarch64/vdso-be.so | Bin 3216 -> 3224 bytes
 linux-user/aarch64/vdso-le.so | Bin 3216 -> 3224 bytes
 linux-user/aarch64/vdso.S     |   4 ++++
 3 files changed, 4 insertions(+)

diff --git a/linux-user/aarch64/vdso-be.so b/linux-user/aarch64/vdso-be.so
index XXXXXXX..XXXXXXX 100755
GIT binary patch
delta 121
zcmbOrIYV-SKI4pu2Kk&{7{Gw#%fuBAMC1c?^>~k}v|avdxNjSSLfftVb3bgJ!|2S&
z_-6A1CJrVZc?IUH8G;R$7#SF@Om<{a*v!K!&BXX-vIe^~TWO|cva$K*Om;sOMw`hy
ZxXl@VO#Z-a&zLdUfXALuXmSCM0s#EKC)of1

delta 116
zcmbOsIYDxQKI4Rm2Kk&H7{Gw#!^9O2L>8U?-5V_M@!kH(Sx4vJn|*ujLPgija~Pc&
z8DDIEz{J5c`3;N8W)W6tCdL<&4cM*OEF8_<v%@zRviq?xT1-B`ZO-^%@(*r%#)Qch
RJocPi5ThAdCO2?N002V6C;<Qf

diff --git a/linux-user/aarch64/vdso-le.so b/linux-user/aarch64/vdso-le.so
index XXXXXXX..XXXXXXX 100755
GIT binary patch
delta 129
zcmbOrIYV-S2IGv0n)#exSQx<I%fyAxMZTVBQ(04AP_*V|Vxp|@=@;x8zb9;-!)U|E
z_-6A>CVnO!c?IUH8G;R$7#SF@Om<{a*v!K!!o>JyvLd?^n`3BUW_royOm=q`Mw`hS
dxy>1WOn%92&zLb;lgFM@hy!9z%j7~Xc>tTxDQW-!

delta 108
zcmbOsIYDxQ2IGW@n)#d`SQx<I!^DNpMK&+G&+g_}w9WI@dn@@euKVesZ-h6`VYFdn
ze6jf^6F<}BH!LcfMOa0c7+*}*WOrgKEO1Fl%G+GX?#{w!F?lDqIpc@PAGz%r6DAw-
M*fVlXF62=M06owo?*IS*

diff --git a/linux-user/aarch64/vdso.S b/linux-user/aarch64/vdso.S
index XXXXXXX..XXXXXXX 100644
--- a/linux-user/aarch64/vdso.S
+++ b/linux-user/aarch64/vdso.S
@@ -XXX,XX +XXX,XX @@ vdso_syscall __kernel_clock_getres, __NR_clock_getres
  * For now, elide the unwind info for __kernel_rt_sigreturn and rely on
  * the libgcc fallback routine as we have always done.  This requires
  * that the code sequence used be exact.
+ *
+ * Add a nop as a spacer to ensure that unwind does not pick up the
+ * unwind info from the preceding syscall.
  */
+	nop
 __kernel_rt_sigreturn:
 	/* No BTI C insn here -- we arrive via RET. */
 	mov	x8, #__NR_rt_sigreturn
-- 
2.34.1

The following changes since commit aa3a285b5bc56a4208b3b57d4a55291e9c260107:

Merge tag 'mem-2024-12-21' of https://github.com/davidhildenbrand/qemu into staging (2024-12-22 14:33:27 -0500)

are available in the Git repository at:

https://gitlab.com/rth7680/qemu.git tags/pull-tcg-20241224

for you to fetch changes up to e4a8e093dc74be049f4829831dce76e5edab0003:

accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core (2024-12-24 08:32:15 -0800)

----------------------------------------------------------------
tcg/optimize: Remove in-flight mask data from OptContext
fpu: Add float*_muladd_scalbn
fpu: Remove float_muladd_halve_result
fpu: Add float_round_nearest_even_max
fpu: Add float_muladd_suppress_add_product_zero
target/hexagon: Use float32_muladd
accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

----------------------------------------------------------------
Ilya Leoshkevich (1):
      tests/tcg: Do not use inttypes.h in multiarch/system/memory.c

Pierrick Bouvier (1):
      plugins: optimize cpu_index code generation

Richard Henderson (70):
      tcg/optimize: Split out finish_bb, finish_ebb
      tcg/optimize: Split out fold_affected_mask
      tcg/optimize: Copy mask writeback to fold_masks
      tcg/optimize: Split out fold_masks_zs
      tcg/optimize: Augment s_mask from z_mask in fold_masks_zs
      tcg/optimize: Change representation of s_mask
      tcg/optimize: Use finish_folding in fold_add, fold_add_vec, fold_addsub2
      tcg/optimize: Introduce const value accessors for TempOptInfo
      tcg/optimize: Use fold_masks_zs in fold_and
      tcg/optimize: Use fold_masks_zs in fold_andc
      tcg/optimize: Use fold_masks_zs in fold_bswap
      tcg/optimize: Use fold_masks_zs in fold_count_zeros
      tcg/optimize: Use fold_masks_z in fold_ctpop
      tcg/optimize: Use fold_and and fold_masks_z in fold_deposit
      tcg/optimize: Compute sign mask in fold_deposit
      tcg/optimize: Use finish_folding in fold_divide
      tcg/optimize: Use finish_folding in fold_dup, fold_dup2
      tcg/optimize: Use fold_masks_s in fold_eqv
      tcg/optimize: Use fold_masks_z in fold_extract
      tcg/optimize: Use finish_folding in fold_extract2
      tcg/optimize: Use fold_masks_zs in fold_exts
      tcg/optimize: Use fold_masks_z in fold_extu
      tcg/optimize: Use fold_masks_zs in fold_movcond
      tcg/optimize: Use finish_folding in fold_mul*
      tcg/optimize: Use fold_masks_s in fold_nand
      tcg/optimize: Use fold_masks_z in fold_neg_no_const
      tcg/optimize: Use fold_masks_s in fold_nor
      tcg/optimize: Use fold_masks_s in fold_not
      tcg/optimize: Use fold_masks_zs in fold_or
      tcg/optimize: Use fold_masks_zs in fold_orc
      tcg/optimize: Use fold_masks_zs in fold_qemu_ld
      tcg/optimize: Return true from fold_qemu_st, fold_tcg_st
      tcg/optimize: Use finish_folding in fold_remainder
      tcg/optimize: Distinguish simplification in fold_setcond_zmask
      tcg/optimize: Use fold_masks_z in fold_setcond
      tcg/optimize: Use fold_masks_s in fold_negsetcond
      tcg/optimize: Use fold_masks_z in fold_setcond2
      tcg/optimize: Use finish_folding in fold_cmp_vec
      tcg/optimize: Use finish_folding in fold_cmpsel_vec
      tcg/optimize: Use fold_masks_zs in fold_sextract
      tcg/optimize: Use fold_masks_zs, fold_masks_s in fold_shift
      tcg/optimize: Simplify sign bit test in fold_shift
      tcg/optimize: Use finish_folding in fold_sub, fold_sub_vec
      tcg/optimize: Use fold_masks_zs in fold_tcg_ld
      tcg/optimize: Use finish_folding in fold_tcg_ld_memcopy
      tcg/optimize: Use fold_masks_zs in fold_xor
      tcg/optimize: Use finish_folding in fold_bitsel_vec
      tcg/optimize: Use finish_folding as default in tcg_optimize
      tcg/optimize: Remove z_mask, s_mask from OptContext
      tcg/optimize: Re-enable sign-mask optimizations
      tcg/optimize: Move fold_bitsel_vec into alphabetic sort
      tcg/optimize: Move fold_cmp_vec, fold_cmpsel_vec into alphabetic sort
      softfloat: Add float{16,32,64}_muladd_scalbn
      target/arm: Use float*_muladd_scalbn
      target/sparc: Use float*_muladd_scalbn
      softfloat: Remove float_muladd_halve_result
      softfloat: Add float_round_nearest_even_max
      softfloat: Add float_muladd_suppress_add_product_zero
      target/hexagon: Use float32_mul in helper_sfmpy
      target/hexagon: Use float32_muladd for helper_sffma
      target/hexagon: Use float32_muladd for helper_sffms
      target/hexagon: Use float32_muladd_scalbn for helper_sffma_sc
      target/hexagon: Use float32_muladd for helper_sffm[as]_lib
      target/hexagon: Remove internal_fmafx
      target/hexagon: Expand GEN_XF_ROUND
      target/hexagon: Remove Float
      target/hexagon: Remove Double
      target/hexagon: Use mulu64 for int128_mul_6464
      target/hexagon: Simplify internal_mpyhh setup
      accel/tcg: Move gen_intermediate_code to TCGCPUOps.translate_core

From: Ilya Leoshkevich <iii@linux.ibm.com>

make check-tcg fails on Fedora with the following error message:

alpha-linux-gnu-gcc [...] qemu/tests/tcg/multiarch/system/memory.c -o memory [...]
    qemu/tests/tcg/multiarch/system/memory.c:17:10: fatal error: inttypes.h: No such file or directory
       17 | #include <inttypes.h>
          |          ^~~~~~~~~~~~
    compilation terminated.

The reason is that Fedora has cross-compilers, but no cross-glibc
headers. Fix by hardcoding the format specifiers and dropping the
include.

An alternative fix would be to introduce a configure check for
inttypes.h. But this would make it impossible to use Fedora
cross-compilers for softmmu tests, which used to work so far.

Fixes: ecbcc9ead2f8 ("tests/tcg: add a system test to check memory instrumentation")
Signed-off-by: Ilya Leoshkevich <iii@linux.ibm.com>
Reviewed-by: Paolo Bonzini <pbonzini@redhat.com>
Message-ID: <20241010085906.226249-1-iii@linux.ibm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tests/tcg/multiarch/system/memory.c | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/tests/tcg/multiarch/system/memory.c b/tests/tcg/multiarch/system/memory.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/tcg/multiarch/system/memory.c
+++ b/tests/tcg/multiarch/system/memory.c
@@ -XXX,XX +XXX,XX @@
 
 #include <stdint.h>
 #include <stdbool.h>
-#include <inttypes.h>
 #include <minilib.h>
 
 #ifndef CHECK_UNALIGNED
@@ -XXX,XX +XXX,XX @@ int main(void)
     int i;
     bool ok = true;
 
-    ml_printf("Test data start: 0x%"PRIxPTR"\n", &test_data[0]);
-    ml_printf("Test data end: 0x%"PRIxPTR"\n", &test_data[TEST_SIZE]);
+    ml_printf("Test data start: 0x%lx\n", (unsigned long)&test_data[0]);
+    ml_printf("Test data end: 0x%lx\n", (unsigned long)&test_data[TEST_SIZE]);
 
     /* Run through the unsigned tests first */
     for (i = 0; i < ARRAY_SIZE(init_ufns) && ok; i++) {
@@ -XXX,XX +XXX,XX @@ int main(void)
         ok = do_signed_reads(true);
     }
 
-    ml_printf("Test data read: %"PRId32"\n", test_read_count);
-    ml_printf("Test data write: %"PRId32"\n", test_write_count);
+    ml_printf("Test data read: %lu\n", (unsigned long)test_read_count);
+    ml_printf("Test data write: %lu\n", (unsigned long)test_write_count);
     ml_printf("Test complete: %s\n", ok ? "PASSED" : "FAILED");
     return ok ? 0 : -1;
 }
-- 
2.43.0

From: Pierrick Bouvier <pierrick.bouvier@linaro.org>

When running with a single vcpu, we can return a constant instead of a
load when accessing cpu_index.
A side effect is that all tcg operations using it are optimized, most
notably scoreboard access.
When running a simple loop in user-mode, the speedup is around 20%.

Signed-off-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-ID: <20241128213843.1023080-1-pierrick.bouvier@linaro.org>
---
 accel/tcg/plugin-gen.c | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/accel/tcg/plugin-gen.c b/accel/tcg/plugin-gen.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/plugin-gen.c
+++ b/accel/tcg/plugin-gen.c
@@ -XXX,XX +XXX,XX @@ static void gen_disable_mem_helper(void)
 
 static TCGv_i32 gen_cpu_index(void)
 {
+    /*
+     * Optimize when we run with a single vcpu. All values using cpu_index,
+     * including scoreboard index, will be optimized out.
+     * User-mode calls tb_flush when setting this flag. In system-mode, all
+     * vcpus are created before generating code.
+     */
+    if (!tcg_cflags_has(current_cpu, CF_PARALLEL)) {
+        return tcg_constant_i32(current_cpu->cpu_index);
+    }
     TCGv_i32 cpu_index = tcg_temp_ebb_new_i32();
     tcg_gen_ld_i32(cpu_index, tcg_env,
                    -offsetof(ArchCPU, env) + offsetof(CPUState, cpu_index));
-- 
2.43.0

Call them directly from the opcode switch statement in tcg_optimize,
rather than in finish_folding based on opcode flags.  Adjust folding
of conditional branches to match.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 47 +++++++++++++++++++++++++++++++----------------
 1 file changed, 31 insertions(+), 16 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void copy_propagate(OptContext *ctx, TCGOp *op,
     }
 }
 
+static void finish_bb(OptContext *ctx)
+{
+    /* We only optimize memory barriers across basic blocks. */
+    ctx->prev_mb = NULL;
+}
+
+static void finish_ebb(OptContext *ctx)
+{
+    finish_bb(ctx);
+    /* We only optimize across extended basic blocks. */
+    memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
+    remove_mem_copy_all(ctx);
+}
+
 static void finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
 
-    /*
-     * We only optimize extended basic blocks.  If the opcode ends a BB
-     * and is not a conditional branch, reset all temp data.
-     */
-    if (def->flags & TCG_OPF_BB_END) {
-        ctx->prev_mb = NULL;
-        if (!(def->flags & TCG_OPF_COND_BRANCH)) {
-            memset(&ctx->temps_used, 0, sizeof(ctx->temps_used));
-            remove_mem_copy_all(ctx);
-        }
-        return;
-    }
-
     nb_oargs = def->nb_oargs;
     for (i = 0; i < nb_oargs; i++) {
         TCGTemp *ts = arg_temp(op->args[i]);
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond(OptContext *ctx, TCGOp *op)
     if (i > 0) {
         op->opc = INDEX_op_br;
         op->args[0] = op->args[3];
+        finish_ebb(ctx);
+    } else {
+        finish_bb(ctx);
     }
-    return false;
+    return true;
 }
 
 static bool fold_brcond2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
         }
         op->opc = INDEX_op_br;
         op->args[0] = label;
-        break;
+        finish_ebb(ctx);
+        return true;
     }
-    return false;
+
+    finish_bb(ctx);
+    return true;
 }
 
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         CASE_OP_32_64_VEC(xor):
             done = fold_xor(&ctx, op);
             break;
+        case INDEX_op_set_label:
+        case INDEX_op_br:
+        case INDEX_op_exit_tb:
+        case INDEX_op_goto_tb:
+        case INDEX_op_goto_ptr:
+            finish_ebb(&ctx);
+            done = true;
+            break;
         default:
             break;
         }
-- 
2.43.0

There are only a few logical operations which can compute
an "affected" mask.  Split out handling of this optimization
to a separate function, only to be called when applicable.

Remove the a_mask field from OptContext, as the mask is
no longer stored anywhere.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 42 +++++++++++++++++++++++++++---------------
 1 file changed, 27 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_free;
 
     /* In flight values from optimization. */
-    uint64_t a_mask;  /* mask bit is 0 iff value identical to first input */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
     uint64_t s_mask;  /* mask of clrsb(value) bits */
     TCGType type;
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
 
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
-    uint64_t a_mask = ctx->a_mask;
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
 
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
      * type changing opcodes.
      */
     if (ctx->type == TCG_TYPE_I32) {
-        a_mask = (int32_t)a_mask;
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
         ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
+    return false;
+}
+
+/*
+ * An "affected" mask bit is 0 if and only if the result is identical
+ * to the first input.  Thus if the entire mask is 0, the operation
+ * is equivalent to a copy.
+ */
+static bool fold_affected_mask(OptContext *ctx, TCGOp *op, uint64_t a_mask)
+{
+    if (ctx->type == TCG_TYPE_I32) {
+        a_mask = (uint32_t)a_mask;
+    }
     if (a_mask == 0) {
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2])) {
-        ctx->a_mask = z1 & ~z2;
+    if (arg_is_const(op->args[2]) &&
+        fold_affected_mask(ctx, op, z1 & ~z2)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
      */
     if (arg_is_const(op->args[2])) {
         uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        ctx->a_mask = z1 & ~z2;
+        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+            return true;
+        }
         z1 &= z2;
     }
     ctx->z_mask = z1;
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
 
     z_mask_old = arg_info(op->args[1])->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
-    if (pos == 0) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = smask_from_zmask(z_mask);
-    if (!type_change) {
-        ctx->a_mask = z_mask_old ^ z_mask;
+    if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
+        return true;
     }
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0) {
-        ctx->a_mask = s_mask & ~s_mask_old;
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+        return true;
     }
 
     return fold_masks(ctx, op);
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
         }
 
         /* Assume all bits affected, no bits known zero, no sign reps. */
-        ctx.a_mask = -1;
         ctx.z_mask = -1;
         ctx.s_mask = 0;
 
-- 
2.43.0

Use of fold_masks should be restricted to those opcodes that
can reliably make use of it -- those with a single output,
and from higher-level folders that set up the masks.
Prepare for conversion of each folder in turn.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 17 ++++++++++++++---
 1 file changed, 14 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask = ctx->z_mask;
     uint64_t s_mask = ctx->s_mask;
+    const TCGOpDef *def = &tcg_op_defs[op->opc];
+    TCGTemp *ts;
+    TempOptInfo *ti;
+
+    /* Only single-output opcodes are supported here. */
+    tcg_debug_assert(def->nb_oargs == 1);
 
     /*
      * 32-bit ops generate 32-bit results, which for the purpose of
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
         s_mask |= MAKE_64BIT_MASK(32, 32);
-        ctx->z_mask = z_mask;
-        ctx->s_mask = s_mask;
     }
 
     if (z_mask == 0) {
         return tcg_opt_gen_movi(ctx, op, op->args[0], 0);
     }
-    return false;
+
+    ts = arg_temp(op->args[0]);
+    reset_ts(ctx, ts);
+
+    ti = ts_info(ts);
+    ti->z_mask = z_mask;
+    ti->s_mask = s_mask;
+    return true;
 }
 
 /*
-- 
2.43.0

Add a routine to which masks can be passed directly, rather than
storing them into OptContext.  To be used in upcoming patches.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++++---
 1 file changed, 12 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
     return fold_const2(ctx, op);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
+/*
+ * Record "zero" and "sign" masks for the single output of @op.
+ * See TempOptInfo definition of z_mask and s_mask.
+ * If z_mask allows, fold the output to constant zero.
+ */
+static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
+                          uint64_t z_mask, uint64_t s_mask)
 {
-    uint64_t z_mask = ctx->z_mask;
-    uint64_t s_mask = ctx->s_mask;
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
@@ -XXX,XX +XXX,XX @@ static bool fold_masks(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_masks(OptContext *ctx, TCGOp *op)
+{
+    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
+}
+
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
-- 
2.43.0

Consider the passed s_mask to be a minimum deduced from
either existing s_mask or from a sign-extension operation.
We may be able to deduce more from the set of known zeros.
Remove identical logic from several opcode folders.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++---------------
 1 file changed, 6 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * Record "zero" and "sign" masks for the single output of @op.
  * See TempOptInfo definition of z_mask and s_mask.
  * If z_mask allows, fold the output to constant zero.
+ * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
                           uint64_t z_mask, uint64_t s_mask)
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask;
+    ti->s_mask = s_mask | smask_from_zmask(z_mask);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    s_mask = smask_from_zmask(z_mask);
 
+    s_mask = 0;
     switch (op->args[2] & (TCG_BSWAP_OZ | TCG_BSWAP_OS)) {
     case TCG_BSWAP_OZ:
         break;
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
-        s_mask = 0;
         break;
     }
     ctx->z_mask = z_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->s_mask = smask_from_zmask(ctx->z_mask);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_extract(OptContext *ctx, TCGOp *op)
         return true;
     }
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
 
     return fold_masks(ctx, op);
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_extu(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = z_mask;
-    ctx->s_mask = smask_from_zmask(z_mask);
     if (!type_change && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
     int width = 8 * memop_size(mop);
 
     if (width < 64) {
-        ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
-        if (!(mop & MO_SIGN)) {
+        if (mop & MO_SIGN) {
+            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+        } else {
             ctx->z_mask = MAKE_64BIT_MASK(0, width);
-            ctx->s_mask <<= 1;
         }
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
     fold_setcond_tst_pow2(ctx, op, false);
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     }
 
     ctx->z_mask = 1;
-    ctx->s_mask = smask_from_zmask(1);
     return false;
 
  do_setcond_const:
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
         break;
     CASE_OP_32_64(ld8u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 8);
-        ctx->s_mask = MAKE_64BIT_MASK(9, 55);
         break;
     CASE_OP_32_64(ld16s):
         ctx->s_mask = MAKE_64BIT_MASK(16, 48);
         break;
     CASE_OP_32_64(ld16u):
         ctx->z_mask = MAKE_64BIT_MASK(0, 16);
-        ctx->s_mask = MAKE_64BIT_MASK(17, 47);
         break;
     case INDEX_op_ld32s_i64:
         ctx->s_mask = MAKE_64BIT_MASK(32, 32);
         break;
     case INDEX_op_ld32u_i64:
         ctx->z_mask = MAKE_64BIT_MASK(0, 32);
-        ctx->s_mask = MAKE_64BIT_MASK(33, 31);
         break;
     default:
         g_assert_not_reached();
-- 
2.43.0

Change the representation from sign bit repetitions to all bits equal
to the sign bit, including the sign bit itself.

The previous format has a problem in that it is difficult to recreate
a valid sign mask after a shift operation: the "repetitions" part of
the previous format meant that applying the same shift as for the value
lead to an off-by-one value.

The new format, including the sign bit itself, means that the sign mask
can be manipulated in exactly the same way as the value, canonicalization
is easier.

Canonicalize the s_mask in fold_masks_zs, rather than requiring callers
to do so.  Treat 0 as a non-canonical but typeless input for no sign
information, which will be reset as appropriate for the data type.
We can easily fold in the data from z_mask while canonicalizing.

Temporarily disable optimizations using s_mask while each operation is
converted to use fold_masks_zs and to the new form.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 64 ++++++++++++--------------------------------------
 1 file changed, 15 insertions(+), 49 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ typedef struct TempOptInfo {
     QSIMPLEQ_HEAD(, MemCopyInfo) mem_copy;
     uint64_t val;
     uint64_t z_mask;  /* mask bit is 0 if and only if value bit is 0 */
-    uint64_t s_mask;  /* a left-aligned mask of clrsb(value) bits. */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
 } TempOptInfo;
 
 typedef struct OptContext {
@@ -XXX,XX +XXX,XX @@ typedef struct OptContext {
 
     /* In flight values from optimization. */
     uint64_t z_mask;  /* mask bit is 0 iff value bit is 0 */
-    uint64_t s_mask;  /* mask of clrsb(value) bits */
+    uint64_t s_mask;  /* mask bit is 1 if value bit matches msb */
     TCGType type;
 } OptContext;
 
-/* Calculate the smask for a specific value. */
-static uint64_t smask_from_value(uint64_t value)
-{
-    int rep = clrsb64(value);
-    return ~(~0ull >> rep);
-}
-
-/*
- * Calculate the smask for a given set of known-zeros.
- * If there are lots of zeros on the left, we can consider the remainder
- * an unsigned field, and thus the corresponding signed field is one bit
- * larger.
- */
-static uint64_t smask_from_zmask(uint64_t zmask)
-{
-    /*
-     * Only the 0 bits are significant for zmask, thus the msb itself
-     * must be zero, else we have no sign information.
-     */
-    int rep = clz64(zmask);
-    if (rep == 0) {
-        return 0;
-    }
-    rep -= 1;
-    return ~(~0ull >> rep);
-}
-
-/*
- * Recreate a properly left-aligned smask after manipulation.
- * Some bit-shuffling, particularly shifts and rotates, may
- * retain sign bits on the left, but may scatter disconnected
- * sign bits on the right.  Retain only what remains to the left.
- */
-static uint64_t smask_from_smask(int64_t smask)
-{
-    /* Only the 1 bits are significant for smask */
-    return smask_from_zmask(~smask);
-}
-
 static inline TempOptInfo *ts_info(TCGTemp *ts)
 {
     return ts->state_ptr;
@@ -XXX,XX +XXX,XX @@ static void init_ts_info(OptContext *ctx, TCGTemp *ts)
         ti->is_const = true;
         ti->val = ts->val;
         ti->z_mask = ts->val;
-        ti->s_mask = smask_from_value(ts->val);
+        ti->s_mask = INT64_MIN >> clrsb64(ts->val);
     } else {
         ti->is_const = false;
         ti->z_mask = -1;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
          */
         if (i == 0) {
             ts_info(ts)->z_mask = ctx->z_mask;
-            ts_info(ts)->s_mask = ctx->s_mask;
         }
     }
 }
@@ -XXX,XX +XXX,XX @@ static bool fold_const2_commutative(OptContext *ctx, TCGOp *op)
  * The passed s_mask may be augmented by z_mask.
  */
 static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
-                          uint64_t z_mask, uint64_t s_mask)
+                          uint64_t z_mask, int64_t s_mask)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     TCGTemp *ts;
     TempOptInfo *ti;
+    int rep;
 
     /* Only single-output opcodes are supported here. */
     tcg_debug_assert(def->nb_oargs == 1);
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
      */
     if (ctx->type == TCG_TYPE_I32) {
         z_mask = (int32_t)z_mask;
-        s_mask |= MAKE_64BIT_MASK(32, 32);
+        s_mask |= INT32_MIN;
     }
 
     if (z_mask == 0) {
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
 
     ti = ts_info(ts);
     ti->z_mask = z_mask;
-    ti->s_mask = s_mask | smask_from_zmask(z_mask);
+
+    /* Canonicalize s_mask and incorporate data from z_mask. */
+    rep = clz64(~s_mask);
+    rep = MAX(rep, clz64(z_mask));
+    rep = MAX(rep - 1, 0);
+    ti->s_mask = INT64_MIN >> rep;
+
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
 
     ctx->z_mask = z_mask;
     ctx->s_mask = s_mask;
-    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask |= MAKE_64BIT_MASK(len, 64 - len);
     ctx->s_mask = s_mask;
 
-    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
 
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
-        ctx->s_mask = smask_from_smask(s_mask);
 
         return fold_masks(ctx, op);
     }
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static void finish_ebb(OptContext *ctx)
     remove_mem_copy_all(ctx);
 }
 
-static void finish_folding(OptContext *ctx, TCGOp *op)
+static bool finish_folding(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     int i, nb_oargs;
@@ -XXX,XX +XXX,XX @@ static void finish_folding(OptContext *ctx, TCGOp *op)
             ts_info(ts)->z_mask = ctx->z_mask;
         }
     }
+    return true;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static bool fold_add(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 /* We cannot as yet do_constant_folding with vectors. */
@@ -XXX,XX +XXX,XX @@ static bool fold_add_vec(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
@@ -XXX,XX +XXX,XX @@ static bool fold_addsub2(OptContext *ctx, TCGOp *op, bool add)
         op->args[4] = arg_new_constant(ctx, bl);
         op->args[5] = arg_new_constant(ctx, bh);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_add2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Introduce ti_is_const, ti_const_val, ti_is_const_val.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 20 +++++++++++++++++---
 1 file changed, 17 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static inline TempOptInfo *arg_info(TCGArg arg)
     return ts_info(arg_temp(arg));
 }
 
+static inline bool ti_is_const(TempOptInfo *ti)
+{
+    return ti->is_const;
+}
+
+static inline uint64_t ti_const_val(TempOptInfo *ti)
+{
+    return ti->val;
+}
+
+static inline bool ti_is_const_val(TempOptInfo *ti, uint64_t val)
+{
+    return ti_is_const(ti) && ti_const_val(ti) == val;
+}
+
 static inline bool ts_is_const(TCGTemp *ts)
 {
-    return ts_info(ts)->is_const;
+    return ti_is_const(ts_info(ts));
 }
 
 static inline bool ts_is_const_val(TCGTemp *ts, uint64_t val)
 {
-    TempOptInfo *ti = ts_info(ts);
-    return ti->is_const && ti->val == val;
+    return ti_is_const_val(ts_info(ts), val);
 }
 
 static inline bool arg_is_const(TCGArg arg)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Sink mask computation below fold_affected_mask early exit.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 30 ++++++++++++++++--------------
 1 file changed, 16 insertions(+), 14 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_add2(OptContext *ctx, TCGOp *op)
 
 static bool fold_and(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1, z2;
+    uint64_t z1, z2, z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
-    z2 = arg_info(op->args[2])->z_mask;
-    ctx->z_mask = z1 & z2;
-
-    /*
-     * Sign repetitions are perforce all identical, whether they are 1 or 0.
-     * Bitwise operations preserve the relative quantity of the repetitions.
-     */
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z1 = t1->z_mask;
+    z2 = t2->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer affected bits from it.
      */
-    if (arg_is_const(op->args[2]) &&
-        fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2) && fold_affected_mask(ctx, op, z1 & ~z2)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = z1 & z2;
+
+    /*
+     * Sign repetitions are perforce all identical, whether they are 1 or 0.
+     * Bitwise operations preserve the relative quantity of the repetitions.
+     */
+    s_mask = t1->s_mask & t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Avoid double inversion of the value of second const operand.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 +++++++++++----------
 1 file changed, 11 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_and(OptContext *ctx, TCGOp *op)
 
 static bool fold_andc(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z1;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    z1 = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask;
 
     /*
      * Known-zeros does not imply known-ones.  Therefore unless
      * arg2 is constant, we can't infer anything from it.
      */
-    if (arg_is_const(op->args[2])) {
-        uint64_t z2 = ~arg_info(op->args[2])->z_mask;
-        if (fold_affected_mask(ctx, op, z1 & ~z2)) {
+    if (ti_is_const(t2)) {
+        uint64_t v2 = ti_const_val(t2);
+        if (fold_affected_mask(ctx, op, z_mask & v2)) {
             return true;
         }
-        z1 &= z2;
+        z_mask &= ~v2;
     }
-    ctx->z_mask = z1;
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Always set s_mask along the BSWAP_OS path, since the result is
being explicitly sign-extended.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 21 ++++++++++-----------
 1 file changed, 10 insertions(+), 11 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_brcond2(OptContext *ctx, TCGOp *op)
 static bool fold_bswap(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, sign;
+    TempOptInfo *t1 = arg_info(op->args[1]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
-
-        t = do_constant_folding(op->opc, ctx->type, t, op->args[2]);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                do_constant_folding(op->opc, ctx->type,
+                                                    ti_const_val(t1),
+                                                    op->args[2]));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-
+    z_mask = t1->z_mask;
     switch (op->opc) {
     case INDEX_op_bswap16_i32:
     case INDEX_op_bswap16_i64:
@@ -XXX,XX +XXX,XX @@ static bool fold_bswap(OptContext *ctx, TCGOp *op)
         /* If the sign bit may be 1, force all the bits above to 1. */
         if (z_mask & sign) {
             z_mask |= sign;
-            s_mask = sign << 1;
         }
+        /* The value and therefore s_mask is explicitly sign-extended. */
+        s_mask = sign;
         break;
     default:
         /* The high bits are undefined: force all bits above the sign to 1. */
         z_mask |= sign << 1;
         break;
     }
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_call(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots. Find TempOptInfo once.
Compute s_mask from the union of the maximum count and the
op2 fallback for op1 being zero.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
 
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t = arg_info(op->args[1])->val;
+    if (ti_is_const(t1)) {
+        uint64_t t = ti_const_val(t1);
 
         if (t != 0) {
             t = do_constant_folding(op->opc, ctx->type, t, 0);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
     default:
         g_assert_not_reached();
     }
-    ctx->z_mask = arg_info(op->args[2])->z_mask | z_mask;
-    return false;
+    s_mask = ~z_mask;
+    z_mask |= t2->z_mask;
+    s_mask &= t2->s_mask;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_z as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++++---
 1 file changed, 10 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_zs(OptContext *ctx, TCGOp *op,
     return true;
 }
 
+static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
+{
+    return fold_masks_zs(ctx, op, z_mask, 0);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 
 static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask;
+
     if (fold_const1(ctx, op)) {
         return true;
     }
 
     switch (ctx->type) {
     case TCG_TYPE_I32:
-        ctx->z_mask = 32 | 31;
+        z_mask = 32 | 31;
         break;
     case TCG_TYPE_I64:
-        ctx->z_mask = 64 | 63;
+        z_mask = 64 | 63;
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
When we fold to and, use fold_and.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 35 +++++++++++++++++------------------
 1 file changed, 17 insertions(+), 18 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_ctpop(OptContext *ctx, TCGOp *op)
 
 static bool fold_deposit(OptContext *ctx, TCGOp *op)
 {
+    TempOptInfo *t1 = arg_info(op->args[1]);
+    TempOptInfo *t2 = arg_info(op->args[2]);
+    int ofs = op->args[3];
+    int len = op->args[4];
     TCGOpcode and_opc;
+    uint64_t z_mask;
 
-    if (arg_is_const(op->args[1]) && arg_is_const(op->args[2])) {
-        uint64_t t1 = arg_info(op->args[1])->val;
-        uint64_t t2 = arg_info(op->args[2])->val;
-
-        t1 = deposit64(t1, op->args[3], op->args[4], t2);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t1);
+    if (ti_is_const(t1) && ti_is_const(t2)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                deposit64(ti_const_val(t1), ofs, len,
+                                          ti_const_val(t2)));
     }
 
     switch (ctx->type) {
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     }
 
     /* Inserting a value into zero at offset 0. */
-    if (arg_is_const_val(op->args[1], 0) && op->args[3] == 0) {
-        uint64_t mask = MAKE_64BIT_MASK(0, op->args[4]);
+    if (ti_is_const_val(t1, 0) && ofs == 0) {
+        uint64_t mask = MAKE_64BIT_MASK(0, len);
 
         op->opc = and_opc;
         op->args[1] = op->args[2];
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
     /* Inserting zero into a value. */
-    if (arg_is_const_val(op->args[2], 0)) {
-        uint64_t mask = deposit64(-1, op->args[3], op->args[4], 0);
+    if (ti_is_const_val(t2, 0)) {
+        uint64_t mask = deposit64(-1, ofs, len, 0);
 
         op->opc = and_opc;
         op->args[2] = arg_new_constant(ctx, mask);
-        ctx->z_mask = mask & arg_info(op->args[1])->z_mask;
-        return false;
+        return fold_and(ctx, op);
     }
 
-    ctx->z_mask = deposit64(arg_info(op->args[1])->z_mask,
-                            op->args[3], op->args[4],
-                            arg_info(op->args[2])->z_mask);
-    return false;
+    z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

The input which overlaps the sign bit of the output can
have its input s_mask propagated to the output s_mask.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 14 ++++++++++++--
 1 file changed, 12 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     TempOptInfo *t2 = arg_info(op->args[2]);
     int ofs = op->args[3];
     int len = op->args[4];
+    int width;
     TCGOpcode and_opc;
-    uint64_t z_mask;
+    uint64_t z_mask, s_mask;
 
     if (ti_is_const(t1) && ti_is_const(t2)) {
         return tcg_opt_gen_movi(ctx, op, op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
     switch (ctx->type) {
     case TCG_TYPE_I32:
         and_opc = INDEX_op_and_i32;
+        width = 32;
         break;
     case TCG_TYPE_I64:
         and_opc = INDEX_op_and_i64;
+        width = 64;
         break;
     default:
         g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static bool fold_deposit(OptContext *ctx, TCGOp *op)
         return fold_and(ctx, op);
     }
 
+    /* The s_mask from the top portion of the deposit is still valid. */
+    if (ofs + len == width) {
+        s_mask = t2->s_mask << ofs;
+    } else {
+        s_mask = t1->s_mask & ~MAKE_64BIT_MASK(0, ofs + len);
+    }
+
     z_mask = deposit64(t1->z_mask, ofs, len, t2->z_mask);
-    return fold_masks_z(ctx, op, z_mask);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_divide(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Add fold_masks_s as a trivial wrapper around fold_masks_zs.
Avoid the use of the OptContext slots.

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_z(OptContext *ctx, TCGOp *op, uint64_t z_mask)
     return fold_masks_zs(ctx, op, z_mask, 0);
 }
 
+static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
+{
+    return fold_masks_zs(ctx, op, -1, s_mask);
+}
+
 static bool fold_masks(OptContext *ctx, TCGOp *op)
 {
     return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
@@ -XXX,XX +XXX,XX @@ static bool fold_dup2(OptContext *ctx, TCGOp *op)
 
 static bool fold_eqv(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, -1) ||
         fold_xi_to_not(ctx, op, 0)) {
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_extract(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 15 ++++++---------
 1 file changed, 6 insertions(+), 9 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_eqv(OptContext *ctx, TCGOp *op)
 static bool fold_extract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask_old, z_mask;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = extract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                extract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask_old = arg_info(op->args[1])->z_mask;
+    z_mask_old = t1->z_mask;
     z_mask = extract64(z_mask_old, pos, len);
     if (pos == 0 && fold_affected_mask(ctx, op, z_mask_old ^ z_mask)) {
         return true;
     }
-    ctx->z_mask = z_mask;
 
-    return fold_masks(ctx, op);
+    return fold_masks_z(ctx, op, z_mask);
 }
 
 static bool fold_extract2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Explicitly sign-extend z_mask instead of doing that manually.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 29 ++++++++++++-----------------
 1 file changed, 12 insertions(+), 17 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_extract2(OptContext *ctx, TCGOp *op)
 
 static bool fold_exts(OptContext *ctx, TCGOp *op)
 {
-    uint64_t s_mask_old, s_mask, z_mask, sign;
+    uint64_t s_mask_old, s_mask, z_mask;
     bool type_change = false;
+    TempOptInfo *t1;
 
     if (fold_const1(ctx, op)) {
         return true;
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    s_mask = arg_info(op->args[1])->s_mask;
+    t1 = arg_info(op->args[1]);
+    z_mask = t1->z_mask;
+    s_mask = t1->s_mask;
     s_mask_old = s_mask;
 
     switch (op->opc) {
     CASE_OP_32_64(ext8s):
-        sign = INT8_MIN;
-        z_mask = (uint8_t)z_mask;
+        s_mask |= INT8_MIN;
+        z_mask = (int8_t)z_mask;
         break;
     CASE_OP_32_64(ext16s):
-        sign = INT16_MIN;
-        z_mask = (uint16_t)z_mask;
+        s_mask |= INT16_MIN;
+        z_mask = (int16_t)z_mask;
         break;
     case INDEX_op_ext_i32_i64:
         type_change = true;
         QEMU_FALLTHROUGH;
     case INDEX_op_ext32s_i64:
-        sign = INT32_MIN;
-        z_mask = (uint32_t)z_mask;
+        s_mask |= INT32_MIN;
+        z_mask = (int32_t)z_mask;
         break;
     default:
         g_assert_not_reached();
     }
 
-    if (z_mask & sign) {
-        z_mask |= sign;
-    }
-    s_mask |= sign << 1;
-
-    ctx->z_mask = z_mask;
-    ctx->s_mask = s_mask;
     if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_extu(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mov(OptContext *ctx, TCGOp *op)
 
 static bool fold_movcond(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *tt, *ft;
     int i;
 
     /* If true and false values are the same, eliminate the cmp. */
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[4 - i]);
     }
 
-    ctx->z_mask = arg_info(op->args[3])->z_mask
-                | arg_info(op->args[4])->z_mask;
-    ctx->s_mask = arg_info(op->args[3])->s_mask
-                & arg_info(op->args[4])->s_mask;
+    tt = arg_info(op->args[3]);
+    ft = arg_info(op->args[4]);
+    z_mask = tt->z_mask | ft->z_mask;
+    s_mask = tt->s_mask & ft->s_mask;
 
-    if (arg_is_const(op->args[3]) && arg_is_const(op->args[4])) {
-        uint64_t tv = arg_info(op->args[3])->val;
-        uint64_t fv = arg_info(op->args[4])->val;
+    if (ti_is_const(tt) && ti_is_const(ft)) {
+        uint64_t tv = ti_const_val(tt);
+        uint64_t fv = ti_const_val(ft);
         TCGOpcode opc, negopc = 0;
         TCGCond cond = op->args[5];
 
@@ -XXX,XX +XXX,XX @@ static bool fold_movcond(OptContext *ctx, TCGOp *op)
             }
         }
     }
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_mul(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_mul(OptContext *ctx, TCGOp *op)
         fold_xi_to_x(ctx, op, 1)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_mul_highpart(OptContext *ctx, TCGOp *op)
         fold_xi_to_i(ctx, op, 0)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_multiply2(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_multiply2(OptContext *ctx, TCGOp *op)
         tcg_opt_gen_movi(ctx, op2, rh, h);
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_nand(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_not(OptContext *ctx, TCGOp *op)
 
 static bool fold_or(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xi_to_x(ctx, op, 0) ||
         fold_xx_to_x(ctx, op)) {
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_or(OptContext *ctx, TCGOp *op)
 
 static bool fold_orc(OptContext *ctx, TCGOp *op)
 {
+    uint64_t s_mask;
+
     if (fold_const2(ctx, op) ||
         fold_xx_to_i(ctx, op, -1) ||
         fold_xi_to_x(ctx, op, -1) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return false;
+    s_mask = arg_info(op->args[1])->s_mask
+           & arg_info(op->args[2])->s_mask;
+    return fold_masks_s(ctx, op, s_mask);
 }
 
 static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Be careful not to call fold_masks_zs when the memory operation
is wide enough to require multiple outputs, so split into two
functions: fold_qemu_ld_1reg and fold_qemu_ld_2reg.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 26 +++++++++++++++++++++-----
 1 file changed, 21 insertions(+), 5 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_orc(OptContext *ctx, TCGOp *op)
     return fold_masks_s(ctx, op, s_mask);
 }
 
-static bool fold_qemu_ld(OptContext *ctx, TCGOp *op)
+static bool fold_qemu_ld_1reg(OptContext *ctx, TCGOp *op)
 {
     const TCGOpDef *def = &tcg_op_defs[op->opc];
     MemOpIdx oi = op->args[def->nb_oargs + def->nb_iargs];
     MemOp mop = get_memop(oi);
     int width = 8 * memop_size(mop);
+    uint64_t z_mask = -1, s_mask = 0;
 
     if (width < 64) {
         if (mop & MO_SIGN) {
-            ctx->s_mask = MAKE_64BIT_MASK(width, 64 - width);
+            s_mask = MAKE_64BIT_MASK(width - 1, 64 - (width - 1));
         } else {
-            ctx->z_mask = MAKE_64BIT_MASK(0, width);
+            z_mask = MAKE_64BIT_MASK(0, width);
         }
     }
 
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
+}
+
+static bool fold_qemu_ld_2reg(OptContext *ctx, TCGOp *op)
+{
+    /* Opcodes that touch guest memory stop the mb optimization.  */
+    ctx->prev_mb = NULL;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ void tcg_optimize(TCGContext *s)
             break;
         case INDEX_op_qemu_ld_a32_i32:
         case INDEX_op_qemu_ld_a64_i32:
+            done = fold_qemu_ld_1reg(&ctx, op);
+            break;
         case INDEX_op_qemu_ld_a32_i64:
         case INDEX_op_qemu_ld_a64_i64:
+            if (TCG_TARGET_REG_BITS == 64) {
+                done = fold_qemu_ld_1reg(&ctx, op);
+                break;
+            }
+            QEMU_FALLTHROUGH;
         case INDEX_op_qemu_ld_a32_i128:
         case INDEX_op_qemu_ld_a64_i128:
-            done = fold_qemu_ld(&ctx, op);
+            done = fold_qemu_ld_2reg(&ctx, op);
             break;
         case INDEX_op_qemu_st8_a32_i32:
         case INDEX_op_qemu_st8_a64_i32:
-- 
2.43.0

Stores have no output operands, and so need no further work.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 11 +++++------
 1 file changed, 5 insertions(+), 6 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_qemu_st(OptContext *ctx, TCGOp *op)
 {
     /* Opcodes that touch guest memory stop the mb optimization.  */
     ctx->prev_mb = NULL;
-    return false;
+    return true;
 }
 
 static bool fold_remainder(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
         remove_mem_copy_all(ctx);
-        return false;
+        return true;
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
     remove_mem_copy_in(ctx, ofs, ofs + lm1);
-    return false;
+    return true;
 }
 
 static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     TCGType type;
 
     if (op->args[1] != tcgv_ptr_arg(tcg_env)) {
-        fold_tcg_st(ctx, op);
-        return false;
+        return fold_tcg_st(ctx, op);
     }
 
     src = arg_temp(op->args[0]);
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
     last = ofs + tcg_type_size(type) - 1;
     remove_mem_copy_in(ctx, ofs, last);
     record_mem_copy(ctx, type, src, ofs, last);
-    return false;
+    return true;
 }
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Change return from bool to int; distinguish between
complete folding, simplification, and no change.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 22 ++++++++++++++--------
 1 file changed, 14 insertions(+), 8 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_remainder(OptContext *ctx, TCGOp *op)
     return finish_folding(ctx, op);
 }
 
-static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
+/* Return 1 if finished, -1 if simplified, 0 if unchanged. */
+static int fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
 {
     uint64_t a_zmask, b_val;
     TCGCond cond;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond_zmask(OptContext *ctx, TCGOp *op, bool neg)
                 op->opc = xor_opc;
                 op->args[2] = arg_new_constant(ctx, 1);
             }
-            return false;
+            return -1;
         }
     }
-
-    return false;
+    return 0;
 }
 
 static void fold_setcond_tst_pow2(OptContext *ctx, TCGOp *op, bool neg)
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], i);
     }
 
-    if (fold_setcond_zmask(ctx, op, false)) {
+    i = fold_setcond_zmask(ctx, op, false);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, false);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, false);
+    }
 
     ctx->z_mask = 1;
     return false;
@@ -XXX,XX +XXX,XX @@ static bool fold_negsetcond(OptContext *ctx, TCGOp *op)
         return tcg_opt_gen_movi(ctx, op, op->args[0], -i);
     }
 
-    if (fold_setcond_zmask(ctx, op, true)) {
+    i = fold_setcond_zmask(ctx, op, true);
+    if (i > 0) {
         return true;
     }
-    fold_setcond_tst_pow2(ctx, op, true);
+    if (i == 0) {
+        fold_setcond_tst_pow2(ctx, op, true);
+    }
 
     /* Value is {0,-1} so all bits are repetitions of the sign. */
     ctx->s_mask = -1;
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 24 +++++++++---------------
 1 file changed, 9 insertions(+), 15 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
+    TempOptInfo *t1 = arg_info(op->args[1]);
     int pos = op->args[2];
     int len = op->args[3];
 
-    if (arg_is_const(op->args[1])) {
-        uint64_t t;
-
-        t = arg_info(op->args[1])->val;
-        t = sextract64(t, pos, len);
-        return tcg_opt_gen_movi(ctx, op, op->args[0], t);
+    if (ti_is_const(t1)) {
+        return tcg_opt_gen_movi(ctx, op, op->args[0],
+                                sextract64(ti_const_val(t1), pos, len));
     }
 
-    z_mask = arg_info(op->args[1])->z_mask;
-    z_mask = sextract64(z_mask, pos, len);
-    ctx->z_mask = z_mask;
-
-    s_mask_old = arg_info(op->args[1])->s_mask;
-    s_mask = sextract64(s_mask_old, pos, len);
-    s_mask |= MAKE_64BIT_MASK(len, 64 - len);
-    ctx->s_mask = s_mask;
+    s_mask_old = t1->s_mask;
+    s_mask = s_mask_old >> pos;
+    s_mask |= -1ull << (len - 1);
 
     if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-    return fold_masks(ctx, op);
+    z_mask = sextract64(t1->z_mask, pos, len);
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_shift(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 27 ++++++++++++++-------------
 1 file changed, 14 insertions(+), 13 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
 static bool fold_shift(OptContext *ctx, TCGOp *op)
 {
     uint64_t s_mask, z_mask, sign;
+    TempOptInfo *t1, *t2;
 
     if (fold_const2(ctx, op) ||
         fold_ix_to_i(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    s_mask = arg_info(op->args[1])->s_mask;
-    z_mask = arg_info(op->args[1])->z_mask;
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    s_mask = t1->s_mask;
+    z_mask = t1->z_mask;
 
-    if (arg_is_const(op->args[2])) {
-        int sh = arg_info(op->args[2])->val;
-
-        ctx->z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
+    if (ti_is_const(t2)) {
+        int sh = ti_const_val(t2);
 
+        z_mask = do_constant_folding(op->opc, ctx->type, z_mask, sh);
         s_mask = do_constant_folding(op->opc, ctx->type, s_mask, sh);
 
-        return fold_masks(ctx, op);
+        return fold_masks_zs(ctx, op, z_mask, s_mask);
     }
 
     switch (op->opc) {
@@ -XXX,XX +XXX,XX @@ static bool fold_shift(OptContext *ctx, TCGOp *op)
          * Arithmetic right shift will not reduce the number of
          * input sign repetitions.
          */
-        ctx->s_mask = s_mask;
-        break;
+        return fold_masks_s(ctx, op, s_mask);
     CASE_OP_32_64(shr):
         /*
          * If the sign bit is known zero, then logical right shift
-         * will not reduced the number of input sign repetitions.
+         * will not reduce the number of input sign repetitions.
          */
-        sign = (s_mask & -s_mask) >> 1;
+        sign = -s_mask;
         if (sign && !(z_mask & sign)) {
-            ctx->s_mask = s_mask;
+            return fold_masks_s(ctx, op, s_mask);
         }
         break;
     default:
         break;
     }
 
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub_to_neg(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Merge the two conditions, sign != 0 && !(z_mask & sign),
by testing ~z_mask & sign.   If sign == 0, the logical and
will produce false.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

Duplicate fold_sub_vec into fold_sub instead of calling it,
now that fold_sub_vec always returns true.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub_vec(OptContext *ctx, TCGOp *op)
         fold_sub_to_neg(ctx, op)) {
         return true;
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub(OptContext *ctx, TCGOp *op)
 {
-    if (fold_const2(ctx, op) || fold_sub_vec(ctx, op)) {
+    if (fold_const2(ctx, op) ||
+        fold_xx_to_i(ctx, op, 0) ||
+        fold_xi_to_x(ctx, op, 0) ||
+        fold_sub_to_neg(ctx, op)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sub(OptContext *ctx, TCGOp *op)
                    ? INDEX_op_add_i32 : INDEX_op_add_i64);
         op->args[2] = arg_new_constant(ctx, -val);
     }
-    return false;
+    return finish_folding(ctx, op);
 }
 
 static bool fold_sub2(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 16 +++++++++-------
 1 file changed, 9 insertions(+), 7 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_sub2(OptContext *ctx, TCGOp *op)
 
 static bool fold_tcg_ld(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask = -1, s_mask = 0;
+
     /* We can't do any folding with a load, but we can record bits. */
     switch (op->opc) {
     CASE_OP_32_64(ld8s):
-        ctx->s_mask = MAKE_64BIT_MASK(8, 56);
+        s_mask = INT8_MIN;
         break;
     CASE_OP_32_64(ld8u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 8);
+        z_mask = MAKE_64BIT_MASK(0, 8);
         break;
     CASE_OP_32_64(ld16s):
-        ctx->s_mask = MAKE_64BIT_MASK(16, 48);
+        s_mask = INT16_MIN;
         break;
     CASE_OP_32_64(ld16u):
-        ctx->z_mask = MAKE_64BIT_MASK(0, 16);
+        z_mask = MAKE_64BIT_MASK(0, 16);
         break;
     case INDEX_op_ld32s_i64:
-        ctx->s_mask = MAKE_64BIT_MASK(32, 32);
+        s_mask = INT32_MIN;
         break;
     case INDEX_op_ld32u_i64:
-        ctx->z_mask = MAKE_64BIT_MASK(0, 32);
+        z_mask = MAKE_64BIT_MASK(0, 32);
         break;
     default:
         g_assert_not_reached();
     }
-    return false;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_tcg_ld_memcopy(OptContext *ctx, TCGOp *op)
-- 
2.43.0

Avoid the use of the OptContext slots.  Find TempOptInfo once.
Remove fold_masks as the function becomes unused.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 18 ++++++++----------
 1 file changed, 8 insertions(+), 10 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_masks_s(OptContext *ctx, TCGOp *op, uint64_t s_mask)
     return fold_masks_zs(ctx, op, -1, s_mask);
 }
 
-static bool fold_masks(OptContext *ctx, TCGOp *op)
-{
-    return fold_masks_zs(ctx, op, ctx->z_mask, ctx->s_mask);
-}
-
 /*
  * An "affected" mask bit is 0 if and only if the result is identical
  * to the first input.  Thus if the entire mask is 0, the operation
@@ -XXX,XX +XXX,XX @@ static bool fold_tcg_st_memcopy(OptContext *ctx, TCGOp *op)
 
 static bool fold_xor(OptContext *ctx, TCGOp *op)
 {
+    uint64_t z_mask, s_mask;
+    TempOptInfo *t1, *t2;
+
     if (fold_const2_commutative(ctx, op) ||
         fold_xx_to_i(ctx, op, 0) ||
         fold_xi_to_x(ctx, op, 0) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
         return true;
     }
 
-    ctx->z_mask = arg_info(op->args[1])->z_mask
-                | arg_info(op->args[2])->z_mask;
-    ctx->s_mask = arg_info(op->args[1])->s_mask
-                & arg_info(op->args[2])->s_mask;
-    return fold_masks(ctx, op);
+    t1 = arg_info(op->args[1]);
+    t2 = arg_info(op->args[2]);
+    z_mask = t1->z_mask | t2->z_mask;
+    s_mask = t1->s_mask & t2->s_mask;
+    return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
 static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-- 
2.43.0

All mask setting is now done with parameters via fold_masks_*.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 13 -------------
 1 file changed, 13 deletions(-)

All instances of s_mask have been converted to the new
representation.  We can now re-enable usage.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_exts(OptContext *ctx, TCGOp *op)
         g_assert_not_reached();
     }
 
-    if (0 && !type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (!type_change && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool fold_sextract(OptContext *ctx, TCGOp *op)
     s_mask = s_mask_old >> pos;
     s_mask |= -1ull << (len - 1);
 
-    if (0 && pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
+    if (pos == 0 && fold_affected_mask(ctx, op, s_mask & ~s_mask_old)) {
         return true;
     }
 
-- 
2.43.0

The big comment just above says functions should be sorted.
Add forward declarations as needed.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 114 +++++++++++++++++++++++++------------------------
 1 file changed, 59 insertions(+), 55 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_xx_to_x(OptContext *ctx, TCGOp *op)
  *   3) those that produce information about the result value.
  */
 
+static bool fold_or(OptContext *ctx, TCGOp *op);
+static bool fold_orc(OptContext *ctx, TCGOp *op);
+static bool fold_xor(OptContext *ctx, TCGOp *op);
+
 static bool fold_add(OptContext *ctx, TCGOp *op)
 {
     if (fold_const2_commutative(ctx, op) ||
@@ -XXX,XX +XXX,XX @@ static bool fold_andc(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
+static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[2], op->args[3])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
+    }
+
+    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        uint64_t fv = arg_info(op->args[3])->val;
+
+        if (tv == -1 && fv == 0) {
+            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
+        }
+        if (tv == 0 && fv == -1) {
+            if (TCG_TARGET_HAS_not_vec) {
+                op->opc = INDEX_op_not_vec;
+                return fold_not(ctx, op);
+            } else {
+                op->opc = INDEX_op_xor_vec;
+                op->args[2] = arg_new_constant(ctx, -1);
+                return fold_xor(ctx, op);
+            }
+        }
+    }
+    if (arg_is_const(op->args[2])) {
+        uint64_t tv = arg_info(op->args[2])->val;
+        if (tv == -1) {
+            op->opc = INDEX_op_or_vec;
+            op->args[2] = op->args[3];
+            return fold_or(ctx, op);
+        }
+        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
+            op->opc = INDEX_op_andc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_andc(ctx, op);
+        }
+    }
+    if (arg_is_const(op->args[3])) {
+        uint64_t fv = arg_info(op->args[3])->val;
+        if (fv == 0) {
+            op->opc = INDEX_op_and_vec;
+            return fold_and(ctx, op);
+        }
+        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
+            op->opc = INDEX_op_orc_vec;
+            op->args[2] = op->args[1];
+            op->args[1] = op->args[3];
+            return fold_orc(ctx, op);
+        }
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_brcond(OptContext *ctx, TCGOp *op)
 {
     int i = do_constant_folding_cond1(ctx, op, NO_DEST, &op->args[0],
@@ -XXX,XX +XXX,XX @@ static bool fold_xor(OptContext *ctx, TCGOp *op)
     return fold_masks_zs(ctx, op, z_mask, s_mask);
 }
 
-static bool fold_bitsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[2], op->args[3])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[2]);
-    }
-
-    if (arg_is_const(op->args[2]) && arg_is_const(op->args[3])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        uint64_t fv = arg_info(op->args[3])->val;
-
-        if (tv == -1 && fv == 0) {
-            return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[1]);
-        }
-        if (tv == 0 && fv == -1) {
-            if (TCG_TARGET_HAS_not_vec) {
-                op->opc = INDEX_op_not_vec;
-                return fold_not(ctx, op);
-            } else {
-                op->opc = INDEX_op_xor_vec;
-                op->args[2] = arg_new_constant(ctx, -1);
-                return fold_xor(ctx, op);
-            }
-        }
-    }
-    if (arg_is_const(op->args[2])) {
-        uint64_t tv = arg_info(op->args[2])->val;
-        if (tv == -1) {
-            op->opc = INDEX_op_or_vec;
-            op->args[2] = op->args[3];
-            return fold_or(ctx, op);
-        }
-        if (tv == 0 && TCG_TARGET_HAS_andc_vec) {
-            op->opc = INDEX_op_andc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_andc(ctx, op);
-        }
-    }
-    if (arg_is_const(op->args[3])) {
-        uint64_t fv = arg_info(op->args[3])->val;
-        if (fv == 0) {
-            op->opc = INDEX_op_and_vec;
-            return fold_and(ctx, op);
-        }
-        if (fv == -1 && TCG_TARGET_HAS_orc_vec) {
-            op->opc = INDEX_op_orc_vec;
-            op->args[2] = op->args[1];
-            op->args[1] = op->args[3];
-            return fold_orc(ctx, op);
-        }
-    }
-    return finish_folding(ctx, op);
-}
-
 /* Propagate constants and copies, fold constant expressions. */
 void tcg_optimize(TCGContext *s)
 {
-- 
2.43.0

The big comment just above says functions should be sorted.

Reviewed-by: Pierrick Bouvier <pierrick.bouvier@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 tcg/optimize.c | 60 +++++++++++++++++++++++++-------------------------
 1 file changed, 30 insertions(+), 30 deletions(-)

diff --git a/tcg/optimize.c b/tcg/optimize.c
index XXXXXXX..XXXXXXX 100644
--- a/tcg/optimize.c
+++ b/tcg/optimize.c
@@ -XXX,XX +XXX,XX @@ static bool fold_call(OptContext *ctx, TCGOp *op)
     return true;
 }
 
+static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
+{
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[3] = tcg_swap_cond(op->args[3]);
+    }
+    return finish_folding(ctx, op);
+}
+
+static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
+{
+    /* If true and false values are the same, eliminate the cmp. */
+    if (args_are_copies(op->args[3], op->args[4])) {
+        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
+    }
+
+    /* Canonicalize the comparison to put immediate second. */
+    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
+        op->args[5] = tcg_swap_cond(op->args[5]);
+    }
+    /*
+     * Canonicalize the "false" input reg to match the destination,
+     * so that the tcg backend can implement "move if true".
+     */
+    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
+        op->args[5] = tcg_invert_cond(op->args[5]);
+    }
+    return finish_folding(ctx, op);
+}
+
 static bool fold_count_zeros(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask;
@@ -XXX,XX +XXX,XX @@ static bool fold_setcond2(OptContext *ctx, TCGOp *op)
     return tcg_opt_gen_movi(ctx, op, op->args[0], i);
 }
 
-static bool fold_cmp_vec(OptContext *ctx, TCGOp *op)
-{
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[3] = tcg_swap_cond(op->args[3]);
-    }
-    return finish_folding(ctx, op);
-}
-
-static bool fold_cmpsel_vec(OptContext *ctx, TCGOp *op)
-{
-    /* If true and false values are the same, eliminate the cmp. */
-    if (args_are_copies(op->args[3], op->args[4])) {
-        return tcg_opt_gen_mov(ctx, op, op->args[0], op->args[3]);
-    }
-
-    /* Canonicalize the comparison to put immediate second. */
-    if (swap_commutative(NO_DEST, &op->args[1], &op->args[2])) {
-        op->args[5] = tcg_swap_cond(op->args[5]);
-    }
-    /*
-     * Canonicalize the "false" input reg to match the destination,
-     * so that the tcg backend can implement "move if true".
-     */
-    if (swap_commutative(op->args[0], &op->args[4], &op->args[3])) {
-        op->args[5] = tcg_invert_cond(op->args[5]);
-    }
-    return finish_folding(ctx, op);
-}
-
 static bool fold_sextract(OptContext *ctx, TCGOp *op)
 {
     uint64_t z_mask, s_mask, s_mask_old;
-- 
2.43.0

We currently have a flag, float_muladd_halve_result, to scale
the result by 2**-1.  Extend this to handle arbitrary scaling.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   |  6 ++++
 fpu/softfloat.c           | 58 ++++++++++++++++++++++-----------------
 fpu/softfloat-parts.c.inc |  7 +++--
 3 files changed, 44 insertions(+), 27 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ float16 float16_add(float16, float16, float_status *status);
 float16 float16_sub(float16, float16, float_status *status);
 float16 float16_mul(float16, float16, float_status *status);
 float16 float16_muladd(float16, float16, float16, int, float_status *status);
+float16 float16_muladd_scalbn(float16, float16, float16,
+                              int, int, float_status *status);
 float16 float16_div(float16, float16, float_status *status);
 float16 float16_scalbn(float16, int, float_status *status);
 float16 float16_min(float16, float16, float_status *status);
@@ -XXX,XX +XXX,XX @@ float32 float32_mul(float32, float32, float_status *status);
 float32 float32_div(float32, float32, float_status *status);
 float32 float32_rem(float32, float32, float_status *status);
 float32 float32_muladd(float32, float32, float32, int, float_status *status);
+float32 float32_muladd_scalbn(float32, float32, float32,
+                              int, int, float_status *status);
 float32 float32_sqrt(float32, float_status *status);
 float32 float32_exp2(float32, float_status *status);
 float32 float32_log2(float32, float_status *status);
@@ -XXX,XX +XXX,XX @@ float64 float64_mul(float64, float64, float_status *status);
 float64 float64_div(float64, float64, float_status *status);
 float64 float64_rem(float64, float64, float_status *status);
 float64 float64_muladd(float64, float64, float64, int, float_status *status);
+float64 float64_muladd_scalbn(float64, float64, float64,
+                              int, int, float_status *status);
 float64 float64_sqrt(float64, float_status *status);
 float64 float64_log2(float64, float_status *status);
 FloatRelation float64_compare(float64, float64, float_status *status);
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ static FloatParts128 *parts128_mul(FloatParts128 *a, FloatParts128 *b,
 #define parts_mul(A, B, S) \
     PARTS_GENERIC_64_128(mul, A)(A, B, S)
 
-static FloatParts64 *parts64_muladd(FloatParts64 *a, FloatParts64 *b,
-                                    FloatParts64 *c, int flags,
-                                    float_status *s);
-static FloatParts128 *parts128_muladd(FloatParts128 *a, FloatParts128 *b,
-                                      FloatParts128 *c, int flags,
-                                      float_status *s);
+static FloatParts64 *parts64_muladd_scalbn(FloatParts64 *a, FloatParts64 *b,
+                                           FloatParts64 *c, int scale,
+                                           int flags, float_status *s);
+static FloatParts128 *parts128_muladd_scalbn(FloatParts128 *a, FloatParts128 *b,
+                                             FloatParts128 *c, int scale,
+                                             int flags, float_status *s);
 
-#define parts_muladd(A, B, C, Z, S) \
-    PARTS_GENERIC_64_128(muladd, A)(A, B, C, Z, S)
+#define parts_muladd_scalbn(A, B, C, Z, Y, S) \
+    PARTS_GENERIC_64_128(muladd_scalbn, A)(A, B, C, Z, Y, S)
 
 static FloatParts64 *parts64_div(FloatParts64 *a, FloatParts64 *b,
                                  float_status *s);
@@ -XXX,XX +XXX,XX @@ floatx80_mul(floatx80 a, floatx80 b, float_status *status)
  * Fused multiply-add
  */
 
-float16 QEMU_FLATTEN float16_muladd(float16 a, float16 b, float16 c,
-                                    int flags, float_status *status)
+float16 QEMU_FLATTEN
+float16_muladd_scalbn(float16 a, float16 b, float16 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float16_unpack_canonical(&pa, a, status);
     float16_unpack_canonical(&pb, b, status);
     float16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float16_round_pack_canonical(pr, status);
 }
 
-static float32 QEMU_SOFTFLOAT_ATTR
-soft_f32_muladd(float32 a, float32 b, float32 c, int flags,
-                float_status *status)
+float16 float16_muladd(float16 a, float16 b, float16 c,
+                       int flags, float_status *status)
+{
+    return float16_muladd_scalbn(a, b, c, 0, flags, status);
+}
+
+float32 QEMU_SOFTFLOAT_ATTR
+float32_muladd_scalbn(float32 a, float32 b, float32 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float32_unpack_canonical(&pa, a, status);
     float32_unpack_canonical(&pb, b, status);
     float32_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float32_round_pack_canonical(pr, status);
 }
 
-static float64 QEMU_SOFTFLOAT_ATTR
-soft_f64_muladd(float64 a, float64 b, float64 c, int flags,
-                float_status *status)
+float64 QEMU_SOFTFLOAT_ATTR
+float64_muladd_scalbn(float64 a, float64 b, float64 c,
+                      int scale, int flags, float_status *status)
 {
     FloatParts64 pa, pb, pc, *pr;
 
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, scale, flags, status);
 
     return float64_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f32_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float32_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 QEMU_FLATTEN
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     return ur.s;
 
  soft:
-    return soft_f64_muladd(ua.s, ub.s, uc.s, flags, s);
+    return float64_muladd_scalbn(ua.s, ub.s, uc.s, 0, flags, s);
 }
 
 float64 float64r32_muladd(float64 a, float64 b, float64 c,
@@ -XXX,XX +XXX,XX @@ float64 float64r32_muladd(float64 a, float64 b, float64 c,
     float64_unpack_canonical(&pa, a, status);
     float64_unpack_canonical(&pb, b, status);
     float64_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float64r32_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ bfloat16 QEMU_FLATTEN bfloat16_muladd(bfloat16 a, bfloat16 b, bfloat16 c,
     bfloat16_unpack_canonical(&pa, a, status);
     bfloat16_unpack_canonical(&pb, b, status);
     bfloat16_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return bfloat16_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float128 QEMU_FLATTEN float128_muladd(float128 a, float128 b, float128 c,
     float128_unpack_canonical(&pa, a, status);
     float128_unpack_canonical(&pb, b, status);
     float128_unpack_canonical(&pc, c, status);
-    pr = parts_muladd(&pa, &pb, &pc, flags, status);
+    pr = parts_muladd_scalbn(&pa, &pb, &pc, 0, flags, status);
 
     return float128_round_pack_canonical(pr, status);
 }
@@ -XXX,XX +XXX,XX @@ float32 float32_exp2(float32 a, float_status *status)
 
     float64_unpack_canonical(&rp, float64_one, status);
     for (i = 0 ; i < 15 ; i++) {
+
         float64_unpack_canonical(&tp, float32_exp2_coefficients[i], status);
-        rp = *parts_muladd(&tp, &xnp, &rp, 0, status);
+        rp = *parts_muladd_scalbn(&tp, &xnp, &rp, 0, 0, status);
         xnp = *parts_mul(&xnp, &xp, status);
     }
 
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(mul)(FloatPartsN *a, FloatPartsN *b,
  * Requires A and C extracted into a double-sized structure to provide the
  * extra space for the widening multiply.
  */
-static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
-                                   FloatPartsN *c, int flags, float_status *s)
+static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
+                                          FloatPartsN *c, int scale,
+                                          int flags, float_status *s)
 {
     int ab_mask, abc_mask;
     FloatPartsW p_widen, c_widen;
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
+    /* TODO: Replace all use of float_muladd_halve_result with scale. */
     if (flags & float_muladd_halve_result) {
         a->exp -= 1;
     }
+    a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
         a->sign ^= 1;
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/arm/tcg/helper-a64.c | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.c
+++ b/target/arm/tcg/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
         (float16_is_infinity(b) && float16_is_zero(a))) {
         return float16_one_point_five;
     }
-    return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
+    return float16_muladd_scalbn(a, b, float16_three, -1, 0, fpst);
 }
 
 float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
         (float32_is_infinity(b) && float32_is_zero(a))) {
         return float32_one_point_five;
     }
-    return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
+    return float32_muladd_scalbn(a, b, float32_three, -1, 0, fpst);
 }
 
 float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
         (float64_is_infinity(b) && float64_is_zero(a))) {
         return float64_one_point_five;
     }
-    return float64_muladd(a, b, float64_three, float_muladd_halve_result, fpst);
+    return float64_muladd_scalbn(a, b, float64_three, -1, 0, fpst);
 }
 
 /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
-- 
2.43.0

Use the scalbn interface instead of float_muladd_halve_result.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/sparc/helper.h     |  4 +-
 target/sparc/fop_helper.c |  8 ++--
 target/sparc/translate.c  | 80 +++++++++++++++++++++++----------------
 3 files changed, 54 insertions(+), 38 deletions(-)

All uses have been convered to float*_muladd_scalbn.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 3 ---
 fpu/softfloat.c           | 6 ------
 fpu/softfloat-parts.c.inc | 4 ----
 3 files changed, 13 deletions(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
-| We also support halving the result before rounding, as a special
-| case to support the ARM fused-sqrt-step instruction FRSQRTS.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
-    float_muladd_halve_result = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
@@ -XXX,XX +XXX,XX @@ float64_muladd(float64 xa, float64 xb, float64 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
-    if (unlikely(flags & float_muladd_halve_result)) {
-        goto soft;
-    }
 
     float64_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f64_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
     a->exp = p_widen.exp;
 
  return_normal:
-    /* TODO: Replace all use of float_muladd_halve_result with scale. */
-    if (flags & float_muladd_halve_result) {
-        a->exp -= 1;
-    }
     a->exp += scale;
  finish_sign:
     if (flags & float_muladd_negate_result) {
-- 
2.43.0

This rounding mode is used by Hexagon.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat-types.h | 2 ++
 fpu/softfloat-parts.c.inc     | 3 +++
 2 files changed, 5 insertions(+)

diff --git a/include/fpu/softfloat-types.h b/include/fpu/softfloat-types.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat-types.h
+++ b/include/fpu/softfloat-types.h
@@ -XXX,XX +XXX,XX @@ typedef enum __attribute__((__packed__)) {
     float_round_to_odd       = 5,
     /* Not an IEEE rounding mode: round to closest odd, overflow to inf */
     float_round_to_odd_inf   = 6,
+    /* Not an IEEE rounding mode: round to nearest even, overflow to max */
+    float_round_nearest_even_max = 7,
 } FloatRoundMode;
 
 /*
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static void partsN(uncanon_normal)(FloatPartsN *p, float_status *s,
     int exp, flags = 0;
 
     switch (s->float_rounding_mode) {
+    case float_round_nearest_even_max:
+        overflow_norm = true;
+        /* fall through */
     case float_round_nearest_even:
         if (N > 64 && frac_lsb == 0) {
             inc = ((p->frac_hi & 1) || (p->frac_lo & round_mask) != frac_lsbm1
-- 
2.43.0

Certain Hexagon instructions suppress changes to the result
when the product of fma() is a true zero.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 include/fpu/softfloat.h   | 5 +++++
 fpu/softfloat.c           | 3 +++
 fpu/softfloat-parts.c.inc | 4 +++-
 3 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/include/fpu/softfloat.h b/include/fpu/softfloat.h
index XXXXXXX..XXXXXXX 100644
--- a/include/fpu/softfloat.h
+++ b/include/fpu/softfloat.h
@@ -XXX,XX +XXX,XX @@ bfloat16 bfloat16_squash_input_denormal(bfloat16 a, float_status *status);
 | Using these differs from negating an input or output before calling
 | the muladd function in that this means that a NaN doesn't have its
 | sign bit inverted before it is propagated.
+|
+| With float_muladd_suppress_add_product_zero, if A or B is zero
+| such that the product is a true zero, then return C without addition.
+| This preserves the sign of C when C is +/- 0.  Used for Hexagon.
 *----------------------------------------------------------------------------*/
 enum {
     float_muladd_negate_c = 1,
     float_muladd_negate_product = 2,
     float_muladd_negate_result = 4,
+    float_muladd_suppress_add_product_zero = 8,
 };
 
 /*----------------------------------------------------------------------------
diff --git a/fpu/softfloat.c b/fpu/softfloat.c
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat.c
+++ b/fpu/softfloat.c
@@ -XXX,XX +XXX,XX @@ float32_muladd(float32 xa, float32 xb, float32 xc, int flags, float_status *s)
     if (unlikely(!can_use_fpu(s))) {
         goto soft;
     }
+    if (unlikely(flags & float_muladd_suppress_add_product_zero)) {
+        goto soft;
+    }
 
     float32_input_flush3(&ua.s, &ub.s, &uc.s, s);
     if (unlikely(!f32_is_zon3(ua, ub, uc))) {
diff --git a/fpu/softfloat-parts.c.inc b/fpu/softfloat-parts.c.inc
index XXXXXXX..XXXXXXX 100644
--- a/fpu/softfloat-parts.c.inc
+++ b/fpu/softfloat-parts.c.inc
@@ -XXX,XX +XXX,XX @@ static FloatPartsN *partsN(muladd_scalbn)(FloatPartsN *a, FloatPartsN *b,
             goto return_normal;
         }
         if (c->cls == float_class_zero) {
-            if (a->sign != c->sign) {
+            if (flags & float_muladd_suppress_add_product_zero) {
+                a->sign = c->sign;
+            } else if (a->sign != c->sign) {
                 goto return_sub_zero;
             }
             goto return_zero;
-- 
2.43.0

There are no special cases for this instruction.
Remove internal_mpyf as unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h   | 1 -
 target/hexagon/fma_emu.c   | 8 --------
 target/hexagon/op_helper.c | 2 +-
 3 files changed, 1 insertion(+), 10 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
 float32 internal_fmafx(float32 a, float32 b, float32 c,
                        int scale, float_status *fp_status);
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
     return accum_round_float32(result, fp_status);
 }
 
-float32 internal_mpyf(float32 a, float32 b, float_status *fp_status)
-{
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        return float32_mul(a, b, fp_status);
-    }
-    return internal_fmafx(a, b, float32_zero, 0, fp_status);
-}
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sfmpy)(CPUHexagonState *env, float32 RsV, float32 RtV)
 {
     float32 RdV;
     arch_fpop_start(env);
-    RdV = internal_mpyf(RsV, RtV, &env->fp_status);
+    RdV = float32_mul(RsV, RtV, &env->fp_status);
     arch_fpop_end(env);
     return RdV;
 }
-- 
2.43.0

There are no special cases for this instruction.  Since hexagon
always uses default-nan mode, explicitly negating the first
input is unnecessary.  Use float_muladd_negate_product instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

This instruction has a special case that 0 * x + c returns c
without the normal sign folding that comes with 0 + -0.
Use the new float_muladd_suppress_add_product_zero to
describe this.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 11 +++--------
 1 file changed, 3 insertions(+), 8 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
-    size4s_t tmp;
     arch_fpop_start(env);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, fSXTN(8, 64, PuV), &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
+    RxV = float32_muladd_scalbn(RsV, RtV, RxV, fSXTN(8, 64, PuV),
+                                float_muladd_suppress_add_product_zero,
+                                &env->fp_status);
     arch_fpop_end(env);
     return RxV;
 }
-- 
2.43.0

There are multiple special cases for this instruction.
(1) The saturate to normal maximum instead of overflow to infinity is
    handled by the new float_round_nearest_even_max rounding mode.
(2) The 0 * n + c special case is handled by the new
    float_muladd_suppress_add_product_zero flag.
(3) The Inf - Inf -> 0 special case can be detected after the fact
    by examining float_flag_invalid_isi.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/op_helper.c | 105 +++++++++----------------------------
 1 file changed, 26 insertions(+), 79 deletions(-)

diff --git a/target/hexagon/op_helper.c b/target/hexagon/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/op_helper.c
+++ b/target/hexagon/op_helper.c
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffma)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_zero_prod(float32 a, float32 b)
-{
-    return ((float32_is_zero(a) && is_finite(b)) ||
-            (float32_is_zero(b) && is_finite(a)));
-}
-
-static float32 check_nan(float32 dst, float32 x, float_status *fp_status)
-{
-    float32 ret = dst;
-    if (float32_is_any_nan(x)) {
-        if (extract32(x, 22, 1) == 0) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float32(0xffffffff);    /* nan */
-    }
-    return ret;
-}
-
 float32 HELPER(sffma_sc)(CPUHexagonState *env, float32 RxV,
                          float32 RsV, float32 RtV, float32 PuV)
 {
@@ -XXX,XX +XXX,XX @@ float32 HELPER(sffms)(CPUHexagonState *env, float32 RxV,
     return RxV;
 }
 
-static bool is_inf_prod(int32_t a, int32_t b)
+static float32 do_sffma_lib(CPUHexagonState *env, float32 RxV,
+                            float32 RsV, float32 RtV, int negate)
 {
-    return (float32_is_infinity(a) && float32_is_infinity(b)) ||
-           (float32_is_infinity(a) && is_finite(b) && !float32_is_zero(b)) ||
-           (float32_is_infinity(b) && is_finite(a) && !float32_is_zero(a));
+    int flags;
+
+    arch_fpop_start(env);
+
+    set_float_rounding_mode(float_round_nearest_even_max, &env->fp_status);
+    RxV = float32_muladd(RsV, RtV, RxV,
+                         negate | float_muladd_suppress_add_product_zero,
+                         &env->fp_status);
+
+    flags = get_float_exception_flags(&env->fp_status);
+    if (flags) {
+        /* Flags are suppressed by this instruction. */
+        set_float_exception_flags(0, &env->fp_status);
+
+        /* Return 0 for Inf - Inf. */
+        if (flags & float_flag_invalid_isi) {
+            RxV = 0;
+        }
+    }
+
+    arch_fpop_end(env);
+    return RxV;
 }
 
 float32 HELPER(sffma_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) != 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    tmp = internal_fmafx(RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, 0);
 }
 
 float32 HELPER(sffms_lib)(CPUHexagonState *env, float32 RxV,
                           float32 RsV, float32 RtV)
 {
-    bool infinp;
-    bool infminusinf;
-    float32 tmp;
-
-    arch_fpop_start(env);
-    set_float_rounding_mode(float_round_nearest_even, &env->fp_status);
-    infminusinf = float32_is_infinity(RxV) &&
-                  is_inf_prod(RsV, RtV) &&
-                  (fGETBIT(31, RsV ^ RxV ^ RtV) == 0);
-    infinp = float32_is_infinity(RxV) ||
-             float32_is_infinity(RtV) ||
-             float32_is_infinity(RsV);
-    RxV = check_nan(RxV, RxV, &env->fp_status);
-    RxV = check_nan(RxV, RsV, &env->fp_status);
-    RxV = check_nan(RxV, RtV, &env->fp_status);
-    float32 minus_RsV = float32_sub(float32_zero, RsV, &env->fp_status);
-    tmp = internal_fmafx(minus_RsV, RtV, RxV, 0, &env->fp_status);
-    if (!(float32_is_zero(RxV) && is_zero_prod(RsV, RtV))) {
-        RxV = tmp;
-    }
-    set_float_exception_flags(0, &env->fp_status);
-    if (float32_is_infinity(RxV) && !infinp) {
-        RxV = RxV - 1;
-    }
-    if (infminusinf) {
-        RxV = 0;
-    }
-    arch_fpop_end(env);
-    return RxV;
+    return do_sffma_lib(env, RxV, RsV, RtV, float_muladd_negate_product);
 }
 
 float64 HELPER(dfmpyfix)(CPUHexagonState *env, float64 RssV, float64 RttV)
-- 
2.43.0

The function is now unused.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.h |   2 -
 target/hexagon/fma_emu.c | 171 ---------------------------------------
 2 files changed, 173 deletions(-)

diff --git a/target/hexagon/fma_emu.h b/target/hexagon/fma_emu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.h
+++ b/target/hexagon/fma_emu.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t float32_getexp_raw(float32 f32)
 }
 int32_t float32_getexp(float32 f32);
 float32 infinite_float32(uint8_t sign);
-float32 internal_fmafx(float32 a, float32 b, float32 c,
-                       int scale, float_status *fp_status);
 float64 internal_mpyhh(float64 a, float64 b,
                        unsigned long long int accumulated,
                        float_status *fp_status);
diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
     return -1;
 }
 
-static uint64_t float32_getmant(float32 f32)
-{
-    Float a = { .i = f32 };
-    if (float32_is_normal(f32)) {
-        return a.mant | 1ULL << 23;
-    }
-    if (float32_is_zero(f32)) {
-        return 0;
-    }
-    if (float32_is_denormal(f32)) {
-        return a.mant;
-    }
-    return ~0ULL;
-}
-
 int32_t float32_getexp(float32 f32)
 {
     Float a = { .i = f32 };
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-static float32 maxfinite_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(SF_MINUS_MAXF);
-    } else {
-        return make_float32(SF_MAXF);
-    }
-}
-
-/* Return a zero value with requested sign */
-static float32 zero_float32(uint8_t sign)
-{
-    if (sign) {
-        return make_float32(0x80000000);
-    } else {
-        return float32_zero;
-    }
-}
-
 #define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
 static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 { \
@@ -XXX,XX +XXX,XX @@ static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
 }
 
 GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-GEN_XF_ROUND(float32, SF_MANTBITS, SF_INF_EXP, Float)
-
-static bool is_inf_prod(float64 a, float64 b)
-{
-    return ((float64_is_infinity(a) && float64_is_infinity(b)) ||
-            (float64_is_infinity(a) && is_finite(b) && (!float64_is_zero(b))) ||
-            (float64_is_infinity(b) && is_finite(a) && (!float64_is_zero(a))));
-}
-
-static float64 special_fma(float64 a, float64 b, float64 c,
-                           float_status *fp_status)
-{
-    float64 ret = make_float64(0);
-
-    /*
-     * If A multiplied by B is an exact infinity and C is also an infinity
-     * but with the opposite sign, FMA returns NaN and raises invalid.
-     */
-    uint8_t a_sign = float64_is_neg(a);
-    uint8_t b_sign = float64_is_neg(b);
-    uint8_t c_sign = float64_is_neg(c);
-    if (is_inf_prod(a, b) && float64_is_infinity(c)) {
-        if ((a_sign ^ b_sign) != c_sign) {
-            ret = make_float64(DF_NAN);
-            float_raise(float_flag_invalid, fp_status);
-            return ret;
-        }
-    }
-    if ((float64_is_infinity(a) && float64_is_zero(b)) ||
-        (float64_is_zero(a) && float64_is_infinity(b))) {
-        ret = make_float64(DF_NAN);
-        float_raise(float_flag_invalid, fp_status);
-        return ret;
-    }
-    /*
-     * If none of the above checks are true and C is a NaN,
-     * a NaN shall be returned
-     * If A or B are NaN, a NAN shall be returned.
-     */
-    if (float64_is_any_nan(a) ||
-        float64_is_any_nan(b) ||
-        float64_is_any_nan(c)) {
-        if (float64_is_any_nan(a) && (fGETBIT(51, a) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(b) && (fGETBIT(51, b) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        if (float64_is_any_nan(c) && (fGETBIT(51, c) == 0)) {
-            float_raise(float_flag_invalid, fp_status);
-        }
-        ret = make_float64(DF_NAN);
-        return ret;
-    }
-    /*
-     * We have checked for adding opposite-signed infinities.
-     * Other infinities return infinity with the correct sign
-     */
-    if (float64_is_infinity(c)) {
-        ret = infinite_float64(c_sign);
-        return ret;
-    }
-    if (float64_is_infinity(a) || float64_is_infinity(b)) {
-        ret = infinite_float64(a_sign ^ b_sign);
-        return ret;
-    }
-    g_assert_not_reached();
-}
-
-static float32 special_fmaf(float32 a, float32 b, float32 c,
-                            float_status *fp_status)
-{
-    float64 aa, bb, cc;
-    aa = float32_to_float64(a, fp_status);
-    bb = float32_to_float64(b, fp_status);
-    cc = float32_to_float64(c, fp_status);
-    return float64_to_float32(special_fma(aa, bb, cc, fp_status), fp_status);
-}
-
-float32 internal_fmafx(float32 a, float32 b, float32 c, int scale,
-                       float_status *fp_status)
-{
-    Accum prod;
-    Accum acc;
-    Accum result;
-    accum_init(&prod);
-    accum_init(&acc);
-    accum_init(&result);
-
-    uint8_t a_sign = float32_is_neg(a);
-    uint8_t b_sign = float32_is_neg(b);
-    uint8_t c_sign = float32_is_neg(c);
-    if (float32_is_infinity(a) ||
-        float32_is_infinity(b) ||
-        float32_is_infinity(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if (float32_is_any_nan(a) ||
-        float32_is_any_nan(b) ||
-        float32_is_any_nan(c)) {
-        return special_fmaf(a, b, c, fp_status);
-    }
-    if ((scale == 0) && (float32_is_zero(a) || float32_is_zero(b))) {
-        float32 tmp = float32_mul(a, b, fp_status);
-        tmp = float32_add(tmp, c, fp_status);
-        return tmp;
-    }
-
-    /* (a * 2**b) * (c * 2**d) == a*c * 2**(b+d) */
-    prod.mant = int128_mul_6464(float32_getmant(a), float32_getmant(b));
-
-    /*
-     * Note: extracting the mantissa into an int is multiplying by
-     * 2**23, so adjust here
-     */
-    prod.exp = float32_getexp(a) + float32_getexp(b) - SF_BIAS - 23;
-    prod.sign = a_sign ^ b_sign;
-    if (float32_is_zero(a) || float32_is_zero(b)) {
-        prod.exp = -2 * WAY_BIG_EXP;
-    }
-    if ((scale > 0) && float32_is_denormal(c)) {
-        acc.mant = int128_mul_6464(0, 0);
-        acc.exp = -WAY_BIG_EXP;
-        acc.sign = c_sign;
-        acc.sticky = 1;
-        result = accum_add(prod, acc);
-    } else if (!float32_is_zero(c)) {
-        acc.mant = int128_mul_6464(float32_getmant(c), 1);
-        acc.exp = float32_getexp(c);
-        acc.sign = c_sign;
-        result = accum_add(prod, acc);
-    } else {
-        result = prod;
-    }
-    result.exp += scale;
-    return accum_round_float32(result, fp_status);
-}
 
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
-- 
2.43.0

This massive macro is now only used once.
Expand it for use only by float64.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 255 +++++++++++++++++++--------------------
 1 file changed, 127 insertions(+), 128 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 }
 
 /* Return a maximum finite value with the requested sign */
-#define GEN_XF_ROUND(SUFFIX, MANTBITS, INF_EXP, INTERNAL_TYPE) \
-static SUFFIX accum_round_##SUFFIX(Accum a, float_status * fp_status) \
-{ \
-    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0) \
-        && ((a.guard | a.round | a.sticky) == 0)) { \
-        /* result zero */ \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_down: \
-            return zero_##SUFFIX(1); \
-        default: \
-            return zero_##SUFFIX(0); \
-        } \
-    } \
-    /* Normalize right */ \
-    /* We want MANTBITS bits of mantissa plus the leading one. */ \
-    /* That means that we want MANTBITS+1 bits, or 0x000000000000FF_FFFF */ \
-    /* So we need to normalize right while the high word is non-zero and \
-    * while the low word is nonzero when masked with 0xffe0_0000_0000_0000 */ \
-    while ((int128_gethi(a.mant) != 0) || \
-           ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0)) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* \
-     * OK, now normalize left \
-     * We want to normalize left until we have a leading one in bit 24 \
-     * Theoretically, we only need to shift a maximum of one to the left if we \
-     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky \
-     * should be 0  \
-     */ \
-    while ((int128_getlo(a.mant) & (1ULL << MANTBITS)) == 0) { \
-        a = accum_norm_left(a); \
-    } \
-    /* \
-     * OK, now we might need to denormalize because of potential underflow. \
-     * We need to do this before rounding, and rounding might make us normal \
-     * again \
-     */ \
-    while (a.exp <= 0) { \
-        a = accum_norm_right(a, 1 - a.exp); \
-        /* \
-         * Do we have underflow? \
-         * That's when we get an inexact answer because we ran out of bits \
-         * in a denormal. \
-         */ \
-        if (a.guard || a.round || a.sticky) { \
-            float_raise(float_flag_underflow, fp_status); \
-        } \
-    } \
-    /* OK, we're relatively canonical... now we need to round */ \
-    if (a.guard || a.round || a.sticky) { \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            /* Chop and we're done */ \
-            break; \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                a.mant = int128_add(a.mant, int128_one()); \
-            } \
-            break; \
-        default: \
-            if (a.round || a.sticky) { \
-                /* round up if guard is 1, down if guard is zero */ \
-                a.mant = int128_add(a.mant, int128_make64(a.guard)); \
-            } else if (a.guard) { \
-                /* exactly .5, round up if odd */ \
-                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one())); \
-            } \
-            break; \
-        } \
-    } \
-    /* \
-     * OK, now we might have carried all the way up. \
-     * So we might need to shr once \
-     * at least we know that the lsb should be zero if we rounded and \
-     * got a carry out... \
-     */ \
-    if ((int128_getlo(a.mant) >> (MANTBITS + 1)) != 0) { \
-        a = accum_norm_right(a, 1); \
-    } \
-    /* Overflow? */ \
-    if (a.exp >= INF_EXP) { \
-        /* Yep, inf result */ \
-        float_raise(float_flag_overflow, fp_status); \
-        float_raise(float_flag_inexact, fp_status); \
-        switch (fp_status->float_rounding_mode) { \
-        case float_round_to_zero: \
-            return maxfinite_##SUFFIX(a.sign); \
-        case float_round_up: \
-            if (a.sign == 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        case float_round_down: \
-            if (a.sign != 0) { \
-                return infinite_##SUFFIX(a.sign); \
-            } else { \
-                return maxfinite_##SUFFIX(a.sign); \
-            } \
-        default: \
-            return infinite_##SUFFIX(a.sign); \
-        } \
-    } \
-    /* Underflow? */ \
-    if (int128_getlo(a.mant) & (1ULL << MANTBITS)) { \
-        /* Leading one means: No, we're normal. So, we should be done... */ \
-        INTERNAL_TYPE ret; \
-        ret.i = 0; \
-        ret.sign = a.sign; \
-        ret.exp = a.exp; \
-        ret.mant = int128_getlo(a.mant); \
-        return ret.i; \
-    } \
-    assert(a.exp == 1); \
-    INTERNAL_TYPE ret; \
-    ret.i = 0; \
-    ret.sign = a.sign; \
-    ret.exp = 0; \
-    ret.mant = int128_getlo(a.mant); \
-    return ret.i; \
+static float64 accum_round_float64(Accum a, float_status *fp_status)
+{
+    if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
+        && ((a.guard | a.round | a.sticky) == 0)) {
+        /* result zero */
+        switch (fp_status->float_rounding_mode) {
+        case float_round_down:
+            return zero_float64(1);
+        default:
+            return zero_float64(0);
+        }
+    }
+    /*
+     * Normalize right
+     * We want DF_MANTBITS bits of mantissa plus the leading one.
+     * That means that we want DF_MANTBITS+1 bits, or 0x000000000000FF_FFFF
+     * So we need to normalize right while the high word is non-zero and
+     * while the low word is nonzero when masked with 0xffe0_0000_0000_0000
+     */
+    while ((int128_gethi(a.mant) != 0) ||
+           ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0)) {
+        a = accum_norm_right(a, 1);
+    }
+    /*
+     * OK, now normalize left
+     * We want to normalize left until we have a leading one in bit 24
+     * Theoretically, we only need to shift a maximum of one to the left if we
+     * shifted out lots of bits from B, or if we had no shift / 1 shift sticky
+     * should be 0
+     */
+    while ((int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) == 0) {
+        a = accum_norm_left(a);
+    }
+    /*
+     * OK, now we might need to denormalize because of potential underflow.
+     * We need to do this before rounding, and rounding might make us normal
+     * again
+     */
+    while (a.exp <= 0) {
+        a = accum_norm_right(a, 1 - a.exp);
+        /*
+         * Do we have underflow?
+         * That's when we get an inexact answer because we ran out of bits
+         * in a denormal.
+         */
+        if (a.guard || a.round || a.sticky) {
+            float_raise(float_flag_underflow, fp_status);
+        }
+    }
+    /* OK, we're relatively canonical... now we need to round */
+    if (a.guard || a.round || a.sticky) {
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            /* Chop and we're done */
+            break;
+        case float_round_up:
+            if (a.sign == 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        case float_round_down:
+            if (a.sign != 0) {
+                a.mant = int128_add(a.mant, int128_one());
+            }
+            break;
+        default:
+            if (a.round || a.sticky) {
+                /* round up if guard is 1, down if guard is zero */
+                a.mant = int128_add(a.mant, int128_make64(a.guard));
+            } else if (a.guard) {
+                /* exactly .5, round up if odd */
+                a.mant = int128_add(a.mant, int128_and(a.mant, int128_one()));
+            }
+            break;
+        }
+    }
+    /*
+     * OK, now we might have carried all the way up.
+     * So we might need to shr once
+     * at least we know that the lsb should be zero if we rounded and
+     * got a carry out...
+     */
+    if ((int128_getlo(a.mant) >> (DF_MANTBITS + 1)) != 0) {
+        a = accum_norm_right(a, 1);
+    }
+    /* Overflow? */
+    if (a.exp >= DF_INF_EXP) {
+        /* Yep, inf result */
+        float_raise(float_flag_overflow, fp_status);
+        float_raise(float_flag_inexact, fp_status);
+        switch (fp_status->float_rounding_mode) {
+        case float_round_to_zero:
+            return maxfinite_float64(a.sign);
+        case float_round_up:
+            if (a.sign == 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        case float_round_down:
+            if (a.sign != 0) {
+                return infinite_float64(a.sign);
+            } else {
+                return maxfinite_float64(a.sign);
+            }
+        default:
+            return infinite_float64(a.sign);
+        }
+    }
+    /* Underflow? */
+    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+        /* Leading one means: No, we're normal. So, we should be done... */
+        Double ret;
+        ret.i = 0;
+        ret.sign = a.sign;
+        ret.exp = a.exp;
+        ret.mant = int128_getlo(a.mant);
+        return ret.i;
+    }
+    assert(a.exp == 1);
+    Double ret;
+    ret.i = 0;
+    ret.sign = a.sign;
+    ret.exp = 0;
+    ret.mant = int128_getlo(a.mant);
+    return ret.i;
 }
 
-GEN_XF_ROUND(float64, DF_MANTBITS, DF_INF_EXP, Double)
-
 float64 internal_mpyhh(float64 a, float64 b,
                       unsigned long long int accumulated,
                       float_status *fp_status)
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use the existing float32_getexp_raw which uses extract32.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 16 +++-------------
 1 file changed, 3 insertions(+), 13 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ typedef union {
     };
 } Double;
 
-typedef union {
-    float f;
-    uint32_t i;
-    struct {
-        uint32_t mant:23;
-        uint32_t exp:8;
-        uint32_t sign:1;
-    };
-} Float;
-
 static uint64_t float64_getmant(float64 f64)
 {
     Double a = { .i = f64 };
@@ -XXX,XX +XXX,XX @@ int32_t float64_getexp(float64 f64)
 
 int32_t float32_getexp(float32 f32)
 {
-    Float a = { .i = f32 };
+    int exp = float32_getexp_raw(f32);
     if (float32_is_normal(f32)) {
-        return a.exp;
+        return exp;
     }
     if (float32_is_denormal(f32)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
-- 
2.43.0

This structure, with bitfields, is incorrect for big-endian.
Use extract64 and deposit64 instead.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 46 ++++++++++++++--------------------------
 1 file changed, 16 insertions(+), 30 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@
 
 #define WAY_BIG_EXP 4096
 
-typedef union {
-    double f;
-    uint64_t i;
-    struct {
-        uint64_t mant:52;
-        uint64_t exp:11;
-        uint64_t sign:1;
-    };
-} Double;
-
 static uint64_t float64_getmant(float64 f64)
 {
-    Double a = { .i = f64 };
+    uint64_t mant = extract64(f64, 0, 52);
     if (float64_is_normal(f64)) {
-        return a.mant | 1ULL << 52;
+        return mant | 1ULL << 52;
     }
     if (float64_is_zero(f64)) {
         return 0;
     }
     if (float64_is_denormal(f64)) {
-        return a.mant;
+        return mant;
     }
     return ~0ULL;
 }
 
 int32_t float64_getexp(float64 f64)
 {
-    Double a = { .i = f64 };
+    int exp = extract64(f64, 52, 11);
     if (float64_is_normal(f64)) {
-        return a.exp;
+        return exp;
     }
     if (float64_is_denormal(f64)) {
-        return a.exp + 1;
+        return exp + 1;
     }
     return -1;
 }
@@ -XXX,XX +XXX,XX @@ float32 infinite_float32(uint8_t sign)
 /* Return a maximum finite value with the requested sign */
 static float64 accum_round_float64(Accum a, float_status *fp_status)
 {
+    uint64_t ret;
+
     if ((int128_gethi(a.mant) == 0) && (int128_getlo(a.mant) == 0)
         && ((a.guard | a.round | a.sticky) == 0)) {
         /* result zero */
@@ -XXX,XX +XXX,XX @@ static float64 accum_round_float64(Accum a, float_status *fp_status)
         }
     }
     /* Underflow? */
-    if (int128_getlo(a.mant) & (1ULL << DF_MANTBITS)) {
+    ret = int128_getlo(a.mant);
+    if (ret & (1ULL << DF_MANTBITS)) {
         /* Leading one means: No, we're normal. So, we should be done... */
-        Double ret;
-        ret.i = 0;
-        ret.sign = a.sign;
-        ret.exp = a.exp;
-        ret.mant = int128_getlo(a.mant);
-        return ret.i;
+        ret = deposit64(ret, 52, 11, a.exp);
+    } else {
+        assert(a.exp == 1);
+        ret = deposit64(ret, 52, 11, 0);
     }
-    assert(a.exp == 1);
-    Double ret;
-    ret.i = 0;
-    ret.sign = a.sign;
-    ret.exp = 0;
-    ret.mant = int128_getlo(a.mant);
-    return ret.i;
+    ret = deposit64(ret, 63, 1, a.sign);
+    return ret;
 }
 
 float64 internal_mpyhh(float64 a, float64 b,
-- 
2.43.0

No need to open-code 64x64->128-bit multiplication.

Reviewed-by: Brian Cain <brian.cain@oss.qualcomm.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
---
 target/hexagon/fma_emu.c | 32 +++-----------------------------
 1 file changed, 3 insertions(+), 29 deletions(-)

diff --git a/target/hexagon/fma_emu.c b/target/hexagon/fma_emu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/fma_emu.c
+++ b/target/hexagon/fma_emu.c
@@ -XXX,XX +XXX,XX @@ int32_t float32_getexp(float32 f32)
     return -1;
 }
 
-static uint32_t int128_getw0(Int128 x)
-{
-    return int128_getlo(x);
-}
-
-static uint32_t int128_getw1(Int128 x)
-{
-    return int128_getlo(x) >> 32;
-}
-
 static Int128 int128_mul_6464(uint64_t ai, uint64_t bi)
 {
-    Int128 a, b;
-    uint64_t pp0, pp1a, pp1b, pp1s, pp2;
+    uint64_t l, h;
 
-    a = int128_make64(ai);
-    b = int128_make64(bi);
-    pp0 = (uint64_t)int128_getw0(a) * (uint64_t)int128_getw0(b);
-    pp1a = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw0(b);
-    pp1b = (uint64_t)int128_getw1(b) * (uint64_t)int128_getw0(a);
-    pp2 = (uint64_t)int128_getw1(a) * (uint64_t)int128_getw1(b);
-
-    pp1s = pp1a + pp1b;
-    if ((pp1s < pp1a) || (pp1s < pp1b)) {
-        pp2 += (1ULL << 32);
-    }
-    uint64_t ret_low = pp0 + (pp1s << 32);
-    if ((ret_low < pp0) || (ret_low < (pp1s << 32))) {
-        pp2 += 1;
-    }
-
-    return int128_make128(ret_low, pp2 + (pp1s >> 32));
+    mulu64(&l, &h, ai, bi);
+    return int128_make128(l, h);
 }
 
 static Int128 int128_sub_borrow(Int128 a, Int128 b, int borrow)
-- 
2.43.0

Convert all targets simultaneously, as the gen_intermediate_code
function disappears from the target.  While there are possible
workarounds, they're larger than simply performing the conversion.

diff --git a/include/exec/translator.h b/include/exec/translator.h
index XXXXXXX..XXXXXXX 100644
--- a/include/exec/translator.h
+++ b/include/exec/translator.h
@@ -XXX,XX +XXX,XX @@
 #include "qemu/bswap.h"
 #include "exec/vaddr.h"
 
-/**
- * gen_intermediate_code
- * @cpu: cpu context
- * @tb: translation block
- * @max_insns: max number of instructions to translate
- * @pc: guest virtual program counter address
- * @host_pc: host physical program counter address
- *
- * This function must be provided by the target, which should create
- * the target-specific DisasContext, and then invoke translator_loop.
- */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc);
-
 /**
  * DisasJumpType:
  * @DISAS_NEXT: Next instruction in program order.
diff --git a/include/hw/core/tcg-cpu-ops.h b/include/hw/core/tcg-cpu-ops.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/core/tcg-cpu-ops.h
+++ b/include/hw/core/tcg-cpu-ops.h
@@ -XXX,XX +XXX,XX @@ struct TCGCPUOps {
      * Called when the first CPU is realized.
      */
     void (*initialize)(void);
+    /**
+     * @translate_code: Translate guest instructions to TCGOps
+     * @cpu: cpu context
+     * @tb: translation block
+     * @max_insns: max number of instructions to translate
+     * @pc: guest virtual program counter address
+     * @host_pc: host physical program counter address
+     *
+     * This function must be provided by the target, which should create
+     * the target-specific DisasContext, and then invoke translator_loop.
+     */
+    void (*translate_code)(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
     /**
      * @synchronize_from_tb: Synchronize state from a TCG #TranslationBlock
      *
diff --git a/target/alpha/cpu.h b/target/alpha/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.h
+++ b/target/alpha/cpu.h
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 void alpha_translate_init(void);
+void alpha_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_ALPHA_CPU
 
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void init_cpreg_list(ARMCPU *cpu);
 
 void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu);
 void arm_translate_init(void);
+void arm_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 void arm_cpu_register_gdb_commands(ARMCPU *cpu);
 void aarch64_cpu_register_gdb_commands(ARMCPU *cpu, GString *,
diff --git a/target/avr/cpu.h b/target/avr/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.h
+++ b/target/avr/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void set_avr_feature(CPUAVRState *env, int feature)
 }
 
 void avr_cpu_tcg_init(void);
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 int cpu_avr_exec(CPUState *cpu);
 
diff --git a/target/hexagon/cpu.h b/target/hexagon/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.h
+++ b/target/hexagon/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void cpu_get_tb_cpu_state(CPUHexagonState *env, vaddr *pc,
 typedef HexagonCPU ArchCPU;
 
 void hexagon_translate_init(void);
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 #include "exec/cpu-all.h"
 
diff --git a/target/hppa/cpu.h b/target/hppa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.h
+++ b/target/hppa/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int HPPA_BTLB_ENTRIES(CPUHPPAState *env)
 }
 
 void hppa_translate_init(void);
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_HPPA_CPU
 
diff --git a/target/i386/tcg/helper-tcg.h b/target/i386/tcg/helper-tcg.h
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/helper-tcg.h
+++ b/target/i386/tcg/helper-tcg.h
@@ -XXX,XX +XXX,XX @@ static inline target_long lshift(target_long x, int n)
 
 /* translate.c */
 void tcg_x86_init(void);
+void x86_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 /* excp_helper.c */
 G_NORETURN void raise_exception(CPUX86State *env, int exception_index);
diff --git a/target/loongarch/internals.h b/target/loongarch/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/internals.h
+++ b/target/loongarch/internals.h
@@ -XXX,XX +XXX,XX @@
 #define TARGET_VIRT_MASK MAKE_64BIT_MASK(0, TARGET_VIRT_ADDR_SPACE_BITS)
 
 void loongarch_translate_init(void);
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc);
 
 void G_NORETURN do_raise_exception(CPULoongArchState *env,
                                    uint32_t exception,
diff --git a/target/m68k/cpu.h b/target/m68k/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.h
+++ b/target/m68k/cpu.h
@@ -XXX,XX +XXX,XX @@ int m68k_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int m68k_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void m68k_tcg_init(void);
+void m68k_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 void m68k_cpu_init_gdb(M68kCPU *cpu);
 uint32_t cpu_m68k_get_ccr(CPUM68KState *env);
 void cpu_m68k_set_ccr(CPUM68KState *env, uint32_t);
diff --git a/target/microblaze/cpu.h b/target/microblaze/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.h
+++ b/target/microblaze/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline void mb_cpu_write_msr(CPUMBState *env, uint32_t val)
 }
 
 void mb_tcg_init(void);
+void mb_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 
 #define CPU_RESOLVING_TYPE TYPE_MICROBLAZE_CPU
 
diff --git a/target/mips/tcg/tcg-internal.h b/target/mips/tcg/tcg-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/tcg-internal.h
+++ b/target/mips/tcg/tcg-internal.h
@@ -XXX,XX +XXX,XX @@
 #include "cpu.h"
 
 void mips_tcg_init(void);
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc);
 
 void mips_cpu_synchronize_from_tb(CPUState *cs, const TranslationBlock *tb);
 G_NORETURN void mips_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
diff --git a/target/openrisc/cpu.h b/target/openrisc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.h
+++ b/target/openrisc/cpu.h
@@ -XXX,XX +XXX,XX @@ void openrisc_cpu_dump_state(CPUState *cpu, FILE *f, int flags);
 int openrisc_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int openrisc_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 void openrisc_translate_init(void);
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc);
 int print_insn_or1k(bfd_vma addr, disassemble_info *info);
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/ppc/cpu.h b/target/ppc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu.h
+++ b/target/ppc/cpu.h
@@ -XXX,XX +XXX,XX @@ extern const VMStateDescription vmstate_ppc_cpu;
 
 /*****************************************************************************/
 void ppc_translate_init(void);
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 void ppc_store_sdr1(CPUPPCState *env, target_ulong value);
diff --git a/target/riscv/cpu.h b/target/riscv/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/cpu.h
+++ b/target/riscv/cpu.h
@@ -XXX,XX +XXX,XX @@ RISCVException smstateen_acc_ok(CPURISCVState *env, int index, uint64_t bit);
 void riscv_cpu_set_mode(CPURISCVState *env, target_ulong newpriv, bool virt_en);
 
 void riscv_translate_init(void);
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
+
 G_NORETURN void riscv_raise_exception(CPURISCVState *env,
                                       uint32_t exception, uintptr_t pc);
 
diff --git a/target/rx/cpu.h b/target/rx/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.h
+++ b/target/rx/cpu.h
@@ -XXX,XX +XXX,XX @@ int rx_cpu_gdb_read_register(CPUState *cpu, GByteArray *buf, int reg);
 int rx_cpu_gdb_write_register(CPUState *cpu, uint8_t *buf, int reg);
 
 void rx_translate_init(void);
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc);
 void rx_cpu_unpack_psw(CPURXState *env, uint32_t psw, int rte);
 
 #include "exec/cpu-all.h"
diff --git a/target/s390x/s390x-internal.h b/target/s390x/s390x-internal.h
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/s390x-internal.h
+++ b/target/s390x/s390x-internal.h
@@ -XXX,XX +XXX,XX @@ void handle_diag_308(CPUS390XState *env, uint64_t r1, uint64_t r3,
 
 /* translate.c */
 void s390x_translate_init(void);
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 void s390x_restore_state_to_opc(CPUState *cs,
                                 const TranslationBlock *tb,
                                 const uint64_t *data);
diff --git a/target/sh4/cpu.h b/target/sh4/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.h
+++ b/target/sh4/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void superh_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
                                                uintptr_t retaddr);
 
 void sh4_translate_init(void);
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc);
 
 #if !defined(CONFIG_USER_ONLY)
 hwaddr superh_cpu_get_phys_page_debug(CPUState *cpu, vaddr addr);
diff --git a/target/sparc/cpu.h b/target/sparc/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.h
+++ b/target/sparc/cpu.h
@@ -XXX,XX +XXX,XX @@ int sparc_cpu_memory_rw_debug(CPUState *cpu, vaddr addr,
 
 /* translate.c */
 void sparc_tcg_init(void);
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc);
 
 /* fop_helper.c */
 target_ulong cpu_get_fsr(CPUSPARCState *);
diff --git a/target/tricore/cpu.h b/target/tricore/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.h
+++ b/target/tricore/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TB_FLAGS, PRIV, 0, 2)
 
 void cpu_state_reset(CPUTriCoreState *s);
 void tricore_tcg_init(void);
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc);
 
 static inline void cpu_get_tb_cpu_state(CPUTriCoreState *env, vaddr *pc,
                                         uint64_t *cs_base, uint32_t *flags)
diff --git a/target/xtensa/cpu.h b/target/xtensa/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.h
+++ b/target/xtensa/cpu.h
@@ -XXX,XX +XXX,XX @@ G_NORETURN void xtensa_cpu_do_unaligned_access(CPUState *cpu, vaddr addr,
 
 void xtensa_collect_sr_names(const XtensaConfig *config);
 void xtensa_translate_init(void);
+void xtensa_translate_code(CPUState *cs, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc);
 void **xtensa_get_regfile_by_name(const char *name, int entries, int bits);
 void xtensa_breakpoint_handler(CPUState *cs);
 void xtensa_register_core(XtensaConfigList *node);
diff --git a/accel/tcg/cpu-exec.c b/accel/tcg/cpu-exec.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/cpu-exec.c
+++ b/accel/tcg/cpu-exec.c
@@ -XXX,XX +XXX,XX @@ bool tcg_exec_realizefn(CPUState *cpu, Error **errp)
 
     if (!tcg_target_initialized) {
         /* Check mandatory TCGCPUOps handlers */
+        const TCGCPUOps *tcg_ops = cpu->cc->tcg_ops;
 #ifndef CONFIG_USER_ONLY
-        assert(cpu->cc->tcg_ops->cpu_exec_halt);
-        assert(cpu->cc->tcg_ops->cpu_exec_interrupt);
+        assert(tcg_ops->cpu_exec_halt);
+        assert(tcg_ops->cpu_exec_interrupt);
 #endif /* !CONFIG_USER_ONLY */
-        cpu->cc->tcg_ops->initialize();
+        assert(tcg_ops->translate_code);
+        tcg_ops->initialize();
         tcg_target_initialized = true;
     }
 
diff --git a/accel/tcg/translate-all.c b/accel/tcg/translate-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/tcg/translate-all.c
+++ b/accel/tcg/translate-all.c
@@ -XXX,XX +XXX,XX @@ static int setjmp_gen_code(CPUArchState *env, TranslationBlock *tb,
 
     tcg_func_start(tcg_ctx);
 
-    tcg_ctx->cpu = env_cpu(env);
-    gen_intermediate_code(env_cpu(env), tb, max_insns, pc, host_pc);
+    CPUState *cs = env_cpu(env);
+    tcg_ctx->cpu = cs;
+    cs->cc->tcg_ops->translate_code(cs, tb, max_insns, pc, host_pc);
+
     assert(tb->size != 0);
     tcg_ctx->cpu = NULL;
     *max_insns = tb->icount;
@@ -XXX,XX +XXX,XX @@ TranslationBlock *tb_gen_code(CPUState *cpu,
             /*
              * Overflow of code_gen_buffer, or the current slice of it.
              *
-             * TODO: We don't need to re-do gen_intermediate_code, nor
+             * TODO: We don't need to re-do tcg_ops->translate_code, nor
              * should we re-do the tcg optimization currently hidden
              * inside tcg_gen_code.  All that should be required is to
              * flush the TBs, allocate a new TB, re-initialize it per
diff --git a/target/alpha/cpu.c b/target/alpha/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/cpu.c
+++ b/target/alpha/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps alpha_sysemu_ops = {
 
 static const TCGCPUOps alpha_tcg_ops = {
     .initialize = alpha_translate_init,
+    .translate_code = alpha_translate_code,
     .synchronize_from_tb = alpha_cpu_synchronize_from_tb,
     .restore_state_to_opc = alpha_restore_state_to_opc,
 
diff --git a/target/alpha/translate.c b/target/alpha/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/alpha/translate.c
+++ b/target/alpha/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps alpha_tr_ops = {
     .tb_stop            = alpha_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void alpha_translate_code(CPUState *cpu, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &alpha_tr_ops, &dc.base);
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps arm_sysemu_ops = {
 #ifdef CONFIG_TCG
 static const TCGCPUOps arm_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/cpu-v7m.c b/target/arm/tcg/cpu-v7m.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/cpu-v7m.c
+++ b/target/arm/tcg/cpu-v7m.c
@@ -XXX,XX +XXX,XX @@ static void cortex_m55_initfn(Object *obj)
 
 static const TCGCPUOps arm_v7m_tcg_ops = {
     .initialize = arm_translate_init,
+    .translate_code = arm_translate_code,
     .synchronize_from_tb = arm_cpu_synchronize_from_tb,
     .debug_excp_handler = arm_debug_excp_handler,
     .restore_state_to_opc = arm_restore_state_to_opc,
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps thumb_translator_ops = {
     .tb_stop            = arm_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void arm_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     const TranslatorOps *ops = &arm_translator_ops;
diff --git a/target/avr/cpu.c b/target/avr/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/cpu.c
+++ b/target/avr/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps avr_sysemu_ops = {
 
 static const TCGCPUOps avr_tcg_ops = {
     .initialize = avr_cpu_tcg_init,
+    .translate_code = avr_cpu_translate_code,
     .synchronize_from_tb = avr_cpu_synchronize_from_tb,
     .restore_state_to_opc = avr_restore_state_to_opc,
     .cpu_exec_interrupt = avr_cpu_exec_interrupt,
diff --git a/target/avr/translate.c b/target/avr/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/avr/translate.c
+++ b/target/avr/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_WDR(DisasContext *ctx, arg_WDR *a)
  *
  *    - translate()
  *    - canonicalize_skip()
- *    - gen_intermediate_code()
+ *    - translate_code()
  *    - restore_state_to_opc()
  *
  */
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps avr_tr_ops = {
     .tb_stop            = avr_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void avr_cpu_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &avr_tr_ops, &dc.base);
diff --git a/target/hexagon/cpu.c b/target/hexagon/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/cpu.c
+++ b/target/hexagon/cpu.c
@@ -XXX,XX +XXX,XX @@ static void hexagon_cpu_init(Object *obj)
 
 static const TCGCPUOps hexagon_tcg_ops = {
     .initialize = hexagon_translate_init,
+    .translate_code = hexagon_translate_code,
     .synchronize_from_tb = hexagon_cpu_synchronize_from_tb,
     .restore_state_to_opc = hexagon_restore_state_to_opc,
 };
diff --git a/target/hexagon/translate.c b/target/hexagon/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hexagon/translate.c
+++ b/target/hexagon/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hexagon_tr_ops = {
     .tb_stop            = hexagon_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hexagon_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/hppa/cpu.c b/target/hppa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/cpu.c
+++ b/target/hppa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps hppa_sysemu_ops = {
 
 static const TCGCPUOps hppa_tcg_ops = {
     .initialize = hppa_translate_init,
+    .translate_code = hppa_translate_code,
     .synchronize_from_tb = hppa_cpu_synchronize_from_tb,
     .restore_state_to_opc = hppa_restore_state_to_opc,
 
diff --git a/target/hppa/translate.c b/target/hppa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/hppa/translate.c
+++ b/target/hppa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps hppa_tr_ops = {
 #endif
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void hppa_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx = { };
     translator_loop(cs, tb, max_insns, pc, host_pc, &hppa_tr_ops, &ctx.base);
diff --git a/target/i386/tcg/tcg-cpu.c b/target/i386/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/tcg-cpu.c
+++ b/target/i386/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static bool x86_debug_check_breakpoint(CPUState *cs)
 
 static const TCGCPUOps x86_tcg_ops = {
     .initialize = tcg_x86_init,
+    .translate_code = x86_translate_code,
     .synchronize_from_tb = x86_cpu_synchronize_from_tb,
     .restore_state_to_opc = x86_restore_state_to_opc,
     .cpu_exec_enter = x86_cpu_exec_enter,
diff --git a/target/i386/tcg/translate.c b/target/i386/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/tcg/translate.c
+++ b/target/i386/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps i386_tr_ops = {
     .tb_stop            = i386_tr_tb_stop,
 };
 
-/* generate intermediate code for basic block 'tb'.  */
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void x86_translate_code(CPUState *cpu, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/loongarch/cpu.c b/target/loongarch/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/cpu.c
+++ b/target/loongarch/cpu.c
@@ -XXX,XX +XXX,XX @@ static void loongarch_cpu_dump_state(CPUState *cs, FILE *f, int flags)
 
 static const TCGCPUOps loongarch_tcg_ops = {
     .initialize = loongarch_translate_init,
+    .translate_code = loongarch_translate_code,
     .synchronize_from_tb = loongarch_cpu_synchronize_from_tb,
     .restore_state_to_opc = loongarch_restore_state_to_opc,
 
diff --git a/target/loongarch/tcg/translate.c b/target/loongarch/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/loongarch/tcg/translate.c
+++ b/target/loongarch/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps loongarch_tr_ops = {
     .tb_stop            = loongarch_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void loongarch_translate_code(CPUState *cs, TranslationBlock *tb,
+                              int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/m68k/cpu.c b/target/m68k/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/cpu.c
+++ b/target/m68k/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps m68k_sysemu_ops = {
 
 static const TCGCPUOps m68k_tcg_ops = {
     .initialize = m68k_tcg_init,
+    .translate_code = m68k_translate_code,
     .restore_state_to_opc = m68k_restore_state_to_opc,
 
 #ifndef CONFIG_USER_ONLY
diff --git a/target/m68k/translate.c b/target/m68k/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/m68k/translate.c
+++ b/target/m68k/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps m68k_tr_ops = {
     .tb_stop            = m68k_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void m68k_translate_code(CPUState *cpu, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &m68k_tr_ops, &dc.base);
diff --git a/target/microblaze/cpu.c b/target/microblaze/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/cpu.c
+++ b/target/microblaze/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps mb_sysemu_ops = {
 
 static const TCGCPUOps mb_tcg_ops = {
     .initialize = mb_tcg_init,
+    .translate_code = mb_translate_code,
     .synchronize_from_tb = mb_cpu_synchronize_from_tb,
     .restore_state_to_opc = mb_restore_state_to_opc,
 
diff --git a/target/microblaze/translate.c b/target/microblaze/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/microblaze/translate.c
+++ b/target/microblaze/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mb_tr_ops = {
     .tb_stop            = mb_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mb_translate_code(CPUState *cpu, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
     translator_loop(cpu, tb, max_insns, pc, host_pc, &mb_tr_ops, &dc.base);
diff --git a/target/mips/cpu.c b/target/mips/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/cpu.c
+++ b/target/mips/cpu.c
@@ -XXX,XX +XXX,XX @@ static const Property mips_cpu_properties[] = {
 #include "hw/core/tcg-cpu-ops.h"
 static const TCGCPUOps mips_tcg_ops = {
     .initialize = mips_tcg_init,
+    .translate_code = mips_translate_code,
     .synchronize_from_tb = mips_cpu_synchronize_from_tb,
     .restore_state_to_opc = mips_restore_state_to_opc,
 
diff --git a/target/mips/tcg/translate.c b/target/mips/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/mips/tcg/translate.c
+++ b/target/mips/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps mips_tr_ops = {
     .tb_stop            = mips_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void mips_translate_code(CPUState *cs, TranslationBlock *tb,
+                         int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/openrisc/cpu.c b/target/openrisc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/cpu.c
+++ b/target/openrisc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps openrisc_sysemu_ops = {
 
 static const TCGCPUOps openrisc_tcg_ops = {
     .initialize = openrisc_translate_init,
+    .translate_code = openrisc_translate_code,
     .synchronize_from_tb = openrisc_cpu_synchronize_from_tb,
     .restore_state_to_opc = openrisc_restore_state_to_opc,
 
diff --git a/target/openrisc/translate.c b/target/openrisc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/openrisc/translate.c
+++ b/target/openrisc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps openrisc_tr_ops = {
     .tb_stop            = openrisc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void openrisc_translate_code(CPUState *cs, TranslationBlock *tb,
+                             int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/ppc/cpu_init.c b/target/ppc/cpu_init.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/cpu_init.c
+++ b/target/ppc/cpu_init.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps ppc_sysemu_ops = {
 
 static const TCGCPUOps ppc_tcg_ops = {
   .initialize = ppc_translate_init,
+  .translate_code = ppc_translate_code,
   .restore_state_to_opc = ppc_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/ppc/translate.c b/target/ppc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/ppc/translate.c
+++ b/target/ppc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps ppc_tr_ops = {
     .tb_stop            = ppc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void ppc_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/riscv/tcg/tcg-cpu.c b/target/riscv/tcg/tcg-cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/tcg/tcg-cpu.c
+++ b/target/riscv/tcg/tcg-cpu.c
@@ -XXX,XX +XXX,XX @@ static void riscv_restore_state_to_opc(CPUState *cs,
 
 static const TCGCPUOps riscv_tcg_ops = {
     .initialize = riscv_translate_init,
+    .translate_code = riscv_translate_code,
     .synchronize_from_tb = riscv_cpu_synchronize_from_tb,
     .restore_state_to_opc = riscv_restore_state_to_opc,
 
diff --git a/target/riscv/translate.c b/target/riscv/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/riscv/translate.c
+++ b/target/riscv/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps riscv_tr_ops = {
     .tb_stop            = riscv_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void riscv_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/rx/cpu.c b/target/rx/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/cpu.c
+++ b/target/rx/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps rx_sysemu_ops = {
 
 static const TCGCPUOps rx_tcg_ops = {
     .initialize = rx_translate_init,
+    .translate_code = rx_translate_code,
     .synchronize_from_tb = rx_cpu_synchronize_from_tb,
     .restore_state_to_opc = rx_restore_state_to_opc,
     .tlb_fill = rx_cpu_tlb_fill,
diff --git a/target/rx/translate.c b/target/rx/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/rx/translate.c
+++ b/target/rx/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps rx_tr_ops = {
     .tb_stop            = rx_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void rx_translate_code(CPUState *cs, TranslationBlock *tb,
+                       int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/s390x/cpu.c b/target/s390x/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/cpu.c
+++ b/target/s390x/cpu.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUS390XState *env, vaddr *pc,
 
 static const TCGCPUOps s390_tcg_ops = {
     .initialize = s390x_translate_init,
+    .translate_code = s390x_translate_code,
     .restore_state_to_opc = s390x_restore_state_to_opc,
 
 #ifdef CONFIG_USER_ONLY
diff --git a/target/s390x/tcg/translate.c b/target/s390x/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/s390x/tcg/translate.c
+++ b/target/s390x/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps s390x_tr_ops = {
     .disas_log          = s390x_tr_disas_log,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void s390x_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc;
 
diff --git a/target/sh4/cpu.c b/target/sh4/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/cpu.c
+++ b/target/sh4/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sh4_sysemu_ops = {
 
 static const TCGCPUOps superh_tcg_ops = {
     .initialize = sh4_translate_init,
+    .translate_code = sh4_translate_code,
     .synchronize_from_tb = superh_cpu_synchronize_from_tb,
     .restore_state_to_opc = superh_restore_state_to_opc,
 
diff --git a/target/sh4/translate.c b/target/sh4/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sh4/translate.c
+++ b/target/sh4/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sh4_tr_ops = {
     .tb_stop            = sh4_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sh4_translate_code(CPUState *cs, TranslationBlock *tb,
+                        int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
 
diff --git a/target/sparc/cpu.c b/target/sparc/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/cpu.c
+++ b/target/sparc/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps sparc_sysemu_ops = {
 
 static const TCGCPUOps sparc_tcg_ops = {
     .initialize = sparc_tcg_init,
+    .translate_code = sparc_translate_code,
     .synchronize_from_tb = sparc_cpu_synchronize_from_tb,
     .restore_state_to_opc = sparc_restore_state_to_opc,
 
diff --git a/target/sparc/translate.c b/target/sparc/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/sparc/translate.c
+++ b/target/sparc/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps sparc_tr_ops = {
     .tb_stop            = sparc_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void sparc_translate_code(CPUState *cs, TranslationBlock *tb,
+                          int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
 
diff --git a/target/tricore/cpu.c b/target/tricore/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/cpu.c
+++ b/target/tricore/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps tricore_sysemu_ops = {
 
 static const TCGCPUOps tricore_tcg_ops = {
     .initialize = tricore_tcg_init,
+    .translate_code = tricore_translate_code,
     .synchronize_from_tb = tricore_cpu_synchronize_from_tb,
     .restore_state_to_opc = tricore_restore_state_to_opc,
     .tlb_fill = tricore_cpu_tlb_fill,
diff --git a/target/tricore/translate.c b/target/tricore/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/tricore/translate.c
+++ b/target/tricore/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps tricore_tr_ops = {
     .tb_stop            = tricore_tr_tb_stop,
 };
 
-
-void gen_intermediate_code(CPUState *cs, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void tricore_translate_code(CPUState *cs, TranslationBlock *tb,
+                            int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext ctx;
     translator_loop(cs, tb, max_insns, pc, host_pc,
diff --git a/target/xtensa/cpu.c b/target/xtensa/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/cpu.c
+++ b/target/xtensa/cpu.c
@@ -XXX,XX +XXX,XX @@ static const struct SysemuCPUOps xtensa_sysemu_ops = {
 
 static const TCGCPUOps xtensa_tcg_ops = {
     .initialize = xtensa_translate_init,
+    .translate_code = xtensa_translate_code,
     .debug_excp_handler = xtensa_breakpoint_handler,
     .restore_state_to_opc = xtensa_restore_state_to_opc,
 
diff --git a/target/xtensa/translate.c b/target/xtensa/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/xtensa/translate.c
+++ b/target/xtensa/translate.c
@@ -XXX,XX +XXX,XX @@ static const TranslatorOps xtensa_translator_ops = {
     .tb_stop            = xtensa_tr_tb_stop,
 };
 
-void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int *max_insns,
-                           vaddr pc, void *host_pc)
+void xtensa_translate_code(CPUState *cpu, TranslationBlock *tb,
+                           int *max_insns, vaddr pc, void *host_pc)
 {
     DisasContext dc = {};
     translator_loop(cpu, tb, max_insns, pc, host_pc,
-- 
2.43.0