Series comparison

-[PULL 00/38] target-arm queue
+[PULL 00/19] target-arm queue
-The following changes since commit 14556211bc6d7125a44d5b5df90caba019b0ec0e:
+Hi; this is one last arm pullreq before the end of the year.
 Mostly minor cleanups, and also implementation of the
 FEAT_XS architectural feature.
-  Merge tag 'qemu-macppc-20240918' of https://github.com/mcayland/qemu into staging (2024-09-18 20:59:10 +0100)
+thanks
 -- PMM
 The following changes since commit 8032c78e556cd0baec111740a6c636863f9bd7c8:
   Merge tag 'firmware-20241216-pull-request' of https://gitlab.com/kraxel/qemu into staging (2024-12-16 14:20:33 -0500)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240919
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20241217
-for you to fetch changes up to 89b30b4921e51bb47313d2d8fdc3d7bce987e4c5:
+for you to fetch changes up to e91254250acb8570bd7b8a8f89d30e6d18291d02:
-  docs/devel: Remove nested-papr.txt (2024-09-19 13:33:15 +0100)
+  tests/functional: update sbsa-ref firmware used in test (2024-12-17 15:21:06 +0000)
 ----------------------------------------------------------------
 target-arm queue:
- * target/arm: Correct ID_AA64ISAR1_EL1 value for neoverse-v1
+ * remove a line of redundant code
- * target/arm: More conversions to decodetree of A64 SIMD insns
+ * convert various TCG helper fns to use 'fpst' alias
- * hw/char/stm32l4x5_usart.c: Enable USART ACK bit response
+ * Use float_status in helper_fcvtx_f64_to_f32
- * tests: update aarch64/sbsa-ref tests
+ * Use float_status in helper_vfp_fcvt{ds,sd}
- * kvm: minor Coverity nit fixes
+ * Implement FEAT_XS
- * docs/devel: Remove nested-papr.txt
+ * hw/intc/arm_gicv3_its: Zero initialize local DTEntry etc structs
  * tests/functional: update sbsa-ref firmware used in test
 ----------------------------------------------------------------
-Jacob Abrams (1):
+Denis Rastyogin (1):
-      hw/char/stm32l4x5_usart.c: Enable USART ACK bit response
+      target/arm: remove redundant code
-Marcin Juszkiewicz (4):
+Manos Pitsidianakis (3):
-      tests: use default cpu for aarch64/sbsa-ref
+      target/arm: Add decodetree entry for DSB nXS variant
-      tests: add FreeBSD tests for aarch64/sbsa-ref
+      target/arm: Enable FEAT_XS for the max cpu
-      tests: expand timeout information for aarch64/sbsa-ref
+      tests/tcg/aarch64: add system test for FEAT_XS
-      tests: drop OpenBSD tests for aarch64/sbsa-ref
 Marcin Juszkiewicz (1):
       tests/functional: update sbsa-ref firmware used in test
 Peter Maydell (4):
-      kvm: Make 'mmap_size' be 'int' in kvm_init_vcpu(), do_kvm_destroy_vcpu()
+      target/arm: Implement fine-grained-trap handling for FEAT_XS
-      kvm: Remove unreachable code in kvm_dirty_ring_reaper_thread()
+      target/arm: Add ARM_CP_ADD_TLBI_NXS type flag for NXS insns
-      target/arm: Correct ID_AA64ISAR1_EL1 value for neoverse-v1
+      target/arm: Add ARM_CP_ADD_TLBI_NXS type flag to TLBI insns
-      docs/devel: Remove nested-papr.txt
+      hw/intc/arm_gicv3_its: Zero initialize local DTEntry etc structs
-Richard Henderson (29):
+Richard Henderson (10):
-      target/arm: Replace tcg_gen_dupi_vec with constants in gengvec.c
+      target/arm: Convert vfp_helper.c to fpst alias
-      target/arm: Replace tcg_gen_dupi_vec with constants in translate-sve.c
+      target/arm: Convert helper-a64.c to fpst alias
-      target/arm: Use cmpsel in gen_ushl_vec
+      target/arm: Convert vec_helper.c to fpst alias
-      target/arm: Use cmpsel in gen_sshl_vec
+      target/arm: Convert neon_helper.c to fpst alias
-      target/arm: Use tcg_gen_extract2_i64 for EXT
+      target/arm: Convert sve_helper.c to fpst alias
-      target/arm: Convert EXT to decodetree
+      target/arm: Convert sme_helper.c to fpst alias
-      target/arm: Convert TBL, TBX to decodetree
+      target/arm: Convert vec_helper.c to use env alias
-      target/arm: Convert UZP, TRN, ZIP to decodetree
+      target/arm: Convert neon_helper.c to use env alias
-      target/arm: Simplify do_reduction_op
+      target/arm: Use float_status in helper_fcvtx_f64_to_f32
-      target/arm: Convert ADDV, *ADDLV, *MAXV, *MINV to decodetree
+      target/arm: Use float_status in helper_vfp_fcvt{ds,sd}
       target/arm: Convert FMAXNMV, FMINNMV, FMAXV, FMINV to decodetree
       target/arm: Convert FMOVI (scalar, immediate) to decodetree
       target/arm: Convert MOVI, FMOV, ORR, BIC (vector immediate) to decodetree
       target/arm: Introduce gen_gvec_sshr, gen_gvec_ushr
       target/arm: Fix whitespace near gen_srshr64_i64
       target/arm: Convert handle_vec_simd_shri to decodetree
       target/arm: Convert handle_vec_simd_shli to decodetree
       target/arm: Use {, s}extract in handle_vec_simd_wshli
       target/arm: Convert SSHLL, USHLL to decodetree
       target/arm: Push tcg_rnd into handle_shri_with_rndacc
       target/arm: Split out subroutines of handle_shri_with_rndacc
       target/arm: Convert SHRN, RSHRN to decodetree
       target/arm: Convert handle_scalar_simd_shri to decodetree
       target/arm: Convert handle_scalar_simd_shli to decodetree
       target/arm: Convert VQSHL, VQSHLU to gvec
       target/arm: Widen NeonGenNarrowEnvFn return to 64 bits
       target/arm: Convert SQSHL, UQSHL, SQSHLU (immediate) to decodetree
       target/arm: Convert vector [US]QSHRN, [US]QRSHRN, SQSHRUN to decodetree
       target/arm: Convert scalar [US]QSHRN, [US]QRSHRN, SQSHRUN to decodetree
- docs/devel/nested-papr.txt               |  119 --
+ docs/system/arm/emulation.rst            |   1 +
- target/arm/helper.h                      |   34 +-
+ target/arm/cpregs.h                      |  80 ++--
- target/arm/tcg/translate.h               |   14 +-
+ target/arm/cpu-features.h                |   5 +
- target/arm/tcg/a64.decode                |  257 ++++
+ target/arm/helper.h                      | 638 +++++++++++++++----------------
- target/arm/tcg/neon-dp.decode            |    6 +-
+ target/arm/tcg/helper-a64.h              | 116 +++---
- accel/kvm/kvm-all.c                      |   10 +-
+ target/arm/tcg/helper-sme.h              |   4 +-
- hw/char/stm32l4x5_usart.c                |   16 +
+ target/arm/tcg/helper-sve.h              | 426 ++++++++++-----------
- target/arm/tcg/cpu64.c                   |    2 +-
+ target/arm/tcg/a64.decode                |   3 +
- target/arm/tcg/gengvec.c                 |  121 +-
+ hw/intc/arm_gicv3_its.c                  |  44 +--
- target/arm/tcg/neon_helper.c             |   76 +-
+ target/arm/helper.c                      |  30 +-
- target/arm/tcg/translate-a64.c           | 2081 +++++++++++++-----------------
+ target/arm/tcg/cpu64.c                   |   1 +
- target/arm/tcg/translate-neon.c          |  179 +--
+ target/arm/tcg/helper-a64.c              | 101 ++---
- target/arm/tcg/translate-sve.c           |  128 +-
+ target/arm/tcg/neon_helper.c             |  27 +-
- tests/qtest/stm32l4x5_usart-test.c       |   36 +-
+ target/arm/tcg/op_helper.c               |  11 +-
- tests/functional/test_aarch64_sbsaref.py |   58 +-
+ target/arm/tcg/sme_helper.c              |   8 +-
-files changed, 1479 insertions(+), 1658 deletions(-)
+ target/arm/tcg/sve_helper.c              |  96 ++---
- delete mode 100644 docs/devel/nested-papr.txt
+ target/arm/tcg/tlb-insns.c               | 202 ++++++----
  target/arm/tcg/translate-a64.c           |  26 +-
  target/arm/tcg/translate-vfp.c           |   4 +-
  target/arm/tcg/vec_helper.c              |  81 ++--
  target/arm/vfp_helper.c                  | 130 +++----
  tests/tcg/aarch64/system/feat-xs.c       |  27 ++
  tests/functional/test_aarch64_sbsaref.py |  20 +-
 files changed, 1083 insertions(+), 998 deletions(-)
  create mode 100644 tests/tcg/aarch64/system/feat-xs.c

-[PULL 01/38] target/arm: Replace tcg_gen_dupi_vec with constants in gengvec.c
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Instead of copying a constant into a temporary with dupi,
-use a vector constant directly.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-2-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/gengvec.c | 43 ++++++++++++++++++----------------------
-file changed, 19 insertions(+), 24 deletions(-)
-diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/gengvec.c
-+++ b/target/arm/tcg/gengvec.c
-@@ -XXX,XX +XXX,XX @@ void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
- static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
- {
-     TCGv_vec t = tcg_temp_new_vec_matching(d);
--    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-+    TCGv_vec ones = tcg_constant_vec_matching(d, vece, 1);
-     tcg_gen_shri_vec(vece, t, a, sh - 1);
--    tcg_gen_dupi_vec(vece, ones, 1);
-     tcg_gen_and_vec(vece, t, t, ones);
-     tcg_gen_sari_vec(vece, d, a, sh);
-     tcg_gen_add_vec(vece, d, d, t);
-@@ -XXX,XX +XXX,XX @@ void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
- static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
- {
-     TCGv_vec t = tcg_temp_new_vec_matching(d);
--    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-+    TCGv_vec ones = tcg_constant_vec_matching(d, vece, 1);
-     tcg_gen_shri_vec(vece, t, a, shift - 1);
--    tcg_gen_dupi_vec(vece, ones, 1);
-     tcg_gen_and_vec(vece, t, t, ones);
-     tcg_gen_shri_vec(vece, d, a, shift);
-     tcg_gen_add_vec(vece, d, d, t);
-@@ -XXX,XX +XXX,XX @@ static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
- static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
- {
-     TCGv_vec t = tcg_temp_new_vec_matching(d);
--    TCGv_vec m = tcg_temp_new_vec_matching(d);
-+    int64_t mi = MAKE_64BIT_MASK((8 << vece) - sh, sh);
-+    TCGv_vec m = tcg_constant_vec_matching(d, vece, mi);
--    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
-     tcg_gen_shri_vec(vece, t, a, sh);
-     tcg_gen_and_vec(vece, d, d, m);
-     tcg_gen_or_vec(vece, d, d, t);
-@@ -XXX,XX +XXX,XX @@ static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
- static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
- {
-     TCGv_vec t = tcg_temp_new_vec_matching(d);
--    TCGv_vec m = tcg_temp_new_vec_matching(d);
-+    TCGv_vec m = tcg_constant_vec_matching(d, vece, MAKE_64BIT_MASK(0, sh));
-     tcg_gen_shli_vec(vece, t, a, sh);
--    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
-     tcg_gen_and_vec(vece, d, d, m);
-     tcg_gen_or_vec(vece, d, d, t);
- }
-@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-     TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
--    TCGv_vec msk, max;
-+    TCGv_vec max;
-     tcg_gen_neg_vec(vece, rsh, shift);
-     if (vece == MO_8) {
-         tcg_gen_mov_vec(lsh, shift);
-     } else {
--        msk = tcg_temp_new_vec_matching(dst);
--        tcg_gen_dupi_vec(vece, msk, 0xff);
-+        TCGv_vec msk = tcg_constant_vec_matching(dst, vece, 0xff);
-         tcg_gen_and_vec(vece, lsh, shift, msk);
-         tcg_gen_and_vec(vece, rsh, rsh, msk);
-     }
-@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-     tcg_gen_shlv_vec(vece, lval, src, lsh);
-     tcg_gen_shrv_vec(vece, rval, src, rsh);
--    max = tcg_temp_new_vec_matching(dst);
--    tcg_gen_dupi_vec(vece, max, 8 << vece);
--
-     /*
-      * The choice of LT (signed) and GEU (unsigned) are biased toward
-      * the instructions of the x86_64 host.  For MO_8, the whole byte
-@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-      * have already masked to a byte and so a signed compare works.
-      * Other tcg hosts have a full set of comparisons and do not care.
-      */
-+    max = tcg_constant_vec_matching(dst, vece, 8 << vece);
-     if (vece == MO_8) {
-         tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
-         tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
-@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-     TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
-+    TCGv_vec max, zero;
-     /*
-      * Rely on the TCG guarantee that out of range shifts produce
-@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-     if (vece == MO_8) {
-         tcg_gen_mov_vec(lsh, shift);
-     } else {
--        tcg_gen_dupi_vec(vece, tmp, 0xff);
--        tcg_gen_and_vec(vece, lsh, shift, tmp);
--        tcg_gen_and_vec(vece, rsh, rsh, tmp);
-+        TCGv_vec msk = tcg_constant_vec_matching(dst, vece, 0xff);
-+        tcg_gen_and_vec(vece, lsh, shift, msk);
-+        tcg_gen_and_vec(vece, rsh, rsh, msk);
-     }
-     /* Bound rsh so out of bound right shift gets -1.  */
--    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
--    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
--    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
-+    max = tcg_constant_vec_matching(dst, vece, (8 << vece) - 1);
-+    tcg_gen_umin_vec(vece, rsh, rsh, max);
-+    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, max);
-     tcg_gen_shlv_vec(vece, lval, src, lsh);
-     tcg_gen_sarv_vec(vece, rval, src, rsh);
-@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-     tcg_gen_andc_vec(vece, lval, lval, tmp);
-     /* Select between left and right shift.  */
-+    zero = tcg_constant_vec_matching(dst, vece, 0);
-     if (vece == MO_8) {
--        tcg_gen_dupi_vec(vece, tmp, 0);
--        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
-+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, zero, rval, lval);
-     } else {
--        tcg_gen_dupi_vec(vece, tmp, 0x80);
--        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
-+        TCGv_vec sgn = tcg_constant_vec_matching(dst, vece, 0x80);
-+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, sgn, lval, rval);
-     }
- }
---
-.34.1

-[PULL 34/38] tests: drop OpenBSD tests for aarch64/sbsa-ref
+[PULL 01/19] target/arm: remove redundant code
-From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+From: Denis Rastyogin <gerben@altlinux.org>
-OpenBSD 7.3 we use is EoL. Both 7.4 and 7.5 releases do not work on
+This call is redundant as it only retrieves a value that is not used further.
 anything above Neoverse-N1 due to PAC emulation:
-https://marc.info/?l=openbsd-arm&m=171050428327850&w=2
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
-OpenBSD 7.6 is not yet released.
+Signed-off-by: Denis Rastyogin <gerben@altlinux.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+Message-id: 20241212120618.518369-1-gerben@altlinux.org
 Message-id: 20240910-b4-move-to-freebsd-v5-4-0fb66d803c93@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- tests/functional/test_aarch64_sbsaref.py | 44 ------------------------
+ target/arm/vfp_helper.c | 2 --
-file changed, 44 deletions(-)
+file changed, 2 deletions(-)
-diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
+diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
-index XXXXXXX..XXXXXXX 100755
+index XXXXXXX..XXXXXXX 100644
---- a/tests/functional/test_aarch64_sbsaref.py
+--- a/target/arm/vfp_helper.c
-+++ b/tests/functional/test_aarch64_sbsaref.py
++++ b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ def test_sbsaref_alpine_linux_max(self):
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(rintd)(float64 x, void *fp_status)
-         self.boot_alpine_linux("max")
+     ret = float64_round_to_int(x, fp_status);
--    ASSET_OPENBSD_ISO = Asset(
+-    new_flags = get_float_exception_flags(fp_status);
 -        ('https://cdn.openbsd.org/pub/OpenBSD/7.3/arm64/miniroot73.img'),
 -        '7fc2c75401d6f01fbfa25f4953f72ad7d7c18650056d30755c44b9c129b707e5')
 -
--    # This tests the whole boot chain from EFI to Userspace
+     /* Suppress any inexact exceptions the conversion produced */
--    # We only boot a whole OS for the current top level CPU and GIC
+     if (!(old_flags & float_flag_inexact)) {
--    # Other test profiles should use more minimal boots
+         new_flags = get_float_exception_flags(fp_status);
 -    def boot_openbsd73(self, cpu=None):
 -        self.fetch_firmware()
 -
 -        img_path = self.ASSET_OPENBSD_ISO.fetch()
 -
 -        self.vm.set_console()
 -        self.vm.add_args(
 -            "-drive", f"file={img_path},format=raw,snapshot=on",
 -        )
 -        if cpu:
 -            self.vm.add_args("-cpu", cpu)
 -
 -        self.vm.launch()
 -        wait_for_console_pattern(self,
 -                                 "Welcome to the OpenBSD/arm64"
 -                                 " 7.3 installation program.")
 -
 -    def test_sbsaref_openbsd73_cortex_a57(self):
 -        self.boot_openbsd73("cortex-a57")
 -
 -    def test_sbsaref_openbsd73_default_cpu(self):
 -        self.boot_openbsd73()
 -
 -    def test_sbsaref_openbsd73_max_pauth_off(self):
 -        self.boot_openbsd73("max,pauth=off")
 -
 -    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
 -                'Test might timeout due to PAuth emulation')
 -    def test_sbsaref_openbsd73_max_pauth_impdef(self):
 -        self.boot_openbsd73("max,pauth-impdef=on")
 -
 -    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
 -                'Test might timeout due to PAuth emulation')
 -    def test_sbsaref_openbsd73_max(self):
 -        self.boot_openbsd73("max")
 -
 -
      ASSET_FREEBSD_ISO = Asset(
          ('https://download.freebsd.org/releases/arm64/aarch64/ISO-IMAGES/'
           '14.1/FreeBSD-14.1-RELEASE-arm64-aarch64-bootonly.iso'),
 --
 .34.1

-[PULL 20/38] target/arm: Push tcg_rnd into handle_shri_with_rndacc
+[PULL 02/19] target/arm: Convert vfp_helper.c to fpst alias
 From: Richard Henderson <richard.henderson@linaro.org>
-We always pass the same value for round; compute it
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 within common code.
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20241206031224.78525-3-richard.henderson@linaro.org
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240912024114.1097832-21-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/translate-a64.c | 32 ++++++--------------------------
+ target/arm/helper.h     | 268 ++++++++++++++++++++--------------------
-file changed, 6 insertions(+), 26 deletions(-)
+ target/arm/vfp_helper.c | 120 ++++++++----------
 files changed, 186 insertions(+), 202 deletions(-)
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
+--- a/target/arm/helper.h
-+++ b/target/arm/tcg/translate-a64.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(probe_access, TCG_CALL_NO_WG, void, env, tl, i32, i32, i32)
-  * the vector and scalar code.
+ DEF_HELPER_1(vfp_get_fpscr, i32, env)
  DEF_HELPER_2(vfp_set_fpscr, void, env, i32)
 -DEF_HELPER_3(vfp_addh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_adds, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_addd, f64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_subh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_subs, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_subd, f64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_mulh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_muls, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_muld, f64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_divh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_divs, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_divd, f64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_maxh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_maxs, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_maxd, f64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_minh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_mins, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_mind, f64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_maxnumh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_maxnums, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
 -DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
 -DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
 -DEF_HELPER_2(vfp_sqrth, f16, f16, ptr)
 -DEF_HELPER_2(vfp_sqrts, f32, f32, ptr)
 -DEF_HELPER_2(vfp_sqrtd, f64, f64, ptr)
 +DEF_HELPER_3(vfp_addh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_adds, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_addd, f64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_subh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_subs, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_subd, f64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_mulh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_muls, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_muld, f64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_divh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_divs, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_divd, f64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_maxh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_maxs, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_maxd, f64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_minh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_mins, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_mind, f64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_maxnumh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_maxnums, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_minnumh, f16, f16, f16, fpst)
 +DEF_HELPER_3(vfp_minnums, f32, f32, f32, fpst)
 +DEF_HELPER_3(vfp_minnumd, f64, f64, f64, fpst)
 +DEF_HELPER_2(vfp_sqrth, f16, f16, fpst)
 +DEF_HELPER_2(vfp_sqrts, f32, f32, fpst)
 +DEF_HELPER_2(vfp_sqrtd, f64, f64, fpst)
  DEF_HELPER_3(vfp_cmph, void, f16, f16, env)
  DEF_HELPER_3(vfp_cmps, void, f32, f32, env)
  DEF_HELPER_3(vfp_cmpd, void, f64, f64, env)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_cmped, void, f64, f64, env)
  DEF_HELPER_2(vfp_fcvtds, f64, f32, env)
  DEF_HELPER_2(vfp_fcvtsd, f32, f64, env)
 -DEF_HELPER_FLAGS_2(bfcvt, TCG_CALL_NO_RWG, i32, f32, ptr)
 -DEF_HELPER_FLAGS_2(bfcvt_pair, TCG_CALL_NO_RWG, i32, i64, ptr)
 +DEF_HELPER_FLAGS_2(bfcvt, TCG_CALL_NO_RWG, i32, f32, fpst)
 +DEF_HELPER_FLAGS_2(bfcvt_pair, TCG_CALL_NO_RWG, i32, i64, fpst)
 -DEF_HELPER_2(vfp_uitoh, f16, i32, ptr)
 -DEF_HELPER_2(vfp_uitos, f32, i32, ptr)
 -DEF_HELPER_2(vfp_uitod, f64, i32, ptr)
 -DEF_HELPER_2(vfp_sitoh, f16, i32, ptr)
 -DEF_HELPER_2(vfp_sitos, f32, i32, ptr)
 -DEF_HELPER_2(vfp_sitod, f64, i32, ptr)
 +DEF_HELPER_2(vfp_uitoh, f16, i32, fpst)
 +DEF_HELPER_2(vfp_uitos, f32, i32, fpst)
 +DEF_HELPER_2(vfp_uitod, f64, i32, fpst)
 +DEF_HELPER_2(vfp_sitoh, f16, i32, fpst)
 +DEF_HELPER_2(vfp_sitos, f32, i32, fpst)
 +DEF_HELPER_2(vfp_sitod, f64, i32, fpst)
 -DEF_HELPER_2(vfp_touih, i32, f16, ptr)
 -DEF_HELPER_2(vfp_touis, i32, f32, ptr)
 -DEF_HELPER_2(vfp_touid, i32, f64, ptr)
 -DEF_HELPER_2(vfp_touizh, i32, f16, ptr)
 -DEF_HELPER_2(vfp_touizs, i32, f32, ptr)
 -DEF_HELPER_2(vfp_touizd, i32, f64, ptr)
 -DEF_HELPER_2(vfp_tosih, s32, f16, ptr)
 -DEF_HELPER_2(vfp_tosis, s32, f32, ptr)
 -DEF_HELPER_2(vfp_tosid, s32, f64, ptr)
 -DEF_HELPER_2(vfp_tosizh, s32, f16, ptr)
 -DEF_HELPER_2(vfp_tosizs, s32, f32, ptr)
 -DEF_HELPER_2(vfp_tosizd, s32, f64, ptr)
 +DEF_HELPER_2(vfp_touih, i32, f16, fpst)
 +DEF_HELPER_2(vfp_touis, i32, f32, fpst)
 +DEF_HELPER_2(vfp_touid, i32, f64, fpst)
 +DEF_HELPER_2(vfp_touizh, i32, f16, fpst)
 +DEF_HELPER_2(vfp_touizs, i32, f32, fpst)
 +DEF_HELPER_2(vfp_touizd, i32, f64, fpst)
 +DEF_HELPER_2(vfp_tosih, s32, f16, fpst)
 +DEF_HELPER_2(vfp_tosis, s32, f32, fpst)
 +DEF_HELPER_2(vfp_tosid, s32, f64, fpst)
 +DEF_HELPER_2(vfp_tosizh, s32, f16, fpst)
 +DEF_HELPER_2(vfp_tosizs, s32, f32, fpst)
 +DEF_HELPER_2(vfp_tosizd, s32, f64, fpst)
 -DEF_HELPER_3(vfp_toshh_round_to_zero, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_toslh_round_to_zero, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_touhh_round_to_zero, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_toulh_round_to_zero, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_toshs_round_to_zero, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_tosls_round_to_zero, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_touhs_round_to_zero, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_touls_round_to_zero, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_toshd_round_to_zero, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_tosld_round_to_zero, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_tosqd_round_to_zero, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_touhd_round_to_zero, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_tould_round_to_zero, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_touqd_round_to_zero, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_touhh, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_toshh, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_toulh, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_toslh, i32, f16, i32, ptr)
 -DEF_HELPER_3(vfp_touqh, i64, f16, i32, ptr)
 -DEF_HELPER_3(vfp_tosqh, i64, f16, i32, ptr)
 -DEF_HELPER_3(vfp_toshs, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_tosls, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_tosqs, i64, f32, i32, ptr)
 -DEF_HELPER_3(vfp_touhs, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_touls, i32, f32, i32, ptr)
 -DEF_HELPER_3(vfp_touqs, i64, f32, i32, ptr)
 -DEF_HELPER_3(vfp_toshd, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_tosld, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_tosqd, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_touhd, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_tould, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_touqd, i64, f64, i32, ptr)
 -DEF_HELPER_3(vfp_shtos, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_sltos, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_sqtos, f32, i64, i32, ptr)
 -DEF_HELPER_3(vfp_uhtos, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_ultos, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_uqtos, f32, i64, i32, ptr)
 -DEF_HELPER_3(vfp_shtod, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_sltod, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_sqtod, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_uhtod, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_ultod, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_uqtod, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_shtoh, f16, i32, i32, ptr)
 -DEF_HELPER_3(vfp_uhtoh, f16, i32, i32, ptr)
 -DEF_HELPER_3(vfp_sltoh, f16, i32, i32, ptr)
 -DEF_HELPER_3(vfp_ultoh, f16, i32, i32, ptr)
 -DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, ptr)
 -DEF_HELPER_3(vfp_uqtoh, f16, i64, i32, ptr)
 +DEF_HELPER_3(vfp_toshh_round_to_zero, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_toslh_round_to_zero, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_touhh_round_to_zero, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_toulh_round_to_zero, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_toshs_round_to_zero, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_tosls_round_to_zero, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_touhs_round_to_zero, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_touls_round_to_zero, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_toshd_round_to_zero, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_tosld_round_to_zero, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_tosqd_round_to_zero, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_touhd_round_to_zero, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_tould_round_to_zero, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_touqd_round_to_zero, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_touhh, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_toshh, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_toulh, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_toslh, i32, f16, i32, fpst)
 +DEF_HELPER_3(vfp_touqh, i64, f16, i32, fpst)
 +DEF_HELPER_3(vfp_tosqh, i64, f16, i32, fpst)
 +DEF_HELPER_3(vfp_toshs, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_tosls, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_tosqs, i64, f32, i32, fpst)
 +DEF_HELPER_3(vfp_touhs, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_touls, i32, f32, i32, fpst)
 +DEF_HELPER_3(vfp_touqs, i64, f32, i32, fpst)
 +DEF_HELPER_3(vfp_toshd, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_tosld, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_tosqd, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_touhd, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_tould, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_touqd, i64, f64, i32, fpst)
 +DEF_HELPER_3(vfp_shtos, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_sltos, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_sqtos, f32, i64, i32, fpst)
 +DEF_HELPER_3(vfp_uhtos, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_ultos, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_uqtos, f32, i64, i32, fpst)
 +DEF_HELPER_3(vfp_shtod, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_sltod, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_sqtod, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_uhtod, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_ultod, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_uqtod, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_shtoh, f16, i32, i32, fpst)
 +DEF_HELPER_3(vfp_uhtoh, f16, i32, i32, fpst)
 +DEF_HELPER_3(vfp_sltoh, f16, i32, i32, fpst)
 +DEF_HELPER_3(vfp_ultoh, f16, i32, i32, fpst)
 +DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, fpst)
 +DEF_HELPER_3(vfp_uqtoh, f16, i64, i32, fpst)
 -DEF_HELPER_3(vfp_shtos_round_to_nearest, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_sltos_round_to_nearest, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_uhtos_round_to_nearest, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_ultos_round_to_nearest, f32, i32, i32, ptr)
 -DEF_HELPER_3(vfp_shtod_round_to_nearest, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_sltod_round_to_nearest, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_uhtod_round_to_nearest, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_ultod_round_to_nearest, f64, i64, i32, ptr)
 -DEF_HELPER_3(vfp_shtoh_round_to_nearest, f16, i32, i32, ptr)
 -DEF_HELPER_3(vfp_uhtoh_round_to_nearest, f16, i32, i32, ptr)
 -DEF_HELPER_3(vfp_sltoh_round_to_nearest, f16, i32, i32, ptr)
 -DEF_HELPER_3(vfp_ultoh_round_to_nearest, f16, i32, i32, ptr)
 +DEF_HELPER_3(vfp_shtos_round_to_nearest, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_sltos_round_to_nearest, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_uhtos_round_to_nearest, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_ultos_round_to_nearest, f32, i32, i32, fpst)
 +DEF_HELPER_3(vfp_shtod_round_to_nearest, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_sltod_round_to_nearest, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_uhtod_round_to_nearest, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_ultod_round_to_nearest, f64, i64, i32, fpst)
 +DEF_HELPER_3(vfp_shtoh_round_to_nearest, f16, i32, i32, fpst)
 +DEF_HELPER_3(vfp_uhtoh_round_to_nearest, f16, i32, i32, fpst)
 +DEF_HELPER_3(vfp_sltoh_round_to_nearest, f16, i32, i32, fpst)
 +DEF_HELPER_3(vfp_ultoh_round_to_nearest, f16, i32, i32, fpst)
 -DEF_HELPER_FLAGS_2(set_rmode, TCG_CALL_NO_RWG, i32, i32, ptr)
 +DEF_HELPER_FLAGS_2(set_rmode, TCG_CALL_NO_RWG, i32, i32, fpst)
 -DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f32, TCG_CALL_NO_RWG, f32, f16, ptr, i32)
 -DEF_HELPER_FLAGS_3(vfp_fcvt_f32_to_f16, TCG_CALL_NO_RWG, f16, f32, ptr, i32)
 -DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f64, TCG_CALL_NO_RWG, f64, f16, ptr, i32)
 -DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, ptr, i32)
 +DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f32, TCG_CALL_NO_RWG, f32, f16, fpst, i32)
 +DEF_HELPER_FLAGS_3(vfp_fcvt_f32_to_f16, TCG_CALL_NO_RWG, f16, f32, fpst, i32)
 +DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f64, TCG_CALL_NO_RWG, f64, f16, fpst, i32)
 +DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, fpst, i32)
 -DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
 -DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
 -DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
 +DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, fpst)
 +DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, fpst)
 +DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, fpst)
 -DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
 -DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
 -DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
 -DEF_HELPER_FLAGS_2(rsqrte_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
 -DEF_HELPER_FLAGS_2(rsqrte_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
 -DEF_HELPER_FLAGS_2(rsqrte_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
 +DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
 +DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
 +DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
 +DEF_HELPER_FLAGS_2(rsqrte_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
 +DEF_HELPER_FLAGS_2(rsqrte_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
 +DEF_HELPER_FLAGS_2(rsqrte_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
  DEF_HELPER_FLAGS_1(recpe_u32, TCG_CALL_NO_RWG, i32, i32)
  DEF_HELPER_FLAGS_1(rsqrte_u32, TCG_CALL_NO_RWG, i32, i32)
  DEF_HELPER_FLAGS_4(neon_tbl, TCG_CALL_NO_RWG, i64, env, i32, i64, i64)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(shr_cc, i32, env, i32, i32)
  DEF_HELPER_3(sar_cc, i32, env, i32, i32)
  DEF_HELPER_3(ror_cc, i32, env, i32, i32)
 -DEF_HELPER_FLAGS_2(rinth_exact, TCG_CALL_NO_RWG, f16, f16, ptr)
 -DEF_HELPER_FLAGS_2(rints_exact, TCG_CALL_NO_RWG, f32, f32, ptr)
 -DEF_HELPER_FLAGS_2(rintd_exact, TCG_CALL_NO_RWG, f64, f64, ptr)
 -DEF_HELPER_FLAGS_2(rinth, TCG_CALL_NO_RWG, f16, f16, ptr)
 -DEF_HELPER_FLAGS_2(rints, TCG_CALL_NO_RWG, f32, f32, ptr)
 -DEF_HELPER_FLAGS_2(rintd, TCG_CALL_NO_RWG, f64, f64, ptr)
 +DEF_HELPER_FLAGS_2(rinth_exact, TCG_CALL_NO_RWG, f16, f16, fpst)
 +DEF_HELPER_FLAGS_2(rints_exact, TCG_CALL_NO_RWG, f32, f32, fpst)
 +DEF_HELPER_FLAGS_2(rintd_exact, TCG_CALL_NO_RWG, f64, f64, fpst)
 +DEF_HELPER_FLAGS_2(rinth, TCG_CALL_NO_RWG, f16, f16, fpst)
 +DEF_HELPER_FLAGS_2(rints, TCG_CALL_NO_RWG, f32, f32, fpst)
 +DEF_HELPER_FLAGS_2(rintd, TCG_CALL_NO_RWG, f64, f64, fpst)
  DEF_HELPER_FLAGS_2(vjcvt, TCG_CALL_NO_RWG, i32, f64, env)
 -DEF_HELPER_FLAGS_2(fjcvtzs, TCG_CALL_NO_RWG, i64, f64, ptr)
 +DEF_HELPER_FLAGS_2(fjcvtzs, TCG_CALL_NO_RWG, i64, f64, fpst)
  DEF_HELPER_FLAGS_3(check_hcr_el2_trap, TCG_CALL_NO_WG, void, env, i32, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmlal_idx_a32, TCG_CALL_NO_RWG,
  DEF_HELPER_FLAGS_5(gvec_fmlal_idx_a64, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_2(frint32_s, TCG_CALL_NO_RWG, f32, f32, ptr)
 -DEF_HELPER_FLAGS_2(frint64_s, TCG_CALL_NO_RWG, f32, f32, ptr)
 -DEF_HELPER_FLAGS_2(frint32_d, TCG_CALL_NO_RWG, f64, f64, ptr)
 -DEF_HELPER_FLAGS_2(frint64_d, TCG_CALL_NO_RWG, f64, f64, ptr)
 +DEF_HELPER_FLAGS_2(frint32_s, TCG_CALL_NO_RWG, f32, f32, fpst)
 +DEF_HELPER_FLAGS_2(frint64_s, TCG_CALL_NO_RWG, f32, f32, fpst)
 +DEF_HELPER_FLAGS_2(frint32_d, TCG_CALL_NO_RWG, f64, f64, fpst)
 +DEF_HELPER_FLAGS_2(frint64_d, TCG_CALL_NO_RWG, f64, f64, fpst)
  DEF_HELPER_FLAGS_3(gvec_ceq0_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
  DEF_HELPER_FLAGS_3(gvec_ceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val)
  #define VFP_HELPER(name, p) HELPER(glue(glue(vfp_,name),p))
  #define VFP_BINOP(name) \
 -dh_ctype_f16 VFP_HELPER(name, h)(dh_ctype_f16 a, dh_ctype_f16 b, void *fpstp) \
 +dh_ctype_f16 VFP_HELPER(name, h)(dh_ctype_f16 a, dh_ctype_f16 b, float_status *fpst) \
  { \
 -    float_status *fpst = fpstp; \
      return float16_ ## name(a, b, fpst); \
  } \
 -float32 VFP_HELPER(name, s)(float32 a, float32 b, void *fpstp) \
 +float32 VFP_HELPER(name, s)(float32 a, float32 b, float_status *fpst) \
  { \
 -    float_status *fpst = fpstp; \
      return float32_ ## name(a, b, fpst); \
  } \
 -float64 VFP_HELPER(name, d)(float64 a, float64 b, void *fpstp) \
 +float64 VFP_HELPER(name, d)(float64 a, float64 b, float_status *fpst) \
  { \
 -    float_status *fpst = fpstp; \
      return float64_ ## name(a, b, fpst); \
  }
  VFP_BINOP(add)
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
  VFP_BINOP(maxnum)
  #undef VFP_BINOP
 -dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, void *fpstp)
 +dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, float_status *fpst)
  {
 -    return float16_sqrt(a, fpstp);
 +    return float16_sqrt(a, fpst);
  }
 -float32 VFP_HELPER(sqrt, s)(float32 a, void *fpstp)
 +float32 VFP_HELPER(sqrt, s)(float32 a, float_status *fpst)
  {
 -    return float32_sqrt(a, fpstp);
 +    return float32_sqrt(a, fpst);
  }
 -float64 VFP_HELPER(sqrt, d)(float64 a, void *fpstp)
 +float64 VFP_HELPER(sqrt, d)(float64 a, float_status *fpst)
  {
 -    return float64_sqrt(a, fpstp);
 +    return float64_sqrt(a, fpst);
  }
  static void softfloat_to_vfp_compare(CPUARMState *env, FloatRelation cmp)
@@ -XXX,XX +XXX,XX @@ DO_VFP_cmp(d, float64, float64, fp_status)
  /* Integer to float and float to integer conversions */
  #define CONV_ITOF(name, ftype, fsz, sign)                           \
 -ftype HELPER(name)(uint32_t x, void *fpstp)                         \
 +ftype HELPER(name)(uint32_t x, float_status *fpst)                  \
  {                                                                   \
 -    float_status *fpst = fpstp;                                     \
      return sign##int32_to_##float##fsz((sign##int32_t)x, fpst);     \
  }
  #define CONV_FTOI(name, ftype, fsz, sign, round)                \
 -sign##int32_t HELPER(name)(ftype x, void *fpstp)                \
 +sign##int32_t HELPER(name)(ftype x, float_status *fpst)         \
  {                                                               \
 -    float_status *fpst = fpstp;                                 \
      if (float##fsz##_is_any_nan(x)) {                           \
          float_raise(float_flag_invalid, fpst);                  \
          return 0;                                               \
@@ -XXX,XX +XXX,XX @@ float32 VFP_HELPER(fcvts, d)(float64 x, CPUARMState *env)
      return float64_to_float32(x, &env->vfp.fp_status);
  }
 -uint32_t HELPER(bfcvt)(float32 x, void *status)
 +uint32_t HELPER(bfcvt)(float32 x, float_status *status)
  {
      return float32_to_bfloat16(x, status);
  }
 -uint32_t HELPER(bfcvt_pair)(uint64_t pair, void *status)
 +uint32_t HELPER(bfcvt_pair)(uint64_t pair, float_status *status)
  {
      bfloat16 lo = float32_to_bfloat16(extract64(pair, 0, 32), status);
      bfloat16 hi = float32_to_bfloat16(extract64(pair, 32, 32), status);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(bfcvt_pair)(uint64_t pair, void *status)
   */
- static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
+ #define VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)            \
--                                    TCGv_i64 tcg_rnd, bool accumulate,
+ ftype HELPER(vfp_##name##to##p)(uint##isz##_t  x, uint32_t shift,      \
-+                                    bool round, bool accumulate,
+-                                     void *fpstp) \
-                                     bool is_u, int size, int shift)
+-{ return itype##_to_##float##fsz##_scalbn(x, -shift, fpstp); }
- {
++                                float_status *fpst)                    \
-     bool extended_result = false;
++{ return itype##_to_##float##fsz##_scalbn(x, -shift, fpst); }
--    bool round = tcg_rnd != NULL;
-     int ext_lshift = 0;
+ #define VFP_CONV_FIX_FLOAT_ROUND(name, p, fsz, ftype, isz, itype)      \
-     TCGv_i64 tcg_src_hi;
+     ftype HELPER(vfp_##name##to##p##_round_to_nearest)(uint##isz##_t  x, \
+                                                      uint32_t shift,   \
-@@ -XXX,XX +XXX,XX @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
+-                                                     void *fpstp)      \
++                                                     float_status *fpst) \
-     /* Deal with the rounding step */
+     {                                                                  \
-     if (round) {
+         ftype ret;                                                     \
-+        TCGv_i64 tcg_rnd = tcg_constant_i64(1ull << (shift - 1));
+-        float_status *fpst = fpstp;                                    \
-         if (extended_result) {
+         FloatRoundMode oldmode = fpst->float_rounding_mode;            \
-             TCGv_i64 tcg_zero = tcg_constant_i64(0);
+         fpst->float_rounding_mode = float_round_nearest_even;          \
-             if (!is_u) {
+-        ret = itype##_to_##float##fsz##_scalbn(x, -shift, fpstp);      \
-@@ -XXX,XX +XXX,XX @@ static void handle_scalar_simd_shri(DisasContext *s,
++        ret = itype##_to_##float##fsz##_scalbn(x, -shift, fpst);       \
-     bool insert = false;
+         fpst->float_rounding_mode = oldmode;                           \
-     TCGv_i64 tcg_rn;
+         return ret;                                                    \
      TCGv_i64 tcg_rd;
 -    TCGv_i64 tcg_round;
      if (!extract32(immh, 3, 1)) {
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void handle_scalar_simd_shri(DisasContext *s,
          break;
      }
--    if (round) {
+ #define VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype, ROUND, suff) \
--        tcg_round = tcg_constant_i64(1ULL << (shift - 1));
+ uint##isz##_t HELPER(vfp_to##name##p##suff)(ftype x, uint32_t shift,      \
--    } else {
+-                                            void *fpst)                   \
--        tcg_round = NULL;
++                                            float_status *fpst)           \
--    }
+ {                                                                         \
      if (unlikely(float##fsz##_is_any_nan(x))) {                           \
          float_raise(float_flag_invalid, fpst);                            \
@@ -XXX,XX +XXX,XX @@ VFP_CONV_FLOAT_FIX_ROUND(uq, d, 64, float64, 64, uint64,
  /* Set the current fp rounding mode and return the old one.
   * The argument is a softfloat float_round_ value.
   */
 -uint32_t HELPER(set_rmode)(uint32_t rmode, void *fpstp)
 +uint32_t HELPER(set_rmode)(uint32_t rmode, float_status *fp_status)
  {
 -    float_status *fp_status = fpstp;
 -
-     tcg_rn = read_fp_dreg(s, rn);
+     uint32_t prev_rmode = get_float_rounding_mode(fp_status);
-     tcg_rd = (accumulate || insert) ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
+     set_float_rounding_mode(rmode, fp_status);
-@@ -XXX,XX +XXX,XX @@ static void handle_scalar_simd_shri(DisasContext *s,
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(set_rmode)(uint32_t rmode, void *fpstp)
-             tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, 0, esize - shift);
+ }
  /* Half precision conversions.  */
 -float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
 +float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, float_status *fpst,
 +                                    uint32_t ahp_mode)
  {
      /* Squash FZ16 to 0 for the duration of conversion.  In this case,
       * it would affect flushing input denormals.
       */
 -    float_status *fpst = fpstp;
      bool save = get_flush_inputs_to_zero(fpst);
      set_flush_inputs_to_zero(false, fpst);
      float32 r = float16_to_float32(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
      return r;
  }
 -uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
 +uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, float_status *fpst,
 +                                     uint32_t ahp_mode)
  {
      /* Squash FZ16 to 0 for the duration of conversion.  In this case,
       * it would affect flushing output denormals.
       */
 -    float_status *fpst = fpstp;
      bool save = get_flush_to_zero(fpst);
      set_flush_to_zero(false, fpst);
      float16 r = float32_to_float16(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
      return r;
  }
 -float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, void *fpstp, uint32_t ahp_mode)
 +float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, float_status *fpst,
 +                                    uint32_t ahp_mode)
  {
      /* Squash FZ16 to 0 for the duration of conversion.  In this case,
       * it would affect flushing input denormals.
       */
 -    float_status *fpst = fpstp;
      bool save = get_flush_inputs_to_zero(fpst);
      set_flush_inputs_to_zero(false, fpst);
      float64 r = float16_to_float64(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, void *fpstp, uint32_t ahp_mode)
      return r;
  }
 -uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
 +uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, float_status *fpst,
 +                                     uint32_t ahp_mode)
  {
      /* Squash FZ16 to 0 for the duration of conversion.  In this case,
       * it would affect flushing output denormals.
       */
 -    float_status *fpst = fpstp;
      bool save = get_flush_to_zero(fpst);
      set_flush_to_zero(false, fpst);
      float16 r = float64_to_float16(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ static bool round_to_inf(float_status *fpst, bool sign_bit)
      }
  }
 -uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
 +uint32_t HELPER(recpe_f16)(uint32_t input, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      float16 f16 = float16_squash_input_denormal(input, fpst);
      uint32_t f16_val = float16_val(f16);
      uint32_t f16_sign = float16_is_neg(f16);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
      return make_float16(f16_val);
  }
 -float32 HELPER(recpe_f32)(float32 input, void *fpstp)
 +float32 HELPER(recpe_f32)(float32 input, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      float32 f32 = float32_squash_input_denormal(input, fpst);
      uint32_t f32_val = float32_val(f32);
      bool f32_sign = float32_is_neg(f32);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(recpe_f32)(float32 input, void *fpstp)
      return make_float32(f32_val);
  }
 -float64 HELPER(recpe_f64)(float64 input, void *fpstp)
 +float64 HELPER(recpe_f64)(float64 input, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      float64 f64 = float64_squash_input_denormal(input, fpst);
      uint64_t f64_val = float64_val(f64);
      bool f64_sign = float64_is_neg(f64);
@@ -XXX,XX +XXX,XX @@ static uint64_t recip_sqrt_estimate(int *exp , int exp_off, uint64_t frac)
      return extract64(estimate, 0, 8) << 44;
  }
 -uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
 +uint32_t HELPER(rsqrte_f16)(uint32_t input, float_status *s)
  {
 -    float_status *s = fpstp;
      float16 f16 = float16_squash_input_denormal(input, s);
      uint16_t val = float16_val(f16);
      bool f16_sign = float16_is_neg(f16);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
          if (float16_is_signaling_nan(f16, s)) {
              float_raise(float_flag_invalid, s);
              if (!s->default_nan_mode) {
 -                nan = float16_silence_nan(f16, fpstp);
 +                nan = float16_silence_nan(f16, s);
              }
          }
-     } else {
+         if (s->default_nan_mode) {
--        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
-+        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
+     return make_float16(val);
-                                 accumulate, is_u, size, shift);
+ }
-     }
+-float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
++float32 HELPER(rsqrte_f32)(float32 input, float_status *s)
-     int elements = is_scalar ? 1 : (64 / esize);
+ {
-     bool round = extract32(opcode, 0, 1);
+-    float_status *s = fpstp;
-     MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
+     float32 f32 = float32_squash_input_denormal(input, s);
--    TCGv_i64 tcg_rn, tcg_rd, tcg_round;
+     uint32_t val = float32_val(f32);
-+    TCGv_i64 tcg_rn, tcg_rd;
+     uint32_t f32_sign = float32_is_neg(f32);
-     TCGv_i32 tcg_rd_narrowed;
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
-     TCGv_i64 tcg_final;
+         if (float32_is_signaling_nan(f32, s)) {
+             float_raise(float_flag_invalid, s);
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
+             if (!s->default_nan_mode) {
-     tcg_rd_narrowed = tcg_temp_new_i32();
+-                nan = float32_silence_nan(f32, fpstp);
-     tcg_final = tcg_temp_new_i64();
++                nan = float32_silence_nan(f32, s);
+             }
--    if (round) {
+         }
--        tcg_round = tcg_constant_i64(1ULL << (shift - 1));
+         if (s->default_nan_mode) {
--    } else {
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
--        tcg_round = NULL;
+     return make_float32(val);
--    }
+ }
--
-     for (i = 0; i < elements; i++) {
+-float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
-         read_vec_element(s, tcg_rn, rn, i, ldop);
++float64 HELPER(rsqrte_f64)(float64 input, float_status *s)
--        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
+ {
-+        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
+-    float_status *s = fpstp;
-                                 false, is_u_shift, size+1, shift);
+     float64 f64 = float64_squash_input_denormal(input, s);
-         narrowfn(tcg_rd_narrowed, tcg_env, tcg_rd);
+     uint64_t val = float64_val(f64);
-         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd_narrowed);
+     bool f64_sign = float64_is_neg(f64);
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
-     int shift = (2 * esize) - immhb;
+         if (float64_is_signaling_nan(f64, s)) {
-     bool round = extract32(opcode, 0, 1);
+             float_raise(float_flag_invalid, s);
-     TCGv_i64 tcg_rn, tcg_rd, tcg_final;
+             if (!s->default_nan_mode) {
--    TCGv_i64 tcg_round;
+-                nan = float64_silence_nan(f64, fpstp);
-     int i;
++                nan = float64_silence_nan(f64, s);
+             }
-     if (extract32(immh, 3, 1)) {
+         }
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
+         if (s->default_nan_mode) {
-     tcg_final = tcg_temp_new_i64();
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_u32)(uint32_t a)
-     read_vec_element(s, tcg_final, rd, is_q ? 1 : 0, MO_64);
+ /* VFPv4 fused multiply-accumulate */
--    if (round) {
+ dh_ctype_f16 VFP_HELPER(muladd, h)(dh_ctype_f16 a, dh_ctype_f16 b,
--        tcg_round = tcg_constant_i64(1ULL << (shift - 1));
+-                                   dh_ctype_f16 c, void *fpstp)
--    } else {
++                                   dh_ctype_f16 c, float_status *fpst)
--        tcg_round = NULL;
+ {
--    }
+-    float_status *fpst = fpstp;
--
+     return float16_muladd(a, b, c, 0, fpst);
-     for (i = 0; i < elements; i++) {
+ }
-         read_vec_element(s, tcg_rn, rn, i, size+1);
--        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
+-float32 VFP_HELPER(muladd, s)(float32 a, float32 b, float32 c, void *fpstp)
-+        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
++float32 VFP_HELPER(muladd, s)(float32 a, float32 b, float32 c,
-                                 false, true, size+1, shift);
++                              float_status *fpst)
+ {
-         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
+-    float_status *fpst = fpstp;
      return float32_muladd(a, b, c, 0, fpst);
  }
 -float64 VFP_HELPER(muladd, d)(float64 a, float64 b, float64 c, void *fpstp)
 +float64 VFP_HELPER(muladd, d)(float64 a, float64 b, float64 c,
 +                              float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      return float64_muladd(a, b, c, 0, fpst);
  }
  /* ARMv8 round to integral */
 -dh_ctype_f16 HELPER(rinth_exact)(dh_ctype_f16 x, void *fp_status)
 +dh_ctype_f16 HELPER(rinth_exact)(dh_ctype_f16 x, float_status *fp_status)
  {
      return float16_round_to_int(x, fp_status);
  }
 -float32 HELPER(rints_exact)(float32 x, void *fp_status)
 +float32 HELPER(rints_exact)(float32 x, float_status *fp_status)
  {
      return float32_round_to_int(x, fp_status);
  }
 -float64 HELPER(rintd_exact)(float64 x, void *fp_status)
 +float64 HELPER(rintd_exact)(float64 x, float_status *fp_status)
  {
      return float64_round_to_int(x, fp_status);
  }
 -dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, void *fp_status)
 +dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, float_status *fp_status)
  {
      int old_flags = get_float_exception_flags(fp_status), new_flags;
      float16 ret;
@@ -XXX,XX +XXX,XX @@ dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, void *fp_status)
      return ret;
  }
 -float32 HELPER(rints)(float32 x, void *fp_status)
 +float32 HELPER(rints)(float32 x, float_status *fp_status)
  {
      int old_flags = get_float_exception_flags(fp_status), new_flags;
      float32 ret;
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rints)(float32 x, void *fp_status)
      return ret;
  }
 -float64 HELPER(rintd)(float64 x, void *fp_status)
 +float64 HELPER(rintd)(float64 x, float_status *fp_status)
  {
      int old_flags = get_float_exception_flags(fp_status), new_flags;
      float64 ret;
@@ -XXX,XX +XXX,XX @@ const FloatRoundMode arm_rmode_to_sf_map[] = {
   * Implement float64 to int32_t conversion without saturation;
   * the result is supplied modulo 2^32.
   */
 -uint64_t HELPER(fjcvtzs)(float64 value, void *vstatus)
 +uint64_t HELPER(fjcvtzs)(float64 value, float_status *status)
  {
 -    float_status *status = vstatus;
      uint32_t frac, e_old, e_new;
      bool inexact;
@@ -XXX,XX +XXX,XX @@ static float32 frint_s(float32 f, float_status *fpst, int intsize)
      return (0x100u + 126u + intsize) << 23;
  }
 -float32 HELPER(frint32_s)(float32 f, void *fpst)
 +float32 HELPER(frint32_s)(float32 f, float_status *fpst)
  {
      return frint_s(f, fpst, 32);
  }
 -float32 HELPER(frint64_s)(float32 f, void *fpst)
 +float32 HELPER(frint64_s)(float32 f, float_status *fpst)
  {
      return frint_s(f, fpst, 64);
  }
@@ -XXX,XX +XXX,XX @@ static float64 frint_d(float64 f, float_status *fpst, int intsize)
      return (uint64_t)(0x800 + 1022 + intsize) << 52;
  }
 -float64 HELPER(frint32_d)(float64 f, void *fpst)
 +float64 HELPER(frint32_d)(float64 f, float_status *fpst)
  {
      return frint_d(f, fpst, 32);
  }
 -float64 HELPER(frint64_d)(float64 f, void *fpst)
 +float64 HELPER(frint64_d)(float64 f, float_status *fpst)
  {
      return frint_d(f, fpst, 64);
  }
 --
 .34.1

-[PULL 07/38] target/arm: Convert TBL, TBX to decodetree
+[PULL 03/19] target/arm: Convert helper-a64.c to fpst alias
 From: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20241206031224.78525-4-richard.henderson@linaro.org
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240912024114.1097832-8-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |  4 +++
+ target/arm/tcg/helper-a64.h | 94 +++++++++++++++++------------------
- target/arm/tcg/translate-a64.c | 47 ++++++++++------------------------
+ target/arm/tcg/helper-a64.c | 98 +++++++++++++------------------------
-files changed, 18 insertions(+), 33 deletions(-)
+files changed, 80 insertions(+), 112 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
+--- a/target/arm/tcg/helper-a64.h
-+++ b/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ FNMSUB          0001 1111 .. 1 ..... 1 ..... ..... .....    @rrrr_hsd
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(msr_i_spsel, void, env, i32)
+ DEF_HELPER_2(msr_i_daifset, void, env, i32)
- EXT_d           0010 1110 00 0 rm:5 00 imm:3 0 rn:5 rd:5
+ DEF_HELPER_2(msr_i_daifclear, void, env, i32)
- EXT_q           0110 1110 00 0 rm:5 0  imm:4 0 rn:5 rd:5
+ DEF_HELPER_1(msr_set_allint_el1, void, env)
-+
+-DEF_HELPER_3(vfp_cmph_a64, i64, f16, f16, ptr)
-+# Advanced SIMD Table Lookup
+-DEF_HELPER_3(vfp_cmpeh_a64, i64, f16, f16, ptr)
-+
+-DEF_HELPER_3(vfp_cmps_a64, i64, f32, f32, ptr)
-+TBL_TBX         0 q:1 00 1110 000 rm:5 0 len:2 tbx:1 00 rn:5 rd:5
+-DEF_HELPER_3(vfp_cmpes_a64, i64, f32, f32, ptr)
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+-DEF_HELPER_3(vfp_cmpd_a64, i64, f64, f64, ptr)
 -DEF_HELPER_3(vfp_cmped_a64, i64, f64, f64, ptr)
 +DEF_HELPER_3(vfp_cmph_a64, i64, f16, f16, fpst)
 +DEF_HELPER_3(vfp_cmpeh_a64, i64, f16, f16, fpst)
 +DEF_HELPER_3(vfp_cmps_a64, i64, f32, f32, fpst)
 +DEF_HELPER_3(vfp_cmpes_a64, i64, f32, f32, fpst)
 +DEF_HELPER_3(vfp_cmpd_a64, i64, f64, f64, fpst)
 +DEF_HELPER_3(vfp_cmped_a64, i64, f64, f64, fpst)
  DEF_HELPER_FLAGS_4(simd_tblx, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_3(vfp_mulxs, TCG_CALL_NO_RWG, f32, f32, f32, ptr)
 -DEF_HELPER_FLAGS_3(vfp_mulxd, TCG_CALL_NO_RWG, f64, f64, f64, ptr)
 -DEF_HELPER_FLAGS_3(neon_ceq_f64, TCG_CALL_NO_RWG, i64, i64, i64, ptr)
 -DEF_HELPER_FLAGS_3(neon_cge_f64, TCG_CALL_NO_RWG, i64, i64, i64, ptr)
 -DEF_HELPER_FLAGS_3(neon_cgt_f64, TCG_CALL_NO_RWG, i64, i64, i64, ptr)
 -DEF_HELPER_FLAGS_3(recpsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
 -DEF_HELPER_FLAGS_3(recpsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, ptr)
 -DEF_HELPER_FLAGS_3(recpsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, ptr)
 -DEF_HELPER_FLAGS_3(rsqrtsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
 -DEF_HELPER_FLAGS_3(rsqrtsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, ptr)
 -DEF_HELPER_FLAGS_3(rsqrtsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, ptr)
 -DEF_HELPER_FLAGS_2(frecpx_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
 -DEF_HELPER_FLAGS_2(frecpx_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
 -DEF_HELPER_FLAGS_2(frecpx_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
 +DEF_HELPER_FLAGS_3(vfp_mulxs, TCG_CALL_NO_RWG, f32, f32, f32, fpst)
 +DEF_HELPER_FLAGS_3(vfp_mulxd, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
 +DEF_HELPER_FLAGS_3(neon_ceq_f64, TCG_CALL_NO_RWG, i64, i64, i64, fpst)
 +DEF_HELPER_FLAGS_3(neon_cge_f64, TCG_CALL_NO_RWG, i64, i64, i64, fpst)
 +DEF_HELPER_FLAGS_3(neon_cgt_f64, TCG_CALL_NO_RWG, i64, i64, i64, fpst)
 +DEF_HELPER_FLAGS_3(recpsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
 +DEF_HELPER_FLAGS_3(recpsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, fpst)
 +DEF_HELPER_FLAGS_3(recpsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
 +DEF_HELPER_FLAGS_3(rsqrtsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
 +DEF_HELPER_FLAGS_3(rsqrtsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, fpst)
 +DEF_HELPER_FLAGS_3(rsqrtsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
 +DEF_HELPER_FLAGS_2(frecpx_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
 +DEF_HELPER_FLAGS_2(frecpx_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
 +DEF_HELPER_FLAGS_2(frecpx_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
  DEF_HELPER_FLAGS_2(fcvtx_f64_to_f32, TCG_CALL_NO_RWG, f32, f64, env)
  DEF_HELPER_FLAGS_3(crc32_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
  DEF_HELPER_FLAGS_3(crc32c_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
 -DEF_HELPER_FLAGS_3(advsimd_maxh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
 -DEF_HELPER_FLAGS_3(advsimd_minh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
 -DEF_HELPER_FLAGS_3(advsimd_maxnumh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
 -DEF_HELPER_FLAGS_3(advsimd_minnumh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_addh, f16, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_subh, f16, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_mulh, f16, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_divh, f16, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_ceq_f16, i32, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_cge_f16, i32, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_cgt_f16, i32, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_acge_f16, i32, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_acgt_f16, i32, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_mulxh, f16, f16, f16, ptr)
 -DEF_HELPER_4(advsimd_muladdh, f16, f16, f16, f16, ptr)
 -DEF_HELPER_3(advsimd_add2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_sub2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_mul2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_div2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_max2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_min2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_maxnum2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_minnum2h, i32, i32, i32, ptr)
 -DEF_HELPER_3(advsimd_mulx2h, i32, i32, i32, ptr)
 -DEF_HELPER_4(advsimd_muladd2h, i32, i32, i32, i32, ptr)
 -DEF_HELPER_2(advsimd_rinth_exact, f16, f16, ptr)
 -DEF_HELPER_2(advsimd_rinth, f16, f16, ptr)
 +DEF_HELPER_FLAGS_3(advsimd_maxh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
 +DEF_HELPER_FLAGS_3(advsimd_minh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
 +DEF_HELPER_FLAGS_3(advsimd_maxnumh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
 +DEF_HELPER_FLAGS_3(advsimd_minnumh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_addh, f16, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_subh, f16, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_mulh, f16, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_divh, f16, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_ceq_f16, i32, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_cge_f16, i32, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_cgt_f16, i32, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_acge_f16, i32, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_acgt_f16, i32, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_mulxh, f16, f16, f16, fpst)
 +DEF_HELPER_4(advsimd_muladdh, f16, f16, f16, f16, fpst)
 +DEF_HELPER_3(advsimd_add2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_sub2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_mul2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_div2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_max2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_min2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_maxnum2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_minnum2h, i32, i32, i32, fpst)
 +DEF_HELPER_3(advsimd_mulx2h, i32, i32, i32, fpst)
 +DEF_HELPER_4(advsimd_muladd2h, i32, i32, i32, i32, fpst)
 +DEF_HELPER_2(advsimd_rinth_exact, f16, f16, fpst)
 +DEF_HELPER_2(advsimd_rinth, f16, f16, fpst)
  DEF_HELPER_2(exception_return, void, env, i64)
  DEF_HELPER_FLAGS_2(dc_zva, TCG_CALL_NO_WG, void, env, i64)
 diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
+--- a/target/arm/tcg/helper-a64.c
-+++ b/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
+@@ -XXX,XX +XXX,XX @@ static inline uint32_t float_rel_to_flags(int res)
-     return true;
+     return flags;
  }
-+static bool trans_TBL_TBX(DisasContext *s, arg_TBL_TBX *a)
+-uint64_t HELPER(vfp_cmph_a64)(uint32_t x, uint32_t y, void *fp_status)
-+{
++uint64_t HELPER(vfp_cmph_a64)(uint32_t x, uint32_t y, float_status *fp_status)
-+    if (fp_access_check(s)) {
+ {
-+        int len = (a->len + 1) * 16;
+     return float_rel_to_flags(float16_compare_quiet(x, y, fp_status));
-+
+ }
-+        tcg_gen_gvec_2_ptr(vec_full_reg_offset(s, a->rd),
-+                           vec_full_reg_offset(s, a->rm), tcg_env,
+-uint64_t HELPER(vfp_cmpeh_a64)(uint32_t x, uint32_t y, void *fp_status)
-+                           a->q ? 16 : 8, vec_full_reg_size(s),
++uint64_t HELPER(vfp_cmpeh_a64)(uint32_t x, uint32_t y, float_status *fp_status)
-+                           (len << 6) | (a->tbx << 5) | a->rn,
+ {
-+                           gen_helper_simd_tblx);
+     return float_rel_to_flags(float16_compare(x, y, fp_status));
-+    }
+ }
-+    return true;
-+}
+-uint64_t HELPER(vfp_cmps_a64)(float32 x, float32 y, void *fp_status)
-+
++uint64_t HELPER(vfp_cmps_a64)(float32 x, float32 y, float_status *fp_status)
- /*
+ {
-  * Cryptographic AES, SHA, SHA512
+     return float_rel_to_flags(float32_compare_quiet(x, y, fp_status));
  }
 -uint64_t HELPER(vfp_cmpes_a64)(float32 x, float32 y, void *fp_status)
 +uint64_t HELPER(vfp_cmpes_a64)(float32 x, float32 y, float_status *fp_status)
  {
      return float_rel_to_flags(float32_compare(x, y, fp_status));
  }
 -uint64_t HELPER(vfp_cmpd_a64)(float64 x, float64 y, void *fp_status)
 +uint64_t HELPER(vfp_cmpd_a64)(float64 x, float64 y, float_status *fp_status)
  {
      return float_rel_to_flags(float64_compare_quiet(x, y, fp_status));
  }
 -uint64_t HELPER(vfp_cmped_a64)(float64 x, float64 y, void *fp_status)
 +uint64_t HELPER(vfp_cmped_a64)(float64 x, float64 y, float_status *fp_status)
  {
      return float_rel_to_flags(float64_compare(x, y, fp_status));
  }
 -float32 HELPER(vfp_mulxs)(float32 a, float32 b, void *fpstp)
 +float32 HELPER(vfp_mulxs)(float32 a, float32 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float32_squash_input_denormal(a, fpst);
      b = float32_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(vfp_mulxs)(float32 a, float32 b, void *fpstp)
      return float32_mul(a, b, fpst);
  }
 -float64 HELPER(vfp_mulxd)(float64 a, float64 b, void *fpstp)
 +float64 HELPER(vfp_mulxd)(float64 a, float64 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float64_squash_input_denormal(a, fpst);
      b = float64_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(vfp_mulxd)(float64 a, float64 b, void *fpstp)
  }
  /* 64bit/double versions of the neon float compare functions */
 -uint64_t HELPER(neon_ceq_f64)(float64 a, float64 b, void *fpstp)
 +uint64_t HELPER(neon_ceq_f64)(float64 a, float64 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      return -float64_eq_quiet(a, b, fpst);
  }
 -uint64_t HELPER(neon_cge_f64)(float64 a, float64 b, void *fpstp)
 +uint64_t HELPER(neon_cge_f64)(float64 a, float64 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      return -float64_le(b, a, fpst);
  }
 -uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
 +uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      return -float64_lt(b, a, fpst);
  }
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
   * multiply-add-and-halve.
   */
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
 -uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
 +uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float16_squash_input_denormal(a, fpst);
      b = float16_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
      return float16_muladd(a, b, float16_two, 0, fpst);
  }
 -float32 HELPER(recpsf_f32)(float32 a, float32 b, void *fpstp)
 +float32 HELPER(recpsf_f32)(float32 a, float32 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float32_squash_input_denormal(a, fpst);
      b = float32_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(recpsf_f32)(float32 a, float32 b, void *fpstp)
      return float32_muladd(a, b, float32_two, 0, fpst);
  }
 -float64 HELPER(recpsf_f64)(float64 a, float64 b, void *fpstp)
 +float64 HELPER(recpsf_f64)(float64 a, float64 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float64_squash_input_denormal(a, fpst);
      b = float64_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(recpsf_f64)(float64 a, float64 b, void *fpstp)
      return float64_muladd(a, b, float64_two, 0, fpst);
  }
 -uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, void *fpstp)
 +uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float16_squash_input_denormal(a, fpst);
      b = float16_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, void *fpstp)
      return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
  }
 -float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, void *fpstp)
 +float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float32_squash_input_denormal(a, fpst);
      b = float32_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, void *fpstp)
      return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
  }
 -float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, void *fpstp)
 +float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float64_squash_input_denormal(a, fpst);
      b = float64_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, void *fpstp)
  }
  /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
 -uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
 +uint32_t HELPER(frecpx_f16)(uint32_t a, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      uint16_t val16, sbit;
      int16_t exp;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
      }
  }
--/* TBL/TBX
+-float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
-- *   31  30 29         24 23 22  21 20  16 15  14 13  12  11 10 9    5 4    0
++float32 HELPER(frecpx_f32)(float32 a, float_status *fpst)
-- * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
+ {
-- * | 0 | Q | 0 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | len | op | 0 0 |  Rn  |  Rd  |
+-    float_status *fpst = fpstp;
-- * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
+     uint32_t val32, sbit;
-- */
+     int32_t exp;
--static void disas_simd_tb(DisasContext *s, uint32_t insn)
--{
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
--    int op2 = extract32(insn, 22, 2);
+     }
--    int is_q = extract32(insn, 30, 1);
+ }
--    int rm = extract32(insn, 16, 5);
--    int rn = extract32(insn, 5, 5);
+-float64 HELPER(frecpx_f64)(float64 a, void *fpstp)
--    int rd = extract32(insn, 0, 5);
++float64 HELPER(frecpx_f64)(float64 a, float_status *fpst)
--    int is_tbx = extract32(insn, 12, 1);
+ {
--    int len = (extract32(insn, 13, 2) + 1) * 16;
+-    float_status *fpst = fpstp;
--
+     uint64_t val64, sbit;
--    if (op2 != 0) {
+     int64_t exp;
--        unallocated_encoding(s);
--        return;
+@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(crc32c_64)(uint64_t acc, uint64_t val, uint32_t bytes)
--    }
+ #define ADVSIMD_HELPER(name, suffix) HELPER(glue(glue(advsimd_, name), suffix))
--
--    if (!fp_access_check(s)) {
+ #define ADVSIMD_HALFOP(name) \
--        return;
+-uint32_t ADVSIMD_HELPER(name, h)(uint32_t a, uint32_t b, void *fpstp) \
--    }
++uint32_t ADVSIMD_HELPER(name, h)(uint32_t a, uint32_t b, float_status *fpst) \
--
+ { \
--    tcg_gen_gvec_2_ptr(vec_full_reg_offset(s, rd),
+-    float_status *fpst = fpstp; \
--                       vec_full_reg_offset(s, rm), tcg_env,
+     return float16_ ## name(a, b, fpst);    \
--                       is_q ? 16 : 8, vec_full_reg_size(s),
+ }
--                       (len << 6) | (is_tbx << 5) | rn,
--                       gen_helper_simd_tblx);
+@@ -XXX,XX +XXX,XX @@ ADVSIMD_HALFOP(minnum)
--}
+ ADVSIMD_HALFOP(maxnum)
--
- /* ZIP/UZP/TRN
+ #define ADVSIMD_TWOHALFOP(name)                                         \
-  *   31  30 29         24 23  22  21 20   16 15 14 12 11 10 9    5 4    0
+-uint32_t ADVSIMD_HELPER(name, 2h)(uint32_t two_a, uint32_t two_b, void *fpstp) \
-  * +---+---+-------------+------+---+------+---+------------------+------+
++uint32_t ADVSIMD_HELPER(name, 2h)(uint32_t two_a, uint32_t two_b,       \
-@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
++                                  float_status *fpst)                   \
-     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
+ { \
-     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
+     float16  a1, a2, b1, b2;                        \
-     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
+     uint32_t r1, r2;                                \
--    { 0x0e000000, 0xbf208c00, disas_simd_tb },
+-    float_status *fpst = fpstp;                     \
-     { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
+     a1 = extract32(two_a, 0, 16);                   \
-     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
+     a2 = extract32(two_a, 16, 16);                  \
-     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+     b1 = extract32(two_b, 0, 16);                   \
@@ -XXX,XX +XXX,XX @@ ADVSIMD_TWOHALFOP(minnum)
  ADVSIMD_TWOHALFOP(maxnum)
  /* Data processing - scalar floating-point and advanced SIMD */
 -static float16 float16_mulx(float16 a, float16 b, void *fpstp)
 +static float16 float16_mulx(float16 a, float16 b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
 -
      a = float16_squash_input_denormal(a, fpst);
      b = float16_squash_input_denormal(b, fpst);
@@ -XXX,XX +XXX,XX @@ ADVSIMD_TWOHALFOP(mulx)
  /* fused multiply-accumulate */
  uint32_t HELPER(advsimd_muladdh)(uint32_t a, uint32_t b, uint32_t c,
 -                                 void *fpstp)
 +                                 float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      return float16_muladd(a, b, c, 0, fpst);
  }
  uint32_t HELPER(advsimd_muladd2h)(uint32_t two_a, uint32_t two_b,
 -                                  uint32_t two_c, void *fpstp)
 +                                  uint32_t two_c, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      float16  a1, a2, b1, b2, c1, c2;
      uint32_t r1, r2;
      a1 = extract32(two_a, 0, 16);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_muladd2h)(uint32_t two_a, uint32_t two_b,
  #define ADVSIMD_CMPRES(test) (test) ? 0xffff : 0
 -uint32_t HELPER(advsimd_ceq_f16)(uint32_t a, uint32_t b, void *fpstp)
 +uint32_t HELPER(advsimd_ceq_f16)(uint32_t a, uint32_t b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      int compare = float16_compare_quiet(a, b, fpst);
      return ADVSIMD_CMPRES(compare == float_relation_equal);
  }
 -uint32_t HELPER(advsimd_cge_f16)(uint32_t a, uint32_t b, void *fpstp)
 +uint32_t HELPER(advsimd_cge_f16)(uint32_t a, uint32_t b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      int compare = float16_compare(a, b, fpst);
      return ADVSIMD_CMPRES(compare == float_relation_greater ||
                            compare == float_relation_equal);
  }
 -uint32_t HELPER(advsimd_cgt_f16)(uint32_t a, uint32_t b, void *fpstp)
 +uint32_t HELPER(advsimd_cgt_f16)(uint32_t a, uint32_t b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      int compare = float16_compare(a, b, fpst);
      return ADVSIMD_CMPRES(compare == float_relation_greater);
  }
 -uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, void *fpstp)
 +uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      float16 f0 = float16_abs(a);
      float16 f1 = float16_abs(b);
      int compare = float16_compare(f0, f1, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, void *fpstp)
                            compare == float_relation_equal);
  }
 -uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, void *fpstp)
 +uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      float16 f0 = float16_abs(a);
      float16 f1 = float16_abs(b);
      int compare = float16_compare(f0, f1, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, void *fpstp)
  }
  /* round to integral */
 -uint32_t HELPER(advsimd_rinth_exact)(uint32_t x, void *fp_status)
 +uint32_t HELPER(advsimd_rinth_exact)(uint32_t x, float_status *fp_status)
  {
      return float16_round_to_int(x, fp_status);
  }
 -uint32_t HELPER(advsimd_rinth)(uint32_t x, void *fp_status)
 +uint32_t HELPER(advsimd_rinth)(uint32_t x, float_status *fp_status)
  {
      int old_flags = get_float_exception_flags(fp_status), new_flags;
      float16 ret;
 --
 .34.1

-[PULL 15/38] target/arm: Fix whitespace near gen_srshr64_i64
+[PULL 04/19] target/arm: Convert vec_helper.c to fpst alias
 From: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20241206031224.78525-5-richard.henderson@linaro.org
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240912024114.1097832-16-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/gengvec.c | 2 +-
+ target/arm/helper.h         | 284 ++++++++++++++++++------------------
-file changed, 1 insertion(+), 1 deletion(-)
+ target/arm/tcg/helper-a64.h |  18 +--
  target/arm/tcg/helper-sve.h |  12 +-
  target/arm/tcg/vec_helper.c |  60 ++++----
 files changed, 183 insertions(+), 191 deletions(-)
-diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/gengvec.c
+--- a/target/arm/helper.h
-+++ b/target/arm/tcg/gengvec.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_usdot_idx_b, TCG_CALL_NO_RWG,
-     tcg_gen_add_i32(d, d, t);
+                    void, ptr, ptr, ptr, ptr, i32)
- }
+ DEF_HELPER_FLAGS_5(gvec_fcaddh, TCG_CALL_NO_RWG,
-- void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-                   void, ptr, ptr, ptr, ptr, i32)
-+void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++                   void, ptr, ptr, ptr, fpst, i32)
- {
+ DEF_HELPER_FLAGS_5(gvec_fcadds, TCG_CALL_NO_RWG,
-     TCGv_i64 t = tcg_temp_new_i64();
+-                   void, ptr, ptr, ptr, ptr, i32)
++                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fcaddd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fcmlah, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fcmlah_idx, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fcmlas, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fcmlad, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_uitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_tosszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_uitos, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_tosszh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_sf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_sf, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fu, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_sh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hu, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_sd, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_ud, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rz_ds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rz_du, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_sd, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_ud, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rz_ds, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rz_du, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sd, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ud, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ss, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sd, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ud, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ss, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_vrintx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_vrintx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_vrintx_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_vrintx_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_frsqrte_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_frsqrte_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_frsqrte_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_frsqrte_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_frsqrte_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_frsqrte_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcgt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcgt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcgt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcgt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcgt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcgt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcge0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcge0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcge0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcge0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcge0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcge0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_fceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fceq0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fceq0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_fceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fceq0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fceq0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcle0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcle0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fcle0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcle0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcle0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fcle0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_4(gvec_fclt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fclt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(gvec_fclt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_fclt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fclt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_4(gvec_fclt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fadd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fadd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fadd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fadd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fadd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fadd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fsub_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fsub_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fsub_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fsub_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fsub_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fsub_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fmul_idx_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fmul_idx_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fmul_idx_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fmla_idx_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fmla_idx_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_fmla_idx_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_uqadd_b, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_bfmmla, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, env, i32)
  DEF_HELPER_FLAGS_6(gvec_bfmlal, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(gvec_bfmlal_idx, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_sclamp_b, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_uclamp_s, TCG_CALL_NO_RWG,
  DEF_HELPER_FLAGS_5(gvec_uclamp_d, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(gvec_addp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/helper-a64.h
 +++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
  DEF_HELPER_FLAGS_1(guarded_page_check, TCG_CALL_NO_WG, void, env)
  DEF_HELPER_FLAGS_2(guarded_page_br, TCG_CALL_NO_RWG, void, env, tl)
 -DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 diff --git a/target/arm/tcg/helper-sve.h b/target/arm/tcg/helper-sve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/helper-sve.h
 +++ b/target/arm/tcg/helper-sve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_umini_s, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
  DEF_HELPER_FLAGS_4(sve_umini_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
  DEF_HELPER_FLAGS_5(gvec_recps_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_recps_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_recps_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_rsqrts_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_rsqrts_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(gvec_rsqrts_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_faddv_h, TCG_CALL_NO_RWG,
                     i64, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_DOT_IDX(gvec_sdot_idx_h, int64_t, int16_t, int16_t, H8)
  DO_DOT_IDX(gvec_udot_idx_h, uint64_t, uint16_t, uint16_t, H8)
  void HELPER(gvec_fcaddh)(void *vd, void *vn, void *vm,
 -                         void *vfpst, uint32_t desc)
 +                         float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float16 *d = vd;
      float16 *n = vn;
      float16 *m = vm;
 -    float_status *fpst = vfpst;
      uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
      uint32_t neg_imag = neg_real ^ 1;
      uintptr_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcaddh)(void *vd, void *vn, void *vm,
  }
  void HELPER(gvec_fcadds)(void *vd, void *vn, void *vm,
 -                         void *vfpst, uint32_t desc)
 +                         float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float32 *d = vd;
      float32 *n = vn;
      float32 *m = vm;
 -    float_status *fpst = vfpst;
      uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
      uint32_t neg_imag = neg_real ^ 1;
      uintptr_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcadds)(void *vd, void *vn, void *vm,
  }
  void HELPER(gvec_fcaddd)(void *vd, void *vn, void *vm,
 -                         void *vfpst, uint32_t desc)
 +                         float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float64 *d = vd;
      float64 *n = vn;
      float64 *m = vm;
 -    float_status *fpst = vfpst;
      uint64_t neg_real = extract64(desc, SIMD_DATA_SHIFT, 1);
      uint64_t neg_imag = neg_real ^ 1;
      uintptr_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcaddd)(void *vd, void *vn, void *vm,
  }
  void HELPER(gvec_fcmlah)(void *vd, void *vn, void *vm, void *va,
 -                         void *vfpst, uint32_t desc)
 +                         float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float16 *d = vd, *n = vn, *m = vm, *a = va;
 -    float_status *fpst = vfpst;
      intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
      uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
      uint32_t neg_real = flip ^ neg_imag;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlah)(void *vd, void *vn, void *vm, void *va,
  }
  void HELPER(gvec_fcmlah_idx)(void *vd, void *vn, void *vm, void *va,
 -                             void *vfpst, uint32_t desc)
 +                             float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float16 *d = vd, *n = vn, *m = vm, *a = va;
 -    float_status *fpst = vfpst;
      intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
      uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
      intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlah_idx)(void *vd, void *vn, void *vm, void *va,
  }
  void HELPER(gvec_fcmlas)(void *vd, void *vn, void *vm, void *va,
 -                         void *vfpst, uint32_t desc)
 +                         float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float32 *d = vd, *n = vn, *m = vm, *a = va;
 -    float_status *fpst = vfpst;
      intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
      uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
      uint32_t neg_real = flip ^ neg_imag;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlas)(void *vd, void *vn, void *vm, void *va,
  }
  void HELPER(gvec_fcmlas_idx)(void *vd, void *vn, void *vm, void *va,
 -                             void *vfpst, uint32_t desc)
 +                             float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float32 *d = vd, *n = vn, *m = vm, *a = va;
 -    float_status *fpst = vfpst;
      intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
      uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
      intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlas_idx)(void *vd, void *vn, void *vm, void *va,
  }
  void HELPER(gvec_fcmlad)(void *vd, void *vn, void *vm, void *va,
 -                         void *vfpst, uint32_t desc)
 +                         float_status *fpst, uint32_t desc)
  {
      uintptr_t opr_sz = simd_oprsz(desc);
      float64 *d = vd, *n = vn, *m = vm, *a = va;
 -    float_status *fpst = vfpst;
      intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
      uint64_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
      uint64_t neg_real = flip ^ neg_imag;
@@ -XXX,XX +XXX,XX @@ static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
      return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
  }
 -static int16_t vfp_tosszh(float16 x, void *fpstp)
 +static int16_t vfp_tosszh(float16 x, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      if (float16_is_any_nan(x)) {
          float_raise(float_flag_invalid, fpst);
          return 0;
@@ -XXX,XX +XXX,XX @@ static int16_t vfp_tosszh(float16 x, void *fpstp)
      return float16_to_int16_round_to_zero(x, fpst);
  }
 -static uint16_t vfp_touszh(float16 x, void *fpstp)
 +static uint16_t vfp_touszh(float16 x, float_status *fpst)
  {
 -    float_status *fpst = fpstp;
      if (float16_is_any_nan(x)) {
          float_raise(float_flag_invalid, fpst);
          return 0;
@@ -XXX,XX +XXX,XX @@ static uint16_t vfp_touszh(float16 x, void *fpstp)
  }
  #define DO_2OP(NAME, FUNC, TYPE) \
 -void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
 +void HELPER(NAME)(void *vd, void *vn, float_status *stat, uint32_t desc)  \
  {                                                                 \
      intptr_t i, oprsz = simd_oprsz(desc);                         \
      TYPE *d = vd, *n = vn;                                        \
@@ -XXX,XX +XXX,XX @@ static float32 float32_rsqrts_nf(float32 op1, float32 op2, float_status *stat)
  }
  #define DO_3OP(NAME, FUNC, TYPE) \
 -void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
 +                  float_status *stat, uint32_t desc)                       \
  {                                                                          \
      intptr_t i, oprsz = simd_oprsz(desc);                                  \
      TYPE *d = vd, *n = vn, *m = vm;                                        \
@@ -XXX,XX +XXX,XX @@ static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
      return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
  }
 -#define DO_MULADD(NAME, FUNC, TYPE)                                     \
 -void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 +#define DO_MULADD(NAME, FUNC, TYPE)                                        \
 +void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
 +                  float_status *stat, uint32_t desc)                       \
  {                                                                          \
      intptr_t i, oprsz = simd_oprsz(desc);                                  \
      TYPE *d = vd, *n = vn, *m = vm;                                        \
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
  #undef DO_MLA_IDX
  #define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
 -void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
 +                  float_status *stat, uint32_t desc)                       \
  {                                                                          \
      intptr_t i, j, oprsz = simd_oprsz(desc);                               \
      intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
@@ -XXX,XX +XXX,XX @@ DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
  #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
 -                  void *stat, uint32_t desc)                               \
 +                  float_status *stat, uint32_t desc)                       \
  {                                                                          \
      intptr_t i, j, oprsz = simd_oprsz(desc);                               \
      intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_d, uint64_t)
  #undef DO_ABA
  #define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
 -void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
 +                  float_status *stat, uint32_t desc)                       \
  {                                                                          \
      ARMVectorReg scratch;                                                  \
      intptr_t oprsz = simd_oprsz(desc);                                     \
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_uminp_s, MIN, uint32_t, H4)
  #undef DO_3OP_PAIR
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
 -    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
 +    void HELPER(NAME)(void *vd, void *vn, float_status *stat, uint32_t desc) \
      {                                                                   \
          intptr_t i, oprsz = simd_oprsz(desc);                           \
          int shift = simd_data(desc);                                    \
@@ -XXX,XX +XXX,XX @@ DO_VCVT_FIXED(gvec_vcvt_rz_hu, helper_vfp_touhh_round_to_zero, uint16_t)
  #undef DO_VCVT_FIXED
  #define DO_VCVT_RMODE(NAME, FUNC, TYPE)                                 \
 -    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
 +    void HELPER(NAME)(void *vd, void *vn, float_status *fpst, uint32_t desc) \
      {                                                                   \
 -        float_status *fpst = stat;                                      \
          intptr_t i, oprsz = simd_oprsz(desc);                           \
          uint32_t rmode = simd_data(desc);                               \
          uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
@@ -XXX,XX +XXX,XX @@ DO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
  #undef DO_VCVT_RMODE
  #define DO_VRINT_RMODE(NAME, FUNC, TYPE)                                \
 -    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
 +    void HELPER(NAME)(void *vd, void *vn, float_status *fpst, uint32_t desc) \
      {                                                                   \
 -        float_status *fpst = stat;                                      \
          intptr_t i, oprsz = simd_oprsz(desc);                           \
          uint32_t rmode = simd_data(desc);                               \
          uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_bfmmla)(void *vd, void *vn, void *vm, void *va,
  }
  void HELPER(gvec_bfmlal)(void *vd, void *vn, void *vm, void *va,
 -                         void *stat, uint32_t desc)
 +                         float_status *stat, uint32_t desc)
  {
      intptr_t i, opr_sz = simd_oprsz(desc);
      intptr_t sel = simd_data(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_bfmlal)(void *vd, void *vn, void *vm, void *va,
  }
  void HELPER(gvec_bfmlal_idx)(void *vd, void *vn, void *vm,
 -                             void *va, void *stat, uint32_t desc)
 +                             void *va, float_status *stat, uint32_t desc)
  {
      intptr_t i, j, opr_sz = simd_oprsz(desc);
      intptr_t sel = extract32(desc, SIMD_DATA_SHIFT, 1);
 --
 .34.1

-[PULL 02/38] target/arm: Replace tcg_gen_dupi_vec with constants in translate-sve.c
+[PULL 05/19] target/arm: Convert neon_helper.c to fpst alias
 From: Richard Henderson <richard.henderson@linaro.org>
-Instead of copying a constant into a temporary with dupi,
-use a vector constant directly.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-3-richard.henderson@linaro.org
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20241206031224.78525-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/translate-sve.c | 128 +++++++++++++--------------------
+ target/arm/helper.h          | 14 +++++++-------
-file changed, 49 insertions(+), 79 deletions(-)
+ target/arm/tcg/neon_helper.c | 21 +++++++--------------
 files changed, 14 insertions(+), 21 deletions(-)
-diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-sve.c
+--- a/target/arm/helper.h
-+++ b/target/arm/tcg/translate-sve.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void gen_sshll_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t imm)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(neon_qneg_s16, TCG_CALL_NO_RWG, i32, env, i32)
+ DEF_HELPER_FLAGS_2(neon_qneg_s32, TCG_CALL_NO_RWG, i32, env, i32)
-     if (top) {
+ DEF_HELPER_FLAGS_2(neon_qneg_s64, TCG_CALL_NO_RWG, i64, env, i64)
-         if (shl == halfbits) {
--            TCGv_vec t = tcg_temp_new_vec_matching(d);
+-DEF_HELPER_3(neon_ceq_f32, i32, i32, i32, ptr)
--            tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(halfbits, halfbits));
+-DEF_HELPER_3(neon_cge_f32, i32, i32, i32, ptr)
--            tcg_gen_and_vec(vece, d, n, t);
+-DEF_HELPER_3(neon_cgt_f32, i32, i32, i32, ptr)
-+            tcg_gen_and_vec(vece, d, n,
+-DEF_HELPER_3(neon_acge_f32, i32, i32, i32, ptr)
-+                            tcg_constant_vec_matching(d, vece,
+-DEF_HELPER_3(neon_acgt_f32, i32, i32, i32, ptr)
-+                                MAKE_64BIT_MASK(halfbits, halfbits)));
+-DEF_HELPER_3(neon_acge_f64, i64, i64, i64, ptr)
-         } else {
+-DEF_HELPER_3(neon_acgt_f64, i64, i64, i64, ptr)
-             tcg_gen_sari_vec(vece, d, n, halfbits);
++DEF_HELPER_3(neon_ceq_f32, i32, i32, i32, fpst)
-             tcg_gen_shli_vec(vece, d, d, shl);
++DEF_HELPER_3(neon_cge_f32, i32, i32, i32, fpst)
-@@ -XXX,XX +XXX,XX @@ static void gen_ushll_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t imm)
++DEF_HELPER_3(neon_cgt_f32, i32, i32, i32, fpst)
++DEF_HELPER_3(neon_acge_f32, i32, i32, i32, fpst)
-     if (top) {
++DEF_HELPER_3(neon_acgt_f32, i32, i32, i32, fpst)
-         if (shl == halfbits) {
++DEF_HELPER_3(neon_acge_f64, i64, i64, i64, fpst)
--            TCGv_vec t = tcg_temp_new_vec_matching(d);
++DEF_HELPER_3(neon_acgt_f64, i64, i64, i64, fpst)
--            tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(halfbits, halfbits));
--            tcg_gen_and_vec(vece, d, n, t);
+ /* iwmmxt_helper.c */
-+            tcg_gen_and_vec(vece, d, n,
+ DEF_HELPER_2(iwmmxt_maddsq, i64, i64, i64)
-+                            tcg_constant_vec_matching(d, vece,
+diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
-+                                MAKE_64BIT_MASK(halfbits, halfbits)));
+index XXXXXXX..XXXXXXX 100644
-         } else {
+--- a/target/arm/tcg/neon_helper.c
-             tcg_gen_shri_vec(vece, d, n, halfbits);
++++ b/target/arm/tcg/neon_helper.c
-             tcg_gen_shli_vec(vece, d, d, shl);
+@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_qneg_s64)(CPUARMState *env, uint64_t x)
-         }
+  * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
-     } else {
+  * Softfloat routines return 0/1, which we convert to the 0/-1 Neon requires.
-         if (shl == 0) {
+  */
--            TCGv_vec t = tcg_temp_new_vec_matching(d);
+-uint32_t HELPER(neon_ceq_f32)(uint32_t a, uint32_t b, void *fpstp)
--            tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
++uint32_t HELPER(neon_ceq_f32)(uint32_t a, uint32_t b, float_status *fpst)
 -            tcg_gen_and_vec(vece, d, n, t);
 +            tcg_gen_and_vec(vece, d, n,
 +                            tcg_constant_vec_matching(d, vece,
 +                                MAKE_64BIT_MASK(0, halfbits)));
          } else {
              tcg_gen_shli_vec(vece, d, n, halfbits);
              tcg_gen_shri_vec(vece, d, d, halfbits - shl);
@@ -XXX,XX +XXX,XX @@ static const TCGOpcode sqxtn_list[] = {
  static void gen_sqxtnb_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
  {
--    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    float_status *fpst = fpstp;
-     int halfbits = 4 << vece;
+     return -float32_eq_quiet(make_float32(a), make_float32(b), fpst);
      int64_t mask = (1ull << halfbits) - 1;
      int64_t min = -1ull << (halfbits - 1);
      int64_t max = -min - 1;
 -    tcg_gen_dupi_vec(vece, t, min);
 -    tcg_gen_smax_vec(vece, d, n, t);
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_smin_vec(vece, d, d, t);
 -    tcg_gen_dupi_vec(vece, t, mask);
 -    tcg_gen_and_vec(vece, d, d, t);
 +    tcg_gen_smax_vec(vece, d, n, tcg_constant_vec_matching(d, vece, min));
 +    tcg_gen_smin_vec(vece, d, d, tcg_constant_vec_matching(d, vece, max));
 +    tcg_gen_and_vec(vece, d, d, tcg_constant_vec_matching(d, vece, mask));
  }
- static const GVecGen2 sqxtnb_ops[3] = {
+-uint32_t HELPER(neon_cge_f32)(uint32_t a, uint32_t b, void *fpstp)
-@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQXTNB, aa64_sve2, do_narrow_extract, a, sqxtnb_ops)
++uint32_t HELPER(neon_cge_f32)(uint32_t a, uint32_t b, float_status *fpst)
  static void gen_sqxtnt_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
  {
--    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    float_status *fpst = fpstp;
-     int halfbits = 4 << vece;
+     return -float32_le(make_float32(b), make_float32(a), fpst);
      int64_t mask = (1ull << halfbits) - 1;
      int64_t min = -1ull << (halfbits - 1);
      int64_t max = -min - 1;
 -    tcg_gen_dupi_vec(vece, t, min);
 -    tcg_gen_smax_vec(vece, n, n, t);
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_smin_vec(vece, n, n, t);
 +    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, min));
 +    tcg_gen_smin_vec(vece, n, n, tcg_constant_vec_matching(d, vece, max));
      tcg_gen_shli_vec(vece, n, n, halfbits);
 -    tcg_gen_dupi_vec(vece, t, mask);
 -    tcg_gen_bitsel_vec(vece, d, t, d, n);
 +    tcg_gen_bitsel_vec(vece, d, tcg_constant_vec_matching(d, vece, mask), d, n);
  }
- static const GVecGen2 sqxtnt_ops[3] = {
+-uint32_t HELPER(neon_cgt_f32)(uint32_t a, uint32_t b, void *fpstp)
-@@ -XXX,XX +XXX,XX @@ static const TCGOpcode uqxtn_list[] = {
++uint32_t HELPER(neon_cgt_f32)(uint32_t a, uint32_t b, float_status *fpst)
  static void gen_uqxtnb_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
  {
--    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    float_status *fpst = fpstp;
-     int halfbits = 4 << vece;
+     return -float32_lt(make_float32(b), make_float32(a), fpst);
      int64_t max = (1ull << halfbits) - 1;
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_umin_vec(vece, d, n, t);
 +    tcg_gen_umin_vec(vece, d, n, tcg_constant_vec_matching(d, vece, max));
  }
- static const GVecGen2 uqxtnb_ops[3] = {
+-uint32_t HELPER(neon_acge_f32)(uint32_t a, uint32_t b, void *fpstp)
-@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(UQXTNB, aa64_sve2, do_narrow_extract, a, uqxtnb_ops)
++uint32_t HELPER(neon_acge_f32)(uint32_t a, uint32_t b, float_status *fpst)
  static void gen_uqxtnt_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
  {
--    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    float_status *fpst = fpstp;
-     int halfbits = 4 << vece;
+     float32 f0 = float32_abs(make_float32(a));
-     int64_t max = (1ull << halfbits) - 1;
+     float32 f1 = float32_abs(make_float32(b));
-+    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
+     return -float32_le(f1, f0, fpst);
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_umin_vec(vece, n, n, t);
 +    tcg_gen_umin_vec(vece, n, n, maxv);
      tcg_gen_shli_vec(vece, n, n, halfbits);
 -    tcg_gen_bitsel_vec(vece, d, t, d, n);
 +    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
  }
- static const GVecGen2 uqxtnt_ops[3] = {
+-uint32_t HELPER(neon_acgt_f32)(uint32_t a, uint32_t b, void *fpstp)
-@@ -XXX,XX +XXX,XX @@ static const TCGOpcode sqxtun_list[] = {
++uint32_t HELPER(neon_acgt_f32)(uint32_t a, uint32_t b, float_status *fpst)
  static void gen_sqxtunb_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
  {
--    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    float_status *fpst = fpstp;
-     int halfbits = 4 << vece;
+     float32 f0 = float32_abs(make_float32(a));
-     int64_t max = (1ull << halfbits) - 1;
+     float32 f1 = float32_abs(make_float32(b));
+     return -float32_lt(f1, f0, fpst);
 -    tcg_gen_dupi_vec(vece, t, 0);
 -    tcg_gen_smax_vec(vece, d, n, t);
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_umin_vec(vece, d, d, t);
 +    tcg_gen_smax_vec(vece, d, n, tcg_constant_vec_matching(d, vece, 0));
 +    tcg_gen_umin_vec(vece, d, d, tcg_constant_vec_matching(d, vece, max));
  }
- static const GVecGen2 sqxtunb_ops[3] = {
+-uint64_t HELPER(neon_acge_f64)(uint64_t a, uint64_t b, void *fpstp)
-@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQXTUNB, aa64_sve2, do_narrow_extract, a, sqxtunb_ops)
++uint64_t HELPER(neon_acge_f64)(uint64_t a, uint64_t b, float_status *fpst)
  static void gen_sqxtunt_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
  {
--    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    float_status *fpst = fpstp;
-     int halfbits = 4 << vece;
+     float64 f0 = float64_abs(make_float64(a));
-     int64_t max = (1ull << halfbits) - 1;
+     float64 f1 = float64_abs(make_float64(b));
-+    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
+     return -float64_le(f1, f0, fpst);
 -    tcg_gen_dupi_vec(vece, t, 0);
 -    tcg_gen_smax_vec(vece, n, n, t);
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_umin_vec(vece, n, n, t);
 +    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, 0));
 +    tcg_gen_umin_vec(vece, n, n, maxv);
      tcg_gen_shli_vec(vece, n, n, halfbits);
 -    tcg_gen_bitsel_vec(vece, d, t, d, n);
 +    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
  }
- static const GVecGen2 sqxtunt_ops[3] = {
+-uint64_t HELPER(neon_acgt_f64)(uint64_t a, uint64_t b, void *fpstp)
-@@ -XXX,XX +XXX,XX @@ static void gen_shrnb64_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
++uint64_t HELPER(neon_acgt_f64)(uint64_t a, uint64_t b, float_status *fpst)
  static void gen_shrnb_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t shr)
  {
--    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    float_status *fpst = fpstp;
-     int halfbits = 4 << vece;
+     float64 f0 = float64_abs(make_float64(a));
-     uint64_t mask = MAKE_64BIT_MASK(0, halfbits);
+     float64 f1 = float64_abs(make_float64(b));
+     return -float64_lt(f1, f0, fpst);
      tcg_gen_shri_vec(vece, n, n, shr);
 -    tcg_gen_dupi_vec(vece, t, mask);
 -    tcg_gen_and_vec(vece, d, n, t);
 +    tcg_gen_and_vec(vece, d, n, tcg_constant_vec_matching(d, vece, mask));
  }
  static const TCGOpcode shrnb_vec_list[] = { INDEX_op_shri_vec, 0 };
@@ -XXX,XX +XXX,XX @@ static void gen_shrnt64_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
  static void gen_shrnt_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t shr)
  {
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
      int halfbits = 4 << vece;
      uint64_t mask = MAKE_64BIT_MASK(0, halfbits);
      tcg_gen_shli_vec(vece, n, n, halfbits - shr);
 -    tcg_gen_dupi_vec(vece, t, mask);
 -    tcg_gen_bitsel_vec(vece, d, t, d, n);
 +    tcg_gen_bitsel_vec(vece, d, tcg_constant_vec_matching(d, vece, mask), d, n);
  }
  static const TCGOpcode shrnt_vec_list[] = { INDEX_op_shli_vec, 0 };
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(RSHRNT, aa64_sve2, do_shr_narrow, a, rshrnt_ops)
  static void gen_sqshrunb_vec(unsigned vece, TCGv_vec d,
                               TCGv_vec n, int64_t shr)
  {
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
      int halfbits = 4 << vece;
 +    uint64_t max = MAKE_64BIT_MASK(0, halfbits);
      tcg_gen_sari_vec(vece, n, n, shr);
 -    tcg_gen_dupi_vec(vece, t, 0);
 -    tcg_gen_smax_vec(vece, n, n, t);
 -    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
 -    tcg_gen_umin_vec(vece, d, n, t);
 +    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, 0));
 +    tcg_gen_umin_vec(vece, d, n, tcg_constant_vec_matching(d, vece, max));
  }
  static const TCGOpcode sqshrunb_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQSHRUNB, aa64_sve2, do_shr_narrow, a, sqshrunb_ops)
  static void gen_sqshrunt_vec(unsigned vece, TCGv_vec d,
                               TCGv_vec n, int64_t shr)
  {
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
      int halfbits = 4 << vece;
 +    uint64_t max = MAKE_64BIT_MASK(0, halfbits);
 +    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
      tcg_gen_sari_vec(vece, n, n, shr);
 -    tcg_gen_dupi_vec(vece, t, 0);
 -    tcg_gen_smax_vec(vece, n, n, t);
 -    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
 -    tcg_gen_umin_vec(vece, n, n, t);
 +    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, 0));
 +    tcg_gen_umin_vec(vece, n, n, maxv);
      tcg_gen_shli_vec(vece, n, n, halfbits);
 -    tcg_gen_bitsel_vec(vece, d, t, d, n);
 +    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
  }
  static const TCGOpcode sqshrunt_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQRSHRUNT, aa64_sve2, do_shr_narrow, a, sqrshrunt_ops)
  static void gen_sqshrnb_vec(unsigned vece, TCGv_vec d,
                              TCGv_vec n, int64_t shr)
  {
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
      int halfbits = 4 << vece;
      int64_t max = MAKE_64BIT_MASK(0, halfbits - 1);
      int64_t min = -max - 1;
 +    int64_t mask = MAKE_64BIT_MASK(0, halfbits);
      tcg_gen_sari_vec(vece, n, n, shr);
 -    tcg_gen_dupi_vec(vece, t, min);
 -    tcg_gen_smax_vec(vece, n, n, t);
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_smin_vec(vece, n, n, t);
 -    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
 -    tcg_gen_and_vec(vece, d, n, t);
 +    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, min));
 +    tcg_gen_smin_vec(vece, n, n, tcg_constant_vec_matching(d, vece, max));
 +    tcg_gen_and_vec(vece, d, n, tcg_constant_vec_matching(d, vece, mask));
  }
  static const TCGOpcode sqshrnb_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQSHRNB, aa64_sve2, do_shr_narrow, a, sqshrnb_ops)
  static void gen_sqshrnt_vec(unsigned vece, TCGv_vec d,
                               TCGv_vec n, int64_t shr)
  {
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
      int halfbits = 4 << vece;
      int64_t max = MAKE_64BIT_MASK(0, halfbits - 1);
      int64_t min = -max - 1;
 +    int64_t mask = MAKE_64BIT_MASK(0, halfbits);
      tcg_gen_sari_vec(vece, n, n, shr);
 -    tcg_gen_dupi_vec(vece, t, min);
 -    tcg_gen_smax_vec(vece, n, n, t);
 -    tcg_gen_dupi_vec(vece, t, max);
 -    tcg_gen_smin_vec(vece, n, n, t);
 +    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, min));
 +    tcg_gen_smin_vec(vece, n, n, tcg_constant_vec_matching(d, vece, max));
      tcg_gen_shli_vec(vece, n, n, halfbits);
 -    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
 -    tcg_gen_bitsel_vec(vece, d, t, d, n);
 +    tcg_gen_bitsel_vec(vece, d, tcg_constant_vec_matching(d, vece, mask), d, n);
  }
  static const TCGOpcode sqshrnt_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQRSHRNT, aa64_sve2, do_shr_narrow, a, sqrshrnt_ops)
  static void gen_uqshrnb_vec(unsigned vece, TCGv_vec d,
                              TCGv_vec n, int64_t shr)
  {
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
      int halfbits = 4 << vece;
 +    int64_t max = MAKE_64BIT_MASK(0, halfbits);
      tcg_gen_shri_vec(vece, n, n, shr);
 -    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
 -    tcg_gen_umin_vec(vece, d, n, t);
 +    tcg_gen_umin_vec(vece, d, n, tcg_constant_vec_matching(d, vece, max));
  }
  static const TCGOpcode uqshrnb_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(UQSHRNB, aa64_sve2, do_shr_narrow, a, uqshrnb_ops)
  static void gen_uqshrnt_vec(unsigned vece, TCGv_vec d,
                              TCGv_vec n, int64_t shr)
  {
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
      int halfbits = 4 << vece;
 +    int64_t max = MAKE_64BIT_MASK(0, halfbits);
 +    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
      tcg_gen_shri_vec(vece, n, n, shr);
 -    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
 -    tcg_gen_umin_vec(vece, n, n, t);
 +    tcg_gen_umin_vec(vece, n, n, maxv);
      tcg_gen_shli_vec(vece, n, n, halfbits);
 -    tcg_gen_bitsel_vec(vece, d, t, d, n);
 +    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
  }
  static const TCGOpcode uqshrnt_vec_list[] = {
 --
 .34.1

-[PULL 03/38] target/arm: Use cmpsel in gen_ushl_vec
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Instead of cmp+and or cmp+andc, use cmpsel.  This will
-be better for hosts that use predicate registers for cmp.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-4-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/gengvec.c | 19 ++++++++-----------
-file changed, 8 insertions(+), 11 deletions(-)
-diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/gengvec.c
-+++ b/target/arm/tcg/gengvec.c
-@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-     TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
--    TCGv_vec max;
-+    TCGv_vec max, zero;
-     tcg_gen_neg_vec(vece, rsh, shift);
-     if (vece == MO_8) {
-@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-     tcg_gen_shrv_vec(vece, rval, src, rsh);
-     /*
--     * The choice of LT (signed) and GEU (unsigned) are biased toward
-+     * The choice of GE (signed) and GEU (unsigned) are biased toward
-      * the instructions of the x86_64 host.  For MO_8, the whole byte
-      * is significant so we must use an unsigned compare; otherwise we
-      * have already masked to a byte and so a signed compare works.
-      * Other tcg hosts have a full set of comparisons and do not care.
-      */
-+    zero = tcg_constant_vec_matching(dst, vece, 0);
-     max = tcg_constant_vec_matching(dst, vece, 8 << vece);
-     if (vece == MO_8) {
--        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
--        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
--        tcg_gen_andc_vec(vece, lval, lval, lsh);
--        tcg_gen_andc_vec(vece, rval, rval, rsh);
-+        tcg_gen_cmpsel_vec(TCG_COND_GEU, vece, lval, lsh, max, zero, lval);
-+        tcg_gen_cmpsel_vec(TCG_COND_GEU, vece, rval, rsh, max, zero, rval);
-     } else {
--        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
--        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
--        tcg_gen_and_vec(vece, lval, lval, lsh);
--        tcg_gen_and_vec(vece, rval, rval, rsh);
-+        tcg_gen_cmpsel_vec(TCG_COND_GE, vece, lval, lsh, max, zero, lval);
-+        tcg_gen_cmpsel_vec(TCG_COND_GE, vece, rval, rsh, max, zero, rval);
-     }
-     tcg_gen_or_vec(vece, dst, lval, rval);
- }
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
- {
-     static const TCGOpcode vecop_list[] = {
-         INDEX_op_neg_vec, INDEX_op_shlv_vec,
--        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
-+        INDEX_op_shrv_vec, INDEX_op_cmpsel_vec, 0
-     };
-     static const GVecGen3 ops[4] = {
-         { .fniv = gen_ushl_vec,
---
-.34.1

-[PULL 04/38] target/arm: Use cmpsel in gen_sshl_vec
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Instead of cmp+and or cmp+andc, use cmpsel.  This will
-be better for hosts that use predicate registers for cmp.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-5-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/gengvec.c | 8 +++-----
-file changed, 3 insertions(+), 5 deletions(-)
-diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/gengvec.c
-+++ b/target/arm/tcg/gengvec.c
-@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-     TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
--    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
-     TCGv_vec max, zero;
-     /*
-@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-     /* Bound rsh so out of bound right shift gets -1.  */
-     max = tcg_constant_vec_matching(dst, vece, (8 << vece) - 1);
-     tcg_gen_umin_vec(vece, rsh, rsh, max);
--    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, max);
-     tcg_gen_shlv_vec(vece, lval, src, lsh);
-     tcg_gen_sarv_vec(vece, rval, src, rsh);
-     /* Select in-bound left shift.  */
--    tcg_gen_andc_vec(vece, lval, lval, tmp);
-+    zero = tcg_constant_vec_matching(dst, vece, 0);
-+    tcg_gen_cmpsel_vec(TCG_COND_GT, vece, lval, lsh, max, zero, lval);
-     /* Select between left and right shift.  */
--    zero = tcg_constant_vec_matching(dst, vece, 0);
-     if (vece == MO_8) {
-         tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, zero, rval, lval);
-     } else {
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
- {
-     static const TCGOpcode vecop_list[] = {
-         INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
--        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
-+        INDEX_op_sarv_vec, INDEX_op_cmpsel_vec, 0
-     };
-     static const GVecGen3 ops[4] = {
-         { .fniv = gen_sshl_vec,
---
-.34.1

-[PULL 23/38] target/arm: Convert handle_scalar_simd_shri to decodetree
+[PULL 06/19] target/arm: Convert sve_helper.c to fpst alias
 From: Richard Henderson <richard.henderson@linaro.org>
-This includes SSHR, USHR, SSRA, USRA, SRSHR, URSHR,
-SRSRA, URSRA, SRI.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-24-richard.henderson@linaro.org
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20241206031224.78525-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |  16 ++++
+ target/arm/tcg/helper-sve.h | 414 ++++++++++++++++++------------------
- target/arm/tcg/translate-a64.c | 140 ++++++++++++++++-----------------
+ target/arm/tcg/sve_helper.c |  96 +++++----
-files changed, 86 insertions(+), 70 deletions(-)
+files changed, 258 insertions(+), 252 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+diff --git a/target/arm/tcg/helper-sve.h b/target/arm/tcg/helper-sve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
+--- a/target/arm/tcg/helper-sve.h
-+++ b/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/helper-sve.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_rsqrts_d, TCG_CALL_NO_RWG,
- &rri_sf         rd rn imm sf
+                    void, ptr, ptr, ptr, fpst, i32)
- &i              imm
- &rr_e           rd rn esz
+ DEF_HELPER_FLAGS_4(sve_faddv_h, TCG_CALL_NO_RWG,
-+&rri_e          rd rn imm esz
+-                   i64, ptr, ptr, ptr, i32)
- &rrr_e          rd rn rm esz
++                   i64, ptr, ptr, fpst, i32)
- &rrx_e          rd rn rm idx esz
+ DEF_HELPER_FLAGS_4(sve_faddv_s, TCG_CALL_NO_RWG,
- &rrrr_e         rd rn rm ra esz
+-                   i64, ptr, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@ SHRN_v          0.00 11110 .... ... 10000 1 ..... .....     @q_shri_s
++                   i64, ptr, ptr, fpst, i32)
- RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_b
+ DEF_HELPER_FLAGS_4(sve_faddv_d, TCG_CALL_NO_RWG,
- RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_h
+-                   i64, ptr, ptr, ptr, i32)
- RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_s
++                   i64, ptr, ptr, fpst, i32)
-+
-+# Advanced SIMD scalar shift by immediate
+ DEF_HELPER_FLAGS_4(sve_fmaxnmv_h, TCG_CALL_NO_RWG,
-+
+-                   i64, ptr, ptr, ptr, i32)
-+@shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
++                   i64, ptr, ptr, fpst, i32)
-+                &rri_e esz=3 imm=%neon_rshift_i6
+ DEF_HELPER_FLAGS_4(sve_fmaxnmv_s, TCG_CALL_NO_RWG,
-+
+-                   i64, ptr, ptr, ptr, i32)
-+SSHR_s          0101 11110 .... ... 00000 1 ..... .....     @shri_d
++                   i64, ptr, ptr, fpst, i32)
-+USHR_s          0111 11110 .... ... 00000 1 ..... .....     @shri_d
+ DEF_HELPER_FLAGS_4(sve_fmaxnmv_d, TCG_CALL_NO_RWG,
-+SSRA_s          0101 11110 .... ... 00010 1 ..... .....     @shri_d
+-                   i64, ptr, ptr, ptr, i32)
-+USRA_s          0111 11110 .... ... 00010 1 ..... .....     @shri_d
++                   i64, ptr, ptr, fpst, i32)
-+SRSHR_s         0101 11110 .... ... 00100 1 ..... .....     @shri_d
-+URSHR_s         0111 11110 .... ... 00100 1 ..... .....     @shri_d
+ DEF_HELPER_FLAGS_4(sve_fminnmv_h, TCG_CALL_NO_RWG,
-+SRSRA_s         0101 11110 .... ... 00110 1 ..... .....     @shri_d
+-                   i64, ptr, ptr, ptr, i32)
-+URSRA_s         0111 11110 .... ... 00110 1 ..... .....     @shri_d
++                   i64, ptr, ptr, fpst, i32)
-+SRI_s           0111 11110 .... ... 01000 1 ..... .....     @shri_d
+ DEF_HELPER_FLAGS_4(sve_fminnmv_s, TCG_CALL_NO_RWG,
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+-                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_fminnmv_d, TCG_CALL_NO_RWG,
 -                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_fmaxv_h, TCG_CALL_NO_RWG,
 -                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_fmaxv_s, TCG_CALL_NO_RWG,
 -                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_fmaxv_d, TCG_CALL_NO_RWG,
 -                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_fminv_h, TCG_CALL_NO_RWG,
 -                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_fminv_s, TCG_CALL_NO_RWG,
 -                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve_fminv_d, TCG_CALL_NO_RWG,
 -                   i64, ptr, ptr, ptr, i32)
 +                   i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fadda_h, TCG_CALL_NO_RWG,
 -                   i64, i64, ptr, ptr, ptr, i32)
 +                   i64, i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fadda_s, TCG_CALL_NO_RWG,
 -                   i64, i64, ptr, ptr, ptr, i32)
 +                   i64, i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fadda_d, TCG_CALL_NO_RWG,
 -                   i64, i64, ptr, ptr, ptr, i32)
 +                   i64, i64, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmge0_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmge0_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmge0_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmgt0_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmgt0_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmgt0_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmlt0_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmlt0_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmlt0_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmle0_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmle0_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmle0_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmeq0_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmeq0_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmeq0_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmne0_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmne0_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcmne0_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fadd_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fadd_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fadd_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsub_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsub_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsub_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmul_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmul_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmul_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fdiv_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fdiv_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fdiv_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmin_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmin_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmin_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmax_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmax_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmax_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fminnum_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fminnum_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fminnum_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxnum_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxnum_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxnum_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fabd_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fabd_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fabd_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fscalbn_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fscalbn_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fscalbn_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmulx_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmulx_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmulx_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fadds_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fadds_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fadds_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsubs_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsubs_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsubs_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmuls_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmuls_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmuls_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsubrs_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsubrs_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fsubrs_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxnms_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxnms_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxnms_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fminnms_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fminnms_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fminnms_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxs_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxs_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmaxs_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmins_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmins_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fmins_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, i64, ptr, i32)
 +                   void, ptr, ptr, ptr, i64, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvt_sh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvt_dh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvt_hs, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvt_ds, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvt_hd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvt_sd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_bfcvt, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzs_hh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzs_hs, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzs_ss, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzs_ds, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzs_hd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzs_sd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzs_dd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzu_hh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzu_hs, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzu_ss, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzu_ds, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzu_hd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzu_sd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fcvtzu_dd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frint_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frint_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frint_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frintx_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frintx_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frintx_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frecpx_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frecpx_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_frecpx_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fsqrt_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fsqrt_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_fsqrt_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_scvt_hh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_scvt_sh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_scvt_dh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_scvt_ss, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_scvt_sd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_scvt_ds, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_scvt_dd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_ucvt_hh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_ucvt_sh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_ucvt_dh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_ucvt_ss, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_ucvt_sd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_ucvt_ds, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_ucvt_dd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmge_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmge_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmge_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmgt_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmgt_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmgt_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmeq_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmeq_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmeq_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmne_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmne_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmne_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmuo_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmuo_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcmuo_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_facge_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_facge_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_facge_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_facgt_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_facgt_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_facgt_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcadd_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcadd_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve_fcadd_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fmla_zpzzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fmla_zpzzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fmla_zpzzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fmls_zpzzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fmls_zpzzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fmls_zpzzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fnmla_zpzzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fnmla_zpzzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fnmla_zpzzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fnmls_zpzzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fnmls_zpzzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fnmls_zpzzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fcmla_zpzzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fcmla_zpzzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_7(sve_fcmla_zpzzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(sve_ftmad_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(sve_ftmad_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(sve_ftmad_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(sve_ftmad_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(sve_ftmad_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(sve_ftmad_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve2_saddl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(sve2_saddl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve2_xar_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(sve2_xar_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fmaxnmp_zpzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fmaxnmp_zpzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fmaxnmp_zpzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fminnmp_zpzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fminnmp_zpzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fminnmp_zpzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fmaxp_zpzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fmaxp_zpzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fmaxp_zpzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fminp_zpzz_h, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fminp_zpzz_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_6(sve2_fminp_zpzz_d, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve2_eor3, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve2_bcax, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sve2_sqrdcmlah_zzzz_s, TCG_CALL_NO_RWG,
  DEF_HELPER_FLAGS_5(sve2_sqrdcmlah_zzzz_d, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_6(fmmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_6(fmmla_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_6(fmmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_6(fmmla_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve2_sqrdmlah_idx_h, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sve2_cdot_idx_d, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(sve2_fcvtnt_sh, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve2_fcvtnt_ds, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve_bfcvtnt, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve2_fcvtlt_hs, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_5(sve2_fcvtlt_sd, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, fpst, i32)
 -DEF_HELPER_FLAGS_5(flogb_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(flogb_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(flogb_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(flogb_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(flogb_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 +DEF_HELPER_FLAGS_5(flogb_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
  DEF_HELPER_FLAGS_4(sve2_sqshl_zpzi_b, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
+--- a/target/arm/tcg/sve_helper.c
-+++ b/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void gen_ushr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+@@ -XXX,XX +XXX,XX @@ DO_ZPZZ_PAIR_D(sve2_sminp_zpzz_d, int64_t, DO_MIN)
  #define DO_ZPZZ_PAIR_FP(NAME, TYPE, H, OP)                              \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg,               \
 -                  void *status, uint32_t desc)                          \
 +                  float_status *status, uint32_t desc)                  \
  {                                                                       \
      intptr_t i, opr_sz = simd_oprsz(desc);                              \
      for (i = 0; i < opr_sz; ) {                                         \
@@ -XXX,XX +XXX,XX @@ static TYPE NAME##_reduce(TYPE *data, float_status *status, uintptr_t n) \
          return TYPE##_##FUNC(lo, hi, status);                         \
      }                                                                 \
  }                                                                     \
 -uint64_t HELPER(NAME)(void *vn, void *vg, void *vs, uint32_t desc)    \
 +uint64_t HELPER(NAME)(void *vn, void *vg, float_status *s, uint32_t desc) \
  {                                                                     \
      uintptr_t i, oprsz = simd_oprsz(desc), maxsz = simd_data(desc);   \
      TYPE data[sizeof(ARMVectorReg) / sizeof(TYPE)];                   \
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(NAME)(void *vn, void *vg, void *vs, uint32_t desc)    \
      for (; i < maxsz; i += sizeof(TYPE)) {                            \
          *(TYPE *)((void *)data + i) = IDENT;                          \
      }                                                                 \
 -    return NAME##_reduce(data, vs, maxsz / sizeof(TYPE));             \
 +    return NAME##_reduce(data, s, maxsz / sizeof(TYPE));              \
  }
  DO_REDUCE(sve_faddv_h, float16, H1_2, add, float16_zero)
@@ -XXX,XX +XXX,XX @@ DO_REDUCE(sve_fmaxv_d, float64, H1_8, max, float64_chs(float64_infinity))
  #undef DO_REDUCE
  uint64_t HELPER(sve_fadda_h)(uint64_t nn, void *vm, void *vg,
 -                             void *status, uint32_t desc)
 +                             float_status *status, uint32_t desc)
  {
      intptr_t i = 0, opr_sz = simd_oprsz(desc);
      float16 result = nn;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_fadda_h)(uint64_t nn, void *vm, void *vg,
  }
  uint64_t HELPER(sve_fadda_s)(uint64_t nn, void *vm, void *vg,
 -                             void *status, uint32_t desc)
 +                             float_status *status, uint32_t desc)
  {
      intptr_t i = 0, opr_sz = simd_oprsz(desc);
      float32 result = nn;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_fadda_s)(uint64_t nn, void *vm, void *vg,
  }
  uint64_t HELPER(sve_fadda_d)(uint64_t nn, void *vm, void *vg,
 -                             void *status, uint32_t desc)
 +                             float_status *status, uint32_t desc)
  {
      intptr_t i = 0, opr_sz = simd_oprsz(desc) / 8;
      uint64_t *m = vm;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_fadda_d)(uint64_t nn, void *vm, void *vg,
   */
  #define DO_ZPZZ_FP(NAME, TYPE, H, OP)                           \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg,       \
 -                  void *status, uint32_t desc)                  \
 +                  float_status *status, uint32_t desc)          \
  {                                                               \
      intptr_t i = simd_oprsz(desc);                              \
      uint64_t *g = vg;                                           \
@@ -XXX,XX +XXX,XX @@ DO_ZPZZ_FP(sve_fmulx_d, uint64_t, H1_8, helper_vfp_mulxd)
   */
  #define DO_ZPZS_FP(NAME, TYPE, H, OP) \
  void HELPER(NAME)(void *vd, void *vn, void *vg, uint64_t scalar,  \
 -                  void *status, uint32_t desc)                    \
 +                  float_status *status, uint32_t desc)            \
  {                                                                 \
      intptr_t i = simd_oprsz(desc);                                \
      uint64_t *g = vg;                                             \
@@ -XXX,XX +XXX,XX @@ DO_ZPZS_FP(sve_fmins_d, float64, H1_8, float64_min)
   * With the extra float_status parameter.
   */
  #define DO_ZPZ_FP(NAME, TYPE, H, OP)                                  \
 -void HELPER(NAME)(void *vd, void *vn, void *vg, void *status, uint32_t desc) \
 +void HELPER(NAME)(void *vd, void *vn, void *vg,                       \
 +                  float_status *status, uint32_t desc)                \
  {                                                                     \
      intptr_t i = simd_oprsz(desc);                                    \
      uint64_t *g = vg;                                                 \
@@ -XXX,XX +XXX,XX @@ static void do_fmla_zpzzz_h(void *vd, void *vn, void *vm, void *va, void *vg,
  }
  void HELPER(sve_fmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
 -                              void *vg, void *status, uint32_t desc)
 +                              void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0, 0);
  }
  void HELPER(sve_fmls_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
 -                              void *vg, void *status, uint32_t desc)
 +                              void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0x8000, 0);
  }
  void HELPER(sve_fnmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
 -                               void *vg, void *status, uint32_t desc)
 +                               void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0x8000, 0x8000);
  }
  void HELPER(sve_fnmls_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
 -                               void *vg, void *status, uint32_t desc)
 +                               void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0, 0x8000);
  }
@@ -XXX,XX +XXX,XX @@ static void do_fmla_zpzzz_s(void *vd, void *vn, void *vm, void *va, void *vg,
  }
  void HELPER(sve_fmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
 -                              void *vg, void *status, uint32_t desc)
 +                              void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0, 0);
  }
  void HELPER(sve_fmls_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
 -                              void *vg, void *status, uint32_t desc)
 +                              void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0x80000000, 0);
  }
  void HELPER(sve_fnmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
 -                               void *vg, void *status, uint32_t desc)
 +                               void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0x80000000, 0x80000000);
  }
  void HELPER(sve_fnmls_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
 -                               void *vg, void *status, uint32_t desc)
 +                               void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0, 0x80000000);
  }
@@ -XXX,XX +XXX,XX @@ static void do_fmla_zpzzz_d(void *vd, void *vn, void *vm, void *va, void *vg,
  }
  void HELPER(sve_fmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
 -                              void *vg, void *status, uint32_t desc)
 +                              void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, 0, 0);
  }
  void HELPER(sve_fmls_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
 -                              void *vg, void *status, uint32_t desc)
 +                              void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, INT64_MIN, 0);
  }
  void HELPER(sve_fnmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
 -                               void *vg, void *status, uint32_t desc)
 +                               void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, INT64_MIN, INT64_MIN);
  }
  void HELPER(sve_fnmls_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
 -                               void *vg, void *status, uint32_t desc)
 +                               void *vg, float_status *status, uint32_t desc)
  {
      do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, 0, INT64_MIN);
  }
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fnmls_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
   */
  #define DO_FPCMP_PPZZ(NAME, TYPE, H, OP)                                \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg,               \
 -                  void *status, uint32_t desc)                          \
 +                  float_status *status, uint32_t desc)                  \
  {                                                                       \
      intptr_t i = simd_oprsz(desc), j = (i - 1) >> 6;                    \
      uint64_t *d = vd, *g = vg;                                          \
@@ -XXX,XX +XXX,XX @@ DO_FPCMP_PPZZ_ALL(sve_facgt, DO_FACGT)
   */
  #define DO_FPCMP_PPZ0(NAME, TYPE, H, OP)                   \
  void HELPER(NAME)(void *vd, void *vn, void *vg,            \
 -                  void *status, uint32_t desc)             \
 +                  float_status *status, uint32_t desc)     \
  {                                                          \
      intptr_t i = simd_oprsz(desc), j = (i - 1) >> 6;       \
      uint64_t *d = vd, *g = vg;                             \
@@ -XXX,XX +XXX,XX @@ DO_FPCMP_PPZ0_ALL(sve_fcmne0, DO_FCMNE)
  /* FP Trig Multiply-Add. */
 -void HELPER(sve_ftmad_h)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
 +void HELPER(sve_ftmad_h)(void *vd, void *vn, void *vm,
 +                         float_status *s, uint32_t desc)
  {
      static const float16 coeff[16] = {
 x3c00, 0xb155, 0x2030, 0x0000, 0x0000, 0x0000, 0x0000, 0x0000,
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_h)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
              mm = float16_abs(mm);
              xx += 8;
          }
 -        d[i] = float16_muladd(n[i], mm, coeff[xx], 0, vs);
 +        d[i] = float16_muladd(n[i], mm, coeff[xx], 0, s);
      }
  }
-+static void gen_ssra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+-void HELPER(sve_ftmad_s)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
-+{
++void HELPER(sve_ftmad_s)(void *vd, void *vn, void *vm,
-+    gen_sshr_d(src, src, shift);
++                         float_status *s, uint32_t desc)
-+    tcg_gen_add_i64(dst, dst, src);
+ {
-+}
+     static const float32 coeff[16] = {
-+
+x3f800000, 0xbe2aaaab, 0x3c088886, 0xb95008b9,
-+static void gen_usra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_s)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
-+{
+             mm = float32_abs(mm);
-+    gen_ushr_d(src, src, shift);
+             xx += 8;
-+    tcg_gen_add_i64(dst, dst, src);
+         }
-+}
+-        d[i] = float32_muladd(n[i], mm, coeff[xx], 0, vs);
-+
++        d[i] = float32_muladd(n[i], mm, coeff[xx], 0, s);
  static void gen_srshr_bhs(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
  {
      assert(shift >= 0 && shift <= 32);
@@ -XXX,XX +XXX,XX @@ static void gen_urshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
      }
  }
-+static void gen_srsra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+-void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
-+{
++void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm,
-+    gen_srshr_d(src, src, shift);
++                         float_status *s, uint32_t desc)
-+    tcg_gen_add_i64(dst, dst, src);
+ {
-+}
+     static const float64 coeff[16] = {
-+
+x3ff0000000000000ull, 0xbfc5555555555543ull,
-+static void gen_ursra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
-+{
+             mm = float64_abs(mm);
-+    gen_urshr_d(src, src, shift);
+             xx += 8;
-+    tcg_gen_add_i64(dst, dst, src);
+         }
-+}
+-        d[i] = float64_muladd(n[i], mm, coeff[xx], 0, vs);
-+
++        d[i] = float64_muladd(n[i], mm, coeff[xx], 0, s);
 +static void gen_sri_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
 +{
 +    /* If shift is 64, dst is unchanged. */
 +    if (shift != 64) {
 +        tcg_gen_shri_i64(src, src, shift);
 +        tcg_gen_deposit_i64(dst, dst, src, 0, 64 - shift);
 +    }
 +}
 +
  static bool do_vec_shift_imm_narrow(DisasContext *s, arg_qrri_e *a,
                                      WideShiftImmFn * const fns[3], MemOp sign)
  {
@@ -XXX,XX +XXX,XX @@ static WideShiftImmFn * const rshrn_fns[] = {
  };
  TRANS(RSHRN_v, do_vec_shift_imm_narrow, a, rshrn_fns, 0)
 +/*
 + * Advanced SIMD Scalar Shift by Immediate
 + */
 +
 +static bool do_scalar_shift_imm(DisasContext *s, arg_rri_e *a,
 +                                WideShiftImmFn *fn, bool accumulate,
 +                                MemOp sign)
 +{
 +    if (fp_access_check(s)) {
 +        TCGv_i64 rd = tcg_temp_new_i64();
 +        TCGv_i64 rn = tcg_temp_new_i64();
 +
 +        read_vec_element(s, rn, a->rn, 0, a->esz | sign);
 +        if (accumulate) {
 +            read_vec_element(s, rd, a->rd, 0, a->esz | sign);
 +        }
 +        fn(rd, rn, a->imm);
 +        write_fp_dreg(s, a->rd, rd);
 +    }
 +    return true;
 +}
 +
 +TRANS(SSHR_s, do_scalar_shift_imm, a, gen_sshr_d, false, 0)
 +TRANS(USHR_s, do_scalar_shift_imm, a, gen_ushr_d, false, 0)
 +TRANS(SSRA_s, do_scalar_shift_imm, a, gen_ssra_d, true, 0)
 +TRANS(USRA_s, do_scalar_shift_imm, a, gen_usra_d, true, 0)
 +TRANS(SRSHR_s, do_scalar_shift_imm, a, gen_srshr_d, false, 0)
 +TRANS(URSHR_s, do_scalar_shift_imm, a, gen_urshr_d, false, 0)
 +TRANS(SRSRA_s, do_scalar_shift_imm, a, gen_srsra_d, true, 0)
 +TRANS(URSRA_s, do_scalar_shift_imm, a, gen_ursra_d, true, 0)
 +TRANS(SRI_s, do_scalar_shift_imm, a, gen_sri_d, true, 0)
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
      }
  }
--/* SSHR[RA]/USHR[RA] - Scalar shift right (optional rounding/accumulate) */
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
--static void handle_scalar_simd_shri(DisasContext *s,
+  */
--                                    bool is_u, int immh, int immb,
--                                    int opcode, int rn, int rd)
+ void HELPER(sve_fcadd_h)(void *vd, void *vn, void *vm, void *vg,
--{
+-                         void *vs, uint32_t desc)
--    const int size = 3;
++                         float_status *s, uint32_t desc)
--    int immhb = immh << 3 | immb;
+ {
--    int shift = 2 * (8 << size) - immhb;
+     intptr_t j, i = simd_oprsz(desc);
--    bool accumulate = false;
+     uint64_t *g = vg;
--    bool round = false;
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_h)(void *vd, void *vn, void *vm, void *vg,
--    bool insert = false;
+             e3 = *(float16 *)(vm + H1_2(i)) ^ neg_imag;
--    TCGv_i64 tcg_rn;
--    TCGv_i64 tcg_rd;
+             if (likely((pg >> (i & 63)) & 1)) {
--
+-                *(float16 *)(vd + H1_2(i)) = float16_add(e0, e1, vs);
--    if (!extract32(immh, 3, 1)) {
++                *(float16 *)(vd + H1_2(i)) = float16_add(e0, e1, s);
--        unallocated_encoding(s);
+             }
--        return;
+             if (likely((pg >> (j & 63)) & 1)) {
--    }
+-                *(float16 *)(vd + H1_2(j)) = float16_add(e2, e3, vs);
--
++                *(float16 *)(vd + H1_2(j)) = float16_add(e2, e3, s);
--    if (!fp_access_check(s)) {
+             }
--        return;
+         } while (i & 63);
--    }
+     } while (i != 0);
--
+ }
--    switch (opcode) {
--    case 0x02: /* SSRA / USRA (accumulate) */
+ void HELPER(sve_fcadd_s)(void *vd, void *vn, void *vm, void *vg,
--        accumulate = true;
+-                         void *vs, uint32_t desc)
--        break;
++                         float_status *s, uint32_t desc)
--    case 0x04: /* SRSHR / URSHR (rounding) */
+ {
--        round = true;
+     intptr_t j, i = simd_oprsz(desc);
--        break;
+     uint64_t *g = vg;
--    case 0x06: /* SRSRA / URSRA (accum + rounding) */
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_s)(void *vd, void *vn, void *vm, void *vg,
--        accumulate = round = true;
+             e3 = *(float32 *)(vm + H1_2(i)) ^ neg_imag;
--        break;
--    case 0x08: /* SRI */
+             if (likely((pg >> (i & 63)) & 1)) {
--        insert = true;
+-                *(float32 *)(vd + H1_2(i)) = float32_add(e0, e1, vs);
--        break;
++                *(float32 *)(vd + H1_2(i)) = float32_add(e0, e1, s);
--    }
+             }
--
+             if (likely((pg >> (j & 63)) & 1)) {
--    tcg_rn = read_fp_dreg(s, rn);
+-                *(float32 *)(vd + H1_2(j)) = float32_add(e2, e3, vs);
--    tcg_rd = (accumulate || insert) ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
++                *(float32 *)(vd + H1_2(j)) = float32_add(e2, e3, s);
--
+             }
--    if (insert) {
+         } while (i & 63);
--        /* shift count same as element size is valid but does nothing;
+     } while (i != 0);
--         * special case to avoid potential shift by 64.
+ }
--         */
--        int esize = 8 << size;
+ void HELPER(sve_fcadd_d)(void *vd, void *vn, void *vm, void *vg,
--        if (shift != esize) {
+-                         void *vs, uint32_t desc)
--            tcg_gen_shri_i64(tcg_rn, tcg_rn, shift);
++                         float_status *s, uint32_t desc)
--            tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, 0, esize - shift);
+ {
--        }
+     intptr_t j, i = simd_oprsz(desc);
--    } else {
+     uint64_t *g = vg;
--        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_d)(void *vd, void *vn, void *vm, void *vg,
--                                accumulate, is_u, size, shift);
+             e3 = *(float64 *)(vm + H1_2(i)) ^ neg_imag;
--    }
--
+             if (likely((pg >> (i & 63)) & 1)) {
--    write_fp_dreg(s, rd, tcg_rd);
+-                *(float64 *)(vd + H1_2(i)) = float64_add(e0, e1, vs);
--}
++                *(float64 *)(vd + H1_2(i)) = float64_add(e0, e1, s);
--
+             }
- /* SHL/SLI - Scalar shift left */
+             if (likely((pg >> (j & 63)) & 1)) {
- static void handle_scalar_simd_shli(DisasContext *s, bool insert,
+-                *(float64 *)(vd + H1_2(j)) = float64_add(e2, e3, vs);
-                                     int immh, int immb, int opcode,
++                *(float64 *)(vd + H1_2(j)) = float64_add(e2, e3, s);
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
+             }
-     }
+         } while (i & 63);
+     } while (i != 0);
-     switch (opcode) {
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_d)(void *vd, void *vn, void *vm, void *vg,
--    case 0x08: /* SRI */
+  */
--        if (!is_u) {
--            unallocated_encoding(s);
+ void HELPER(sve_fcmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
--            return;
+-                               void *vg, void *status, uint32_t desc)
--        }
++                               void *vg, float_status *status, uint32_t desc)
--        /* fall through */
+ {
--    case 0x00: /* SSHR / USHR */
+     intptr_t j, i = simd_oprsz(desc);
--    case 0x02: /* SSRA / USRA */
+     unsigned rot = simd_data(desc);
--    case 0x04: /* SRSHR / URSHR */
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
--    case 0x06: /* SRSRA / URSRA */
+ }
--        handle_scalar_simd_shri(s, is_u, immh, immb, opcode, rn, rd);
--        break;
+ void HELPER(sve_fcmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
-     case 0x0a: /* SHL / SLI */
+-                               void *vg, void *status, uint32_t desc)
-         handle_scalar_simd_shli(s, is_u, immh, immb, opcode, rn, rd);
++                               void *vg, float_status *status, uint32_t desc)
-         break;
+ {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
+     intptr_t j, i = simd_oprsz(desc);
-         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
+     unsigned rot = simd_data(desc);
-         break;
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
-     default:
+ }
-+    case 0x00: /* SSHR / USHR */
-+    case 0x02: /* SSRA / USRA */
+ void HELPER(sve_fcmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
-+    case 0x04: /* SRSHR / URSHR */
+-                               void *vg, void *status, uint32_t desc)
-+    case 0x06: /* SRSRA / URSRA */
++                               void *vg, float_status *status, uint32_t desc)
-+    case 0x08: /* SRI */
+ {
-         unallocated_encoding(s);
+     intptr_t j, i = simd_oprsz(desc);
-         break;
+     unsigned rot = simd_data(desc);
-     }
+@@ -XXX,XX +XXX,XX @@ void HELPER(sve2_xar_s)(void *vd, void *vn, void *vm, uint32_t desc)
  }
  void HELPER(fmmla_s)(void *vd, void *vn, void *vm, void *va,
 -                     void *status, uint32_t desc)
 +                     float_status *status, uint32_t desc)
  {
      intptr_t s, opr_sz = simd_oprsz(desc) / (sizeof(float32) * 4);
@@ -XXX,XX +XXX,XX @@ void HELPER(fmmla_s)(void *vd, void *vn, void *vm, void *va,
  }
  void HELPER(fmmla_d)(void *vd, void *vn, void *vm, void *va,
 -                     void *status, uint32_t desc)
 +                     float_status *status, uint32_t desc)
  {
      intptr_t s, opr_sz = simd_oprsz(desc) / (sizeof(float64) * 4);
@@ -XXX,XX +XXX,XX @@ void HELPER(fmmla_d)(void *vd, void *vn, void *vm, void *va,
  }
  #define DO_FCVTNT(NAME, TYPEW, TYPEN, HW, HN, OP)                             \
 -void HELPER(NAME)(void *vd, void *vn, void *vg, void *status, uint32_t desc)  \
 +void HELPER(NAME)(void *vd, void *vn, void *vg,                               \
 +                  float_status *status, uint32_t desc)                        \
  {                                                                             \
      intptr_t i = simd_oprsz(desc);                                            \
      uint64_t *g = vg;                                                         \
@@ -XXX,XX +XXX,XX @@ DO_FCVTNT(sve2_fcvtnt_sh, uint32_t, uint16_t, H1_4, H1_2, sve_f32_to_f16)
  DO_FCVTNT(sve2_fcvtnt_ds, uint64_t, uint32_t, H1_8, H1_4, float64_to_float32)
  #define DO_FCVTLT(NAME, TYPEW, TYPEN, HW, HN, OP)                             \
 -void HELPER(NAME)(void *vd, void *vn, void *vg, void *status, uint32_t desc)  \
 +void HELPER(NAME)(void *vd, void *vn, void *vg,                               \
 +                  float_status *status, uint32_t desc)                        \
  {                                                                             \
      intptr_t i = simd_oprsz(desc);                                            \
      uint64_t *g = vg;                                                         \
 --
 .34.1

-[PULL 24/38] target/arm: Convert handle_scalar_simd_shli to decodetree
+[PULL 07/19] target/arm: Convert sme_helper.c to fpst alias
 From: Richard Henderson <richard.henderson@linaro.org>
-This includes SHL and SLI.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20241206031224.78525-8-richard.henderson@linaro.org
 Message-id: 20240912024114.1097832-25-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |  4 ++++
+ target/arm/tcg/helper-sme.h | 4 ++--
- target/arm/tcg/translate-a64.c | 44 +++++++---------------------------
+ target/arm/tcg/sme_helper.c | 8 ++++----
-files changed, 13 insertions(+), 35 deletions(-)
+files changed, 6 insertions(+), 6 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+diff --git a/target/arm/tcg/helper-sme.h b/target/arm/tcg/helper-sme.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
+--- a/target/arm/tcg/helper-sme.h
-+++ b/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/helper-sme.h
-@@ -XXX,XX +XXX,XX @@ RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_s
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sme_addva_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_7(sme_fmopa_h, TCG_CALL_NO_RWG,
- @shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
+                    void, ptr, ptr, ptr, ptr, ptr, env, i32)
-                 &rri_e esz=3 imm=%neon_rshift_i6
+ DEF_HELPER_FLAGS_7(sme_fmopa_s, TCG_CALL_NO_RWG,
-+@shli_d         .... ..... 1 imm:6  ..... . rn:5 rd:5   &rri_e esz=3
+-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
++                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
- SSHR_s          0101 11110 .... ... 00000 1 ..... .....     @shri_d
+ DEF_HELPER_FLAGS_7(sme_fmopa_d, TCG_CALL_NO_RWG,
- USHR_s          0111 11110 .... ... 00000 1 ..... .....     @shri_d
+-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@ URSHR_s         0111 11110 .... ... 00100 1 ..... .....     @shri_d
++                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
- SRSRA_s         0101 11110 .... ... 00110 1 ..... .....     @shri_d
+ DEF_HELPER_FLAGS_7(sme_bfmopa, TCG_CALL_NO_RWG,
- URSRA_s         0111 11110 .... ... 00110 1 ..... .....     @shri_d
+                    void, ptr, ptr, ptr, ptr, ptr, env, i32)
- SRI_s           0111 11110 .... ... 01000 1 ..... .....     @shri_d
+ DEF_HELPER_FLAGS_6(sme_smopa_s, TCG_CALL_NO_RWG,
-+
+diff --git a/target/arm/tcg/sme_helper.c b/target/arm/tcg/sme_helper.c
 +SHL_s           0101 11110 .... ... 01010 1 ..... .....     @shli_d
 +SLI_s           0111 11110 .... ... 01010 1 ..... .....     @shli_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
+--- a/target/arm/tcg/sme_helper.c
-+++ b/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/sme_helper.c
-@@ -XXX,XX +XXX,XX @@ static void gen_sri_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+@@ -XXX,XX +XXX,XX @@ void HELPER(sme_addva_d)(void *vzda, void *vzn, void *vpn,
      }
  }
-+static void gen_sli_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+ void HELPER(sme_fmopa_s)(void *vza, void *vzn, void *vzm, void *vpn,
-+{
+-                         void *vpm, void *vst, uint32_t desc)
-+    tcg_gen_deposit_i64(dst, dst, src, shift, 64 - shift);
++                         void *vpm, float_status *fpst_in, uint32_t desc)
 +}
 +
  static bool do_vec_shift_imm_narrow(DisasContext *s, arg_qrri_e *a,
                                      WideShiftImmFn * const fns[3], MemOp sign)
  {
-@@ -XXX,XX +XXX,XX @@ TRANS(SRSRA_s, do_scalar_shift_imm, a, gen_srsra_d, true, 0)
+     intptr_t row, col, oprsz = simd_maxsz(desc);
- TRANS(URSRA_s, do_scalar_shift_imm, a, gen_ursra_d, true, 0)
+     uint32_t neg = simd_data(desc) << 31;
- TRANS(SRI_s, do_scalar_shift_imm, a, gen_sri_d, true, 0)
+@@ -XXX,XX +XXX,XX @@ void HELPER(sme_fmopa_s)(void *vza, void *vzn, void *vzm, void *vpn,
+      * update the cumulative fp exception status.  It also produces
-+TRANS(SHL_s, do_scalar_shift_imm, a, tcg_gen_shli_i64, false, 0)
+      * default nans.
-+TRANS(SLI_s, do_scalar_shift_imm, a, gen_sli_d, true, 0)
+      */
-+
+-    fpst = *(float_status *)vst;
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
++    fpst = *fpst_in;
-  * Note that it is the caller's responsibility to ensure that the
+     set_default_nan_mode(true, &fpst);
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
+     for (row = 0; row < oprsz; ) {
-     }
+@@ -XXX,XX +XXX,XX @@ void HELPER(sme_fmopa_s)(void *vza, void *vzn, void *vzm, void *vpn,
  }
--/* SHL/SLI - Scalar shift left */
+ void HELPER(sme_fmopa_d)(void *vza, void *vzn, void *vzm, void *vpn,
--static void handle_scalar_simd_shli(DisasContext *s, bool insert,
+-                         void *vpm, void *vst, uint32_t desc)
--                                    int immh, int immb, int opcode,
++                         void *vpm, float_status *fpst_in, uint32_t desc)
--                                    int rn, int rd)
+ {
--{
+     intptr_t row, col, oprsz = simd_oprsz(desc) / 8;
--    int size = 32 - clz32(immh) - 1;
+     uint64_t neg = (uint64_t)simd_data(desc) << 63;
--    int immhb = immh << 3 | immb;
+     uint64_t *za = vza, *zn = vzn, *zm = vzm;
--    int shift = immhb - (8 << size);
+     uint8_t *pn = vpn, *pm = vpm;
--    TCGv_i64 tcg_rn;
+-    float_status fpst = *(float_status *)vst;
--    TCGv_i64 tcg_rd;
++    float_status fpst = *fpst_in;
--
--    if (!extract32(immh, 3, 1)) {
+     set_default_nan_mode(true, &fpst);
--        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    tcg_rn = read_fp_dreg(s, rn);
 -    tcg_rd = insert ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
 -
 -    if (insert) {
 -        tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, shift, 64 - shift);
 -    } else {
 -        tcg_gen_shli_i64(tcg_rd, tcg_rn, shift);
 -    }
 -
 -    write_fp_dreg(s, rd, tcg_rd);
 -}
 -
  /* SQSHRN/SQSHRUN - Saturating (signed/unsigned) shift right with
   * (signed/unsigned) narrowing */
  static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
      }
      switch (opcode) {
 -    case 0x0a: /* SHL / SLI */
 -        handle_scalar_simd_shli(s, is_u, immh, immb, opcode, rn, rd);
 -        break;
      case 0x1c: /* SCVTF, UCVTF */
          handle_simd_shift_intfp_conv(s, true, false, is_u, immh, immb,
                                       opcode, rn, rd);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
      case 0x04: /* SRSHR / URSHR */
      case 0x06: /* SRSRA / URSRA */
      case 0x08: /* SRI */
 +    case 0x0a: /* SHL / SLI */
          unallocated_encoding(s);
          break;
      }
 --
 .34.1

-[PULL 06/38] target/arm: Convert EXT to decodetree
+[PULL 08/19] target/arm: Convert vec_helper.c to use env alias
 From: Richard Henderson <richard.henderson@linaro.org>
+Allow the helpers to receive CPUARMState* directly
+instead of via void*.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20241206031224.78525-9-richard.henderson@linaro.org
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240912024114.1097832-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |   5 ++
+ target/arm/helper.h         | 12 ++++++------
- target/arm/tcg/translate-a64.c | 121 +++++++++++++--------------------
+ target/arm/tcg/helper-a64.h |  2 +-
-files changed, 53 insertions(+), 73 deletions(-)
+ target/arm/tcg/vec_helper.c | 21 +++++++--------------
 files changed, 14 insertions(+), 21 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
+--- a/target/arm/helper.h
-+++ b/target/arm/tcg/a64.decode
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ FMADD           0001 1111 .. 0 ..... 0 ..... ..... .....    @rrrr_hsd
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_suqadd_d, TCG_CALL_NO_RWG,
- FMSUB           0001 1111 .. 0 ..... 1 ..... ..... .....    @rrrr_hsd
+                    void, ptr, ptr, ptr, ptr, i32)
- FNMADD          0001 1111 .. 1 ..... 0 ..... ..... .....    @rrrr_hsd
- FNMSUB          0001 1111 .. 1 ..... 1 ..... ..... .....    @rrrr_hsd
+ DEF_HELPER_FLAGS_5(gvec_fmlal_a32, TCG_CALL_NO_RWG,
-+
+-                   void, ptr, ptr, ptr, ptr, i32)
-+# Advanced SIMD Extract
++                   void, ptr, ptr, ptr, env, i32)
-+
+ DEF_HELPER_FLAGS_5(gvec_fmlal_a64, TCG_CALL_NO_RWG,
-+EXT_d           0010 1110 00 0 rm:5 00 imm:3 0 rn:5 rd:5
+-                   void, ptr, ptr, ptr, ptr, i32)
-+EXT_q           0110 1110 00 0 rm:5 0  imm:4 0 rn:5 rd:5
++                   void, ptr, ptr, ptr, env, i32)
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+ DEF_HELPER_FLAGS_5(gvec_fmlal_idx_a32, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, env, i32)
  DEF_HELPER_FLAGS_5(gvec_fmlal_idx_a64, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, env, i32)
  DEF_HELPER_FLAGS_2(frint32_s, TCG_CALL_NO_RWG, f32, f32, fpst)
  DEF_HELPER_FLAGS_2(frint64_s, TCG_CALL_NO_RWG, f32, f32, fpst)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve2_sqrdmulh_idx_d, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_6(sve2_fmlal_zzzw_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, env, i32)
  DEF_HELPER_FLAGS_6(sve2_fmlal_zzxw_s, TCG_CALL_NO_RWG,
 -                   void, ptr, ptr, ptr, ptr, ptr, i32)
 +                   void, ptr, ptr, ptr, ptr, env, i32)
  DEF_HELPER_FLAGS_4(gvec_xar_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
+--- a/target/arm/tcg/helper-a64.h
-+++ b/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ static bool trans_FCSEL(DisasContext *s, arg_FCSEL *a)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_cmps_a64, i64, f32, f32, fpst)
-     return true;
+ DEF_HELPER_3(vfp_cmpes_a64, i64, f32, f32, fpst)
  DEF_HELPER_3(vfp_cmpd_a64, i64, f64, f64, fpst)
  DEF_HELPER_3(vfp_cmped_a64, i64, f64, f64, fpst)
 -DEF_HELPER_FLAGS_4(simd_tblx, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(simd_tblx, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
  DEF_HELPER_FLAGS_3(vfp_mulxs, TCG_CALL_NO_RWG, f32, f32, f32, fpst)
  DEF_HELPER_FLAGS_3(vfp_mulxd, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
  DEF_HELPER_FLAGS_3(neon_ceq_f64, TCG_CALL_NO_RWG, i64, i64, i64, fpst)
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static void do_fmlal(float32 *d, void *vn, void *vm, float_status *fpst,
  }
-+/*
+ void HELPER(gvec_fmlal_a32)(void *vd, void *vn, void *vm,
-+ * Advanced SIMD Extract
+-                            void *venv, uint32_t desc)
-+ */
++                            CPUARMState *env, uint32_t desc)
-+
+ {
-+static bool trans_EXT_d(DisasContext *s, arg_EXT_d *a)
+-    CPUARMState *env = venv;
-+{
+     do_fmlal(vd, vn, vm, &env->vfp.standard_fp_status, desc,
-+    if (fp_access_check(s)) {
+              get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
 +        TCGv_i64 lo = read_fp_dreg(s, a->rn);
 +        if (a->imm != 0) {
 +            TCGv_i64 hi = read_fp_dreg(s, a->rm);
 +            tcg_gen_extract2_i64(lo, lo, hi, a->imm * 8);
 +        }
 +        write_fp_dreg(s, a->rd, lo);
 +    }
 +    return true;
 +}
 +
 +static bool trans_EXT_q(DisasContext *s, arg_EXT_q *a)
 +{
 +    TCGv_i64 lo, hi;
 +    int pos = (a->imm & 7) * 8;
 +    int elt = a->imm >> 3;
 +
 +    if (!fp_access_check(s)) {
 +        return true;
 +    }
 +
 +    lo = tcg_temp_new_i64();
 +    hi = tcg_temp_new_i64();
 +
 +    read_vec_element(s, lo, a->rn, elt, MO_64);
 +    elt++;
 +    read_vec_element(s, hi, elt & 2 ? a->rm : a->rn, elt & 1, MO_64);
 +    elt++;
 +
 +    if (pos != 0) {
 +        TCGv_i64 hh = tcg_temp_new_i64();
 +        tcg_gen_extract2_i64(lo, lo, hi, pos);
 +        read_vec_element(s, hh, a->rm, elt & 1, MO_64);
 +        tcg_gen_extract2_i64(hi, hi, hh, pos);
 +    }
 +
 +    write_vec_element(s, lo, a->rd, 0, MO_64);
 +    write_vec_element(s, hi, a->rd, 1, MO_64);
 +    clear_vec_high(s, true, a->rd);
 +    return true;
 +}
 +
  /*
   * Floating-point data-processing (3 source)
   */
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
      }
  }
--/* EXT
+ void HELPER(gvec_fmlal_a64)(void *vd, void *vn, void *vm,
-- *   31  30 29         24 23 22  21 20  16 15  14  11 10  9    5 4    0
+-                            void *venv, uint32_t desc)
-- * +---+---+-------------+-----+---+------+---+------+---+------+------+
++                            CPUARMState *env, uint32_t desc)
-- * | 0 | Q | 1 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | imm4 | 0 |  Rn  |  Rd  |
+ {
-- * +---+---+-------------+-----+---+------+---+------+---+------+------+
+-    CPUARMState *env = venv;
-- */
+     do_fmlal(vd, vn, vm, &env->vfp.fp_status, desc,
--static void disas_simd_ext(DisasContext *s, uint32_t insn)
+              get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
--{
+ }
--    int is_q = extract32(insn, 30, 1);
--    int op2 = extract32(insn, 22, 2);
+ void HELPER(sve2_fmlal_zzzw_s)(void *vd, void *vn, void *vm, void *va,
--    int imm4 = extract32(insn, 11, 4);
+-                               void *venv, uint32_t desc)
--    int rm = extract32(insn, 16, 5);
++                               CPUARMState *env, uint32_t desc)
--    int rn = extract32(insn, 5, 5);
+ {
--    int rd = extract32(insn, 0, 5);
+     intptr_t i, oprsz = simd_oprsz(desc);
--    int pos = imm4 << 3;
+     uint16_t negn = extract32(desc, SIMD_DATA_SHIFT, 1) << 15;
--    TCGv_i64 tcg_resl, tcg_resh;
+     intptr_t sel = extract32(desc, SIMD_DATA_SHIFT + 1, 1) * sizeof(float16);
--
+-    CPUARMState *env = venv;
--    if (op2 != 0 || (!is_q && extract32(imm4, 3, 1))) {
+     float_status *status = &env->vfp.fp_status;
--        unallocated_encoding(s);
+     bool fz16 = get_flush_inputs_to_zero(&env->vfp.fp_status_f16);
--        return;
--    }
+@@ -XXX,XX +XXX,XX @@ static void do_fmlal_idx(float32 *d, void *vn, void *vm, float_status *fpst,
--
+ }
--    if (!fp_access_check(s)) {
--        return;
+ void HELPER(gvec_fmlal_idx_a32)(void *vd, void *vn, void *vm,
--    }
+-                                void *venv, uint32_t desc)
--
++                                CPUARMState *env, uint32_t desc)
--    tcg_resh = tcg_temp_new_i64();
+ {
--    tcg_resl = tcg_temp_new_i64();
+-    CPUARMState *env = venv;
--
+     do_fmlal_idx(vd, vn, vm, &env->vfp.standard_fp_status, desc,
--    /* Vd gets bits starting at pos bits into Vm:Vn. This is
+                  get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
--     * either extracting 128 bits from a 128:128 concatenation, or
+ }
--     * extracting 64 bits from a 64:64 concatenation.
--     */
+ void HELPER(gvec_fmlal_idx_a64)(void *vd, void *vn, void *vm,
--    if (!is_q) {
+-                                void *venv, uint32_t desc)
--        read_vec_element(s, tcg_resl, rn, 0, MO_64);
++                                CPUARMState *env, uint32_t desc)
--        if (pos != 0) {
+ {
--            read_vec_element(s, tcg_resh, rm, 0, MO_64);
+-    CPUARMState *env = venv;
--            tcg_gen_extract2_i64(tcg_resl, tcg_resl, tcg_resh, pos);
+     do_fmlal_idx(vd, vn, vm, &env->vfp.fp_status, desc,
--        }
+                  get_flush_inputs_to_zero(&env->vfp.fp_status_f16));
--    } else {
+ }
--        TCGv_i64 tcg_hh;
--        typedef struct {
+ void HELPER(sve2_fmlal_zzxw_s)(void *vd, void *vn, void *vm, void *va,
--            int reg;
+-                               void *venv, uint32_t desc)
--            int elt;
++                               CPUARMState *env, uint32_t desc)
--        } EltPosns;
+ {
--        EltPosns eltposns[] = { {rn, 0}, {rn, 1}, {rm, 0}, {rm, 1} };
+     intptr_t i, j, oprsz = simd_oprsz(desc);
--        EltPosns *elt = eltposns;
+     uint16_t negn = extract32(desc, SIMD_DATA_SHIFT, 1) << 15;
--
+     intptr_t sel = extract32(desc, SIMD_DATA_SHIFT + 1, 1) * sizeof(float16);
--        if (pos >= 64) {
+     intptr_t idx = extract32(desc, SIMD_DATA_SHIFT + 2, 3) * sizeof(float16);
--            elt++;
+-    CPUARMState *env = venv;
--            pos -= 64;
+     float_status *status = &env->vfp.fp_status;
--        }
+     bool fz16 = get_flush_inputs_to_zero(&env->vfp.fp_status_f16);
--
--        read_vec_element(s, tcg_resl, elt->reg, elt->elt, MO_64);
+@@ -XXX,XX +XXX,XX @@ DO_VRINT_RMODE(gvec_vrint_rm_s, helper_rints, uint32_t)
--        elt++;
+ #undef DO_VRINT_RMODE
--        read_vec_element(s, tcg_resh, elt->reg, elt->elt, MO_64);
--        elt++;
+ #ifdef TARGET_AARCH64
--        if (pos != 0) {
+-void HELPER(simd_tblx)(void *vd, void *vm, void *venv, uint32_t desc)
--            tcg_gen_extract2_i64(tcg_resl, tcg_resl, tcg_resh, pos);
++void HELPER(simd_tblx)(void *vd, void *vm, CPUARMState *env, uint32_t desc)
--            tcg_hh = tcg_temp_new_i64();
+ {
--            read_vec_element(s, tcg_hh, elt->reg, elt->elt, MO_64);
+     const uint8_t *indices = vm;
--            tcg_gen_extract2_i64(tcg_resh, tcg_resh, tcg_hh, pos);
+-    CPUARMState *env = venv;
--        }
+     size_t oprsz = simd_oprsz(desc);
--    }
+     uint32_t rn = extract32(desc, SIMD_DATA_SHIFT, 5);
--
+     bool is_tbx = extract32(desc, SIMD_DATA_SHIFT + 5, 1);
 -    write_vec_element(s, tcg_resl, rd, 0, MO_64);
 -    if (is_q) {
 -        write_vec_element(s, tcg_resh, rd, 1, MO_64);
 -    }
 -    clear_vec_high(s, is_q, rd);
 -}
 -
  /* TBL/TBX
   *   31  30 29         24 23 22  21 20  16 15  14 13  12  11 10 9    5 4    0
   * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
      { 0x0e000000, 0xbf208c00, disas_simd_tb },
      { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
 -    { 0x2e000000, 0xbf208400, disas_simd_ext },
      { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
 --
 .34.1

-[PULL 25/38] target/arm: Convert VQSHL, VQSHLU to gvec
+[PULL 09/19] target/arm: Convert neon_helper.c to use env alias
 From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-26-richard.henderson@linaro.org
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20241206031224.78525-10-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h             |  12 ++++
+ target/arm/helper.h          | 56 ++++++++++++++++++------------------
- target/arm/tcg/translate.h      |   7 ++
+ target/arm/tcg/neon_helper.c |  6 ++--
- target/arm/tcg/neon-dp.decode   |   6 +-
+files changed, 30 insertions(+), 32 deletions(-)
  target/arm/tcg/gengvec.c        |  36 +++++++++++
  target/arm/tcg/neon_helper.c    |  33 ++++++++++
  target/arm/tcg/translate-neon.c | 110 +-------------------------------
 files changed, 94 insertions(+), 110 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(neon_uqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_u32, i32, env, i32, i32)
- DEF_HELPER_FLAGS_5(neon_uqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_3(neon_qrshl_s32, i32, env, i32, i32)
- DEF_HELPER_FLAGS_5(neon_uqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_3(neon_qrshl_u64, i64, env, i64, i64)
- DEF_HELPER_FLAGS_5(neon_uqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
-+DEF_HELPER_FLAGS_4(neon_sqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_sqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_sqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_sqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_uqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_uqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_uqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_uqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_uqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_uqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_uqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_uqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_sqshlui_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_sqshlui_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_sqshlui_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(neon_sqshlui_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_sqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_uqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_uqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_uqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_uqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_uqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_uqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_uqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_uqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshlui_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshlui_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshlui_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_4(neon_sqshlui_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(neon_sqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_sqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_sqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_sqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_sqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_sqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_sqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_sqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_5(neon_uqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_uqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_uqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_uqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_uqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshlui_b, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshlui_h, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshlui_s, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 +DEF_HELPER_FLAGS_4(neon_sqshlui_d, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
  DEF_HELPER_FLAGS_4(gvec_srshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_srshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate.h
-+++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_neon_sqrshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
- void gen_neon_uqrshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                      uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_neon_sqshli(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                     int64_t c, uint32_t opr_sz, uint32_t max_sz);
-+void gen_neon_uqshli(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                     int64_t c, uint32_t opr_sz, uint32_t max_sz);
-+void gen_neon_sqshlui(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                      int64_t c, uint32_t opr_sz, uint32_t max_sz);
-+
- void gen_gvec_shadd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                     uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
- void gen_gvec_uhadd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-diff --git a/target/arm/tcg/neon-dp.decode b/target/arm/tcg/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/neon-dp.decode
-+++ b/target/arm/tcg/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VSLI_2sh         1111 001 1 1 . ...... .... 0101 . . . 1 .... @2reg_shl_s
- VSLI_2sh         1111 001 1 1 . ...... .... 0101 . . . 1 .... @2reg_shl_h
- VSLI_2sh         1111 001 1 1 . ...... .... 0101 . . . 1 .... @2reg_shl_b
--VQSHLU_64_2sh    1111 001 1 1 . ...... .... 0110 . . . 1 .... @2reg_shl_d
-+VQSHLU_2sh       1111 001 1 1 . ...... .... 0110 . . . 1 .... @2reg_shl_d
- VQSHLU_2sh       1111 001 1 1 . ...... .... 0110 . . . 1 .... @2reg_shl_s
- VQSHLU_2sh       1111 001 1 1 . ...... .... 0110 . . . 1 .... @2reg_shl_h
- VQSHLU_2sh       1111 001 1 1 . ...... .... 0110 . . . 1 .... @2reg_shl_b
--VQSHL_S_64_2sh   1111 001 0 1 . ...... .... 0111 . . . 1 .... @2reg_shl_d
-+VQSHL_S_2sh      1111 001 0 1 . ...... .... 0111 . . . 1 .... @2reg_shl_d
- VQSHL_S_2sh      1111 001 0 1 . ...... .... 0111 . . . 1 .... @2reg_shl_s
- VQSHL_S_2sh      1111 001 0 1 . ...... .... 0111 . . . 1 .... @2reg_shl_h
- VQSHL_S_2sh      1111 001 0 1 . ...... .... 0111 . . . 1 .... @2reg_shl_b
--VQSHL_U_64_2sh   1111 001 1 1 . ...... .... 0111 . . . 1 .... @2reg_shl_d
-+VQSHL_U_2sh      1111 001 1 1 . ...... .... 0111 . . . 1 .... @2reg_shl_d
- VQSHL_U_2sh      1111 001 1 1 . ...... .... 0111 . . . 1 .... @2reg_shl_s
- VQSHL_U_2sh      1111 001 1 1 . ...... .... 0111 . . . 1 .... @2reg_shl_h
- VQSHL_U_2sh      1111 001 1 1 . ...... .... 0111 . . . 1 .... @2reg_shl_b
-diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/gengvec.c
-+++ b/target/arm/tcg/gengvec.c
-@@ -XXX,XX +XXX,XX @@ void gen_neon_uqrshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                        opr_sz, max_sz, 0, fns[vece]);
- }
-+void gen_neon_sqshli(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                     int64_t c, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static gen_helper_gvec_2_ptr * const fns[] = {
-+        gen_helper_neon_sqshli_b, gen_helper_neon_sqshli_h,
-+        gen_helper_neon_sqshli_s, gen_helper_neon_sqshli_d,
-+    };
-+    tcg_debug_assert(vece <= MO_64);
-+    tcg_debug_assert(c >= 0 && c <= (8 << vece));
-+    tcg_gen_gvec_2_ptr(rd_ofs, rn_ofs, tcg_env, opr_sz, max_sz, c, fns[vece]);
-+}
-+
-+void gen_neon_uqshli(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                     int64_t c, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static gen_helper_gvec_2_ptr * const fns[] = {
-+        gen_helper_neon_uqshli_b, gen_helper_neon_uqshli_h,
-+        gen_helper_neon_uqshli_s, gen_helper_neon_uqshli_d,
-+    };
-+    tcg_debug_assert(vece <= MO_64);
-+    tcg_debug_assert(c >= 0 && c <= (8 << vece));
-+    tcg_gen_gvec_2_ptr(rd_ofs, rn_ofs, tcg_env, opr_sz, max_sz, c, fns[vece]);
-+}
-+
-+void gen_neon_sqshlui(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                      int64_t c, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static gen_helper_gvec_2_ptr * const fns[] = {
-+        gen_helper_neon_sqshlui_b, gen_helper_neon_sqshlui_h,
-+        gen_helper_neon_sqshlui_s, gen_helper_neon_sqshlui_d,
-+    };
-+    tcg_debug_assert(vece <= MO_64);
-+    tcg_debug_assert(c >= 0 && c <= (8 << vece));
-+    tcg_gen_gvec_2_ptr(rd_ofs, rn_ofs, tcg_env, opr_sz, max_sz, c, fns[vece]);
-+}
-+
- void gen_uqadd_bhs(TCGv_i64 res, TCGv_i64 qc, TCGv_i64 a, TCGv_i64 b, MemOp esz)
- {
-     uint64_t max = MAKE_64BIT_MASK(0, 8 << esz);
 diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/neon_helper.c
 +++ b/target/arm/tcg/neon_helper.c
+@@ -XXX,XX +XXX,XX @@ void HELPER(name)(void *vd, void *vn, void *vm, uint32_t desc) \
+ }
+ #define NEON_GVEC_VOP2_ENV(name, vtype) \
+-void HELPER(name)(void *vd, void *vn, void *vm, void *venv, uint32_t desc) \
++void HELPER(name)(void *vd, void *vn, void *vm, CPUARMState *env, uint32_t desc) \
+ {                                                               \
+     intptr_t i, opr_sz = simd_oprsz(desc);                      \
+     vtype *d = vd, *n = vn, *m = vm;                            \
+-    CPUARMState *env = venv;                                    \
+     for (i = 0; i < opr_sz / sizeof(vtype); i++) {              \
+         NEON_FN(d[i], n[i], m[i]);                              \
+     }                                                           \
 @@ -XXX,XX +XXX,XX @@ void HELPER(name)(void *vd, void *vn, void *vm, void *venv, uint32_t desc) \
-     clear_tail(d, opr_sz, simd_maxsz(desc));                    \
  }
-+#define NEON_GVEC_VOP2i_ENV(name, vtype) \
+ #define NEON_GVEC_VOP2i_ENV(name, vtype) \
-+void HELPER(name)(void *vd, void *vn, void *venv, uint32_t desc) \
+-void HELPER(name)(void *vd, void *vn, void *venv, uint32_t desc) \
-+{                                                               \
++void HELPER(name)(void *vd, void *vn, CPUARMState *env, uint32_t desc) \
-+    intptr_t i, opr_sz = simd_oprsz(desc);                      \
+ {                                                               \
-+    int imm = simd_data(desc);                                  \
+     intptr_t i, opr_sz = simd_oprsz(desc);                      \
-+    vtype *d = vd, *n = vn;                                     \
+     int imm = simd_data(desc);                                  \
-+    CPUARMState *env = venv;                                    \
+     vtype *d = vd, *n = vn;                                     \
-+    for (i = 0; i < opr_sz / sizeof(vtype); i++) {              \
+-    CPUARMState *env = venv;                                    \
-+        NEON_FN(d[i], n[i], imm);                               \
+     for (i = 0; i < opr_sz / sizeof(vtype); i++) {              \
-+    }                                                           \
+         NEON_FN(d[i], n[i], imm);                               \
-+    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
+     }                                                           \
 +}
 +
  /* Pairwise operations.  */
  /* For 32-bit elements each segment only contains a single element, so
     the elementwise and pairwise operations are the same.  */
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_rshl_u64)(uint64_t val, uint64_t shift)
      (dest = do_uqrshl_bhs(src1, (int8_t)src2, 8, false, env->vfp.qc))
  NEON_VOP_ENV(qshl_u8, neon_u8, 4)
  NEON_GVEC_VOP2_ENV(neon_uqshl_b, uint8_t)
 +NEON_GVEC_VOP2i_ENV(neon_uqshli_b, uint8_t)
  #undef NEON_FN
  #define NEON_FN(dest, src1, src2) \
      (dest = do_uqrshl_bhs(src1, (int8_t)src2, 16, false, env->vfp.qc))
  NEON_VOP_ENV(qshl_u16, neon_u16, 2)
  NEON_GVEC_VOP2_ENV(neon_uqshl_h, uint16_t)
 +NEON_GVEC_VOP2i_ENV(neon_uqshli_h, uint16_t)
  #undef NEON_FN
  #define NEON_FN(dest, src1, src2) \
      (dest = do_uqrshl_bhs(src1, (int8_t)src2, 32, false, env->vfp.qc))
  NEON_GVEC_VOP2_ENV(neon_uqshl_s, uint32_t)
 +NEON_GVEC_VOP2i_ENV(neon_uqshli_s, uint32_t)
  #undef NEON_FN
  #define NEON_FN(dest, src1, src2) \
      (dest = do_uqrshl_d(src1, (int8_t)src2, false, env->vfp.qc))
  NEON_GVEC_VOP2_ENV(neon_uqshl_d, uint64_t)
 +NEON_GVEC_VOP2i_ENV(neon_uqshli_d, uint64_t)
  #undef NEON_FN
  uint32_t HELPER(neon_qshl_u32)(CPUARMState *env, uint32_t val, uint32_t shift)
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_qshl_u64)(CPUARMState *env, uint64_t val, uint64_t shift)
      (dest = do_sqrshl_bhs(src1, (int8_t)src2, 8, false, env->vfp.qc))
  NEON_VOP_ENV(qshl_s8, neon_s8, 4)
  NEON_GVEC_VOP2_ENV(neon_sqshl_b, int8_t)
 +NEON_GVEC_VOP2i_ENV(neon_sqshli_b, int8_t)
  #undef NEON_FN
  #define NEON_FN(dest, src1, src2) \
      (dest = do_sqrshl_bhs(src1, (int8_t)src2, 16, false, env->vfp.qc))
  NEON_VOP_ENV(qshl_s16, neon_s16, 2)
  NEON_GVEC_VOP2_ENV(neon_sqshl_h, int16_t)
 +NEON_GVEC_VOP2i_ENV(neon_sqshli_h, int16_t)
  #undef NEON_FN
  #define NEON_FN(dest, src1, src2) \
      (dest = do_sqrshl_bhs(src1, (int8_t)src2, 32, false, env->vfp.qc))
  NEON_GVEC_VOP2_ENV(neon_sqshl_s, int32_t)
 +NEON_GVEC_VOP2i_ENV(neon_sqshli_s, int32_t)
  #undef NEON_FN
  #define NEON_FN(dest, src1, src2) \
      (dest = do_sqrshl_d(src1, (int8_t)src2, false, env->vfp.qc))
  NEON_GVEC_VOP2_ENV(neon_sqshl_d, int64_t)
 +NEON_GVEC_VOP2i_ENV(neon_sqshli_d, int64_t)
  #undef NEON_FN
  uint32_t HELPER(neon_qshl_s32)(CPUARMState *env, uint32_t val, uint32_t shift)
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_qshl_s64)(CPUARMState *env, uint64_t val, uint64_t shift)
  #define NEON_FN(dest, src1, src2) \
      (dest = do_suqrshl_bhs(src1, (int8_t)src2, 8, false, env->vfp.qc))
  NEON_VOP_ENV(qshlu_s8, neon_s8, 4)
 +NEON_GVEC_VOP2i_ENV(neon_sqshlui_b, int8_t)
  #undef NEON_FN
  #define NEON_FN(dest, src1, src2) \
      (dest = do_suqrshl_bhs(src1, (int8_t)src2, 16, false, env->vfp.qc))
  NEON_VOP_ENV(qshlu_s16, neon_s16, 2)
 +NEON_GVEC_VOP2i_ENV(neon_sqshlui_h, int16_t)
  #undef NEON_FN
  uint32_t HELPER(neon_qshlu_s32)(CPUARMState *env, uint32_t val, uint32_t shift)
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_qshlu_s64)(CPUARMState *env, uint64_t val, uint64_t shift)
      return do_suqrshl_d(val, (int8_t)shift, false, env->vfp.qc);
  }
 +#define NEON_FN(dest, src1, src2) \
 +    (dest = do_suqrshl_bhs(src1, (int8_t)src2, 32, false, env->vfp.qc))
 +NEON_GVEC_VOP2i_ENV(neon_sqshlui_s, int32_t)
 +#undef NEON_FN
 +
 +#define NEON_FN(dest, src1, src2) \
 +    (dest = do_suqrshl_d(src1, (int8_t)src2, false, env->vfp.qc))
 +NEON_GVEC_VOP2i_ENV(neon_sqshlui_d, int64_t)
 +#undef NEON_FN
 +
  #define NEON_FN(dest, src1, src2) \
      (dest = do_uqrshl_bhs(src1, (int8_t)src2, 8, true, env->vfp.qc))
  NEON_VOP_ENV(qrshl_u8, neon_u8, 4)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-neon.c
 +++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_2SH(VRSRA_S, gen_gvec_srsra)
  DO_2SH(VRSRA_U, gen_gvec_ursra)
  DO_2SH(VSHR_S, gen_gvec_sshr)
  DO_2SH(VSHR_U, gen_gvec_ushr)
 -
 -static bool do_2shift_env_64(DisasContext *s, arg_2reg_shift *a,
 -                             NeonGenTwo64OpEnvFn *fn)
 -{
 -    /*
 -     * 2-reg-and-shift operations, size == 3 case, where the
 -     * function needs to be passed tcg_env.
 -     */
 -    TCGv_i64 constimm;
 -    int pass;
 -
 -    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 -        return false;
 -    }
 -
 -    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
 -    if ((a->vm | a->vd) & a->q) {
 -        return false;
 -    }
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    /*
 -     * To avoid excessive duplication of ops we implement shift
 -     * by immediate using the variable shift operations.
 -     */
 -    constimm = tcg_constant_i64(dup_const(a->size, a->shift));
 -
 -    for (pass = 0; pass < a->q + 1; pass++) {
 -        TCGv_i64 tmp = tcg_temp_new_i64();
 -
 -        read_neon_element64(tmp, a->vm, pass, MO_64);
 -        fn(tmp, tcg_env, tmp, constimm);
 -        write_neon_element64(tmp, a->vd, pass, MO_64);
 -    }
 -    return true;
 -}
 -
 -static bool do_2shift_env_32(DisasContext *s, arg_2reg_shift *a,
 -                             NeonGenTwoOpEnvFn *fn)
 -{
 -    /*
 -     * 2-reg-and-shift operations, size < 3 case, where the
 -     * helper needs to be passed tcg_env.
 -     */
 -    TCGv_i32 constimm, tmp;
 -    int pass;
 -
 -    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 -        return false;
 -    }
 -
 -    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
 -    if ((a->vm | a->vd) & a->q) {
 -        return false;
 -    }
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    /*
 -     * To avoid excessive duplication of ops we implement shift
 -     * by immediate using the variable shift operations.
 -     */
 -    constimm = tcg_constant_i32(dup_const(a->size, a->shift));
 -    tmp = tcg_temp_new_i32();
 -
 -    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 -        read_neon_element32(tmp, a->vm, pass, MO_32);
 -        fn(tmp, tcg_env, tmp, constimm);
 -        write_neon_element32(tmp, a->vd, pass, MO_32);
 -    }
 -    return true;
 -}
 -
 -#define DO_2SHIFT_ENV(INSN, FUNC)                                       \
 -    static bool trans_##INSN##_64_2sh(DisasContext *s, arg_2reg_shift *a) \
 -    {                                                                   \
 -        return do_2shift_env_64(s, a, gen_helper_neon_##FUNC##64);      \
 -    }                                                                   \
 -    static bool trans_##INSN##_2sh(DisasContext *s, arg_2reg_shift *a)  \
 -    {                                                                   \
 -        static NeonGenTwoOpEnvFn * const fns[] = {                      \
 -            gen_helper_neon_##FUNC##8,                                  \
 -            gen_helper_neon_##FUNC##16,                                 \
 -            gen_helper_neon_##FUNC##32,                                 \
 -        };                                                              \
 -        assert(a->size < ARRAY_SIZE(fns));                              \
 -        return do_2shift_env_32(s, a, fns[a->size]);                    \
 -    }
 -
 -DO_2SHIFT_ENV(VQSHLU, qshlu_s)
 -DO_2SHIFT_ENV(VQSHL_U, qshl_u)
 -DO_2SHIFT_ENV(VQSHL_S, qshl_s)
 +DO_2SH(VQSHLU, gen_neon_sqshlui)
 +DO_2SH(VQSHL_U, gen_neon_uqshli)
 +DO_2SH(VQSHL_S, gen_neon_sqshli)
  static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
                                  NeonGenTwo64OpFn *shiftfn,
 --
 .34.1

-[PULL 05/38] target/arm: Use tcg_gen_extract2_i64 for EXT
+[PULL 10/19] target/arm: Use float_status in helper_fcvtx_f64_to_f32
 From: Richard Henderson <richard.henderson@linaro.org>
-The extract2 tcg op performs the same operation
+Pass float_status not env to match other functions.
 as the do_ext64 function.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20241206031952.78776-2-richard.henderson@linaro.org
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240912024114.1097832-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/translate-a64.c | 23 +++--------------------
+ target/arm/tcg/helper-a64.h    | 2 +-
-file changed, 3 insertions(+), 20 deletions(-)
+ target/arm/tcg/helper-a64.c    | 3 +--
  target/arm/tcg/translate-a64.c | 2 +-
 files changed, 3 insertions(+), 4 deletions(-)
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/helper-a64.h
++++ b/target/arm/tcg/helper-a64.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(rsqrtsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
+ DEF_HELPER_FLAGS_2(frecpx_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
+ DEF_HELPER_FLAGS_2(frecpx_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
+ DEF_HELPER_FLAGS_2(frecpx_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
+-DEF_HELPER_FLAGS_2(fcvtx_f64_to_f32, TCG_CALL_NO_RWG, f32, f64, env)
++DEF_HELPER_FLAGS_2(fcvtx_f64_to_f32, TCG_CALL_NO_RWG, f32, f64, fpst)
+ DEF_HELPER_FLAGS_3(crc32_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
+ DEF_HELPER_FLAGS_3(crc32c_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
+ DEF_HELPER_FLAGS_3(advsimd_maxh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
+diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/helper-a64.c
++++ b/target/arm/tcg/helper-a64.c
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(frecpx_f64)(float64 a, float_status *fpst)
+     }
+ }
+-float32 HELPER(fcvtx_f64_to_f32)(float64 a, CPUARMState *env)
++float32 HELPER(fcvtx_f64_to_f32)(float64 a, float_status *fpst)
+ {
+     float32 r;
+-    float_status *fpst = &env->vfp.fp_status;
+     int old = get_float_rounding_mode(fpst);
+     set_float_rounding_mode(float_round_to_odd, fpst);
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void gen_fcvtxn_sd(TCGv_i64 d, TCGv_i64 n)
-     }
+      * with von Neumann rounding (round to odd)
       */
      TCGv_i32 tmp = tcg_temp_new_i32();
 -    gen_helper_fcvtx_f64_to_f32(tmp, n, tcg_env);
 +    gen_helper_fcvtx_f64_to_f32(tmp, n, fpstatus_ptr(FPST_FPCR));
      tcg_gen_extu_i32_i64(d, tmp);
  }
--static void do_ext64(DisasContext *s, TCGv_i64 tcg_left, TCGv_i64 tcg_right,
--                     int pos)
--{
--    /* Extract 64 bits from the middle of two concatenated 64 bit
--     * vector register slices left:right. The extracted bits start
--     * at 'pos' bits into the right (least significant) side.
--     * We return the result in tcg_right, and guarantee not to
--     * trash tcg_left.
--     */
--    TCGv_i64 tcg_tmp = tcg_temp_new_i64();
--    assert(pos > 0 && pos < 64);
--
--    tcg_gen_shri_i64(tcg_right, tcg_right, pos);
--    tcg_gen_shli_i64(tcg_tmp, tcg_left, 64 - pos);
--    tcg_gen_or_i64(tcg_right, tcg_right, tcg_tmp);
--}
--
- /* EXT
-  *   31  30 29         24 23 22  21 20  16 15  14  11 10  9    5 4    0
-  * +---+---+-------------+-----+---+------+---+------+---+------+------+
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_ext(DisasContext *s, uint32_t insn)
-         read_vec_element(s, tcg_resl, rn, 0, MO_64);
-         if (pos != 0) {
-             read_vec_element(s, tcg_resh, rm, 0, MO_64);
--            do_ext64(s, tcg_resh, tcg_resl, pos);
-+            tcg_gen_extract2_i64(tcg_resl, tcg_resl, tcg_resh, pos);
-         }
-     } else {
-         TCGv_i64 tcg_hh;
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_ext(DisasContext *s, uint32_t insn)
-         read_vec_element(s, tcg_resh, elt->reg, elt->elt, MO_64);
-         elt++;
-         if (pos != 0) {
--            do_ext64(s, tcg_resh, tcg_resl, pos);
-+            tcg_gen_extract2_i64(tcg_resl, tcg_resl, tcg_resh, pos);
-             tcg_hh = tcg_temp_new_i64();
-             read_vec_element(s, tcg_hh, elt->reg, elt->elt, MO_64);
--            do_ext64(s, tcg_hh, tcg_resh, pos);
-+            tcg_gen_extract2_i64(tcg_resh, tcg_resh, tcg_hh, pos);
-         }
-     }
 --
 .34.1

-[PULL 26/38] target/arm: Widen NeonGenNarrowEnvFn return to 64 bits
+[PULL 11/19] target/arm: Use float_status in helper_vfp_fcvt{ds,sd}
 From: Richard Henderson <richard.henderson@linaro.org>
-While these functions really do return a 32-bit value,
+Pass float_status not env to match other functions.
 widening the return type means that we need do less
 marshalling between TCG types.
 Remove NeonGenNarrowEnvFn typedef; add NeonGenOne64OpEnvFn.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Message-id: 20240912024114.1097832-27-richard.henderson@linaro.org
+Message-id: 20241206031952.78776-3-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h             | 22 ++++++------
+ target/arm/helper.h            |  4 ++--
- target/arm/tcg/translate.h      |  2 +-
+ target/arm/tcg/translate-a64.c | 15 ++++++++++-----
- target/arm/tcg/neon_helper.c    | 43 ++++++++++++++---------
+ target/arm/tcg/translate-vfp.c |  4 ++--
- target/arm/tcg/translate-a64.c  | 60 ++++++++++++++++++---------------
+ target/arm/vfp_helper.c        |  8 ++++----
- target/arm/tcg/translate-neon.c | 44 ++++++++++++------------
+files changed, 18 insertions(+), 13 deletions(-)
 files changed, 93 insertions(+), 78 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrdmulh_s32, i32, env, i32, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_cmpeh, void, f16, f16, env)
- DEF_HELPER_4(neon_qrdmlah_s32, i32, env, s32, s32, s32)
+ DEF_HELPER_3(vfp_cmpes, void, f32, f32, env)
- DEF_HELPER_4(neon_qrdmlsh_s32, i32, env, s32, s32, s32)
+ DEF_HELPER_3(vfp_cmped, void, f64, f64, env)
--DEF_HELPER_1(neon_narrow_u8, i32, i64)
+-DEF_HELPER_2(vfp_fcvtds, f64, f32, env)
--DEF_HELPER_1(neon_narrow_u16, i32, i64)
+-DEF_HELPER_2(vfp_fcvtsd, f32, f64, env)
--DEF_HELPER_2(neon_unarrow_sat8, i32, env, i64)
++DEF_HELPER_2(vfp_fcvtds, f64, f32, fpst)
--DEF_HELPER_2(neon_narrow_sat_u8, i32, env, i64)
++DEF_HELPER_2(vfp_fcvtsd, f32, f64, fpst)
--DEF_HELPER_2(neon_narrow_sat_s8, i32, env, i64)
+ DEF_HELPER_FLAGS_2(bfcvt, TCG_CALL_NO_RWG, i32, f32, fpst)
--DEF_HELPER_2(neon_unarrow_sat16, i32, env, i64)
+ DEF_HELPER_FLAGS_2(bfcvt_pair, TCG_CALL_NO_RWG, i32, i64, fpst)
--DEF_HELPER_2(neon_narrow_sat_u16, i32, env, i64)
 -DEF_HELPER_2(neon_narrow_sat_s16, i32, env, i64)
 -DEF_HELPER_2(neon_unarrow_sat32, i32, env, i64)
 -DEF_HELPER_2(neon_narrow_sat_u32, i32, env, i64)
 -DEF_HELPER_2(neon_narrow_sat_s32, i32, env, i64)
 +DEF_HELPER_1(neon_narrow_u8, i64, i64)
 +DEF_HELPER_1(neon_narrow_u16, i64, i64)
 +DEF_HELPER_2(neon_unarrow_sat8, i64, env, i64)
 +DEF_HELPER_2(neon_narrow_sat_u8, i64, env, i64)
 +DEF_HELPER_2(neon_narrow_sat_s8, i64, env, i64)
 +DEF_HELPER_2(neon_unarrow_sat16, i64, env, i64)
 +DEF_HELPER_2(neon_narrow_sat_u16, i64, env, i64)
 +DEF_HELPER_2(neon_narrow_sat_s16, i64, env, i64)
 +DEF_HELPER_2(neon_unarrow_sat32, i64, env, i64)
 +DEF_HELPER_2(neon_narrow_sat_u32, i64, env, i64)
 +DEF_HELPER_2(neon_narrow_sat_s32, i64, env, i64)
  DEF_HELPER_1(neon_narrow_high_u8, i32, i64)
  DEF_HELPER_1(neon_narrow_high_u16, i32, i64)
  DEF_HELPER_1(neon_narrow_round_high_u8, i32, i64)
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void NeonGenThreeOpEnvFn(TCGv_i32, TCGv_env, TCGv_i32,
  typedef void NeonGenTwo64OpFn(TCGv_i64, TCGv_i64, TCGv_i64);
  typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
  typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
 -typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
  typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
  typedef void NeonGenTwoOpWidenFn(TCGv_i64, TCGv_i32, TCGv_i32);
  typedef void NeonGenOneSingleOpFn(TCGv_i32, TCGv_i32, TCGv_ptr);
  typedef void NeonGenTwoSingleOpFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
  typedef void NeonGenTwoDoubleOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
  typedef void NeonGenOne64OpFn(TCGv_i64, TCGv_i64);
 +typedef void NeonGenOne64OpEnvFn(TCGv_i64, TCGv_env, TCGv_i64);
  typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
  typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
 diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/neon_helper.c
 +++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ NEON_VOP_ENV(qrdmulh_s32, neon_s32, 1)
  #undef NEON_FN
  #undef NEON_QDMULH32
 -uint32_t HELPER(neon_narrow_u8)(uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_u8)(uint64_t x)
  {
      return (x & 0xffu) | ((x >> 8) & 0xff00u) | ((x >> 16) & 0xff0000u)
             | ((x >> 24) & 0xff000000u);
  }
 -uint32_t HELPER(neon_narrow_u16)(uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_u16)(uint64_t x)
  {
      return (x & 0xffffu) | ((x >> 16) & 0xffff0000u);
  }
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_round_high_u16)(uint64_t x)
      return ((x >> 16) & 0xffff) | ((x >> 32) & 0xffff0000);
  }
 -uint32_t HELPER(neon_unarrow_sat8)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_unarrow_sat8)(CPUARMState *env, uint64_t x)
  {
      uint16_t s;
      uint8_t d;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_unarrow_sat8)(CPUARMState *env, uint64_t x)
      return res;
  }
 -uint32_t HELPER(neon_narrow_sat_u8)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_sat_u8)(CPUARMState *env, uint64_t x)
  {
      uint16_t s;
      uint8_t d;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_u8)(CPUARMState *env, uint64_t x)
      return res;
  }
 -uint32_t HELPER(neon_narrow_sat_s8)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_sat_s8)(CPUARMState *env, uint64_t x)
  {
      int16_t s;
      uint8_t d;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_s8)(CPUARMState *env, uint64_t x)
      return res;
  }
 -uint32_t HELPER(neon_unarrow_sat16)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_unarrow_sat16)(CPUARMState *env, uint64_t x)
  {
      uint32_t high;
      uint32_t low;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_unarrow_sat16)(CPUARMState *env, uint64_t x)
          high = 0xffff;
          SET_QC();
      }
 -    return low | (high << 16);
 +    return deposit32(low, 16, 16, high);
  }
 -uint32_t HELPER(neon_narrow_sat_u16)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_sat_u16)(CPUARMState *env, uint64_t x)
  {
      uint32_t high;
      uint32_t low;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_u16)(CPUARMState *env, uint64_t x)
          high = 0xffff;
          SET_QC();
      }
 -    return low | (high << 16);
 +    return deposit32(low, 16, 16, high);
  }
 -uint32_t HELPER(neon_narrow_sat_s16)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_sat_s16)(CPUARMState *env, uint64_t x)
  {
      int32_t low;
      int32_t high;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_s16)(CPUARMState *env, uint64_t x)
          high = (high >> 31) ^ 0x7fff;
          SET_QC();
      }
 -    return (uint16_t)low | (high << 16);
 +    return deposit32(low, 16, 16, high);
  }
 -uint32_t HELPER(neon_unarrow_sat32)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_unarrow_sat32)(CPUARMState *env, uint64_t x)
  {
      if (x & 0x8000000000000000ull) {
          SET_QC();
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_unarrow_sat32)(CPUARMState *env, uint64_t x)
      return x;
  }
 -uint32_t HELPER(neon_narrow_sat_u32)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_sat_u32)(CPUARMState *env, uint64_t x)
  {
      if (x > 0xffffffffu) {
          SET_QC();
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_u32)(CPUARMState *env, uint64_t x)
      return x;
  }
 -uint32_t HELPER(neon_narrow_sat_s32)(CPUARMState *env, uint64_t x)
 +/* Only the low 32-bits of output are significant. */
 +uint64_t HELPER(neon_narrow_sat_s32)(CPUARMState *env, uint64_t x)
  {
      if ((int64_t)x != (int32_t)x) {
          SET_QC();
 -        return ((int64_t)x >> 63) ^ 0x7fffffff;
 +        return (uint32_t)((int64_t)x >> 63) ^ 0x7fffffff;
      }
 -    return x;
 +    return (uint32_t)x;
  }
  uint64_t HELPER(neon_widen_u8)(uint32_t x)
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
+@@ -XXX,XX +XXX,XX @@ static bool trans_FCVT_s_ds(DisasContext *s, arg_rr *a)
-     int elements = is_scalar ? 1 : (64 / esize);
+     if (fp_access_check(s)) {
-     bool round = extract32(opcode, 0, 1);
+         TCGv_i32 tcg_rn = read_fp_sreg(s, a->rn);
-     MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
+         TCGv_i64 tcg_rd = tcg_temp_new_i64();
--    TCGv_i64 tcg_rn, tcg_rd;
++        TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
--    TCGv_i32 tcg_rd_narrowed;
--    TCGv_i64 tcg_final;
+-        gen_helper_vfp_fcvtds(tcg_rd, tcg_rn, tcg_env);
-+    TCGv_i64 tcg_rn, tcg_rd, tcg_final;
++        gen_helper_vfp_fcvtds(tcg_rd, tcg_rn, fpst);
+         write_fp_dreg(s, a->rd, tcg_rd);
--    static NeonGenNarrowEnvFn * const signed_narrow_fns[4][2] = {
+     }
-+    static NeonGenOne64OpEnvFn * const signed_narrow_fns[4][2] = {
+     return true;
-         { gen_helper_neon_narrow_sat_s8,
+@@ -XXX,XX +XXX,XX @@ static bool trans_FCVT_s_sd(DisasContext *s, arg_rr *a)
-           gen_helper_neon_unarrow_sat8 },
+     if (fp_access_check(s)) {
-         { gen_helper_neon_narrow_sat_s16,
+         TCGv_i64 tcg_rn = read_fp_dreg(s, a->rn);
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
+         TCGv_i32 tcg_rd = tcg_temp_new_i32();
-           gen_helper_neon_unarrow_sat32 },
++        TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-         { NULL, NULL },
-     };
+-        gen_helper_vfp_fcvtsd(tcg_rd, tcg_rn, tcg_env);
--    static NeonGenNarrowEnvFn * const unsigned_narrow_fns[4] = {
++        gen_helper_vfp_fcvtsd(tcg_rd, tcg_rn, fpst);
-+    static NeonGenOne64OpEnvFn * const unsigned_narrow_fns[4] = {
+         write_fp_sreg(s, a->rd, tcg_rd);
-         gen_helper_neon_narrow_sat_u8,
+     }
-         gen_helper_neon_narrow_sat_u16,
+     return true;
-         gen_helper_neon_narrow_sat_u32,
+@@ -XXX,XX +XXX,XX @@ static void gen_fcvtn_hs(TCGv_i64 d, TCGv_i64 n)
-         NULL
+ static void gen_fcvtn_sd(TCGv_i64 d, TCGv_i64 n)
-     };
+ {
--    NeonGenNarrowEnvFn *narrowfn;
+     TCGv_i32 tmp = tcg_temp_new_i32();
-+    NeonGenOne64OpEnvFn *narrowfn;
+-    gen_helper_vfp_fcvtsd(tmp, n, tcg_env);
++    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-     int i;
++
++    gen_helper_vfp_fcvtsd(tmp, n, fpst);
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
+     tcg_gen_extu_i32_i64(d, tmp);
+ }
-     tcg_rn = tcg_temp_new_i64();
-     tcg_rd = tcg_temp_new_i64();
+@@ -XXX,XX +XXX,XX @@ static bool trans_FCVTL_v(DisasContext *s, arg_qrr_e *a)
--    tcg_rd_narrowed = tcg_temp_new_i32();
+      * The only instruction like this is FCVTL.
      tcg_final = tcg_temp_new_i64();
      for (i = 0; i < elements; i++) {
          read_vec_element(s, tcg_rn, rn, i, ldop);
          handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
                                  false, is_u_shift, size+1, shift);
 -        narrowfn(tcg_rd_narrowed, tcg_env, tcg_rd);
 -        tcg_gen_extu_i32_i64(tcg_rd, tcg_rd_narrowed);
 +        narrowfn(tcg_rd, tcg_env, tcg_rd);
          if (i == 0) {
              tcg_gen_extract_i64(tcg_final, tcg_rd, 0, esize);
          } else {
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
       * in the source becomes a size element in the destination).
       */
      int pass;
--    TCGv_i32 tcg_res[2];
++    TCGv_ptr fpst;
-+    TCGv_i64 tcg_res[2];
-     int destelt = is_q ? 2 : 0;
+     if (!fp_access_check(s)) {
-     int passes = scalar ? 1 : 2;
+         return true;
      if (scalar) {
 -        tcg_res[1] = tcg_constant_i32(0);
 +        tcg_res[1] = tcg_constant_i64(0);
      }
-     for (pass = 0; pass < passes; pass++) {
++    fpst = fpstatus_ptr(FPST_FPCR);
-         TCGv_i64 tcg_op = tcg_temp_new_i64();
+     if (a->esz == MO_64) {
--        NeonGenNarrowFn *genfn = NULL;
+         /* 32 -> 64 bit fp conversion */
--        NeonGenNarrowEnvFn *genenvfn = NULL;
+         TCGv_i64 tcg_res[2];
-+        NeonGenOne64OpFn *genfn = NULL;
+@@ -XXX,XX +XXX,XX @@ static bool trans_FCVTL_v(DisasContext *s, arg_qrr_e *a)
-+        NeonGenOne64OpEnvFn *genenvfn = NULL;
+         for (pass = 0; pass < 2; pass++) {
+             tcg_res[pass] = tcg_temp_new_i64();
-         if (scalar) {
+             read_vec_element_i32(s, tcg_op, a->rn, srcelt + pass, MO_32);
-             read_vec_element(s, tcg_op, rn, pass, size + 1);
+-            gen_helper_vfp_fcvtds(tcg_res[pass], tcg_op, tcg_env);
-         } else {
++            gen_helper_vfp_fcvtds(tcg_res[pass], tcg_op, fpst);
              read_vec_element(s, tcg_op, rn, pass, MO_64);
          }
--        tcg_res[pass] = tcg_temp_new_i32();
+         for (pass = 0; pass < 2; pass++) {
-+        tcg_res[pass] = tcg_temp_new_i64();
+             write_vec_element(s, tcg_res[pass], a->rd, pass, MO_64);
+@@ -XXX,XX +XXX,XX @@ static bool trans_FCVTL_v(DisasContext *s, arg_qrr_e *a)
-         switch (opcode) {
+         /* 16 -> 32 bit fp conversion */
-         case 0x12: /* XTN, SQXTUN */
+         int srcelt = a->q ? 4 : 0;
-         {
+         TCGv_i32 tcg_res[4];
--            static NeonGenNarrowFn * const xtnfns[3] = {
+-        TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-+            static NeonGenOne64OpFn * const xtnfns[3] = {
+         TCGv_i32 ahp = get_ahp_flag();
-                 gen_helper_neon_narrow_u8,
-                 gen_helper_neon_narrow_u16,
+         for (pass = 0; pass < 4; pass++) {
--                tcg_gen_extrl_i64_i32,
+diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
 +                tcg_gen_ext32u_i64,
              };
 -            static NeonGenNarrowEnvFn * const sqxtunfns[3] = {
 +            static NeonGenOne64OpEnvFn * const sqxtunfns[3] = {
                  gen_helper_neon_unarrow_sat8,
                  gen_helper_neon_unarrow_sat16,
                  gen_helper_neon_unarrow_sat32,
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
          }
          case 0x14: /* SQXTN, UQXTN */
          {
 -            static NeonGenNarrowEnvFn * const fns[3][2] = {
 +            static NeonGenOne64OpEnvFn * const fns[3][2] = {
                  { gen_helper_neon_narrow_sat_s8,
                    gen_helper_neon_narrow_sat_u8 },
                  { gen_helper_neon_narrow_sat_s16,
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
          case 0x16: /* FCVTN, FCVTN2 */
              /* 32 bit to 16 bit or 64 bit to 32 bit float conversion */
              if (size == 2) {
 -                gen_helper_vfp_fcvtsd(tcg_res[pass], tcg_op, tcg_env);
 +                TCGv_i32 tmp = tcg_temp_new_i32();
 +                gen_helper_vfp_fcvtsd(tmp, tcg_op, tcg_env);
 +                tcg_gen_extu_i32_i64(tcg_res[pass], tmp);
              } else {
                  TCGv_i32 tcg_lo = tcg_temp_new_i32();
                  TCGv_i32 tcg_hi = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
                  tcg_gen_extr_i64_i32(tcg_lo, tcg_hi, tcg_op);
                  gen_helper_vfp_fcvt_f32_to_f16(tcg_lo, tcg_lo, fpst, ahp);
                  gen_helper_vfp_fcvt_f32_to_f16(tcg_hi, tcg_hi, fpst, ahp);
 -                tcg_gen_deposit_i32(tcg_res[pass], tcg_lo, tcg_hi, 16, 16);
 +                tcg_gen_deposit_i32(tcg_lo, tcg_lo, tcg_hi, 16, 16);
 +                tcg_gen_extu_i32_i64(tcg_res[pass], tcg_lo);
              }
              break;
          case 0x36: /* BFCVTN, BFCVTN2 */
              {
                  TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
 -                gen_helper_bfcvt_pair(tcg_res[pass], tcg_op, fpst);
 +                TCGv_i32 tmp = tcg_temp_new_i32();
 +                gen_helper_bfcvt_pair(tmp, tcg_op, fpst);
 +                tcg_gen_extu_i32_i64(tcg_res[pass], tmp);
              }
              break;
          case 0x56:  /* FCVTXN, FCVTXN2 */
 -            /* 64 bit to 32 bit float conversion
 -             * with von Neumann rounding (round to odd)
 -             */
 -            assert(size == 2);
 -            gen_helper_fcvtx_f64_to_f32(tcg_res[pass], tcg_op, tcg_env);
 +            {
 +                /*
 +                 * 64 bit to 32 bit float conversion
 +                 * with von Neumann rounding (round to odd)
 +                 */
 +                TCGv_i32 tmp = tcg_temp_new_i32();
 +                assert(size == 2);
 +                gen_helper_fcvtx_f64_to_f32(tmp, tcg_op, tcg_env);
 +                tcg_gen_extu_i32_i64(tcg_res[pass], tmp);
 +            }
              break;
          default:
              g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
      }
      for (pass = 0; pass < 2; pass++) {
 -        write_vec_element_i32(s, tcg_res[pass], rd, destelt + pass, MO_32);
 +        write_vec_element(s, tcg_res[pass], rd, destelt + pass, MO_32);
      }
      clear_vec_high(s, is_q, rd);
  }
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-neon.c
+--- a/target/arm/tcg/translate-vfp.c
-+++ b/target/arm/tcg/translate-neon.c
++++ b/target/arm/tcg/translate-vfp.c
-@@ -XXX,XX +XXX,XX @@ DO_2SH(VQSHL_S, gen_neon_sqshli)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_sp(DisasContext *s, arg_VCVT_sp *a)
+     vm = tcg_temp_new_i32();
- static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
+     vd = tcg_temp_new_i64();
-                                 NeonGenTwo64OpFn *shiftfn,
+     vfp_load_reg32(vm, a->vm);
--                                NeonGenNarrowEnvFn *narrowfn)
+-    gen_helper_vfp_fcvtds(vd, vm, tcg_env);
-+                                NeonGenOne64OpEnvFn *narrowfn)
++    gen_helper_vfp_fcvtds(vd, vm, fpstatus_ptr(FPST_FPCR));
- {
+     vfp_store_reg64(vd, a->vd);
      /* 2-reg-and-shift narrowing-shift operations, size == 3 case */
 -    TCGv_i64 constimm, rm1, rm2;
 -    TCGv_i32 rd;
 +    TCGv_i64 constimm, rm1, rm2, rd;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
      constimm = tcg_constant_i64(-a->shift);
      rm1 = tcg_temp_new_i64();
      rm2 = tcg_temp_new_i64();
 -    rd = tcg_temp_new_i32();
 +    rd = tcg_temp_new_i64();
      /* Load both inputs first to avoid potential overwrite if rm == rd */
      read_neon_element64(rm1, a->vm, 0, MO_64);
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
      shiftfn(rm1, rm1, constimm);
      narrowfn(rd, tcg_env, rm1);
 -    write_neon_element32(rd, a->vd, 0, MO_32);
 +    write_neon_element64(rd, a->vd, 0, MO_32);
      shiftfn(rm2, rm2, constimm);
      narrowfn(rd, tcg_env, rm2);
 -    write_neon_element32(rd, a->vd, 1, MO_32);
 +    write_neon_element64(rd, a->vd, 1, MO_32);
      return true;
  }
+@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp(DisasContext *s, arg_VCVT_dp *a)
- static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
+     vd = tcg_temp_new_i32();
-                                 NeonGenTwoOpFn *shiftfn,
+     vm = tcg_temp_new_i64();
--                                NeonGenNarrowEnvFn *narrowfn)
+     vfp_load_reg64(vm, a->vm);
-+                                NeonGenOne64OpEnvFn *narrowfn)
+-    gen_helper_vfp_fcvtsd(vd, vm, tcg_env);
- {
++    gen_helper_vfp_fcvtsd(vd, vm, fpstatus_ptr(FPST_FPCR));
-     /* 2-reg-and-shift narrowing-shift operations, size < 3 case */
+     vfp_store_reg32(vd, a->vd);
      TCGv_i32 constimm, rm1, rm2, rm3, rm4;
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
      tcg_gen_concat_i32_i64(rtmp, rm1, rm2);
 -    narrowfn(rm1, tcg_env, rtmp);
 -    write_neon_element32(rm1, a->vd, 0, MO_32);
 +    narrowfn(rtmp, tcg_env, rtmp);
 +    write_neon_element64(rtmp, a->vd, 0, MO_32);
      shiftfn(rm3, rm3, constimm);
      shiftfn(rm4, rm4, constimm);
      tcg_gen_concat_i32_i64(rtmp, rm3, rm4);
 -    narrowfn(rm3, tcg_env, rtmp);
 -    write_neon_element32(rm3, a->vd, 1, MO_32);
 +    narrowfn(rtmp, tcg_env, rtmp);
 +    write_neon_element64(rtmp, a->vd, 1, MO_32);
      return true;
  }
+diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
+index XXXXXXX..XXXXXXX 100644
-         return do_2shift_narrow_32(s, a, FUNC, NARROWFUNC);             \
+--- a/target/arm/vfp_helper.c
-     }
++++ b/target/arm/vfp_helper.c
+@@ -XXX,XX +XXX,XX @@ FLOAT_CONVS(ui, d, float64, 64, u)
--static void gen_neon_narrow_u32(TCGv_i32 dest, TCGv_ptr env, TCGv_i64 src)
+ #undef FLOAT_CONVS
-+static void gen_neon_narrow_u32(TCGv_i64 dest, TCGv_ptr env, TCGv_i64 src)
  /* floating point conversion */
 -float64 VFP_HELPER(fcvtd, s)(float32 x, CPUARMState *env)
 +float64 VFP_HELPER(fcvtd, s)(float32 x, float_status *status)
  {
--    tcg_gen_extrl_i64_i32(dest, src);
+-    return float32_to_float64(x, &env->vfp.fp_status);
-+    tcg_gen_ext32u_i64(dest, src);
++    return float32_to_float64(x, status);
  }
--static void gen_neon_narrow_u16(TCGv_i32 dest, TCGv_ptr env, TCGv_i64 src)
+-float32 VFP_HELPER(fcvts, d)(float64 x, CPUARMState *env)
-+static void gen_neon_narrow_u16(TCGv_i64 dest, TCGv_ptr env, TCGv_i64 src)
++float32 VFP_HELPER(fcvts, d)(float64 x, float_status *status)
  {
-     gen_helper_neon_narrow_u16(dest, src);
+-    return float64_to_float32(x, &env->vfp.fp_status);
 +    return float64_to_float32(x, status);
  }
--static void gen_neon_narrow_u8(TCGv_i32 dest, TCGv_ptr env, TCGv_i64 src)
+ uint32_t HELPER(bfcvt)(float32 x, float_status *status)
 +static void gen_neon_narrow_u8(TCGv_i64 dest, TCGv_ptr env, TCGv_i64 src)
  {
      gen_helper_neon_narrow_u8(dest, src);
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_VZIP(DisasContext *s, arg_2misc *a)
  }
  static bool do_vmovn(DisasContext *s, arg_2misc *a,
 -                     NeonGenNarrowEnvFn *narrowfn)
 +                     NeonGenOne64OpEnvFn *narrowfn)
  {
 -    TCGv_i64 rm;
 -    TCGv_i32 rd0, rd1;
 +    TCGv_i64 rm, rd0, rd1;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool do_vmovn(DisasContext *s, arg_2misc *a,
      }
      rm = tcg_temp_new_i64();
 -    rd0 = tcg_temp_new_i32();
 -    rd1 = tcg_temp_new_i32();
 +    rd0 = tcg_temp_new_i64();
 +    rd1 = tcg_temp_new_i64();
      read_neon_element64(rm, a->vm, 0, MO_64);
      narrowfn(rd0, tcg_env, rm);
      read_neon_element64(rm, a->vm, 1, MO_64);
      narrowfn(rd1, tcg_env, rm);
 -    write_neon_element32(rd0, a->vd, 0, MO_32);
 -    write_neon_element32(rd1, a->vd, 1, MO_32);
 +    write_neon_element64(rd0, a->vd, 0, MO_32);
 +    write_neon_element64(rd1, a->vd, 1, MO_32);
      return true;
  }
  #define DO_VMOVN(INSN, FUNC)                                    \
      static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
      {                                                           \
 -        static NeonGenNarrowEnvFn * const narrowfn[] = {        \
 +        static NeonGenOne64OpEnvFn * const narrowfn[] = {       \
              FUNC##8,                                            \
              FUNC##16,                                           \
              FUNC##32,                                           \
 --
 .34.1

-[PULL 28/38] target/arm: Convert vector [US]QSHRN, [US]QRSHRN, SQSHRUN to decodetree
+[PULL 12/19] target/arm: Implement fine-grained-trap handling for FEAT_XS
-From: Richard Henderson <richard.henderson@linaro.org>
+FEAT_XS introduces a set of new TLBI maintenance instructions with an
 "nXS" qualifier.  These behave like the stardard ones except that
 they do not wait for memory accesses with the XS attribute to
 complete.  They have an interaction with the fine-grained-trap
 handling: the FGT bits that a hypervisor can use to trap TLBI
 maintenance instructions normally trap also the nXS variants, but the
 hypervisor can elect to not trap the nXS variants by setting
 HCRX_EL2.FGTnXS to 1.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Add support to our FGT mechanism for these TLBI bits. For each
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+TLBI-trapping FGT bit we define, for example:
-Message-id: 20240912024114.1097832-29-richard.henderson@linaro.org
+ * FGT_TLBIVAE1 -- the same value we do at present for the
    normal variant of the insn
  * FGT_TLBIVAE1NXS -- for the nXS qualified insn; the value of
    this enum has an NXS bit ORed into it
 In access_check_cp_reg() we can then ignore the trap bit for an
 access where ri->fgt has the NXS bit set and HCRX_EL2.FGTnXS is 1.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20241211144440.2700268-2-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  24 +++++
+ target/arm/cpregs.h        | 72 ++++++++++++++++++++++----------------
- target/arm/tcg/translate-a64.c | 176 ++++++++++++++++++++++++++++++---
+ target/arm/cpu-features.h  |  5 +++
-files changed, 186 insertions(+), 14 deletions(-)
+ target/arm/helper.c        |  5 ++-
  target/arm/tcg/op_helper.c | 11 +++++-
 files changed, 61 insertions(+), 32 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+diff --git a/target/arm/cpregs.h b/target/arm/cpregs.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
+--- a/target/arm/cpregs.h
-+++ b/target/arm/tcg/a64.decode
++++ b/target/arm/cpregs.h
-@@ -XXX,XX +XXX,XX @@ SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_h
+@@ -XXX,XX +XXX,XX @@ FIELD(HDFGWTR_EL2, NBRBCTL, 60, 1)
- SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_s
+ FIELD(HDFGWTR_EL2, NBRBDATA, 61, 1)
- SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_d
+ FIELD(HDFGWTR_EL2, NPMSNEVFR_EL1, 62, 1)
-+SQSHRN_v        0.00 11110 .... ... 10010 1 ..... .....     @q_shri_b
++FIELD(FGT, NXS, 13, 1) /* Honour HCR_EL2.FGTnXS to suppress FGT */
-+SQSHRN_v        0.00 11110 .... ... 10010 1 ..... .....     @q_shri_h
+ /* Which fine-grained trap bit register to check, if any */
-+SQSHRN_v        0.00 11110 .... ... 10010 1 ..... .....     @q_shri_s
+ FIELD(FGT, TYPE, 10, 3)
  FIELD(FGT, REV, 9, 1) /* Is bit sense reversed? */
@@ -XXX,XX +XXX,XX @@ FIELD(FGT, BITPOS, 0, 6) /* Bit position within the uint64_t */
  #define DO_REV_BIT(REG, BITNAME)                                        \
      FGT_##BITNAME = FGT_##REG | FGT_REV | R_##REG##_EL2_##BITNAME##_SHIFT
 +/*
 + * The FGT bits for TLBI maintenance instructions accessible at EL1 always
 + * affect the "normal" TLBI insns; they affect the corresponding TLBI insns
 + * with the nXS qualifier only if HCRX_EL2.FGTnXS is 0. We define e.g.
 + * FGT_TLBIVAE1 to use for the normal insn, and FGT_TLBIVAE1NXS to use
 + * for the nXS qualified insn.
 + */
 +#define DO_TLBINXS_BIT(REG, BITNAME)                             \
 +    FGT_##BITNAME = FGT_##REG | R_##REG##_EL2_##BITNAME##_SHIFT, \
 +    FGT_##BITNAME##NXS = FGT_##BITNAME | R_FGT_NXS_MASK
 +
-+UQSHRN_v        0.10 11110 .... ... 10010 1 ..... .....     @q_shri_b
+ typedef enum FGTBit {
-+UQSHRN_v        0.10 11110 .... ... 10010 1 ..... .....     @q_shri_h
+     /*
-+UQSHRN_v        0.10 11110 .... ... 10010 1 ..... .....     @q_shri_s
+      * These bits tell us which register arrays to use:
-+
+@@ -XXX,XX +XXX,XX @@ typedef enum FGTBit {
-+SQSHRUN_v       0.10 11110 .... ... 10000 1 ..... .....     @q_shri_b
+     DO_BIT(HFGITR, ATS1E0W),
-+SQSHRUN_v       0.10 11110 .... ... 10000 1 ..... .....     @q_shri_h
+     DO_BIT(HFGITR, ATS1E1RP),
-+SQSHRUN_v       0.10 11110 .... ... 10000 1 ..... .....     @q_shri_s
+     DO_BIT(HFGITR, ATS1E1WP),
-+
+-    DO_BIT(HFGITR, TLBIVMALLE1OS),
-+SQRSHRN_v       0.00 11110 .... ... 10011 1 ..... .....     @q_shri_b
+-    DO_BIT(HFGITR, TLBIVAE1OS),
-+SQRSHRN_v       0.00 11110 .... ... 10011 1 ..... .....     @q_shri_h
+-    DO_BIT(HFGITR, TLBIASIDE1OS),
-+SQRSHRN_v       0.00 11110 .... ... 10011 1 ..... .....     @q_shri_s
+-    DO_BIT(HFGITR, TLBIVAAE1OS),
-+
+-    DO_BIT(HFGITR, TLBIVALE1OS),
-+UQRSHRN_v       0.10 11110 .... ... 10011 1 ..... .....     @q_shri_b
+-    DO_BIT(HFGITR, TLBIVAALE1OS),
-+UQRSHRN_v       0.10 11110 .... ... 10011 1 ..... .....     @q_shri_h
+-    DO_BIT(HFGITR, TLBIRVAE1OS),
-+UQRSHRN_v       0.10 11110 .... ... 10011 1 ..... .....     @q_shri_s
+-    DO_BIT(HFGITR, TLBIRVAAE1OS),
-+
+-    DO_BIT(HFGITR, TLBIRVALE1OS),
-+SQRSHRUN_v      0.10 11110 .... ... 10001 1 ..... .....     @q_shri_b
+-    DO_BIT(HFGITR, TLBIRVAALE1OS),
-+SQRSHRUN_v      0.10 11110 .... ... 10001 1 ..... .....     @q_shri_h
+-    DO_BIT(HFGITR, TLBIVMALLE1IS),
-+SQRSHRUN_v      0.10 11110 .... ... 10001 1 ..... .....     @q_shri_s
+-    DO_BIT(HFGITR, TLBIVAE1IS),
-+
+-    DO_BIT(HFGITR, TLBIASIDE1IS),
- # Advanced SIMD scalar shift by immediate
+-    DO_BIT(HFGITR, TLBIVAAE1IS),
+-    DO_BIT(HFGITR, TLBIVALE1IS),
- @shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
+-    DO_BIT(HFGITR, TLBIVAALE1IS),
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+-    DO_BIT(HFGITR, TLBIRVAE1IS),
 -    DO_BIT(HFGITR, TLBIRVAAE1IS),
 -    DO_BIT(HFGITR, TLBIRVALE1IS),
 -    DO_BIT(HFGITR, TLBIRVAALE1IS),
 -    DO_BIT(HFGITR, TLBIRVAE1),
 -    DO_BIT(HFGITR, TLBIRVAAE1),
 -    DO_BIT(HFGITR, TLBIRVALE1),
 -    DO_BIT(HFGITR, TLBIRVAALE1),
 -    DO_BIT(HFGITR, TLBIVMALLE1),
 -    DO_BIT(HFGITR, TLBIVAE1),
 -    DO_BIT(HFGITR, TLBIASIDE1),
 -    DO_BIT(HFGITR, TLBIVAAE1),
 -    DO_BIT(HFGITR, TLBIVALE1),
 -    DO_BIT(HFGITR, TLBIVAALE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVMALLE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIASIDE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAAE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVALE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAALE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAAE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVALE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAALE1OS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVMALLE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIASIDE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAAE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVALE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAALE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAAE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVALE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAALE1IS),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAAE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVALE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIRVAALE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVMALLE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIASIDE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAAE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVALE1),
 +    DO_TLBINXS_BIT(HFGITR, TLBIVAALE1),
      DO_BIT(HFGITR, CFPRCTX),
      DO_BIT(HFGITR, DVPRCTX),
      DO_BIT(HFGITR, CPPRCTX),
 diff --git a/target/arm/cpu-features.h b/target/arm/cpu-features.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
+--- a/target/arm/cpu-features.h
-+++ b/target/arm/tcg/translate-a64.c
++++ b/target/arm/cpu-features.h
-@@ -XXX,XX +XXX,XX @@ static bool do_vec_shift_imm_narrow(DisasContext *s, arg_qrri_e *a,
+@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
-     return true;
+     return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
  }
-+static void gen_sqshrn_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
++static inline bool isar_feature_aa64_xs(const ARMISARegisters *id)
 +{
-+    tcg_gen_sari_i64(d, s, i);
++    return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, XS) != 0;
 +    tcg_gen_ext16u_i64(d, d);
 +    gen_helper_neon_narrow_sat_s8(d, tcg_env, d);
 +}
 +
-+static void gen_sqshrn_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    tcg_gen_sari_i64(d, s, i);
-+    tcg_gen_ext32u_i64(d, d);
-+    gen_helper_neon_narrow_sat_s16(d, tcg_env, d);
-+}
-+
-+static void gen_sqshrn_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_sshr_d(d, s, i);
-+    gen_helper_neon_narrow_sat_s32(d, tcg_env, d);
-+}
-+
-+static void gen_uqshrn_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    tcg_gen_shri_i64(d, s, i);
-+    gen_helper_neon_narrow_sat_u8(d, tcg_env, d);
-+}
-+
-+static void gen_uqshrn_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    tcg_gen_shri_i64(d, s, i);
-+    gen_helper_neon_narrow_sat_u16(d, tcg_env, d);
-+}
-+
-+static void gen_uqshrn_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_ushr_d(d, s, i);
-+    gen_helper_neon_narrow_sat_u32(d, tcg_env, d);
-+}
-+
-+static void gen_sqshrun_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    tcg_gen_sari_i64(d, s, i);
-+    tcg_gen_ext16u_i64(d, d);
-+    gen_helper_neon_unarrow_sat8(d, tcg_env, d);
-+}
-+
-+static void gen_sqshrun_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    tcg_gen_sari_i64(d, s, i);
-+    tcg_gen_ext32u_i64(d, d);
-+    gen_helper_neon_unarrow_sat16(d, tcg_env, d);
-+}
-+
-+static void gen_sqshrun_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_sshr_d(d, s, i);
-+    gen_helper_neon_unarrow_sat32(d, tcg_env, d);
-+}
-+
-+static void gen_sqrshrn_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_srshr_bhs(d, s, i);
-+    tcg_gen_ext16u_i64(d, d);
-+    gen_helper_neon_narrow_sat_s8(d, tcg_env, d);
-+}
-+
-+static void gen_sqrshrn_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_srshr_bhs(d, s, i);
-+    tcg_gen_ext32u_i64(d, d);
-+    gen_helper_neon_narrow_sat_s16(d, tcg_env, d);
-+}
-+
-+static void gen_sqrshrn_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_srshr_d(d, s, i);
-+    gen_helper_neon_narrow_sat_s32(d, tcg_env, d);
-+}
-+
-+static void gen_uqrshrn_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_urshr_bhs(d, s, i);
-+    gen_helper_neon_narrow_sat_u8(d, tcg_env, d);
-+}
-+
-+static void gen_uqrshrn_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_urshr_bhs(d, s, i);
-+    gen_helper_neon_narrow_sat_u16(d, tcg_env, d);
-+}
-+
-+static void gen_uqrshrn_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_urshr_d(d, s, i);
-+    gen_helper_neon_narrow_sat_u32(d, tcg_env, d);
-+}
-+
-+static void gen_sqrshrun_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_srshr_bhs(d, s, i);
-+    tcg_gen_ext16u_i64(d, d);
-+    gen_helper_neon_unarrow_sat8(d, tcg_env, d);
-+}
-+
-+static void gen_sqrshrun_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_srshr_bhs(d, s, i);
-+    tcg_gen_ext32u_i64(d, d);
-+    gen_helper_neon_unarrow_sat16(d, tcg_env, d);
-+}
-+
-+static void gen_sqrshrun_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_srshr_d(d, s, i);
-+    gen_helper_neon_unarrow_sat32(d, tcg_env, d);
-+}
-+
- static WideShiftImmFn * const shrn_fns[] = {
-     tcg_gen_shri_i64,
-     tcg_gen_shri_i64,
-@@ -XXX,XX +XXX,XX @@ static WideShiftImmFn * const rshrn_fns[] = {
- };
- TRANS(RSHRN_v, do_vec_shift_imm_narrow, a, rshrn_fns, 0)
-+static WideShiftImmFn * const sqshrn_fns[] = {
-+    gen_sqshrn_b,
-+    gen_sqshrn_h,
-+    gen_sqshrn_s,
-+};
-+TRANS(SQSHRN_v, do_vec_shift_imm_narrow, a, sqshrn_fns, MO_SIGN)
-+
-+static WideShiftImmFn * const uqshrn_fns[] = {
-+    gen_uqshrn_b,
-+    gen_uqshrn_h,
-+    gen_uqshrn_s,
-+};
-+TRANS(UQSHRN_v, do_vec_shift_imm_narrow, a, uqshrn_fns, 0)
-+
-+static WideShiftImmFn * const sqshrun_fns[] = {
-+    gen_sqshrun_b,
-+    gen_sqshrun_h,
-+    gen_sqshrun_s,
-+};
-+TRANS(SQSHRUN_v, do_vec_shift_imm_narrow, a, sqshrun_fns, MO_SIGN)
-+
-+static WideShiftImmFn * const sqrshrn_fns[] = {
-+    gen_sqrshrn_b,
-+    gen_sqrshrn_h,
-+    gen_sqrshrn_s,
-+};
-+TRANS(SQRSHRN_v, do_vec_shift_imm_narrow, a, sqrshrn_fns, MO_SIGN)
-+
-+static WideShiftImmFn * const uqrshrn_fns[] = {
-+    gen_uqrshrn_b,
-+    gen_uqrshrn_h,
-+    gen_uqrshrn_s,
-+};
-+TRANS(UQRSHRN_v, do_vec_shift_imm_narrow, a, uqrshrn_fns, 0)
-+
-+static WideShiftImmFn * const sqrshrun_fns[] = {
-+    gen_sqrshrun_b,
-+    gen_sqrshrun_h,
-+    gen_sqrshrun_s,
-+};
-+TRANS(SQRSHRUN_v, do_vec_shift_imm_narrow, a, sqrshrun_fns, MO_SIGN)
-+
  /*
-  * Advanced SIMD Scalar Shift by Immediate
+  * These are the values from APA/API/APA3.
-  */
+  * In general these must be compared '>=', per the normal Arm ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
+diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void hcrx_write(CPUARMState *env, const ARMCPRegInfo *ri,
          valid_mask |= HCRX_TALLINT | HCRX_VINMI | HCRX_VFNMI;
      }
+     /* FEAT_CMOW adds CMOW */
-     switch (opcode) {
+-
--    case 0x10: /* SHRN / SQSHRUN */
+     if (cpu_isar_feature(aa64_cmow, cpu)) {
--    case 0x11: /* RSHRN / SQRSHRUN */
+         valid_mask |= HCRX_CMOW;
--        if (is_u) {
+     }
--            handle_vec_simd_sqshrn(s, false, is_q, false, true, immh, immb,
++    /* FEAT_XS adds FGTnXS, FnXS */
--                                   opcode, rn, rd);
++    if (cpu_isar_feature(aa64_xs, cpu)) {
--        } else {
++        valid_mask |= HCRX_FGTNXS | HCRX_FNXS;
--            unallocated_encoding(s);
++    }
--        }
--        break;
+     /* Clear RES0 bits.  */
--    case 0x12: /* SQSHRN / UQSHRN */
+     env->cp15.hcrx_el2 = value & valid_mask;
--    case 0x13: /* SQRSHRN / UQRSHRN */
+diff --git a/target/arm/tcg/op_helper.c b/target/arm/tcg/op_helper.c
--        handle_vec_simd_sqshrn(s, false, is_q, is_u, is_u, immh, immb,
+index XXXXXXX..XXXXXXX 100644
--                               opcode, rn, rd);
+--- a/target/arm/tcg/op_helper.c
--        break;
++++ b/target/arm/tcg/op_helper.c
-     case 0x1c: /* SCVTF / UCVTF */
+@@ -XXX,XX +XXX,XX @@ const void *HELPER(access_check_cp_reg)(CPUARMState *env, uint32_t key,
-         handle_simd_shift_intfp_conv(s, false, is_q, is_u, immh, immb,
+         unsigned int idx = FIELD_EX32(ri->fgt, FGT, IDX);
-                                      opcode, rn, rd);
+         unsigned int bitpos = FIELD_EX32(ri->fgt, FGT, BITPOS);
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
+         bool rev = FIELD_EX32(ri->fgt, FGT, REV);
-     case 0x0a: /* SHL / SLI */
++        bool nxs = FIELD_EX32(ri->fgt, FGT, NXS);
-     case 0x0c: /* SQSHLU */
+         bool trapbit;
-     case 0x0e: /* SQSHL, UQSHL */
-+    case 0x10: /* SHRN / SQSHRUN */
+         if (ri->fgt & FGT_EXEC) {
-+    case 0x11: /* RSHRN / SQRSHRUN */
+@@ -XXX,XX +XXX,XX @@ const void *HELPER(access_check_cp_reg)(CPUARMState *env, uint32_t key,
-+    case 0x12: /* SQSHRN / UQSHRN */
+             trapword = env->cp15.fgt_write[idx];
-+    case 0x13: /* SQRSHRN / UQRSHRN */
+         }
-     case 0x14: /* SSHLL / USHLL */
-         unallocated_encoding(s);
+-        trapbit = extract64(trapword, bitpos, 1);
-         return;
++        if (nxs && (arm_hcrx_el2_eff(env) & HCRX_FGTNXS)) {
 +            /*
 +             * If HCRX_EL2.FGTnXS is 1 then the fine-grained trap for
 +             * TLBI maintenance insns does *not* apply to the nXS variant.
 +             */
 +            trapbit = 0;
 +        } else {
 +            trapbit = extract64(trapword, bitpos, 1);
 +        }
          if (trapbit != rev) {
              res = CP_ACCESS_TRAP_EL2;
              goto fail;
 --
 .34.1

-[PULL 38/38] docs/devel: Remove nested-papr.txt
+[PULL 13/19] target/arm: Add ARM_CP_ADD_TLBI_NXS type flag for NXS insns
-docs/devel/nested-papr.txt is entirely (apart from the initial
+All of the TLBI insns with an NXS variant put that variant at the
-paragraph) a partial copy of the kernel documentation
+same encoding but with a CRn field that is one greater than for the
-https://docs.kernel.org/arch/powerpc/kvm-nested.html
+original TLBI insn.  To avoid having to define every TLBI insn
 effectively twice, once in the normal way and once in a set of cpreg
 arrays that are only registered when FEAT_XS is present, we define a
 new ARM_CP_ADD_TLB_NXS type flag for cpregs.  When this flag is set
 in a cpreg struct and FEAT_XS is present,
 define_one_arm_cp_reg_with_opaque() will automatically add a second
 cpreg to the hash table for the TLBI NXS insn with:
  * the crn+1 encoding
  * an FGT field that indicates that it should honour HCR_EL2.FGTnXS
  * a name with the "NXS" suffix
-There's no benefit to the QEMU docs to converting this to rST,
+(If there are future TLBI NXS insns that don't use this same
-so instead delete it. Anybody needing to know the API and
+encoding convention, it is also possible to define them manually.)
 protocol for the guest to communicate with the hypervisor
 to created nested VMs should refer to the authoratitative
 documentation in the kernel docs.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240816133318.3603114-1-peter.maydell@linaro.org
+Message-id: 20241211144440.2700268-3-peter.maydell@linaro.org
 ---
- docs/devel/nested-papr.txt | 119 -------------------------------------
+ target/arm/cpregs.h |  8 ++++++++
-file changed, 119 deletions(-)
+ target/arm/helper.c | 25 +++++++++++++++++++++++++
- delete mode 100644 docs/devel/nested-papr.txt
+files changed, 33 insertions(+)
-diff --git a/docs/devel/nested-papr.txt b/docs/devel/nested-papr.txt
+diff --git a/target/arm/cpregs.h b/target/arm/cpregs.h
-deleted file mode 100644
+index XXXXXXX..XXXXXXX 100644
-index XXXXXXX..XXXXXXX
+--- a/target/arm/cpregs.h
---- a/docs/devel/nested-papr.txt
++++ b/target/arm/cpregs.h
-+++ /dev/null
+@@ -XXX,XX +XXX,XX @@ enum {
-@@ -XXX,XX +XXX,XX @@
+      * equivalent EL1 register when FEAT_NV2 is enabled.
--Nested PAPR API (aka KVM on PowerVM)
+      */
--====================================
+     ARM_CP_NV2_REDIRECT          = 1 << 20,
--
++    /*
--This API aims at providing support to enable nested virtualization with
++     * Flag: this is a TLBI insn which (when FEAT_XS is present) also has
--KVM on PowerVM. While the existing support for nested KVM on PowerNV was
++     * an NXS variant at the same encoding except that crn is 1 greater,
--introduced with cap-nested-hv option, however, with a slight design change,
++     * so when registering this cpreg automatically also register one
--to enable this on papr/pseries, a new cap-nested-papr option is added. eg:
++     * for the TLBI NXS variant. (For QEMU the NXS variant behaves
--
++     * identically to the normal one, other than FGT trapping handling.)
--  qemu-system-ppc64 -cpu POWER10 -machine pseries,cap-nested-papr=true ...
++     */
--
++    ARM_CP_ADD_TLBI_NXS          = 1 << 21,
--Work by:
+ };
--    Michael Neuling <mikey@neuling.org>
--    Vaibhav Jain <vaibhav@linux.ibm.com>
+ /*
--    Jordan Niethe <jniethe5@gmail.com>
+diff --git a/target/arm/helper.c b/target/arm/helper.c
--    Harsh Prateek Bora <harshpb@linux.ibm.com>
+index XXXXXXX..XXXXXXX 100644
--    Shivaprasad G Bhat <sbhat@linux.ibm.com>
+--- a/target/arm/helper.c
--    Kautuk Consul <kconsul@linux.vnet.ibm.com>
++++ b/target/arm/helper.c
--
+@@ -XXX,XX +XXX,XX @@ void define_one_arm_cp_reg_with_opaque(ARMCPU *cpu,
--Below taken from the kernel documentation:
+                     if (r->state != state && r->state != ARM_CP_STATE_BOTH) {
--
+                         continue;
--Introduction
+                     }
--============
++                    if ((r->type & ARM_CP_ADD_TLBI_NXS) &&
--
++                        cpu_isar_feature(aa64_xs, cpu)) {
--This document explains how a guest operating system can act as a
++                        /*
--hypervisor and run nested guests through the use of hypercalls, if the
++                         * This is a TLBI insn which has an NXS variant. The
--hypervisor has implemented them. The terms L0, L1, and L2 are used to
++                         * NXS variant is at the same encoding except that
--refer to different software entities. L0 is the hypervisor mode entity
++                         * crn is +1, and has the same behaviour except for
--that would normally be called the "host" or "hypervisor". L1 is a
++                         * fine-grained trapping. Add the NXS insn here and
--guest virtual machine that is directly run under L0 and is initiated
++                         * then fall through to add the normal register.
--and controlled by L0. L2 is a guest virtual machine that is initiated
++                         * add_cpreg_to_hashtable() copies the cpreg struct
--and controlled by L1 acting as a hypervisor. A significant design change
++                         * and name that it is passed, so it's OK to use
--wrt existing API is that now the entire L2 state is maintained within L0.
++                         * a local struct here.
--
++                         */
--Existing Nested-HV API
++                        ARMCPRegInfo nxs_ri = *r;
--======================
++                        g_autofree char *name = g_strdup_printf("%sNXS", r->name);
--
++
--Linux/KVM has had support for Nesting as an L0 or L1 since 2018
++                        assert(state == ARM_CP_STATE_AA64);
--
++                        assert(nxs_ri.crn < 0xf);
--The L0 code was added::
++                        nxs_ri.crn++;
--
++                        if (nxs_ri.fgt) {
--   commit 8e3f5fc1045dc49fd175b978c5457f5f51e7a2ce
++                            nxs_ri.fgt |= R_FGT_NXS_MASK;
--   Author: Paul Mackerras <paulus@ozlabs.org>
++                        }
--   Date:   Mon Oct 8 16:31:03 2018 +1100
++                        add_cpreg_to_hashtable(cpu, &nxs_ri, opaque, state,
--   KVM: PPC: Book3S HV: Framework and hcall stubs for nested virtualization
++                                               ARM_CP_SECSTATE_NS,
--
++                                               crm, opc1, opc2, name);
--The L1 code was added::
++                    }
--
+                     if (state == ARM_CP_STATE_AA32) {
--   commit 360cae313702cdd0b90f82c261a8302fecef030a
+                         /*
--   Author: Paul Mackerras <paulus@ozlabs.org>
+                          * Under AArch32 CP registers can be common
 -   Date:   Mon Oct 8 16:31:04 2018 +1100
 -   KVM: PPC: Book3S HV: Nested guest entry via hypercall
 -
 -This API works primarily using a signal hcall h_enter_nested(). This
 -call made by the L1 to tell the L0 to start an L2 vCPU with the given
 -state. The L0 then starts this L2 and runs until an L2 exit condition
 -is reached. Once the L2 exits, the state of the L2 is given back to
 -the L1 by the L0. The full L2 vCPU state is always transferred from
 -and to L1 when the L2 is run. The L0 doesn't keep any state on the L2
 -vCPU (except in the short sequence in the L0 on L1 -> L2 entry and L2
 --> L1 exit).
 -
 -The only state kept by the L0 is the partition table. The L1 registers
 -it's partition table using the h_set_partition_table() hcall. All
 -other state held by the L0 about the L2s is cached state (such as
 -shadow page tables).
 -
 -The L1 may run any L2 or vCPU without first informing the L0. It
 -simply starts the vCPU using h_enter_nested(). The creation of L2s and
 -vCPUs is done implicitly whenever h_enter_nested() is called.
 -
 -In this document, we call this existing API the v1 API.
 -
 -New PAPR API
 -===============
 -
 -The new PAPR API changes from the v1 API such that the creating L2 and
 -associated vCPUs is explicit. In this document, we call this the v2
 -API.
 -
 -h_enter_nested() is replaced with H_GUEST_VCPU_RUN().  Before this can
 -be called the L1 must explicitly create the L2 using h_guest_create()
 -and any associated vCPUs() created with h_guest_create_vCPU(). Getting
 -and setting vCPU state can also be performed using h_guest_{g|s}et
 -hcall.
 -
 -The basic execution flow is for an L1 to create an L2, run it, and
 -delete it is:
 -
 -- L1 and L0 negotiate capabilities with H_GUEST_{G,S}ET_CAPABILITIES()
 -  (normally at L1 boot time).
 -
 -- L1 requests the L0 to create an L2 with H_GUEST_CREATE() and receives a token
 -
 -- L1 requests the L0 to create an L2 vCPU with H_GUEST_CREATE_VCPU()
 -
 -- L1 and L0 communicate the vCPU state using the H_GUEST_{G,S}ET() hcall
 -
 -- L1 requests the L0 to run the vCPU using H_GUEST_RUN_VCPU() hcall
 -
 -- L1 deletes L2 with H_GUEST_DELETE()
 -
 -For more details, please refer:
 -
 -[1] Linux Kernel documentation (upstream documentation commit):
 -
 -commit 476652297f94a2e5e5ef29e734b0da37ade94110
 -Author: Michael Neuling <mikey@neuling.org>
 -Date:   Thu Sep 14 13:06:00 2023 +1000
 -
 -    docs: powerpc: Document nested KVM on POWER
 -
 -    Document support for nested KVM on POWER using the existing API as well
 -    as the new PAPR API. This includes the new HCALL interface and how it
 -    used by KVM.
 -
 -    Signed-off-by: Michael Neuling <mikey@neuling.org>
 -    Signed-off-by: Jordan Niethe <jniethe5@gmail.com>
 -    Signed-off-by: Michael Ellerman <mpe@ellerman.id.au>
 -    Link: https://msgid.link/20230914030600.16993-12-jniethe5@gmail.com
 --
 .34.1

-[PULL 33/38] tests: expand timeout information for aarch64/sbsa-ref
+[PULL 14/19] target/arm: Add ARM_CP_ADD_TLBI_NXS type flag to TLBI insns
-From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+Add the ARM_CP_ADD_TLBI_NXS to the TLBI insns with an NXS variant.
 This is every AArch64 TLBI encoding except for the four FEAT_RME TLBI
 insns.
-'Test might timeout' means nothing. Replace it with useful information
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-that it is emulation of pointer authentication what makes this test run
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-too long.
+Message-id: 20241211144440.2700268-4-peter.maydell@linaro.org
 ---
  target/arm/tcg/tlb-insns.c | 202 +++++++++++++++++++++++--------------
 file changed, 124 insertions(+), 78 deletions(-)
-Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+diff --git a/target/arm/tcg/tlb-insns.c b/target/arm/tcg/tlb-insns.c
-Message-id: 20240910-b4-move-to-freebsd-v5-3-0fb66d803c93@linaro.org
+index XXXXXXX..XXXXXXX 100644
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+--- a/target/arm/tcg/tlb-insns.c
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
++++ b/target/arm/tcg/tlb-insns.c
----
+@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo tlbi_v8_cp_reginfo[] = {
- tests/functional/test_aarch64_sbsaref.py | 15 ++++++++++-----
+     /* AArch64 TLBI operations */
-file changed, 10 insertions(+), 5 deletions(-)
+     { .name = "TLBI_VMALLE1IS", .state = ARM_CP_STATE_AA64,
+       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 0,
-diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
+-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
-index XXXXXXX..XXXXXXX 100755
++      .access = PL1_W, .accessfn = access_ttlbis,
---- a/tests/functional/test_aarch64_sbsaref.py
++      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
-+++ b/tests/functional/test_aarch64_sbsaref.py
+       .fgt = FGT_TLBIVMALLE1IS,
-@@ -XXX,XX +XXX,XX @@ def test_sbsaref_alpine_linux_max_pauth_off(self):
+       .writefn = tlbi_aa64_vmalle1is_write },
-     def test_sbsaref_alpine_linux_max_pauth_impdef(self):
+     { .name = "TLBI_VAE1IS", .state = ARM_CP_STATE_AA64,
-         self.boot_alpine_linux("max,pauth-impdef=on")
+       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 1,
+-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
--    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
++      .access = PL1_W, .accessfn = access_ttlbis,
-+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
++      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
-+                'Test might timeout due to PAuth emulation')
+       .fgt = FGT_TLBIVAE1IS,
-     def test_sbsaref_alpine_linux_max(self):
+       .writefn = tlbi_aa64_vae1is_write },
-         self.boot_alpine_linux("max")
+     { .name = "TLBI_ASIDE1IS", .state = ARM_CP_STATE_AA64,
+       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 2,
-@@ -XXX,XX +XXX,XX @@ def test_sbsaref_openbsd73_default_cpu(self):
+-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
-     def test_sbsaref_openbsd73_max_pauth_off(self):
++      .access = PL1_W, .accessfn = access_ttlbis,
-         self.boot_openbsd73("max,pauth=off")
++      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
+       .fgt = FGT_TLBIASIDE1IS,
--    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+       .writefn = tlbi_aa64_vmalle1is_write },
-+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+     { .name = "TLBI_VAAE1IS", .state = ARM_CP_STATE_AA64,
-+                'Test might timeout due to PAuth emulation')
+       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 3,
-     def test_sbsaref_openbsd73_max_pauth_impdef(self):
+-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
-         self.boot_openbsd73("max,pauth-impdef=on")
++      .access = PL1_W, .accessfn = access_ttlbis,
++      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
--    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+       .fgt = FGT_TLBIVAAE1IS,
-+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+       .writefn = tlbi_aa64_vae1is_write },
-+                'Test might timeout due to PAuth emulation')
+     { .name = "TLBI_VALE1IS", .state = ARM_CP_STATE_AA64,
-     def test_sbsaref_openbsd73_max(self):
+       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 5,
-         self.boot_openbsd73("max")
+-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
++      .access = PL1_W, .accessfn = access_ttlbis,
-@@ -XXX,XX +XXX,XX @@ def test_sbsaref_freebsd14_default_cpu(self):
++      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
-     def test_sbsaref_freebsd14_max_pauth_off(self):
+       .fgt = FGT_TLBIVALE1IS,
-         self.boot_freebsd14("max,pauth=off")
+       .writefn = tlbi_aa64_vae1is_write },
+     { .name = "TLBI_VAALE1IS", .state = ARM_CP_STATE_AA64,
--    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 7,
-+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
-+                'Test might timeout due to PAuth emulation')
++      .access = PL1_W, .accessfn = access_ttlbis,
-     def test_sbsaref_freebsd14_max_pauth_impdef(self):
++      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
-         self.boot_freebsd14("max,pauth-impdef=on")
+       .fgt = FGT_TLBIVAALE1IS,
+       .writefn = tlbi_aa64_vae1is_write },
--    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+     { .name = "TLBI_VMALLE1", .state = ARM_CP_STATE_AA64,
-+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 0,
-+                'Test might timeout due to PAuth emulation')
+-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
-     def test_sbsaref_freebsd14_max(self):
++      .access = PL1_W, .accessfn = access_ttlb,
-         self.boot_freebsd14("max")
++      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVMALLE1,
        .writefn = tlbi_aa64_vmalle1_write },
      { .name = "TLBI_VAE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 1,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVAE1,
        .writefn = tlbi_aa64_vae1_write },
      { .name = "TLBI_ASIDE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 2,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIASIDE1,
        .writefn = tlbi_aa64_vmalle1_write },
      { .name = "TLBI_VAAE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 3,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVAAE1,
        .writefn = tlbi_aa64_vae1_write },
      { .name = "TLBI_VALE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 5,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVALE1,
        .writefn = tlbi_aa64_vae1_write },
      { .name = "TLBI_VAALE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 7,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVAALE1,
        .writefn = tlbi_aa64_vae1_write },
      { .name = "TLBI_IPAS2E1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ipas2e1is_write },
      { .name = "TLBI_IPAS2LE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ipas2e1is_write },
      { .name = "TLBI_ALLE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 4,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle1is_write },
      { .name = "TLBI_VMALLS12E1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 6,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle1is_write },
      { .name = "TLBI_IPAS2E1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ipas2e1_write },
      { .name = "TLBI_IPAS2LE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ipas2e1_write },
      { .name = "TLBI_ALLE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 4,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle1_write },
      { .name = "TLBI_VMALLS12E1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 6,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle1is_write },
  };
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo tlbi_el2_cp_reginfo[] = {
        .writefn = tlbimva_hyp_is_write },
      { .name = "TLBI_ALLE2", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 0,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_alle2_write },
      { .name = "TLBI_VAE2", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_vae2_write },
      { .name = "TLBI_VALE2", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_vae2_write },
      { .name = "TLBI_ALLE2IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 0,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_alle2is_write },
      { .name = "TLBI_VAE2IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_vae2is_write },
      { .name = "TLBI_VALE2IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_vae2is_write },
  };
  static const ARMCPRegInfo tlbi_el3_cp_reginfo[] = {
      { .name = "TLBI_ALLE3IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 3, .opc2 = 0,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle3is_write },
      { .name = "TLBI_VAE3IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 3, .opc2 = 1,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_vae3is_write },
      { .name = "TLBI_VALE3IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 3, .opc2 = 5,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_vae3is_write },
      { .name = "TLBI_ALLE3", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 7, .opc2 = 0,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle3_write },
      { .name = "TLBI_VAE3", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 7, .opc2 = 1,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_vae3_write },
      { .name = "TLBI_VALE3", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 7, .opc2 = 5,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_vae3_write },
  };
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_ripas2e1is_write(CPUARMState *env,
  static const ARMCPRegInfo tlbirange_reginfo[] = {
      { .name = "TLBI_RVAE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 1,
 -      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbis,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAE1IS,
        .writefn = tlbi_aa64_rvae1is_write },
      { .name = "TLBI_RVAAE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 3,
 -      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbis,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAAE1IS,
        .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVALE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 5,
 -      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbis,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVALE1IS,
        .writefn = tlbi_aa64_rvae1is_write },
      { .name = "TLBI_RVAALE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 7,
 -      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbis,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAALE1IS,
        .writefn = tlbi_aa64_rvae1is_write },
      { .name = "TLBI_RVAE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 1,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAE1OS,
        .writefn = tlbi_aa64_rvae1is_write },
      { .name = "TLBI_RVAAE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 3,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAAE1OS,
        .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVALE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 5,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVALE1OS,
        .writefn = tlbi_aa64_rvae1is_write },
      { .name = "TLBI_RVAALE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 7,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAALE1OS,
        .writefn = tlbi_aa64_rvae1is_write },
      { .name = "TLBI_RVAE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 1,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAE1,
        .writefn = tlbi_aa64_rvae1_write },
      { .name = "TLBI_RVAAE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 3,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAAE1,
        .writefn = tlbi_aa64_rvae1_write },
     { .name = "TLBI_RVALE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 5,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVALE1,
        .writefn = tlbi_aa64_rvae1_write },
      { .name = "TLBI_RVAALE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 7,
 -      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlb,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIRVAALE1,
        .writefn = tlbi_aa64_rvae1_write },
      { .name = "TLBI_RIPAS2E1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 2,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ripas2e1is_write },
      { .name = "TLBI_RIPAS2LE1IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 6,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ripas2e1is_write },
      { .name = "TLBI_RVAE2IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 2, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_rvae2is_write },
     { .name = "TLBI_RVALE2IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 2, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_rvae2is_write },
      { .name = "TLBI_RIPAS2E1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 2,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ripas2e1_write },
      { .name = "TLBI_RIPAS2LE1", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 6,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_ripas2e1_write },
     { .name = "TLBI_RVAE2OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 5, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_rvae2is_write },
     { .name = "TLBI_RVALE2OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 5, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_rvae2is_write },
      { .name = "TLBI_RVAE2", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 6, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_rvae2_write },
     { .name = "TLBI_RVALE2", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 6, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_rvae2_write },
     { .name = "TLBI_RVAE3IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 2, .opc2 = 1,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_rvae3is_write },
     { .name = "TLBI_RVALE3IS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 2, .opc2 = 5,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_rvae3is_write },
     { .name = "TLBI_RVAE3OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 5, .opc2 = 1,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_rvae3is_write },
     { .name = "TLBI_RVALE3OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 5, .opc2 = 5,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_rvae3is_write },
     { .name = "TLBI_RVAE3", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 6, .opc2 = 1,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_rvae3_write },
     { .name = "TLBI_RVALE3", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 6, .opc2 = 5,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_rvae3_write },
  };
  static const ARMCPRegInfo tlbios_reginfo[] = {
      { .name = "TLBI_VMALLE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 0,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVMALLE1OS,
        .writefn = tlbi_aa64_vmalle1is_write },
      { .name = "TLBI_VAE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 1,
        .fgt = FGT_TLBIVAE1OS,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_vae1is_write },
      { .name = "TLBI_ASIDE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 2,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIASIDE1OS,
        .writefn = tlbi_aa64_vmalle1is_write },
      { .name = "TLBI_VAAE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 3,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVAAE1OS,
        .writefn = tlbi_aa64_vae1is_write },
      { .name = "TLBI_VALE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 5,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVALE1OS,
        .writefn = tlbi_aa64_vae1is_write },
      { .name = "TLBI_VAALE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 7,
 -      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
 +      .access = PL1_W, .accessfn = access_ttlbos,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .fgt = FGT_TLBIVAALE1OS,
        .writefn = tlbi_aa64_vae1is_write },
      { .name = "TLBI_ALLE2OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 0,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_alle2is_write },
      { .name = "TLBI_VAE2OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 1,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_vae2is_write },
     { .name = "TLBI_ALLE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 4,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle1is_write },
      { .name = "TLBI_VALE2OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 5,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
 +      .access = PL2_W,
 +      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
        .writefn = tlbi_aa64_vae2is_write },
      { .name = "TLBI_VMALLS12E1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 6,
 -      .access = PL2_W, .type = ARM_CP_NO_RAW,
 +      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle1is_write },
      { .name = "TLBI_IPAS2E1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 0,
 -      .access = PL2_W, .type = ARM_CP_NOP },
 +      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
      { .name = "TLBI_RIPAS2E1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 3,
 -      .access = PL2_W, .type = ARM_CP_NOP },
 +      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
      { .name = "TLBI_IPAS2LE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 4,
 -      .access = PL2_W, .type = ARM_CP_NOP },
 +      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
      { .name = "TLBI_RIPAS2LE1OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 7,
 -      .access = PL2_W, .type = ARM_CP_NOP },
 +      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
      { .name = "TLBI_ALLE3OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 1, .opc2 = 0,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_alle3is_write },
      { .name = "TLBI_VAE3OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 1, .opc2 = 1,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_vae3is_write },
      { .name = "TLBI_VALE3OS", .state = ARM_CP_STATE_AA64,
        .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 1, .opc2 = 5,
 -      .access = PL3_W, .type = ARM_CP_NO_RAW,
 +      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
        .writefn = tlbi_aa64_vae3is_write },
  };
 --
 .34.1

-[PULL 08/38] target/arm: Convert UZP, TRN, ZIP to decodetree
+[PULL 15/19] target/arm: Add decodetree entry for DSB nXS variant
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+The DSB nXS variant is always both a reads and writes request type.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Ignore the domain field like we do in plain DSB and perform a full
-Message-id: 20240912024114.1097832-9-richard.henderson@linaro.org
+system barrier operation.
 The DSB nXS variant is part of FEAT_XS made mandatory from Armv8.7.
 Signed-off-by: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20241211144440.2700268-5-peter.maydell@linaro.org
 [PMM: added missing "UNDEF unless feature present" check]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |   9 ++
+ target/arm/tcg/a64.decode      | 3 +++
- target/arm/tcg/translate-a64.c | 158 ++++++++++++++-------------------
+ target/arm/tcg/translate-a64.c | 9 +++++++++
-files changed, 77 insertions(+), 90 deletions(-)
+files changed, 12 insertions(+)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ EXT_q           0110 1110 00 0 rm:5 0  imm:4 0 rn:5 rd:5
+@@ -XXX,XX +XXX,XX @@ WFIT            1101 0101 0000 0011 0001 0000 001 rd:5
- # Advanced SIMD Table Lookup
+ CLREX           1101 0101 0000 0011 0011 ---- 010 11111
- TBL_TBX         0 q:1 00 1110 000 rm:5 0 len:2 tbx:1 00 rn:5 rd:5
+ DSB_DMB         1101 0101 0000 0011 0011 domain:2 types:2 10- 11111
-+
++# For the DSB nXS variant, types always equals MBReqTypes_All and we ignore the
-+# Advanced SIMD Permute
++# domain bits.
-+
++DSB_nXS         1101 0101 0000 0011 0011 -- 10 001 11111
-+UZP1            0.00 1110 .. 0 ..... 0 001 10 ..... .....   @qrrr_e
+ ISB             1101 0101 0000 0011 0011 ---- 110 11111
-+UZP2            0.00 1110 .. 0 ..... 0 101 10 ..... .....   @qrrr_e
+ SB              1101 0101 0000 0011 0011 0000 111 11111
-+TRN1            0.00 1110 .. 0 ..... 0 010 10 ..... .....   @qrrr_e
 +TRN2            0.00 1110 .. 0 ..... 0 110 10 ..... .....   @qrrr_e
 +ZIP1            0.00 1110 .. 0 ..... 0 011 10 ..... .....   @qrrr_e
 +ZIP2            0.00 1110 .. 0 ..... 0 111 10 ..... .....   @qrrr_e
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_TBL_TBX(DisasContext *s, arg_TBL_TBX *a)
+@@ -XXX,XX +XXX,XX @@ static bool trans_DSB_DMB(DisasContext *s, arg_DSB_DMB *a)
      return true;
  }
-+typedef int simd_permute_idx_fn(int i, int part, int elements);
++static bool trans_DSB_nXS(DisasContext *s, arg_DSB_nXS *a)
 +
 +static bool do_simd_permute(DisasContext *s, arg_qrrr_e *a,
 +                            simd_permute_idx_fn *fn, int part)
 +{
-+    MemOp esz = a->esz;
++    if (!dc_isar_feature(aa64_xs, s)) {
 +    int datasize = a->q ? 16 : 8;
 +    int elements = datasize >> esz;
 +    TCGv_i64 tcg_res[2], tcg_ele;
 +
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
-+    if (!fp_access_check(s)) {
++    tcg_gen_mb(TCG_BAR_SC | TCG_MO_ALL);
 +        return true;
 +    }
 +
 +    tcg_res[0] = tcg_temp_new_i64();
 +    tcg_res[1] = a->q ? tcg_temp_new_i64() : NULL;
 +    tcg_ele = tcg_temp_new_i64();
 +
 +    for (int i = 0; i < elements; i++) {
 +        int o, w, idx;
 +
 +        idx = fn(i, part, elements);
 +        read_vec_element(s, tcg_ele, (idx & elements ? a->rm : a->rn),
 +                         idx & (elements - 1), esz);
 +
 +        w = (i << (esz + 3)) / 64;
 +        o = (i << (esz + 3)) % 64;
 +        if (o == 0) {
 +            tcg_gen_mov_i64(tcg_res[w], tcg_ele);
 +        } else {
 +            tcg_gen_deposit_i64(tcg_res[w], tcg_res[w], tcg_ele, o, 8 << esz);
 +        }
 +    }
 +
 +    for (int i = a->q; i >= 0; --i) {
 +        write_vec_element(s, tcg_res[i], a->rd, i, MO_64);
 +    }
 +    clear_vec_high(s, a->q, a->rd);
 +    return true;
 +}
 +
-+static int permute_load_uzp(int i, int part, int elements)
+ static bool trans_ISB(DisasContext *s, arg_ISB *a)
-+{
+ {
-+    return 2 * i + part;
+     /*
 +}
 +
 +TRANS(UZP1, do_simd_permute, a, permute_load_uzp, 0)
 +TRANS(UZP2, do_simd_permute, a, permute_load_uzp, 1)
 +
 +static int permute_load_trn(int i, int part, int elements)
 +{
 +    return (i & 1) * elements + (i & ~1) + part;
 +}
 +
 +TRANS(TRN1, do_simd_permute, a, permute_load_trn, 0)
 +TRANS(TRN2, do_simd_permute, a, permute_load_trn, 1)
 +
 +static int permute_load_zip(int i, int part, int elements)
 +{
 +    return (i & 1) * elements + ((part * elements + i) >> 1);
 +}
 +
 +TRANS(ZIP1, do_simd_permute, a, permute_load_zip, 0)
 +TRANS(ZIP2, do_simd_permute, a, permute_load_zip, 1)
 +
  /*
   * Cryptographic AES, SHA, SHA512
   */
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
      }
  }
 -/* ZIP/UZP/TRN
 - *   31  30 29         24 23  22  21 20   16 15 14 12 11 10 9    5 4    0
 - * +---+---+-------------+------+---+------+---+------------------+------+
 - * | 0 | Q | 0 0 1 1 1 0 | size | 0 |  Rm  | 0 | opc | 1 0 |  Rn  |  Rd  |
 - * +---+---+-------------+------+---+------+---+------------------+------+
 - */
 -static void disas_simd_zip_trn(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rm = extract32(insn, 16, 5);
 -    int size = extract32(insn, 22, 2);
 -    /* opc field bits [1:0] indicate ZIP/UZP/TRN;
 -     * bit 2 indicates 1 vs 2 variant of the insn.
 -     */
 -    int opcode = extract32(insn, 12, 2);
 -    bool part = extract32(insn, 14, 1);
 -    bool is_q = extract32(insn, 30, 1);
 -    int esize = 8 << size;
 -    int i;
 -    int datasize = is_q ? 128 : 64;
 -    int elements = datasize / esize;
 -    TCGv_i64 tcg_res[2], tcg_ele;
 -
 -    if (opcode == 0 || (size == 3 && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    tcg_res[0] = tcg_temp_new_i64();
 -    tcg_res[1] = is_q ? tcg_temp_new_i64() : NULL;
 -    tcg_ele = tcg_temp_new_i64();
 -
 -    for (i = 0; i < elements; i++) {
 -        int o, w;
 -
 -        switch (opcode) {
 -        case 1: /* UZP1/2 */
 -        {
 -            int midpoint = elements / 2;
 -            if (i < midpoint) {
 -                read_vec_element(s, tcg_ele, rn, 2 * i + part, size);
 -            } else {
 -                read_vec_element(s, tcg_ele, rm,
 -                                 2 * (i - midpoint) + part, size);
 -            }
 -            break;
 -        }
 -        case 2: /* TRN1/2 */
 -            if (i & 1) {
 -                read_vec_element(s, tcg_ele, rm, (i & ~1) + part, size);
 -            } else {
 -                read_vec_element(s, tcg_ele, rn, (i & ~1) + part, size);
 -            }
 -            break;
 -        case 3: /* ZIP1/2 */
 -        {
 -            int base = part * elements / 2;
 -            if (i & 1) {
 -                read_vec_element(s, tcg_ele, rm, base + (i >> 1), size);
 -            } else {
 -                read_vec_element(s, tcg_ele, rn, base + (i >> 1), size);
 -            }
 -            break;
 -        }
 -        default:
 -            g_assert_not_reached();
 -        }
 -
 -        w = (i * esize) / 64;
 -        o = (i * esize) % 64;
 -        if (o == 0) {
 -            tcg_gen_mov_i64(tcg_res[w], tcg_ele);
 -        } else {
 -            tcg_gen_shli_i64(tcg_ele, tcg_ele, o);
 -            tcg_gen_or_i64(tcg_res[w], tcg_res[w], tcg_ele);
 -        }
 -    }
 -
 -    for (i = 0; i <= is_q; ++i) {
 -        write_vec_element(s, tcg_res[i], rd, i, MO_64);
 -    }
 -    clear_vec_high(s, is_q, rd);
 -}
 -
  /*
   * do_reduction_op helper
   *
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
      { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
      { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
 -    { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
      { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
 --
 .34.1

-[PULL 09/38] target/arm: Simplify do_reduction_op
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Use simple shift and add instead of ctpop, ctz, shift and mask.
-Unlike SVE, there is no predicate to disable elements.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-10-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/translate-a64.c | 40 +++++++++++-----------------------
-file changed, 13 insertions(+), 27 deletions(-)
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
-  * important for correct NaN propagation that we do these
-  * operations in exactly the order specified by the pseudocode.
-  *
-- * This is a recursive function, TCG temps should be freed by the
-- * calling function once it is done with the values.
-+ * This is a recursive function.
-  */
- static TCGv_i32 do_reduction_op(DisasContext *s, int fpopcode, int rn,
--                                int esize, int size, int vmap, TCGv_ptr fpst)
-+                                MemOp esz, int ebase, int ecount, TCGv_ptr fpst)
- {
--    if (esize == size) {
--        int element;
--        MemOp msize = esize == 16 ? MO_16 : MO_32;
--        TCGv_i32 tcg_elem;
--
--        /* We should have one register left here */
--        assert(ctpop8(vmap) == 1);
--        element = ctz32(vmap);
--        assert(element < 8);
--
--        tcg_elem = tcg_temp_new_i32();
--        read_vec_element_i32(s, tcg_elem, rn, element, msize);
-+    if (ecount == 1) {
-+        TCGv_i32 tcg_elem = tcg_temp_new_i32();
-+        read_vec_element_i32(s, tcg_elem, rn, ebase, esz);
-         return tcg_elem;
-     } else {
--        int bits = size / 2;
--        int shift = ctpop8(vmap) / 2;
--        int vmap_lo = (vmap >> shift) & vmap;
--        int vmap_hi = (vmap & ~vmap_lo);
-+        int half = ecount >> 1;
-         TCGv_i32 tcg_hi, tcg_lo, tcg_res;
--        tcg_hi = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_hi, fpst);
--        tcg_lo = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_lo, fpst);
-+        tcg_hi = do_reduction_op(s, fpopcode, rn, esz,
-+                                 ebase + half, half, fpst);
-+        tcg_lo = do_reduction_op(s, fpopcode, rn, esz,
-+                                 ebase, half, fpst);
-         tcg_res = tcg_temp_new_i32();
-         switch (fpopcode) {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-     bool is_u = extract32(insn, 29, 1);
-     bool is_fp = false;
-     bool is_min = false;
--    int esize;
-     int elements;
-     int i;
-     TCGv_i64 tcg_res, tcg_elt;
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-         return;
-     }
--    esize = 8 << size;
--    elements = (is_q ? 128 : 64) / esize;
-+    elements = (is_q ? 16 : 8) >> size;
-     tcg_res = tcg_temp_new_i64();
-     tcg_elt = tcg_temp_new_i64();
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-          */
-         TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-         int fpopcode = opcode | is_min << 4 | is_u << 5;
--        int vmap = (1 << elements) - 1;
--        TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, esize,
--                                             (is_q ? 128 : 64), vmap, fpst);
-+        TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, size,
-+                                             0, elements, fpst);
-         tcg_gen_extu_i32_i64(tcg_res, tcg_res32);
-     }
---
-.34.1

-[PULL 37/38] target/arm: Correct ID_AA64ISAR1_EL1 value for neoverse-v1
+[PULL 16/19] target/arm: Enable FEAT_XS for the max cpu
-The Neoverse-V1 TRM is a bit confused about the layout of the
+From: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
 ID_AA64ISAR1_EL1 register, and so its table 3-6 has the wrong value
 for this ID register.  Trust instead section 3.2.74's list of which
 fields are set.
-This means that we stop incorrectly reporting FEAT_XS as present, and
+Add FEAT_XS feature report value in max cpu's ID_AA64ISAR1 sys register.
 now report the presence of FEAT_BF16.
-Cc: qemu-stable@nongnu.org
+Signed-off-by: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
 Reported-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240917161337.3012188-1-peter.maydell@linaro.org
+Message-id: 20241211144440.2700268-6-peter.maydell@linaro.org
 [PMM: Add entry for FEAT_XS to documentation]
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 ---
- target/arm/tcg/cpu64.c | 2 +-
+ docs/system/arm/emulation.rst | 1 +
-file changed, 1 insertion(+), 1 deletion(-)
+ target/arm/tcg/cpu64.c        | 1 +
 files changed, 2 insertions(+)
+diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
+index XXXXXXX..XXXXXXX 100644
+--- a/docs/system/arm/emulation.rst
++++ b/docs/system/arm/emulation.rst
+@@ -XXX,XX +XXX,XX @@ the following architecture extensions:
+ - FEAT_VMID16 (16-bit VMID)
+ - FEAT_WFxT (WFE and WFI instructions with timeout)
+ - FEAT_XNX (Translation table stage 2 Unprivileged Execute-never)
++- FEAT_XS (XS attribute)
+ For information on the specifics of these extensions, please refer
+ to the `Arm Architecture Reference Manual for A-profile architecture
 diff --git a/target/arm/tcg/cpu64.c b/target/arm/tcg/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/cpu64.c
 +++ b/target/arm/tcg/cpu64.c
-@@ -XXX,XX +XXX,XX @@ static void aarch64_neoverse_v1_initfn(Object *obj)
+@@ -XXX,XX +XXX,XX @@ void aarch64_max_tcg_initfn(Object *obj)
-     cpu->isar.id_aa64dfr0  = 0x000001f210305519ull;
+     t = FIELD_DP64(t, ID_AA64ISAR1, BF16, 2);     /* FEAT_BF16, FEAT_EBF16 */
-     cpu->isar.id_aa64dfr1 = 0x00000000;
+     t = FIELD_DP64(t, ID_AA64ISAR1, DGH, 1);      /* FEAT_DGH */
-     cpu->isar.id_aa64isar0 = 0x1011111110212120ull; /* with FEAT_RNG */
+     t = FIELD_DP64(t, ID_AA64ISAR1, I8MM, 1);     /* FEAT_I8MM */
--    cpu->isar.id_aa64isar1 = 0x0111000001211032ull;
++    t = FIELD_DP64(t, ID_AA64ISAR1, XS, 1);       /* FEAT_XS */
-+    cpu->isar.id_aa64isar1 = 0x0011100001211032ull;
+     cpu->isar.id_aa64isar1 = t;
-     cpu->isar.id_aa64mmfr0 = 0x0000000000101125ull;
-     cpu->isar.id_aa64mmfr1 = 0x0000000010212122ull;
+     t = cpu->isar.id_aa64isar2;
      cpu->isar.id_aa64mmfr2 = 0x0220011102101011ull;
 --
 .34.1

-[PULL 10/38] target/arm: Convert ADDV, *ADDLV, *MAXV, *MINV to decodetree
+[PULL 17/19] tests/tcg/aarch64: add system test for FEAT_XS
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Add system test to make sure FEAT_XS is enabled for max cpu emulation
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+and that QEMU doesn't crash when encountering an NXS instruction
-Message-id: 20240912024114.1097832-11-richard.henderson@linaro.org
+variant.
 Signed-off-by: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20241211144440.2700268-7-peter.maydell@linaro.org
 [PMM: In ISAR field test, mask with 0xf, not 0xff; use < rather
  than an equality test to follow the standard ID register field
  check guidelines]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |  12 +++
+ tests/tcg/aarch64/system/feat-xs.c | 27 +++++++++++++++++++++++++++
- target/arm/tcg/translate-a64.c | 140 ++++++++++++---------------------
+file changed, 27 insertions(+)
-files changed, 61 insertions(+), 91 deletions(-)
+ create mode 100644 tests/tcg/aarch64/system/feat-xs.c
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+diff --git a/tests/tcg/aarch64/system/feat-xs.c b/tests/tcg/aarch64/system/feat-xs.c
-index XXXXXXX..XXXXXXX 100644
+new file mode 100644
---- a/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX
-+++ b/target/arm/tcg/a64.decode
+--- /dev/null
 +++ b/tests/tcg/aarch64/system/feat-xs.c
 @@ -XXX,XX +XXX,XX @@
- @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
- @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
-+@qrr_e          . q:1 ...... esz:2 ...... ...... rn:5 rd:5  &qrr_e
-+
- @qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
- @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
- @qrrr_s         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=2
-@@ -XXX,XX +XXX,XX @@ TRN1            0.00 1110 .. 0 ..... 0 010 10 ..... .....   @qrrr_e
- TRN2            0.00 1110 .. 0 ..... 0 110 10 ..... .....   @qrrr_e
- ZIP1            0.00 1110 .. 0 ..... 0 011 10 ..... .....   @qrrr_e
- ZIP2            0.00 1110 .. 0 ..... 0 111 10 ..... .....   @qrrr_e
-+
-+# Advanced SIMD Across Lanes
-+
-+ADDV            0.00 1110 .. 11000 11011 10 ..... .....     @qrr_e
-+SADDLV          0.00 1110 .. 11000 00011 10 ..... .....     @qrr_e
-+UADDLV          0.10 1110 .. 11000 00011 10 ..... .....     @qrr_e
-+SMAXV           0.00 1110 .. 11000 01010 10 ..... .....     @qrr_e
-+UMAXV           0.10 1110 .. 11000 01010 10 ..... .....     @qrr_e
-+SMINV           0.00 1110 .. 11000 11010 10 ..... .....     @qrr_e
-+UMINV           0.10 1110 .. 11000 11010 10 ..... .....     @qrr_e
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(FNMADD, do_fmadd, a, true, true)
- TRANS(FMSUB, do_fmadd, a, false, true)
- TRANS(FNMSUB, do_fmadd, a, true, false)
 +/*
-+ * Advanced SIMD Across Lanes
++ * FEAT_XS Test
 + *
 + * Copyright (c) 2024 Linaro Ltd
 + *
 + * SPDX-License-Identifier: GPL-2.0-or-later
 + */
 +
-+static bool do_int_reduction(DisasContext *s, arg_qrr_e *a, bool widen,
++#include <minilib.h>
-+                             MemOp src_sign, NeonGenTwo64OpFn *fn)
++#include <stdint.h>
 +
 +int main(void)
 +{
-+    TCGv_i64 tcg_res, tcg_elt;
++    uint64_t isar1;
 +    MemOp src_mop = a->esz | src_sign;
 +    int elements = (a->q ? 16 : 8) >> a->esz;
 +
-+    /* Reject MO_64, and MO_32 without Q: a minimum of 4 elements. */
++    asm volatile ("mrs %0, id_aa64isar1_el1" : "=r"(isar1));
-+    if (elements < 4) {
++    if (((isar1 >> 56) & 0xf) < 1) {
-+        return false;
++        ml_printf("FEAT_XS not supported by CPU");
 +        return 1;
 +    }
-+    if (!fp_access_check(s)) {
++    /* VMALLE1NXS */
-+        return true;
++    asm volatile (".inst 0xd508971f");
-+    }
++    /* VMALLE1OSNXS */
 +    asm volatile (".inst 0xd508911f");
 +
-+    tcg_res = tcg_temp_new_i64();
++    return 0;
 +    tcg_elt = tcg_temp_new_i64();
 +
 +    read_vec_element(s, tcg_res, a->rn, 0, src_mop);
 +    for (int i = 1; i < elements; i++) {
 +        read_vec_element(s, tcg_elt, a->rn, i, src_mop);
 +        fn(tcg_res, tcg_res, tcg_elt);
 +    }
 +
 +    tcg_gen_ext_i64(tcg_res, tcg_res, a->esz + widen);
 +    write_fp_dreg(s, a->rd, tcg_res);
 +    return true;
 +}
-+
-+TRANS(ADDV, do_int_reduction, a, false, 0, tcg_gen_add_i64)
-+TRANS(SADDLV, do_int_reduction, a, true, MO_SIGN, tcg_gen_add_i64)
-+TRANS(UADDLV, do_int_reduction, a, true, 0, tcg_gen_add_i64)
-+TRANS(SMAXV, do_int_reduction, a, false, MO_SIGN, tcg_gen_smax_i64)
-+TRANS(UMAXV, do_int_reduction, a, false, 0, tcg_gen_umax_i64)
-+TRANS(SMINV, do_int_reduction, a, false, MO_SIGN, tcg_gen_smin_i64)
-+TRANS(UMINV, do_int_reduction, a, false, 0, tcg_gen_umin_i64)
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-     int opcode = extract32(insn, 12, 5);
-     bool is_q = extract32(insn, 30, 1);
-     bool is_u = extract32(insn, 29, 1);
--    bool is_fp = false;
-     bool is_min = false;
-     int elements;
--    int i;
--    TCGv_i64 tcg_res, tcg_elt;
-     switch (opcode) {
--    case 0x1b: /* ADDV */
--        if (is_u) {
--            unallocated_encoding(s);
--            return;
--        }
--        /* fall through */
--    case 0x3: /* SADDLV, UADDLV */
--    case 0xa: /* SMAXV, UMAXV */
--    case 0x1a: /* SMINV, UMINV */
--        if (size == 3 || (size == 2 && !is_q)) {
--            unallocated_encoding(s);
--            return;
--        }
--        break;
-     case 0xc: /* FMAXNMV, FMINNMV */
-     case 0xf: /* FMAXV, FMINV */
-         /* Bit 1 of size field encodes min vs max and the actual size
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-          * precision.
-          */
-         is_min = extract32(size, 1, 1);
--        is_fp = true;
-         if (!is_u && dc_isar_feature(aa64_fp16, s)) {
-             size = 1;
-         } else if (!is_u || !is_q || extract32(size, 0, 1)) {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-         }
-         break;
-     default:
-+    case 0x3: /* SADDLV, UADDLV */
-+    case 0xa: /* SMAXV, UMAXV */
-+    case 0x1a: /* SMINV, UMINV */
-+    case 0x1b: /* ADDV */
-         unallocated_encoding(s);
-         return;
-     }
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-     elements = (is_q ? 16 : 8) >> size;
--    tcg_res = tcg_temp_new_i64();
--    tcg_elt = tcg_temp_new_i64();
--
--    /* These instructions operate across all lanes of a vector
--     * to produce a single result. We can guarantee that a 64
--     * bit intermediate is sufficient:
--     *  + for [US]ADDLV the maximum element size is 32 bits, and
--     *    the result type is 64 bits
--     *  + for FMAX*V, FMIN*V, ADDV the intermediate type is the
--     *    same as the element size, which is 32 bits at most
--     * For the integer operations we can choose to work at 64
--     * or 32 bits and truncate at the end; for simplicity
--     * we use 64 bits always. The floating point
--     * ops do require 32 bit intermediates, though.
--     */
--    if (!is_fp) {
--        read_vec_element(s, tcg_res, rn, 0, size | (is_u ? 0 : MO_SIGN));
--
--        for (i = 1; i < elements; i++) {
--            read_vec_element(s, tcg_elt, rn, i, size | (is_u ? 0 : MO_SIGN));
--
--            switch (opcode) {
--            case 0x03: /* SADDLV / UADDLV */
--            case 0x1b: /* ADDV */
--                tcg_gen_add_i64(tcg_res, tcg_res, tcg_elt);
--                break;
--            case 0x0a: /* SMAXV / UMAXV */
--                if (is_u) {
--                    tcg_gen_umax_i64(tcg_res, tcg_res, tcg_elt);
--                } else {
--                    tcg_gen_smax_i64(tcg_res, tcg_res, tcg_elt);
--                }
--                break;
--            case 0x1a: /* SMINV / UMINV */
--                if (is_u) {
--                    tcg_gen_umin_i64(tcg_res, tcg_res, tcg_elt);
--                } else {
--                    tcg_gen_smin_i64(tcg_res, tcg_res, tcg_elt);
--                }
--                break;
--            default:
--                g_assert_not_reached();
--            }
--
--        }
--    } else {
-+    {
-         /* Floating point vector reduction ops which work across 32
-          * bit (single) or 16 bit (half-precision) intermediates.
-          * Note that correct NaN propagation requires that we do these
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-          */
-         TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-         int fpopcode = opcode | is_min << 4 | is_u << 5;
--        TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, size,
--                                             0, elements, fpst);
--        tcg_gen_extu_i32_i64(tcg_res, tcg_res32);
-+        TCGv_i32 tcg_res = do_reduction_op(s, fpopcode, rn, size,
-+                                           0, elements, fpst);
-+        write_fp_sreg(s, rd, tcg_res);
-     }
--
--    /* Now truncate the result to the width required for the final output */
--    if (opcode == 0x03) {
--        /* SADDLV, UADDLV: result is 2*esize */
--        size++;
--    }
--
--    switch (size) {
--    case 0:
--        tcg_gen_ext8u_i64(tcg_res, tcg_res);
--        break;
--    case 1:
--        tcg_gen_ext16u_i64(tcg_res, tcg_res);
--        break;
--    case 2:
--        tcg_gen_ext32u_i64(tcg_res, tcg_res);
--        break;
--    case 3:
--        break;
--    default:
--        g_assert_not_reached();
--    }
--
--    write_fp_dreg(s, rd, tcg_res);
- }
- /* AdvSIMD modified immediate
 --
 .34.1

-[PULL 11/38] target/arm: Convert FMAXNMV, FMINNMV, FMAXV, FMINV to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-12-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      |  14 +++
- target/arm/tcg/translate-a64.c | 176 ++++++++++-----------------------
-files changed, 67 insertions(+), 123 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@
- @rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
- @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
-+@rr_q1e2        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=2
- @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
- @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
- @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
- @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
-+@qrr_h          . q:1 ...... .. ...... ...... rn:5 rd:5  &qrr_e esz=1
- @qrr_e          . q:1 ...... esz:2 ...... ...... rn:5 rd:5  &qrr_e
- @qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
-@@ -XXX,XX +XXX,XX @@ SMAXV           0.00 1110 .. 11000 01010 10 ..... .....     @qrr_e
- UMAXV           0.10 1110 .. 11000 01010 10 ..... .....     @qrr_e
- SMINV           0.00 1110 .. 11000 11010 10 ..... .....     @qrr_e
- UMINV           0.10 1110 .. 11000 11010 10 ..... .....     @qrr_e
-+
-+FMAXNMV_h       0.00 1110 00 11000 01100 10 ..... .....     @qrr_h
-+FMAXNMV_s       0110 1110 00 11000 01100 10 ..... .....     @rr_q1e2
-+
-+FMINNMV_h       0.00 1110 10 11000 01100 10 ..... .....     @qrr_h
-+FMINNMV_s       0110 1110 10 11000 01100 10 ..... .....     @rr_q1e2
-+
-+FMAXV_h         0.00 1110 00 11000 01111 10 ..... .....     @qrr_h
-+FMAXV_s         0110 1110 00 11000 01111 10 ..... .....     @rr_q1e2
-+
-+FMINV_h         0.00 1110 10 11000 01111 10 ..... .....     @qrr_h
-+FMINV_s         0110 1110 10 11000 01111 10 ..... .....     @rr_q1e2
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(UMAXV, do_int_reduction, a, false, 0, tcg_gen_umax_i64)
- TRANS(SMINV, do_int_reduction, a, false, MO_SIGN, tcg_gen_smin_i64)
- TRANS(UMINV, do_int_reduction, a, false, 0, tcg_gen_umin_i64)
-+/*
-+ * do_fp_reduction helper
-+ *
-+ * This mirrors the Reduce() pseudocode in the ARM ARM. It is
-+ * important for correct NaN propagation that we do these
-+ * operations in exactly the order specified by the pseudocode.
-+ *
-+ * This is a recursive function.
-+ */
-+static TCGv_i32 do_reduction_op(DisasContext *s, int rn, MemOp esz,
-+                                int ebase, int ecount, TCGv_ptr fpst,
-+                                NeonGenTwoSingleOpFn *fn)
-+{
-+    if (ecount == 1) {
-+        TCGv_i32 tcg_elem = tcg_temp_new_i32();
-+        read_vec_element_i32(s, tcg_elem, rn, ebase, esz);
-+        return tcg_elem;
-+    } else {
-+        int half = ecount >> 1;
-+        TCGv_i32 tcg_hi, tcg_lo, tcg_res;
-+
-+        tcg_hi = do_reduction_op(s, rn, esz, ebase + half, half, fpst, fn);
-+        tcg_lo = do_reduction_op(s, rn, esz, ebase, half, fpst, fn);
-+        tcg_res = tcg_temp_new_i32();
-+
-+        fn(tcg_res, tcg_lo, tcg_hi, fpst);
-+        return tcg_res;
-+    }
-+}
-+
-+static bool do_fp_reduction(DisasContext *s, arg_qrr_e *a,
-+                              NeonGenTwoSingleOpFn *fn)
-+{
-+    if (fp_access_check(s)) {
-+        MemOp esz = a->esz;
-+        int elts = (a->q ? 16 : 8) >> esz;
-+        TCGv_ptr fpst = fpstatus_ptr(esz == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-+        TCGv_i32 res = do_reduction_op(s, a->rn, esz, 0, elts, fpst, fn);
-+        write_fp_sreg(s, a->rd, res);
-+    }
-+    return true;
-+}
-+
-+TRANS_FEAT(FMAXNMV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_maxnumh)
-+TRANS_FEAT(FMINNMV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_minnumh)
-+TRANS_FEAT(FMAXV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_maxh)
-+TRANS_FEAT(FMINV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_minh)
-+
-+TRANS(FMAXNMV_s, do_fp_reduction, a, gen_helper_vfp_maxnums)
-+TRANS(FMINNMV_s, do_fp_reduction, a, gen_helper_vfp_minnums)
-+TRANS(FMAXV_s, do_fp_reduction, a, gen_helper_vfp_maxs)
-+TRANS(FMINV_s, do_fp_reduction, a, gen_helper_vfp_mins)
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
-     }
- }
--/*
-- * do_reduction_op helper
-- *
-- * This mirrors the Reduce() pseudocode in the ARM ARM. It is
-- * important for correct NaN propagation that we do these
-- * operations in exactly the order specified by the pseudocode.
-- *
-- * This is a recursive function.
-- */
--static TCGv_i32 do_reduction_op(DisasContext *s, int fpopcode, int rn,
--                                MemOp esz, int ebase, int ecount, TCGv_ptr fpst)
--{
--    if (ecount == 1) {
--        TCGv_i32 tcg_elem = tcg_temp_new_i32();
--        read_vec_element_i32(s, tcg_elem, rn, ebase, esz);
--        return tcg_elem;
--    } else {
--        int half = ecount >> 1;
--        TCGv_i32 tcg_hi, tcg_lo, tcg_res;
--
--        tcg_hi = do_reduction_op(s, fpopcode, rn, esz,
--                                 ebase + half, half, fpst);
--        tcg_lo = do_reduction_op(s, fpopcode, rn, esz,
--                                 ebase, half, fpst);
--        tcg_res = tcg_temp_new_i32();
--
--        switch (fpopcode) {
--        case 0x0c: /* fmaxnmv half-precision */
--            gen_helper_advsimd_maxnumh(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        case 0x0f: /* fmaxv half-precision */
--            gen_helper_advsimd_maxh(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        case 0x1c: /* fminnmv half-precision */
--            gen_helper_advsimd_minnumh(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        case 0x1f: /* fminv half-precision */
--            gen_helper_advsimd_minh(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        case 0x2c: /* fmaxnmv */
--            gen_helper_vfp_maxnums(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        case 0x2f: /* fmaxv */
--            gen_helper_vfp_maxs(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        case 0x3c: /* fminnmv */
--            gen_helper_vfp_minnums(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        case 0x3f: /* fminv */
--            gen_helper_vfp_mins(tcg_res, tcg_lo, tcg_hi, fpst);
--            break;
--        default:
--            g_assert_not_reached();
--        }
--        return tcg_res;
--    }
--}
--
--/* AdvSIMD across lanes
-- *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
-- * +---+---+---+-----------+------+-----------+--------+-----+------+------+
-- * | 0 | Q | U | 0 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
-- * +---+---+---+-----------+------+-----------+--------+-----+------+------+
-- */
--static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
--{
--    int rd = extract32(insn, 0, 5);
--    int rn = extract32(insn, 5, 5);
--    int size = extract32(insn, 22, 2);
--    int opcode = extract32(insn, 12, 5);
--    bool is_q = extract32(insn, 30, 1);
--    bool is_u = extract32(insn, 29, 1);
--    bool is_min = false;
--    int elements;
--
--    switch (opcode) {
--    case 0xc: /* FMAXNMV, FMINNMV */
--    case 0xf: /* FMAXV, FMINV */
--        /* Bit 1 of size field encodes min vs max and the actual size
--         * depends on the encoding of the U bit. If not set (and FP16
--         * enabled) then we do half-precision float instead of single
--         * precision.
--         */
--        is_min = extract32(size, 1, 1);
--        if (!is_u && dc_isar_feature(aa64_fp16, s)) {
--            size = 1;
--        } else if (!is_u || !is_q || extract32(size, 0, 1)) {
--            unallocated_encoding(s);
--            return;
--        } else {
--            size = 2;
--        }
--        break;
--    default:
--    case 0x3: /* SADDLV, UADDLV */
--    case 0xa: /* SMAXV, UMAXV */
--    case 0x1a: /* SMINV, UMINV */
--    case 0x1b: /* ADDV */
--        unallocated_encoding(s);
--        return;
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    elements = (is_q ? 16 : 8) >> size;
--
--    {
--        /* Floating point vector reduction ops which work across 32
--         * bit (single) or 16 bit (half-precision) intermediates.
--         * Note that correct NaN propagation requires that we do these
--         * operations in exactly the order specified by the pseudocode.
--         */
--        TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
--        int fpopcode = opcode | is_min << 4 | is_u << 5;
--        TCGv_i32 tcg_res = do_reduction_op(s, fpopcode, rn, size,
--                                           0, elements, fpst);
--        write_fp_sreg(s, rd, tcg_res);
--    }
--}
--
- /* AdvSIMD modified immediate
-  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
-  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
- static const AArch64DecodeTable data_proc_simd[] = {
-     /* pattern  ,  mask     ,  fn                        */
-     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
--    { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
-     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
-     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
-     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
---
-.34.1

-[PULL 12/38] target/arm: Convert FMOVI (scalar, immediate) to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-13-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      |  4 ++
- target/arm/tcg/translate-a64.c | 74 ++++++++++++----------------------
-files changed, 30 insertions(+), 48 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ FMAXV_s         0110 1110 00 11000 01111 10 ..... .....     @rr_q1e2
- FMINV_h         0.00 1110 10 11000 01111 10 ..... .....     @qrr_h
- FMINV_s         0110 1110 10 11000 01111 10 ..... .....     @rr_q1e2
-+
-+# Floating-point Immediate
-+
-+FMOVI_s         0001 1110 .. 1 imm:8 100 00000 rd:5         esz=%esz_hsd
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(FMINNMV_s, do_fp_reduction, a, gen_helper_vfp_minnums)
- TRANS(FMAXV_s, do_fp_reduction, a, gen_helper_vfp_maxs)
- TRANS(FMINV_s, do_fp_reduction, a, gen_helper_vfp_mins)
-+/*
-+ * Floating-point Immediate
-+ */
-+
-+static bool trans_FMOVI_s(DisasContext *s, arg_FMOVI_s *a)
-+{
-+    switch (a->esz) {
-+    case MO_32:
-+    case MO_64:
-+        break;
-+    case MO_16:
-+        if (!dc_isar_feature(aa64_fp16, s)) {
-+            return false;
-+        }
-+        break;
-+    default:
-+        return false;
-+    }
-+    if (fp_access_check(s)) {
-+        uint64_t imm = vfp_expand_imm(a->esz, a->imm);
-+        write_fp_dreg(s, a->rd, tcg_constant_i64(imm));
-+    }
-+    return true;
-+}
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_fp_1src(DisasContext *s, uint32_t insn)
-     }
- }
--/* Floating point immediate
-- *   31  30  29 28       24 23  22  21 20        13 12   10 9    5 4    0
-- * +---+---+---+-----------+------+---+------------+-------+------+------+
-- * | M | 0 | S | 1 1 1 1 0 | type | 1 |    imm8    | 1 0 0 | imm5 |  Rd  |
-- * +---+---+---+-----------+------+---+------------+-------+------+------+
-- */
--static void disas_fp_imm(DisasContext *s, uint32_t insn)
--{
--    int rd = extract32(insn, 0, 5);
--    int imm5 = extract32(insn, 5, 5);
--    int imm8 = extract32(insn, 13, 8);
--    int type = extract32(insn, 22, 2);
--    int mos = extract32(insn, 29, 3);
--    uint64_t imm;
--    MemOp sz;
--
--    if (mos || imm5) {
--        unallocated_encoding(s);
--        return;
--    }
--
--    switch (type) {
--    case 0:
--        sz = MO_32;
--        break;
--    case 1:
--        sz = MO_64;
--        break;
--    case 3:
--        sz = MO_16;
--        if (dc_isar_feature(aa64_fp16, s)) {
--            break;
--        }
--        /* fallthru */
--    default:
--        unallocated_encoding(s);
--        return;
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    imm = vfp_expand_imm(sz, imm8);
--    write_fp_dreg(s, rd, tcg_constant_i64(imm));
--}
--
- /* Handle floating point <=> fixed point conversions. Note that we can
-  * also deal with fp <=> integer conversions as a special case (scale == 64)
-  * OPTME: consider handling that special case specially or at least skipping
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
-             switch (ctz32(extract32(insn, 12, 4))) {
-             case 0: /* [15:12] == xxx1 */
-                 /* Floating point immediate */
--                disas_fp_imm(s, insn);
-+                unallocated_encoding(s); /* in decodetree */
-                 break;
-             case 1: /* [15:12] == xx10 */
-                 /* Floating point compare */
---
-.34.1

-[PULL 13/38] target/arm: Convert MOVI, FMOV, ORR, BIC (vector immediate) to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-14-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      |   9 +++
- target/arm/tcg/translate-a64.c | 117 ++++++++++++++-------------------
-files changed, 59 insertions(+), 67 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ FMINV_s         0110 1110 10 11000 01111 10 ..... .....     @rr_q1e2
- # Floating-point Immediate
- FMOVI_s         0001 1110 .. 1 imm:8 100 00000 rd:5         esz=%esz_hsd
-+
-+# Advanced SIMD Modified Immediate
-+
-+%abcdefgh       16:3 5:5
-+
-+FMOVI_v_h       0 q:1 00 1111 00000 ... 1111 11 ..... rd:5  %abcdefgh
-+
-+# MOVI, MVNI, ORR, BIC, FMOV are all intermixed via cmode.
-+Vimm            0 q:1 op:1 0 1111 00000 ... cmode:4 01 ..... rd:5 %abcdefgh
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_FMOVI_s(DisasContext *s, arg_FMOVI_s *a)
-     return true;
- }
-+/*
-+ * Advanced SIMD Modified Immediate
-+ */
-+
-+static bool trans_FMOVI_v_h(DisasContext *s, arg_FMOVI_v_h *a)
-+{
-+    if (!dc_isar_feature(aa64_fp16, s)) {
-+        return false;
-+    }
-+    if (fp_access_check(s)) {
-+        tcg_gen_gvec_dup_imm(MO_16, vec_full_reg_offset(s, a->rd),
-+                             a->q ? 16 : 8, vec_full_reg_size(s),
-+                             vfp_expand_imm(MO_16, a->abcdefgh));
-+    }
-+    return true;
-+}
-+
-+static void gen_movi(unsigned vece, uint32_t dofs, uint32_t aofs,
-+                     int64_t c, uint32_t oprsz, uint32_t maxsz)
-+{
-+    tcg_gen_gvec_dup_imm(MO_64, dofs, oprsz, maxsz, c);
-+}
-+
-+static bool trans_Vimm(DisasContext *s, arg_Vimm *a)
-+{
-+    GVecGen2iFn *fn;
-+
-+    /* Handle decode of cmode/op here between ORR/BIC/MOVI */
-+    if ((a->cmode & 1) && a->cmode < 12) {
-+        /* For op=1, the imm will be inverted, so BIC becomes AND. */
-+        fn = a->op ? tcg_gen_gvec_andi : tcg_gen_gvec_ori;
-+    } else {
-+        /* There is one unallocated cmode/op combination in this space */
-+        if (a->cmode == 15 && a->op == 1 && a->q == 0) {
-+            return false;
-+        }
-+        fn = gen_movi;
-+    }
-+
-+    if (fp_access_check(s)) {
-+        uint64_t imm = asimd_imm_const(a->abcdefgh, a->cmode, a->op);
-+        gen_gvec_fn2i(s, a->q, a->rd, a->rd, imm, fn, MO_64);
-+    }
-+    return true;
-+}
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
-     }
- }
--/* AdvSIMD modified immediate
-- *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
-- * +---+---+----+---------------------+-----+-------+----+---+-------+------+
-- * | 0 | Q | op | 0 1 1 1 1 0 0 0 0 0 | abc | cmode | o2 | 1 | defgh |  Rd  |
-- * +---+---+----+---------------------+-----+-------+----+---+-------+------+
-- *
-- * There are a number of operations that can be carried out here:
-- *   MOVI - move (shifted) imm into register
-- *   MVNI - move inverted (shifted) imm into register
-- *   ORR  - bitwise OR of (shifted) imm with register
-- *   BIC  - bitwise clear of (shifted) imm with register
-- * With ARMv8.2 we also have:
-- *   FMOV half-precision
-- */
--static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
--{
--    int rd = extract32(insn, 0, 5);
--    int cmode = extract32(insn, 12, 4);
--    int o2 = extract32(insn, 11, 1);
--    uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
--    bool is_neg = extract32(insn, 29, 1);
--    bool is_q = extract32(insn, 30, 1);
--    uint64_t imm = 0;
--
--    if (o2) {
--        if (cmode != 0xf || is_neg) {
--            unallocated_encoding(s);
--            return;
--        }
--        /* FMOV (vector, immediate) - half-precision */
--        if (!dc_isar_feature(aa64_fp16, s)) {
--            unallocated_encoding(s);
--            return;
--        }
--        imm = vfp_expand_imm(MO_16, abcdefgh);
--        /* now duplicate across the lanes */
--        imm = dup_const(MO_16, imm);
--    } else {
--        if (cmode == 0xf && is_neg && !is_q) {
--            unallocated_encoding(s);
--            return;
--        }
--        imm = asimd_imm_const(abcdefgh, cmode, is_neg);
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
--        /* MOVI or MVNI, with MVNI negation handled above.  */
--        tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
--                             vec_full_reg_size(s), imm);
--    } else {
--        /* ORR or BIC, with BIC negation to AND handled above.  */
--        if (is_neg) {
--            gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_andi, MO_64);
--        } else {
--            gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_ori, MO_64);
--        }
--    }
--}
--
- /*
-  * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
-  *
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-     bool is_u = extract32(insn, 29, 1);
-     bool is_q = extract32(insn, 30, 1);
--    /* data_proc_simd[] has sent immh == 0 to disas_simd_mod_imm. */
--    assert(immh != 0);
-+    if (immh == 0) {
-+        unallocated_encoding(s);
-+        return;
-+    }
-     switch (opcode) {
-     case 0x08: /* SRI */
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
- static const AArch64DecodeTable data_proc_simd[] = {
-     /* pattern  ,  mask     ,  fn                        */
-     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
--    /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
--    { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
-     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
-     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
-     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
---
-.34.1

-[PULL 14/38] target/arm: Introduce gen_gvec_sshr, gen_gvec_ushr
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Handle the two special cases within these new
-functions instead of higher in the call stack.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-15-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/translate.h      |  5 +++++
- target/arm/tcg/gengvec.c        | 19 +++++++++++++++++++
- target/arm/tcg/translate-a64.c  | 16 +---------------
- target/arm/tcg/translate-neon.c | 25 ++-----------------------
-files changed, 27 insertions(+), 38 deletions(-)
-diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate.h
-+++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_sqsub_d(TCGv_i64 d, TCGv_i64 q, TCGv_i64 a, TCGv_i64 b);
- void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                        uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_sshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_ushr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+
- void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
- void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/gengvec.c
-+++ b/target/arm/tcg/gengvec.c
-@@ -XXX,XX +XXX,XX @@ GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
- #undef GEN_CMP0
-+void gen_gvec_sshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    /* Signed shift out of range results in all-sign-bits */
-+    shift = MIN(shift, (8 << vece) - 1);
-+    tcg_gen_gvec_sari(vece, rd_ofs, rm_ofs, shift, opr_sz, max_sz);
-+}
-+
-+void gen_gvec_ushr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    /* Unsigned shift out of range results in all-zero-bits */
-+    if (shift >= (8 << vece)) {
-+        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
-+    } else {
-+        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift, opr_sz, max_sz);
-+    }
-+}
-+
- static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
- {
-     tcg_gen_vec_sar8i_i64(a, a, shift);
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
-         break;
-     case 0x00: /* SSHR / USHR */
--        if (is_u) {
--            if (shift == 8 << size) {
--                /* Shift count the same size as element size produces zero.  */
--                tcg_gen_gvec_dup_imm(size, vec_full_reg_offset(s, rd),
--                                     is_q ? 16 : 8, vec_full_reg_size(s), 0);
--                return;
--            }
--            gvec_fn = tcg_gen_gvec_shri;
--        } else {
--            /* Shift count the same size as element size produces all sign.  */
--            if (shift == 8 << size) {
--                shift -= 1;
--            }
--            gvec_fn = tcg_gen_gvec_sari;
--        }
-+        gvec_fn = is_u ? gen_gvec_ushr : gen_gvec_sshr;
-         break;
-     case 0x04: /* SRSHR / URSHR (rounding) */
-diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-neon.c
-+++ b/target/arm/tcg/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ DO_2SH(VRSHR_S, gen_gvec_srshr)
- DO_2SH(VRSHR_U, gen_gvec_urshr)
- DO_2SH(VRSRA_S, gen_gvec_srsra)
- DO_2SH(VRSRA_U, gen_gvec_ursra)
--
--static bool trans_VSHR_S_2sh(DisasContext *s, arg_2reg_shift *a)
--{
--    /* Signed shift out of range results in all-sign-bits */
--    a->shift = MIN(a->shift, (8 << a->size) - 1);
--    return do_vector_2sh(s, a, tcg_gen_gvec_sari);
--}
--
--static void gen_zero_rd_2sh(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
--                            int64_t shift, uint32_t oprsz, uint32_t maxsz)
--{
--    tcg_gen_gvec_dup_imm(vece, rd_ofs, oprsz, maxsz, 0);
--}
--
--static bool trans_VSHR_U_2sh(DisasContext *s, arg_2reg_shift *a)
--{
--    /* Shift out of range is architecturally valid and results in zero. */
--    if (a->shift >= (8 << a->size)) {
--        return do_vector_2sh(s, a, gen_zero_rd_2sh);
--    } else {
--        return do_vector_2sh(s, a, tcg_gen_gvec_shri);
--    }
--}
-+DO_2SH(VSHR_S, gen_gvec_sshr)
-+DO_2SH(VSHR_U, gen_gvec_ushr)
- static bool do_2shift_env_64(DisasContext *s, arg_2reg_shift *a,
-                              NeonGenTwo64OpEnvFn *fn)
---
-.34.1

-[PULL 16/38] target/arm: Convert handle_vec_simd_shri to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-This includes SSHR, USHR, SSRA, USRA, SRSHR, URSHR, SRSRA, URSRA, SRI.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-17-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      | 63 ++++++++++++++++++++++++-
- target/arm/tcg/translate-a64.c | 86 +++++++++++-----------------------
-files changed, 89 insertions(+), 60 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@
- &rrx_e          rd rn rm idx esz
- &rrrr_e         rd rn rm ra esz
- &qrr_e          q rd rn esz
-+&qrri_e         q rd rn imm esz
- &qrrr_e         q rd rn rm esz
- &qrrx_e         q rd rn rm idx esz
- &qrrrr_e        q rd rn rm ra esz
-@@ -XXX,XX +XXX,XX @@ FMINV_s         0110 1110 10 11000 01111 10 ..... .....     @rr_q1e2
- FMOVI_s         0001 1110 .. 1 imm:8 100 00000 rd:5         esz=%esz_hsd
--# Advanced SIMD Modified Immediate
-+# Advanced SIMD Modified Immediate / Shift by Immediate
- %abcdefgh       16:3 5:5
-+# Right shifts are encoded as N - shift, where N is the element size in bits.
-+%neon_rshift_i6 16:6 !function=rsub_64
-+%neon_rshift_i5 16:5 !function=rsub_32
-+%neon_rshift_i4 16:4 !function=rsub_16
-+%neon_rshift_i3 16:3 !function=rsub_8
-+
-+@q_shri_b       . q:1 .. ..... 0001 ... ..... . rn:5 rd:5   \
-+                &qrri_e esz=0 imm=%neon_rshift_i3
-+@q_shri_h       . q:1 .. ..... 001 .... ..... . rn:5 rd:5   \
-+                &qrri_e esz=1 imm=%neon_rshift_i4
-+@q_shri_s       . q:1 .. ..... 01 ..... ..... . rn:5 rd:5   \
-+                &qrri_e esz=2 imm=%neon_rshift_i5
-+@q_shri_d       . 1 .. ..... 1 ...... ..... . rn:5 rd:5     \
-+                &qrri_e esz=3 imm=%neon_rshift_i6 q=1
-+
- FMOVI_v_h       0 q:1 00 1111 00000 ... 1111 11 ..... rd:5  %abcdefgh
- # MOVI, MVNI, ORR, BIC, FMOV are all intermixed via cmode.
- Vimm            0 q:1 op:1 0 1111 00000 ... cmode:4 01 ..... rd:5 %abcdefgh
-+
-+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_b
-+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_h
-+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_s
-+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_d
-+
-+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_b
-+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_h
-+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_s
-+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_d
-+
-+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_b
-+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_h
-+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_s
-+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_d
-+
-+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_b
-+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_h
-+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_s
-+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_d
-+
-+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_b
-+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_h
-+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_s
-+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_d
-+
-+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_b
-+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_h
-+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_s
-+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_d
-+
-+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_b
-+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_h
-+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_s
-+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_d
-+
-+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_b
-+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_h
-+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_s
-+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_d
-+
-+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_b
-+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_h
-+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_s
-+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_d
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_Vimm(DisasContext *s, arg_Vimm *a)
-     return true;
- }
-+/*
-+ * Advanced SIMD Shift by Immediate
-+ */
-+
-+static bool do_vec_shift_imm(DisasContext *s, arg_qrri_e *a, GVecGen2iFn *fn)
-+{
-+    if (fp_access_check(s)) {
-+        gen_gvec_fn2i(s, a->q, a->rd, a->rn, a->imm, fn, a->esz);
-+    }
-+    return true;
-+}
-+
-+TRANS(SSHR_v, do_vec_shift_imm, a, gen_gvec_sshr)
-+TRANS(USHR_v, do_vec_shift_imm, a, gen_gvec_ushr)
-+TRANS(SSRA_v, do_vec_shift_imm, a, gen_gvec_ssra)
-+TRANS(USRA_v, do_vec_shift_imm, a, gen_gvec_usra)
-+TRANS(SRSHR_v, do_vec_shift_imm, a, gen_gvec_srshr)
-+TRANS(URSHR_v, do_vec_shift_imm, a, gen_gvec_urshr)
-+TRANS(SRSRA_v, do_vec_shift_imm, a, gen_gvec_srsra)
-+TRANS(URSRA_v, do_vec_shift_imm, a, gen_gvec_ursra)
-+TRANS(SRI_v, do_vec_shift_imm, a, gen_gvec_sri)
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
-     }
- }
--/* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
--static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
--                                 int immh, int immb, int opcode, int rn, int rd)
--{
--    int size = 32 - clz32(immh) - 1;
--    int immhb = immh << 3 | immb;
--    int shift = 2 * (8 << size) - immhb;
--    GVecGen2iFn *gvec_fn;
--
--    if (extract32(immh, 3, 1) && !is_q) {
--        unallocated_encoding(s);
--        return;
--    }
--    tcg_debug_assert(size <= 3);
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    switch (opcode) {
--    case 0x02: /* SSRA / USRA (accumulate) */
--        gvec_fn = is_u ? gen_gvec_usra : gen_gvec_ssra;
--        break;
--
--    case 0x08: /* SRI */
--        gvec_fn = gen_gvec_sri;
--        break;
--
--    case 0x00: /* SSHR / USHR */
--        gvec_fn = is_u ? gen_gvec_ushr : gen_gvec_sshr;
--        break;
--
--    case 0x04: /* SRSHR / URSHR (rounding) */
--        gvec_fn = is_u ? gen_gvec_urshr : gen_gvec_srshr;
--        break;
--
--    case 0x06: /* SRSRA / URSRA (accum + rounding) */
--        gvec_fn = is_u ? gen_gvec_ursra : gen_gvec_srsra;
--        break;
--
--    default:
--        g_assert_not_reached();
--    }
--
--    gen_gvec_fn2i(s, is_q, rd, rn, shift, gvec_fn, size);
--}
--
- /* SHL/SLI - Vector shift left */
- static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
-                                  int immh, int immb, int opcode, int rn, int rd)
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-     }
-     switch (opcode) {
--    case 0x08: /* SRI */
--        if (!is_u) {
--            unallocated_encoding(s);
--            return;
--        }
--        /* fall through */
--    case 0x00: /* SSHR / USHR */
--    case 0x02: /* SSRA / USRA (accumulate) */
--    case 0x04: /* SRSHR / URSHR (rounding) */
--    case 0x06: /* SRSRA / URSRA (accum + rounding) */
--        handle_vec_simd_shri(s, is_q, is_u, immh, immb, opcode, rn, rd);
--        break;
-     case 0x0a: /* SHL / SLI */
-         handle_vec_simd_shli(s, is_q, is_u, immh, immb, opcode, rn, rd);
-         break;
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-         handle_simd_shift_fpint_conv(s, false, is_q, is_u, immh, immb, rn, rd);
-         return;
-     default:
-+    case 0x00: /* SSHR / USHR */
-+    case 0x02: /* SSRA / USRA (accumulate) */
-+    case 0x04: /* SRSHR / URSHR (rounding) */
-+    case 0x06: /* SRSRA / URSRA (accum + rounding) */
-+    case 0x08: /* SRI */
-         unallocated_encoding(s);
-         return;
-     }
---
-.34.1

-[PULL 17/38] target/arm: Convert handle_vec_simd_shli to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-This includes SHL and SLI.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-18-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      | 15 +++++++++++++++
- target/arm/tcg/translate-a64.c | 33 +++------------------------------
-files changed, 18 insertions(+), 30 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ FMOVI_s         0001 1110 .. 1 imm:8 100 00000 rd:5         esz=%esz_hsd
- @q_shri_d       . 1 .. ..... 1 ...... ..... . rn:5 rd:5     \
-                 &qrri_e esz=3 imm=%neon_rshift_i6 q=1
-+@q_shli_b       . q:1 .. ..... 0001 imm:3 ..... . rn:5 rd:5 &qrri_e esz=0
-+@q_shli_h       . q:1 .. ..... 001  imm:4 ..... . rn:5 rd:5 &qrri_e esz=1
-+@q_shli_s       . q:1 .. ..... 01   imm:5 ..... . rn:5 rd:5 &qrri_e esz=2
-+@q_shli_d       . 1   .. ..... 1    imm:6 ..... . rn:5 rd:5 &qrri_e esz=3 q=1
-+
- FMOVI_v_h       0 q:1 00 1111 00000 ... 1111 11 ..... rd:5  %abcdefgh
- # MOVI, MVNI, ORR, BIC, FMOV are all intermixed via cmode.
-@@ -XXX,XX +XXX,XX @@ SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_b
- SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_h
- SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_s
- SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_d
-+
-+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_b
-+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_h
-+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_s
-+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_d
-+
-+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_b
-+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_h
-+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_s
-+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_d
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(URSHR_v, do_vec_shift_imm, a, gen_gvec_urshr)
- TRANS(SRSRA_v, do_vec_shift_imm, a, gen_gvec_srsra)
- TRANS(URSRA_v, do_vec_shift_imm, a, gen_gvec_ursra)
- TRANS(SRI_v, do_vec_shift_imm, a, gen_gvec_sri)
-+TRANS(SHL_v, do_vec_shift_imm, a, tcg_gen_gvec_shli)
-+TRANS(SLI_v, do_vec_shift_imm, a, gen_gvec_sli);
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
-     }
- }
--/* SHL/SLI - Vector shift left */
--static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
--                                 int immh, int immb, int opcode, int rn, int rd)
--{
--    int size = 32 - clz32(immh) - 1;
--    int immhb = immh << 3 | immb;
--    int shift = immhb - (8 << size);
--
--    /* Range of size is limited by decode: immh is a non-zero 4 bit field */
--    assert(size >= 0 && size <= 3);
--
--    if (extract32(immh, 3, 1) && !is_q) {
--        unallocated_encoding(s);
--        return;
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    if (insert) {
--        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sli, size);
--    } else {
--        gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
--    }
--}
--
- /* USHLL/SHLL - Vector shift left with widening */
- static void handle_vec_simd_wshli(DisasContext *s, bool is_q, bool is_u,
-                                  int immh, int immb, int opcode, int rn, int rd)
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-     }
-     switch (opcode) {
--    case 0x0a: /* SHL / SLI */
--        handle_vec_simd_shli(s, is_q, is_u, immh, immb, opcode, rn, rd);
--        break;
-     case 0x10: /* SHRN */
-     case 0x11: /* RSHRN / SQRSHRUN */
-         if (is_u) {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-     case 0x04: /* SRSHR / URSHR (rounding) */
-     case 0x06: /* SRSRA / URSRA (accum + rounding) */
-     case 0x08: /* SRI */
-+    case 0x0a: /* SHL / SLI */
-         unallocated_encoding(s);
-         return;
-     }
---
-.34.1

-[PULL 18/38] target/arm: Use {, s}extract in handle_vec_simd_wshli
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Combine the right shift with the extension via
-the tcg extract operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-19-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/translate-a64.c | 7 +++++--
-file changed, 5 insertions(+), 2 deletions(-)
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_wshli(DisasContext *s, bool is_q, bool is_u,
-     read_vec_element(s, tcg_rn, rn, is_q ? 1 : 0, MO_64);
-     for (i = 0; i < elements; i++) {
--        tcg_gen_shri_i64(tcg_rd, tcg_rn, i * esize);
--        ext_and_shift_reg(tcg_rd, tcg_rd, size | (!is_u << 2), 0);
-+        if (is_u) {
-+            tcg_gen_extract_i64(tcg_rd, tcg_rn, i * esize, esize);
-+        } else {
-+            tcg_gen_sextract_i64(tcg_rd, tcg_rn, i * esize, esize);
-+        }
-         tcg_gen_shli_i64(tcg_rd, tcg_rd, shift);
-         write_vec_element(s, tcg_rd, rd, i, size + 1);
-     }
---
-.34.1

-[PULL 19/38] target/arm: Convert SSHLL, USHLL to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-20-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      |  8 ++++
- target/arm/tcg/translate-a64.c | 81 ++++++++++++++++------------------
-files changed, 45 insertions(+), 44 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_b
- SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_h
- SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_s
- SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_d
-+
-+SSHLL_v         0.00 11110 .... ... 10100 1 ..... .....     @q_shli_b
-+SSHLL_v         0.00 11110 .... ... 10100 1 ..... .....     @q_shli_h
-+SSHLL_v         0.00 11110 .... ... 10100 1 ..... .....     @q_shli_s
-+
-+USHLL_v         0.10 11110 .... ... 10100 1 ..... .....     @q_shli_b
-+USHLL_v         0.10 11110 .... ... 10100 1 ..... .....     @q_shli_h
-+USHLL_v         0.10 11110 .... ... 10100 1 ..... .....     @q_shli_s
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(SRI_v, do_vec_shift_imm, a, gen_gvec_sri)
- TRANS(SHL_v, do_vec_shift_imm, a, tcg_gen_gvec_shli)
- TRANS(SLI_v, do_vec_shift_imm, a, gen_gvec_sli);
-+static bool do_vec_shift_imm_wide(DisasContext *s, arg_qrri_e *a, bool is_u)
-+{
-+    TCGv_i64 tcg_rn, tcg_rd;
-+    int esz = a->esz;
-+    int esize;
-+
-+    if (!fp_access_check(s)) {
-+        return true;
-+    }
-+
-+    /*
-+     * For the LL variants the store is larger than the load,
-+     * so if rd == rn we would overwrite parts of our input.
-+     * So load everything right now and use shifts in the main loop.
-+     */
-+    tcg_rd = tcg_temp_new_i64();
-+    tcg_rn = tcg_temp_new_i64();
-+    read_vec_element(s, tcg_rn, a->rn, a->q, MO_64);
-+
-+    esize = 8 << esz;
-+    for (int i = 0, elements = 8 >> esz; i < elements; i++) {
-+        if (is_u) {
-+            tcg_gen_extract_i64(tcg_rd, tcg_rn, i * esize, esize);
-+        } else {
-+            tcg_gen_sextract_i64(tcg_rd, tcg_rn, i * esize, esize);
-+        }
-+        tcg_gen_shli_i64(tcg_rd, tcg_rd, a->imm);
-+        write_vec_element(s, tcg_rd, a->rd, i, esz + 1);
-+    }
-+    clear_vec_high(s, true, a->rd);
-+    return true;
-+}
-+
-+TRANS(SSHLL_v, do_vec_shift_imm_wide, a, false)
-+TRANS(USHLL_v, do_vec_shift_imm_wide, a, true)
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
-     }
- }
--/* USHLL/SHLL - Vector shift left with widening */
--static void handle_vec_simd_wshli(DisasContext *s, bool is_q, bool is_u,
--                                 int immh, int immb, int opcode, int rn, int rd)
--{
--    int size = 32 - clz32(immh) - 1;
--    int immhb = immh << 3 | immb;
--    int shift = immhb - (8 << size);
--    int dsize = 64;
--    int esize = 8 << size;
--    int elements = dsize/esize;
--    TCGv_i64 tcg_rn = tcg_temp_new_i64();
--    TCGv_i64 tcg_rd = tcg_temp_new_i64();
--    int i;
--
--    if (size >= 3) {
--        unallocated_encoding(s);
--        return;
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    /* For the LL variants the store is larger than the load,
--     * so if rd == rn we would overwrite parts of our input.
--     * So load everything right now and use shifts in the main loop.
--     */
--    read_vec_element(s, tcg_rn, rn, is_q ? 1 : 0, MO_64);
--
--    for (i = 0; i < elements; i++) {
--        if (is_u) {
--            tcg_gen_extract_i64(tcg_rd, tcg_rn, i * esize, esize);
--        } else {
--            tcg_gen_sextract_i64(tcg_rd, tcg_rn, i * esize, esize);
--        }
--        tcg_gen_shli_i64(tcg_rd, tcg_rd, shift);
--        write_vec_element(s, tcg_rd, rd, i, size + 1);
--    }
--    clear_vec_high(s, true, rd);
--}
--
- /* SHRN/RSHRN - Shift right with narrowing (and potential rounding) */
- static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
-                                  int immh, int immb, int opcode, int rn, int rd)
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-         handle_vec_simd_sqshrn(s, false, is_q, is_u, is_u, immh, immb,
-                                opcode, rn, rd);
-         break;
--    case 0x14: /* SSHLL / USHLL */
--        handle_vec_simd_wshli(s, is_q, is_u, immh, immb, opcode, rn, rd);
--        break;
-     case 0x1c: /* SCVTF / UCVTF */
-         handle_simd_shift_intfp_conv(s, false, is_q, is_u, immh, immb,
-                                      opcode, rn, rd);
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-     case 0x06: /* SRSRA / URSRA (accum + rounding) */
-     case 0x08: /* SRI */
-     case 0x0a: /* SHL / SLI */
-+    case 0x14: /* SSHLL / USHLL */
-         unallocated_encoding(s);
-         return;
-     }
---
-.34.1

-[PULL 21/38] target/arm: Split out subroutines of handle_shri_with_rndacc
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-There isn't a lot of commonality along the different paths of
-handle_shri_with_rndacc.  Split them out to separate functions,
-which will be usable during the decodetree conversion.
-Simplify 64-bit rounding operations to not require double-word arithmetic.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-22-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/translate-a64.c | 138 ++++++++++++++++++++-------------
-file changed, 82 insertions(+), 56 deletions(-)
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool do_vec_shift_imm_wide(DisasContext *s, arg_qrri_e *a, bool is_u)
- TRANS(SSHLL_v, do_vec_shift_imm_wide, a, false)
- TRANS(USHLL_v, do_vec_shift_imm_wide, a, true)
-+static void gen_sshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
-+{
-+    assert(shift >= 0 && shift <= 64);
-+    tcg_gen_sari_i64(dst, src, MIN(shift, 63));
-+}
-+
-+static void gen_ushr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
-+{
-+    assert(shift >= 0 && shift <= 64);
-+    if (shift == 64) {
-+        tcg_gen_movi_i64(dst, 0);
-+    } else {
-+        tcg_gen_shri_i64(dst, src, shift);
-+    }
-+}
-+
-+static void gen_srshr_bhs(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
-+{
-+    assert(shift >= 0 && shift <= 32);
-+    if (shift) {
-+        TCGv_i64 rnd = tcg_constant_i64(1ull << (shift - 1));
-+        tcg_gen_add_i64(dst, src, rnd);
-+        tcg_gen_sari_i64(dst, dst, shift);
-+    } else {
-+        tcg_gen_mov_i64(dst, src);
-+    }
-+}
-+
-+static void gen_urshr_bhs(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
-+{
-+    assert(shift >= 0 && shift <= 32);
-+    if (shift) {
-+        TCGv_i64 rnd = tcg_constant_i64(1ull << (shift - 1));
-+        tcg_gen_add_i64(dst, src, rnd);
-+        tcg_gen_shri_i64(dst, dst, shift);
-+    } else {
-+        tcg_gen_mov_i64(dst, src);
-+    }
-+}
-+
-+static void gen_srshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
-+{
-+    assert(shift >= 0 && shift <= 64);
-+    if (shift == 0) {
-+        tcg_gen_mov_i64(dst, src);
-+    } else if (shift == 64) {
-+        /* Extension of sign bit (0,-1) plus sign bit (0,1) is zero. */
-+        tcg_gen_movi_i64(dst, 0);
-+    } else {
-+        TCGv_i64 rnd = tcg_temp_new_i64();
-+        tcg_gen_extract_i64(rnd, src, shift - 1, 1);
-+        tcg_gen_sari_i64(dst, src, shift);
-+        tcg_gen_add_i64(dst, dst, rnd);
-+    }
-+}
-+
-+static void gen_urshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
-+{
-+    assert(shift >= 0 && shift <= 64);
-+    if (shift == 0) {
-+        tcg_gen_mov_i64(dst, src);
-+    } else if (shift == 64) {
-+        /* Rounding will propagate bit 63 into bit 64. */
-+        tcg_gen_shri_i64(dst, src, 63);
-+    } else {
-+        TCGv_i64 rnd = tcg_temp_new_i64();
-+        tcg_gen_extract_i64(rnd, src, shift - 1, 1);
-+        tcg_gen_shri_i64(dst, src, shift);
-+        tcg_gen_add_i64(dst, dst, rnd);
-+    }
-+}
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
-                                     bool round, bool accumulate,
-                                     bool is_u, int size, int shift)
- {
--    bool extended_result = false;
--    int ext_lshift = 0;
--    TCGv_i64 tcg_src_hi;
--
--    if (round && size == 3) {
--        extended_result = true;
--        ext_lshift = 64 - shift;
--        tcg_src_hi = tcg_temp_new_i64();
--    } else if (shift == 64) {
--        if (!accumulate && is_u) {
--            /* result is zero */
--            tcg_gen_movi_i64(tcg_res, 0);
--            return;
--        }
--    }
--
--    /* Deal with the rounding step */
--    if (round) {
--        TCGv_i64 tcg_rnd = tcg_constant_i64(1ull << (shift - 1));
--        if (extended_result) {
--            TCGv_i64 tcg_zero = tcg_constant_i64(0);
--            if (!is_u) {
--                /* take care of sign extending tcg_res */
--                tcg_gen_sari_i64(tcg_src_hi, tcg_src, 63);
--                tcg_gen_add2_i64(tcg_src, tcg_src_hi,
--                                 tcg_src, tcg_src_hi,
--                                 tcg_rnd, tcg_zero);
--            } else {
--                tcg_gen_add2_i64(tcg_src, tcg_src_hi,
--                                 tcg_src, tcg_zero,
--                                 tcg_rnd, tcg_zero);
--            }
-+    if (!round) {
-+        if (is_u) {
-+            gen_ushr_d(tcg_src, tcg_src, shift);
-         } else {
--            tcg_gen_add_i64(tcg_src, tcg_src, tcg_rnd);
-+            gen_sshr_d(tcg_src, tcg_src, shift);
-         }
--    }
--
--    /* Now do the shift right */
--    if (round && extended_result) {
--        /* extended case, >64 bit precision required */
--        if (ext_lshift == 0) {
--            /* special case, only high bits matter */
--            tcg_gen_mov_i64(tcg_src, tcg_src_hi);
-+    } else if (size == MO_64) {
-+        if (is_u) {
-+            gen_urshr_d(tcg_src, tcg_src, shift);
-         } else {
--            tcg_gen_shri_i64(tcg_src, tcg_src, shift);
--            tcg_gen_shli_i64(tcg_src_hi, tcg_src_hi, ext_lshift);
--            tcg_gen_or_i64(tcg_src, tcg_src, tcg_src_hi);
-+            gen_srshr_d(tcg_src, tcg_src, shift);
-         }
-     } else {
-         if (is_u) {
--            if (shift == 64) {
--                /* essentially shifting in 64 zeros */
--                tcg_gen_movi_i64(tcg_src, 0);
--            } else {
--                tcg_gen_shri_i64(tcg_src, tcg_src, shift);
--            }
-+            gen_urshr_bhs(tcg_src, tcg_src, shift);
-         } else {
--            if (shift == 64) {
--                /* effectively extending the sign-bit */
--                tcg_gen_sari_i64(tcg_src, tcg_src, 63);
--            } else {
--                tcg_gen_sari_i64(tcg_src, tcg_src, shift);
--            }
-+            gen_srshr_bhs(tcg_src, tcg_src, shift);
-         }
-     }
---
-.34.1

-[PULL 22/38] target/arm: Convert SHRN, RSHRN to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-23-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      |  8 +++
- target/arm/tcg/translate-a64.c | 95 +++++++++++++++++-----------------
-files changed, 55 insertions(+), 48 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ SSHLL_v         0.00 11110 .... ... 10100 1 ..... .....     @q_shli_s
- USHLL_v         0.10 11110 .... ... 10100 1 ..... .....     @q_shli_b
- USHLL_v         0.10 11110 .... ... 10100 1 ..... .....     @q_shli_h
- USHLL_v         0.10 11110 .... ... 10100 1 ..... .....     @q_shli_s
-+
-+SHRN_v          0.00 11110 .... ... 10000 1 ..... .....     @q_shri_b
-+SHRN_v          0.00 11110 .... ... 10000 1 ..... .....     @q_shri_h
-+SHRN_v          0.00 11110 .... ... 10000 1 ..... .....     @q_shri_s
-+
-+RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_b
-+RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_h
-+RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_s
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void gen_urshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
-     }
- }
-+static bool do_vec_shift_imm_narrow(DisasContext *s, arg_qrri_e *a,
-+                                    WideShiftImmFn * const fns[3], MemOp sign)
-+{
-+    TCGv_i64 tcg_rn, tcg_rd;
-+    int esz = a->esz;
-+    int esize;
-+    WideShiftImmFn *fn;
-+
-+    tcg_debug_assert(esz >= MO_8 && esz <= MO_32);
-+
-+    if (!fp_access_check(s)) {
-+        return true;
-+    }
-+
-+    tcg_rn = tcg_temp_new_i64();
-+    tcg_rd = tcg_temp_new_i64();
-+    tcg_gen_movi_i64(tcg_rd, 0);
-+
-+    fn = fns[esz];
-+    esize = 8 << esz;
-+    for (int i = 0, elements = 8 >> esz; i < elements; i++) {
-+        read_vec_element(s, tcg_rn, a->rn, i, (esz + 1) | sign);
-+        fn(tcg_rn, tcg_rn, a->imm);
-+        tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, esize * i, esize);
-+    }
-+
-+    write_vec_element(s, tcg_rd, a->rd, a->q, MO_64);
-+    clear_vec_high(s, a->q, a->rd);
-+    return true;
-+}
-+
-+static WideShiftImmFn * const shrn_fns[] = {
-+    tcg_gen_shri_i64,
-+    tcg_gen_shri_i64,
-+    gen_ushr_d,
-+};
-+TRANS(SHRN_v, do_vec_shift_imm_narrow, a, shrn_fns, 0)
-+
-+static WideShiftImmFn * const rshrn_fns[] = {
-+    gen_urshr_bhs,
-+    gen_urshr_bhs,
-+    gen_urshr_d,
-+};
-+TRANS(RSHRN_v, do_vec_shift_imm_narrow, a, rshrn_fns, 0)
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
-     }
- }
--/* SHRN/RSHRN - Shift right with narrowing (and potential rounding) */
--static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
--                                 int immh, int immb, int opcode, int rn, int rd)
--{
--    int immhb = immh << 3 | immb;
--    int size = 32 - clz32(immh) - 1;
--    int dsize = 64;
--    int esize = 8 << size;
--    int elements = dsize/esize;
--    int shift = (2 * esize) - immhb;
--    bool round = extract32(opcode, 0, 1);
--    TCGv_i64 tcg_rn, tcg_rd, tcg_final;
--    int i;
--
--    if (extract32(immh, 3, 1)) {
--        unallocated_encoding(s);
--        return;
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    tcg_rn = tcg_temp_new_i64();
--    tcg_rd = tcg_temp_new_i64();
--    tcg_final = tcg_temp_new_i64();
--    read_vec_element(s, tcg_final, rd, is_q ? 1 : 0, MO_64);
--
--    for (i = 0; i < elements; i++) {
--        read_vec_element(s, tcg_rn, rn, i, size+1);
--        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
--                                false, true, size+1, shift);
--
--        tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
--    }
--
--    if (!is_q) {
--        write_vec_element(s, tcg_final, rd, 0, MO_64);
--    } else {
--        write_vec_element(s, tcg_final, rd, 1, MO_64);
--    }
--
--    clear_vec_high(s, is_q, rd);
--}
--
--
- /* AdvSIMD shift by immediate
-  *  31  30   29 28         23 22  19 18  16 15    11  10 9    5 4    0
-  * +---+---+---+-------------+------+------+--------+---+------+------+
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-     }
-     switch (opcode) {
--    case 0x10: /* SHRN */
-+    case 0x10: /* SHRN / SQSHRUN */
-     case 0x11: /* RSHRN / SQRSHRUN */
-         if (is_u) {
-             handle_vec_simd_sqshrn(s, false, is_q, false, true, immh, immb,
-                                    opcode, rn, rd);
-         } else {
--            handle_vec_simd_shrn(s, is_q, immh, immb, opcode, rn, rd);
-+            unallocated_encoding(s);
-         }
-         break;
-     case 0x12: /* SQSHRN / UQSHRN */
---
-.34.1

-[PULL 27/38] target/arm: Convert SQSHL, UQSHL, SQSHLU (immediate) to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-28-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      |  36 +++++-
- target/arm/tcg/translate-a64.c | 223 ++++++++++++++-------------------
-files changed, 128 insertions(+), 131 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_b
- RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_h
- RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_s
-+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_b
-+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_h
-+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_s
-+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_d
-+
-+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_b
-+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_h
-+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_s
-+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_d
-+
-+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_b
-+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_h
-+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_s
-+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_d
-+
- # Advanced SIMD scalar shift by immediate
- @shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
-                 &rri_e esz=3 imm=%neon_rshift_i6
--@shli_d         .... ..... 1 imm:6  ..... . rn:5 rd:5   &rri_e esz=3
-+
-+@shli_b         .... ..... 0001 imm:3  ..... . rn:5 rd:5    &rri_e esz=0
-+@shli_h         .... ..... 001  imm:4  ..... . rn:5 rd:5    &rri_e esz=1
-+@shli_s         .... ..... 01   imm:5  ..... . rn:5 rd:5    &rri_e esz=2
-+@shli_d         .... ..... 1    imm:6  ..... . rn:5 rd:5    &rri_e esz=3
- SSHR_s          0101 11110 .... ... 00000 1 ..... .....     @shri_d
- USHR_s          0111 11110 .... ... 00000 1 ..... .....     @shri_d
-@@ -XXX,XX +XXX,XX @@ SRI_s           0111 11110 .... ... 01000 1 ..... .....     @shri_d
- SHL_s           0101 11110 .... ... 01010 1 ..... .....     @shli_d
- SLI_s           0111 11110 .... ... 01010 1 ..... .....     @shli_d
-+
-+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_b
-+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_h
-+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_s
-+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_d
-+
-+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_b
-+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_h
-+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_s
-+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_d
-+
-+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_b
-+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_h
-+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_s
-+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_d
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(URSRA_v, do_vec_shift_imm, a, gen_gvec_ursra)
- TRANS(SRI_v, do_vec_shift_imm, a, gen_gvec_sri)
- TRANS(SHL_v, do_vec_shift_imm, a, tcg_gen_gvec_shli)
- TRANS(SLI_v, do_vec_shift_imm, a, gen_gvec_sli);
-+TRANS(SQSHL_vi, do_vec_shift_imm, a, gen_neon_sqshli)
-+TRANS(UQSHL_vi, do_vec_shift_imm, a, gen_neon_uqshli)
-+TRANS(SQSHLU_vi, do_vec_shift_imm, a, gen_neon_sqshlui)
- static bool do_vec_shift_imm_wide(DisasContext *s, arg_qrri_e *a, bool is_u)
- {
-@@ -XXX,XX +XXX,XX @@ TRANS(SRI_s, do_scalar_shift_imm, a, gen_sri_d, true, 0)
- TRANS(SHL_s, do_scalar_shift_imm, a, tcg_gen_shli_i64, false, 0)
- TRANS(SLI_s, do_scalar_shift_imm, a, gen_sli_d, true, 0)
-+static void trunc_i64_env_imm(TCGv_i64 d, TCGv_i64 s, int64_t i,
-+                              NeonGenTwoOpEnvFn *fn)
-+{
-+    TCGv_i32 t = tcg_temp_new_i32();
-+    tcg_gen_extrl_i64_i32(t, s);
-+    fn(t, tcg_env, t, tcg_constant_i32(i));
-+    tcg_gen_extu_i32_i64(d, t);
-+}
-+
-+static void gen_sqshli_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_s8);
-+}
-+
-+static void gen_sqshli_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_s16);
-+}
-+
-+static void gen_sqshli_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_s32);
-+}
-+
-+static void gen_sqshli_d(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_helper_neon_qshl_s64(d, tcg_env, s, tcg_constant_i64(i));
-+}
-+
-+static void gen_uqshli_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_u8);
-+}
-+
-+static void gen_uqshli_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_u16);
-+}
-+
-+static void gen_uqshli_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_u32);
-+}
-+
-+static void gen_uqshli_d(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_helper_neon_qshl_u64(d, tcg_env, s, tcg_constant_i64(i));
-+}
-+
-+static void gen_sqshlui_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshlu_s8);
-+}
-+
-+static void gen_sqshlui_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshlu_s16);
-+}
-+
-+static void gen_sqshlui_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshlu_s32);
-+}
-+
-+static void gen_sqshlui_d(TCGv_i64 d, TCGv_i64 s, int64_t i)
-+{
-+    gen_helper_neon_qshlu_s64(d, tcg_env, s, tcg_constant_i64(i));
-+}
-+
-+static WideShiftImmFn * const f_scalar_sqshli[] = {
-+    gen_sqshli_b, gen_sqshli_h, gen_sqshli_s, gen_sqshli_d
-+};
-+
-+static WideShiftImmFn * const f_scalar_uqshli[] = {
-+    gen_uqshli_b, gen_uqshli_h, gen_uqshli_s, gen_uqshli_d
-+};
-+
-+static WideShiftImmFn * const f_scalar_sqshlui[] = {
-+    gen_sqshlui_b, gen_sqshlui_h, gen_sqshlui_s, gen_sqshlui_d
-+};
-+
-+/* Note that the helpers sign-extend their inputs, so don't do it here. */
-+TRANS(SQSHL_si, do_scalar_shift_imm, a, f_scalar_sqshli[a->esz], false, 0)
-+TRANS(UQSHL_si, do_scalar_shift_imm, a, f_scalar_uqshli[a->esz], false, 0)
-+TRANS(SQSHLU_si, do_scalar_shift_imm, a, f_scalar_sqshlui[a->esz], false, 0)
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
-     clear_vec_high(s, is_q, rd);
- }
--/* SQSHLU, UQSHL, SQSHL: saturating left shifts */
--static void handle_simd_qshl(DisasContext *s, bool scalar, bool is_q,
--                             bool src_unsigned, bool dst_unsigned,
--                             int immh, int immb, int rn, int rd)
--{
--    int immhb = immh << 3 | immb;
--    int size = 32 - clz32(immh) - 1;
--    int shift = immhb - (8 << size);
--    int pass;
--
--    assert(immh != 0);
--    assert(!(scalar && is_q));
--
--    if (!scalar) {
--        if (!is_q && extract32(immh, 3, 1)) {
--            unallocated_encoding(s);
--            return;
--        }
--
--        /* Since we use the variable-shift helpers we must
--         * replicate the shift count into each element of
--         * the tcg_shift value.
--         */
--        switch (size) {
--        case 0:
--            shift |= shift << 8;
--            /* fall through */
--        case 1:
--            shift |= shift << 16;
--            break;
--        case 2:
--        case 3:
--            break;
--        default:
--            g_assert_not_reached();
--        }
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    if (size == 3) {
--        TCGv_i64 tcg_shift = tcg_constant_i64(shift);
--        static NeonGenTwo64OpEnvFn * const fns[2][2] = {
--            { gen_helper_neon_qshl_s64, gen_helper_neon_qshlu_s64 },
--            { NULL, gen_helper_neon_qshl_u64 },
--        };
--        NeonGenTwo64OpEnvFn *genfn = fns[src_unsigned][dst_unsigned];
--        int maxpass = is_q ? 2 : 1;
--
--        for (pass = 0; pass < maxpass; pass++) {
--            TCGv_i64 tcg_op = tcg_temp_new_i64();
--
--            read_vec_element(s, tcg_op, rn, pass, MO_64);
--            genfn(tcg_op, tcg_env, tcg_op, tcg_shift);
--            write_vec_element(s, tcg_op, rd, pass, MO_64);
--        }
--        clear_vec_high(s, is_q, rd);
--    } else {
--        TCGv_i32 tcg_shift = tcg_constant_i32(shift);
--        static NeonGenTwoOpEnvFn * const fns[2][2][3] = {
--            {
--                { gen_helper_neon_qshl_s8,
--                  gen_helper_neon_qshl_s16,
--                  gen_helper_neon_qshl_s32 },
--                { gen_helper_neon_qshlu_s8,
--                  gen_helper_neon_qshlu_s16,
--                  gen_helper_neon_qshlu_s32 }
--            }, {
--                { NULL, NULL, NULL },
--                { gen_helper_neon_qshl_u8,
--                  gen_helper_neon_qshl_u16,
--                  gen_helper_neon_qshl_u32 }
--            }
--        };
--        NeonGenTwoOpEnvFn *genfn = fns[src_unsigned][dst_unsigned][size];
--        MemOp memop = scalar ? size : MO_32;
--        int maxpass = scalar ? 1 : is_q ? 4 : 2;
--
--        for (pass = 0; pass < maxpass; pass++) {
--            TCGv_i32 tcg_op = tcg_temp_new_i32();
--
--            read_vec_element_i32(s, tcg_op, rn, pass, memop);
--            genfn(tcg_op, tcg_env, tcg_op, tcg_shift);
--            if (scalar) {
--                switch (size) {
--                case 0:
--                    tcg_gen_ext8u_i32(tcg_op, tcg_op);
--                    break;
--                case 1:
--                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
--                    break;
--                case 2:
--                    break;
--                default:
--                    g_assert_not_reached();
--                }
--                write_fp_sreg(s, rd, tcg_op);
--            } else {
--                write_vec_element_i32(s, tcg_op, rd, pass, MO_32);
--            }
--        }
--
--        if (!scalar) {
--            clear_vec_high(s, is_q, rd);
--        }
--    }
--}
--
- /* Common vector code for handling integer to FP conversion */
- static void handle_simd_intfp_conv(DisasContext *s, int rd, int rn,
-                                    int elements, int is_signed,
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
-         handle_vec_simd_sqshrn(s, true, false, is_u, is_u,
-                                immh, immb, opcode, rn, rd);
-         break;
--    case 0xc: /* SQSHLU */
--        if (!is_u) {
--            unallocated_encoding(s);
--            return;
--        }
--        handle_simd_qshl(s, true, false, false, true, immh, immb, rn, rd);
--        break;
--    case 0xe: /* SQSHL, UQSHL */
--        handle_simd_qshl(s, true, false, is_u, is_u, immh, immb, rn, rd);
--        break;
-     case 0x1f: /* FCVTZS, FCVTZU */
-         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
-         break;
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
-     case 0x06: /* SRSRA / URSRA */
-     case 0x08: /* SRI */
-     case 0x0a: /* SHL / SLI */
-+    case 0x0c: /* SQSHLU */
-+    case 0x0e: /* SQSHL, UQSHL */
-         unallocated_encoding(s);
-         break;
-     }
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-         handle_simd_shift_intfp_conv(s, false, is_q, is_u, immh, immb,
-                                      opcode, rn, rd);
-         break;
--    case 0xc: /* SQSHLU */
--        if (!is_u) {
--            unallocated_encoding(s);
--            return;
--        }
--        handle_simd_qshl(s, false, is_q, false, true, immh, immb, rn, rd);
--        break;
--    case 0xe: /* SQSHL, UQSHL */
--        handle_simd_qshl(s, false, is_q, is_u, is_u, immh, immb, rn, rd);
--        break;
-     case 0x1f: /* FCVTZS/ FCVTZU */
-         handle_simd_shift_fpint_conv(s, false, is_q, is_u, immh, immb, rn, rd);
-         return;
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
-     case 0x06: /* SRSRA / URSRA (accum + rounding) */
-     case 0x08: /* SRI */
-     case 0x0a: /* SHL / SLI */
-+    case 0x0c: /* SQSHLU */
-+    case 0x0e: /* SQSHL, UQSHL */
-     case 0x14: /* SSHLL / USHLL */
-         unallocated_encoding(s);
-         return;
---
-.34.1

-[PULL 29/38] target/arm: Convert scalar [US]QSHRN, [US]QRSHRN, SQSHRUN to decodetree
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20240912024114.1097832-30-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/tcg/a64.decode      |  30 +++++++
- target/arm/tcg/translate-a64.c | 160 +++++++--------------------------
-files changed, 63 insertions(+), 127 deletions(-)
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/a64.decode
-+++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ SQRSHRUN_v      0.10 11110 .... ... 10001 1 ..... .....     @q_shri_s
- # Advanced SIMD scalar shift by immediate
-+@shri_b         .... ..... 0001 ... ..... . rn:5 rd:5   \
-+                &rri_e esz=0 imm=%neon_rshift_i3
-+@shri_h         .... ..... 001 .... ..... . rn:5 rd:5   \
-+                &rri_e esz=1 imm=%neon_rshift_i4
-+@shri_s         .... ..... 01 ..... ..... . rn:5 rd:5   \
-+                &rri_e esz=2 imm=%neon_rshift_i5
- @shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
-                 &rri_e esz=3 imm=%neon_rshift_i6
-@@ -XXX,XX +XXX,XX @@ SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_b
- SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_h
- SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_s
- SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_d
-+
-+SQSHRN_si       0101 11110 .... ... 10010 1 ..... .....     @shri_b
-+SQSHRN_si       0101 11110 .... ... 10010 1 ..... .....     @shri_h
-+SQSHRN_si       0101 11110 .... ... 10010 1 ..... .....     @shri_s
-+
-+UQSHRN_si       0111 11110 .... ... 10010 1 ..... .....     @shri_b
-+UQSHRN_si       0111 11110 .... ... 10010 1 ..... .....     @shri_h
-+UQSHRN_si       0111 11110 .... ... 10010 1 ..... .....     @shri_s
-+
-+SQSHRUN_si      0111 11110 .... ... 10000 1 ..... .....     @shri_b
-+SQSHRUN_si      0111 11110 .... ... 10000 1 ..... .....     @shri_h
-+SQSHRUN_si      0111 11110 .... ... 10000 1 ..... .....     @shri_s
-+
-+SQRSHRN_si      0101 11110 .... ... 10011 1 ..... .....     @shri_b
-+SQRSHRN_si      0101 11110 .... ... 10011 1 ..... .....     @shri_h
-+SQRSHRN_si      0101 11110 .... ... 10011 1 ..... .....     @shri_s
-+
-+UQRSHRN_si      0111 11110 .... ... 10011 1 ..... .....     @shri_b
-+UQRSHRN_si      0111 11110 .... ... 10011 1 ..... .....     @shri_h
-+UQRSHRN_si      0111 11110 .... ... 10011 1 ..... .....     @shri_s
-+
-+SQRSHRUN_si     0111 11110 .... ... 10001 1 ..... .....     @shri_b
-+SQRSHRUN_si     0111 11110 .... ... 10001 1 ..... .....     @shri_h
-+SQRSHRUN_si     0111 11110 .... ... 10001 1 ..... .....     @shri_s
-diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(SQSHL_si, do_scalar_shift_imm, a, f_scalar_sqshli[a->esz], false, 0)
- TRANS(UQSHL_si, do_scalar_shift_imm, a, f_scalar_uqshli[a->esz], false, 0)
- TRANS(SQSHLU_si, do_scalar_shift_imm, a, f_scalar_sqshlui[a->esz], false, 0)
-+static bool do_scalar_shift_imm_narrow(DisasContext *s, arg_rri_e *a,
-+                                       WideShiftImmFn * const fns[3],
-+                                       MemOp sign, bool zext)
-+{
-+    MemOp esz = a->esz;
-+
-+    tcg_debug_assert(esz >= MO_8 && esz <= MO_32);
-+
-+    if (fp_access_check(s)) {
-+        TCGv_i64 rd = tcg_temp_new_i64();
-+        TCGv_i64 rn = tcg_temp_new_i64();
-+
-+        read_vec_element(s, rn, a->rn, 0, (esz + 1) | sign);
-+        fns[esz](rd, rn, a->imm);
-+        if (zext) {
-+            tcg_gen_ext_i64(rd, rd, esz);
-+        }
-+        write_fp_dreg(s, a->rd, rd);
-+    }
-+    return true;
-+}
-+
-+TRANS(SQSHRN_si, do_scalar_shift_imm_narrow, a, sqshrn_fns, MO_SIGN, true)
-+TRANS(SQRSHRN_si, do_scalar_shift_imm_narrow, a, sqrshrn_fns, MO_SIGN, true)
-+TRANS(UQSHRN_si, do_scalar_shift_imm_narrow, a, uqshrn_fns, 0, false)
-+TRANS(UQRSHRN_si, do_scalar_shift_imm_narrow, a, uqrshrn_fns, 0, false)
-+TRANS(SQSHRUN_si, do_scalar_shift_imm_narrow, a, sqshrun_fns, MO_SIGN, false)
-+TRANS(SQRSHRUN_si, do_scalar_shift_imm_narrow, a, sqrshrun_fns, MO_SIGN, false)
-+
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-  * Note that it is the caller's responsibility to ensure that the
-  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
-     }
- }
--/*
-- * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
-- *
-- * This code is handles the common shifting code and is used by both
-- * the vector and scalar code.
-- */
--static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
--                                    bool round, bool accumulate,
--                                    bool is_u, int size, int shift)
--{
--    if (!round) {
--        if (is_u) {
--            gen_ushr_d(tcg_src, tcg_src, shift);
--        } else {
--            gen_sshr_d(tcg_src, tcg_src, shift);
--        }
--    } else if (size == MO_64) {
--        if (is_u) {
--            gen_urshr_d(tcg_src, tcg_src, shift);
--        } else {
--            gen_srshr_d(tcg_src, tcg_src, shift);
--        }
--    } else {
--        if (is_u) {
--            gen_urshr_bhs(tcg_src, tcg_src, shift);
--        } else {
--            gen_srshr_bhs(tcg_src, tcg_src, shift);
--        }
--    }
--
--    if (accumulate) {
--        tcg_gen_add_i64(tcg_res, tcg_res, tcg_src);
--    } else {
--        tcg_gen_mov_i64(tcg_res, tcg_src);
--    }
--}
--
--/* SQSHRN/SQSHRUN - Saturating (signed/unsigned) shift right with
-- * (signed/unsigned) narrowing */
--static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
--                                   bool is_u_shift, bool is_u_narrow,
--                                   int immh, int immb, int opcode,
--                                   int rn, int rd)
--{
--    int immhb = immh << 3 | immb;
--    int size = 32 - clz32(immh) - 1;
--    int esize = 8 << size;
--    int shift = (2 * esize) - immhb;
--    int elements = is_scalar ? 1 : (64 / esize);
--    bool round = extract32(opcode, 0, 1);
--    MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
--    TCGv_i64 tcg_rn, tcg_rd, tcg_final;
--
--    static NeonGenOne64OpEnvFn * const signed_narrow_fns[4][2] = {
--        { gen_helper_neon_narrow_sat_s8,
--          gen_helper_neon_unarrow_sat8 },
--        { gen_helper_neon_narrow_sat_s16,
--          gen_helper_neon_unarrow_sat16 },
--        { gen_helper_neon_narrow_sat_s32,
--          gen_helper_neon_unarrow_sat32 },
--        { NULL, NULL },
--    };
--    static NeonGenOne64OpEnvFn * const unsigned_narrow_fns[4] = {
--        gen_helper_neon_narrow_sat_u8,
--        gen_helper_neon_narrow_sat_u16,
--        gen_helper_neon_narrow_sat_u32,
--        NULL
--    };
--    NeonGenOne64OpEnvFn *narrowfn;
--
--    int i;
--
--    assert(size < 4);
--
--    if (extract32(immh, 3, 1)) {
--        unallocated_encoding(s);
--        return;
--    }
--
--    if (!fp_access_check(s)) {
--        return;
--    }
--
--    if (is_u_shift) {
--        narrowfn = unsigned_narrow_fns[size];
--    } else {
--        narrowfn = signed_narrow_fns[size][is_u_narrow ? 1 : 0];
--    }
--
--    tcg_rn = tcg_temp_new_i64();
--    tcg_rd = tcg_temp_new_i64();
--    tcg_final = tcg_temp_new_i64();
--
--    for (i = 0; i < elements; i++) {
--        read_vec_element(s, tcg_rn, rn, i, ldop);
--        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
--                                false, is_u_shift, size+1, shift);
--        narrowfn(tcg_rd, tcg_env, tcg_rd);
--        if (i == 0) {
--            tcg_gen_extract_i64(tcg_final, tcg_rd, 0, esize);
--        } else {
--            tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
--        }
--    }
--
--    if (!is_q) {
--        write_vec_element(s, tcg_final, rd, 0, MO_64);
--    } else {
--        write_vec_element(s, tcg_final, rd, 1, MO_64);
--    }
--    clear_vec_high(s, is_q, rd);
--}
--
- /* Common vector code for handling integer to FP conversion */
- static void handle_simd_intfp_conv(DisasContext *s, int rd, int rn,
-                                    int elements, int is_signed,
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
-         handle_simd_shift_intfp_conv(s, true, false, is_u, immh, immb,
-                                      opcode, rn, rd);
-         break;
--    case 0x10: /* SQSHRUN, SQSHRUN2 */
--    case 0x11: /* SQRSHRUN, SQRSHRUN2 */
--        if (!is_u) {
--            unallocated_encoding(s);
--            return;
--        }
--        handle_vec_simd_sqshrn(s, true, false, false, true,
--                               immh, immb, opcode, rn, rd);
--        break;
--    case 0x12: /* SQSHRN, SQSHRN2, UQSHRN */
--    case 0x13: /* SQRSHRN, SQRSHRN2, UQRSHRN, UQRSHRN2 */
--        handle_vec_simd_sqshrn(s, true, false, is_u, is_u,
--                               immh, immb, opcode, rn, rd);
--        break;
-     case 0x1f: /* FCVTZS, FCVTZU */
-         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
-         break;
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
-     case 0x0a: /* SHL / SLI */
-     case 0x0c: /* SQSHLU */
-     case 0x0e: /* SQSHL, UQSHL */
-+    case 0x10: /* SQSHRUN */
-+    case 0x11: /* SQRSHRUN */
-+    case 0x12: /* SQSHRN, UQSHRN */
-+    case 0x13: /* SQRSHRN, UQRSHRN */
-         unallocated_encoding(s);
-         break;
-     }
---
-.34.1

-[PULL 30/38] hw/char/stm32l4x5_usart.c: Enable USART ACK bit response
+Deleted patch
-From: Jacob Abrams <satur9nine@gmail.com>
-SW modifying USART_CR1 TE bit should cuase HW to respond by altering
-USART_ISR TEACK bit, and likewise for RE and REACK bit.
-This resolves some but not all issues necessary for the official STM USART
-HAL driver to function as is.
-Fixes: 87b77e6e01ca ("hw/char/stm32l4x5_usart: Enable serial read and write")
-Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2540
-Signed-off-by: Jacob Abrams <satur9nine@gmail.com>
-Message-id: 20240911043255.51966-1-satur9nine@gmail.com
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- hw/char/stm32l4x5_usart.c          | 16 +++++++++++++
- tests/qtest/stm32l4x5_usart-test.c | 36 +++++++++++++++++++++++++++++-
-files changed, 51 insertions(+), 1 deletion(-)
-diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/char/stm32l4x5_usart.c
-+++ b/hw/char/stm32l4x5_usart.c
-@@ -XXX,XX +XXX,XX @@ REG32(RDR, 0x24)
- REG32(TDR, 0x28)
-     FIELD(TDR, TDR, 0, 9)
-+static void stm32l4x5_update_isr(Stm32l4x5UsartBaseState *s)
-+{
-+    if (s->cr1 & R_CR1_TE_MASK) {
-+        s->isr |= R_ISR_TEACK_MASK;
-+    } else {
-+        s->isr &= ~R_ISR_TEACK_MASK;
-+    }
-+
-+    if (s->cr1 & R_CR1_RE_MASK) {
-+        s->isr |= R_ISR_REACK_MASK;
-+    } else {
-+        s->isr &= ~R_ISR_REACK_MASK;
-+    }
-+}
-+
- static void stm32l4x5_update_irq(Stm32l4x5UsartBaseState *s)
- {
-     if (((s->isr & R_ISR_WUF_MASK) && (s->cr3 & R_CR3_WUFIE_MASK))        ||
-@@ -XXX,XX +XXX,XX @@ static void stm32l4x5_usart_base_write(void *opaque, hwaddr addr,
-     case A_CR1:
-         s->cr1 = value;
-         stm32l4x5_update_params(s);
-+        stm32l4x5_update_isr(s);
-         stm32l4x5_update_irq(s);
-         return;
-     case A_CR2:
-diff --git a/tests/qtest/stm32l4x5_usart-test.c b/tests/qtest/stm32l4x5_usart-test.c
-index XXXXXXX..XXXXXXX 100644
---- a/tests/qtest/stm32l4x5_usart-test.c
-+++ b/tests/qtest/stm32l4x5_usart-test.c
-@@ -XXX,XX +XXX,XX @@ REG32(GTPR, 0x10)
- REG32(RTOR, 0x14)
- REG32(RQR, 0x18)
- REG32(ISR, 0x1C)
-+    FIELD(ISR, REACK, 22, 1)
-+    FIELD(ISR, TEACK, 21, 1)
-     FIELD(ISR, TXE, 7, 1)
-     FIELD(ISR, RXNE, 5, 1)
-     FIELD(ISR, ORE, 3, 1)
-@@ -XXX,XX +XXX,XX @@ static void init_uart(QTestState *qts)
-     /* Enable the transmitter, the receiver and the USART. */
-     qtest_writel(qts, (USART1_BASE_ADDR + A_CR1),
--        R_CR1_UE_MASK | R_CR1_RE_MASK | R_CR1_TE_MASK);
-+        cr1 | R_CR1_UE_MASK | R_CR1_RE_MASK | R_CR1_TE_MASK);
- }
- static void test_write_read(void)
-@@ -XXX,XX +XXX,XX @@ static void test_send_str(void)
-     qtest_quit(qts);
- }
-+static void test_ack(void)
-+{
-+    uint32_t cr1;
-+    uint32_t isr;
-+    QTestState *qts = qtest_init("-M b-l475e-iot01a");
-+
-+    init_uart(qts);
-+
-+    cr1 = qtest_readl(qts, (USART1_BASE_ADDR + A_CR1));
-+
-+    /* Disable the transmitter and receiver. */
-+    qtest_writel(qts, (USART1_BASE_ADDR + A_CR1),
-+        cr1 & ~(R_CR1_RE_MASK | R_CR1_TE_MASK));
-+
-+    /* Test ISR ACK for transmitter and receiver disabled */
-+    isr = qtest_readl(qts, (USART1_BASE_ADDR + A_ISR));
-+    g_assert_false(isr & R_ISR_TEACK_MASK);
-+    g_assert_false(isr & R_ISR_REACK_MASK);
-+
-+    /* Enable the transmitter and receiver. */
-+    qtest_writel(qts, (USART1_BASE_ADDR + A_CR1),
-+        cr1 | (R_CR1_RE_MASK | R_CR1_TE_MASK));
-+
-+    /* Test ISR ACK for transmitter and receiver disabled */
-+    isr = qtest_readl(qts, (USART1_BASE_ADDR + A_ISR));
-+    g_assert_true(isr & R_ISR_TEACK_MASK);
-+    g_assert_true(isr & R_ISR_REACK_MASK);
-+
-+    qtest_quit(qts);
-+}
-+
- int main(int argc, char **argv)
- {
-     int ret;
-@@ -XXX,XX +XXX,XX @@ int main(int argc, char **argv)
-     qtest_add_func("stm32l4x5/usart/send_char", test_send_char);
-     qtest_add_func("stm32l4x5/usart/receive_str", test_receive_str);
-     qtest_add_func("stm32l4x5/usart/send_str", test_send_str);
-+    qtest_add_func("stm32l4x5/usart/ack", test_ack);
-     ret = g_test_run();
-     return ret;
---
-.34.1

-[PULL 35/38] kvm: Make 'mmap_size' be 'int' in kvm_init_vcpu(), do_kvm_destroy_vcpu()
+[PULL 18/19] hw/intc/arm_gicv3_its: Zero initialize local DTEntry etc structs
-In kvm_init_vcpu()and do_kvm_destroy_vcpu(), the return value from
+In the GICv3 ITS model, we have a common coding pattern which has a
-  kvm_ioctl(..., KVM_GET_VCPU_MMAP_SIZE, ...)
+local C struct like "DTEntry dte", which is a C representation of an
-is an 'int', but we put it into a 'long' logal variable mmap_size.
+in-guest-memory data structure, and we call a function such as
-Coverity then complains that there might be a truncation when we copy
+get_dte() to read guest memory and fill in the C struct.  These
-that value into the 'int ret' which we use for returning a value in
+functions to read in the struct sometimes have cases where they will
-an error-exit codepath. This can't ever actually overflow because
+leave early and not fill in the whole struct (for instance get_dte()
-the value was in an 'int' to start with, but it makes more sense
+will set "dte->valid = false" and nothing else for the case where it
-to use 'int' for mmap_size so we don't do the widen-then-narrow
+is passed an entry_addr implying that there is no L2 table entry for
-sequence in the first place.
+the DTE).  This then causes potential use of uninitialized memory
 later, for instance when we call a trace event which prints all the
 fields of the struct.  Sufficiently advanced compilers may produce
 -Wmaybe-uninitialized warnings about this, especially if LTO is
 enabled.
-Resolves: Coverity CID 1547515
+Rather than trying to carefully separate out these trace events into
 "only the 'valid' field is initialized" and "all fields can be
 printed", zero-init all the structs when we define them. None of
 these structs are large (the biggest is 24 bytes) and having
 consistent behaviour is less likely to be buggy.
 Cc: qemu-stable@nongnu.org
 Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2718
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Message-id: 20240815131206.3231819-2-peter.maydell@linaro.org
+Message-id: 20241213182337.3343068-1-peter.maydell@linaro.org
 ---
- accel/kvm/kvm-all.c | 4 ++--
+ hw/intc/arm_gicv3_its.c | 44 ++++++++++++++++++++---------------------
-file changed, 2 insertions(+), 2 deletions(-)
+file changed, 22 insertions(+), 22 deletions(-)
-diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
---- a/accel/kvm/kvm-all.c
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/accel/kvm/kvm-all.c
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ int kvm_create_and_park_vcpu(CPUState *cpu)
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult lookup_vte(GICv3ITSState *s, const char *who,
- static int do_kvm_destroy_vcpu(CPUState *cpu)
+ static ItsCmdResult process_its_cmd_phys(GICv3ITSState *s, const ITEntry *ite,
                                           int irqlevel)
  {
-     KVMState *s = kvm_state;
+-    CTEntry cte;
--    long mmap_size;
++    CTEntry cte = {};
-+    int mmap_size;
+     ItsCmdResult cmdres;
-     int ret = 0;
+     cmdres = lookup_cte(s, __func__, ite->icid, &cte);
-     trace_kvm_destroy_vcpu(cpu->cpu_index, kvm_arch_vcpu_id(cpu));
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd_phys(GICv3ITSState *s, const ITEntry *ite,
-@@ -XXX,XX +XXX,XX @@ void kvm_destroy_vcpu(CPUState *cpu)
+ static ItsCmdResult process_its_cmd_virt(GICv3ITSState *s, const ITEntry *ite,
- int kvm_init_vcpu(CPUState *cpu, Error **errp)
+                                          int irqlevel)
  {
-     KVMState *s = kvm_state;
+-    VTEntry vte;
--    long mmap_size;
++    VTEntry vte = {};
-+    int mmap_size;
+     ItsCmdResult cmdres;
-     int ret;
+     cmdres = lookup_vte(s, __func__, ite->vpeid, &vte);
-     trace_kvm_init_vcpu(cpu->cpu_index, kvm_arch_vcpu_id(cpu));
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd_virt(GICv3ITSState *s, const ITEntry *ite,
  static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
                                         uint32_t eventid, ItsCmdType cmd)
  {
 -    DTEntry dte;
 -    ITEntry ite;
 +    DTEntry dte = {};
 +    ITEntry ite = {};
      ItsCmdResult cmdres;
      int irqlevel;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
      uint32_t pIntid = 0;
      uint64_t num_eventids;
      uint16_t icid = 0;
 -    DTEntry dte;
 -    ITEntry ite;
 +    DTEntry dte = {};
 +    ITEntry ite = {};
      devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
      eventid = cmdpkt[1] & EVENTID_MASK;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_vmapti(GICv3ITSState *s, const uint64_t *cmdpkt,
  {
      uint32_t devid, eventid, vintid, doorbell, vpeid;
      uint32_t num_eventids;
 -    DTEntry dte;
 -    ITEntry ite;
 +    DTEntry dte = {};
 +    ITEntry ite = {};
      if (!its_feature_virtual(s)) {
          return CMD_CONTINUE;
@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, const CTEntry *cte)
  static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
      uint16_t icid;
 -    CTEntry cte;
 +    CTEntry cte = {};
      icid = cmdpkt[2] & ICID_MASK;
      cte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, const DTEntry *dte)
  static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
      uint32_t devid;
 -    DTEntry dte;
 +    DTEntry dte = {};
      devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
      dte.size = cmdpkt[1] & SIZE_MASK;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
      uint32_t devid, eventid;
      uint16_t new_icid;
 -    DTEntry dte;
 -    CTEntry old_cte, new_cte;
 -    ITEntry old_ite;
 +    DTEntry dte = {};
 +    CTEntry old_cte = {}, new_cte = {};
 +    ITEntry old_ite = {};
      ItsCmdResult cmdres;
      devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
@@ -XXX,XX +XXX,XX @@ static bool update_vte(GICv3ITSState *s, uint32_t vpeid, const VTEntry *vte)
  static ItsCmdResult process_vmapp(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
 -    VTEntry vte;
 +    VTEntry vte = {};
      uint32_t vpeid;
      if (!its_feature_virtual(s)) {
@@ -XXX,XX +XXX,XX @@ static void vmovp_callback(gpointer data, gpointer opaque)
       */
      GICv3ITSState *s = data;
      VmovpCallbackData *cbdata = opaque;
 -    VTEntry vte;
 +    VTEntry vte = {};
      ItsCmdResult cmdres;
      cmdres = lookup_vte(s, __func__, cbdata->vpeid, &vte);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_vmovi(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
      uint32_t devid, eventid, vpeid, doorbell;
      bool doorbell_valid;
 -    DTEntry dte;
 -    ITEntry ite;
 -    VTEntry old_vte, new_vte;
 +    DTEntry dte = {};
 +    ITEntry ite = {};
 +    VTEntry old_vte = {}, new_vte = {};
      ItsCmdResult cmdres;
      if (!its_feature_virtual(s)) {
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_vinvall(GICv3ITSState *s, const uint64_t *cmdpkt)
  static ItsCmdResult process_inv(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
      uint32_t devid, eventid;
 -    ITEntry ite;
 -    DTEntry dte;
 -    CTEntry cte;
 -    VTEntry vte;
 +    ITEntry ite = {};
 +    DTEntry dte = {};
 +    CTEntry cte = {};
 +    VTEntry vte = {};
      ItsCmdResult cmdres;
      devid = FIELD_EX64(cmdpkt[0], INV_0, DEVICEID);
 --
 .34.1

-[PULL 31/38] tests: use default cpu for aarch64/sbsa-ref
+[PULL 19/19] tests/functional: update sbsa-ref firmware used in test
 From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-We want to run tests using default cpu without having to remember which
+Update the URLs for the binaries we use for the firmware in the
-Arm core is it.
+sbsa-ref functional tests.
-Change Neoverse-N1 (old default) test to use default cpu (Neoverse-N2 at
+The firmware is built using Debian 'bookworm' cross toolchain (gcc
-the moment).
+.2.0).
 Used versions:
 - Trusted Firmware v2.12.0
 - Tianocore EDK2 stable202411
 - Tianocore EDK2 Platforms code commit 4b3530d
 This allows us to move away from "some git commit on trunk"
 to a stable release for both TF-A and EDK2.
 Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-Message-id: 20240910-b4-move-to-freebsd-v5-1-0fb66d803c93@linaro.org
+Message-id: 20241125125448.185504-1-marcin.juszkiewicz@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- tests/functional/test_aarch64_sbsaref.py | 18 ++++++++++--------
+ tests/functional/test_aarch64_sbsaref.py | 20 ++++++++++----------
-file changed, 10 insertions(+), 8 deletions(-)
+file changed, 10 insertions(+), 10 deletions(-)
 diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
 index XXXXXXX..XXXXXXX 100755
 --- a/tests/functional/test_aarch64_sbsaref.py
 +++ b/tests/functional/test_aarch64_sbsaref.py
+@@ -XXX,XX +XXX,XX @@ def fetch_firmware(test):
+     Used components:
+-    - Trusted Firmware         v2.11.0
+-    - Tianocore EDK2           4d4f569924
+-    - Tianocore EDK2-platforms 3f08401
++    - Trusted Firmware         v2.12.0
++    - Tianocore EDK2           edk2-stable202411
++    - Tianocore EDK2-platforms 4b3530d
+     """
+@@ -XXX,XX +XXX,XX @@ class Aarch64SbsarefMachine(QemuSystemTest):
+     ASSET_FLASH0 = Asset(
+         ('https://artifacts.codelinaro.org/artifactory/linaro-419-sbsa-ref/'
+-         '20240619-148232/edk2/SBSA_FLASH0.fd.xz'),
+-        '0c954842a590988f526984de22e21ae0ab9cb351a0c99a8a58e928f0c7359cf7')
++         '20241122-189881/edk2/SBSA_FLASH0.fd.xz'),
++        '76eb89d42eebe324e4395329f47447cda9ac920aabcf99aca85424609c3384a5')
+     ASSET_FLASH1 = Asset(
+         ('https://artifacts.codelinaro.org/artifactory/linaro-419-sbsa-ref/'
+-         '20240619-148232/edk2/SBSA_FLASH1.fd.xz'),
+-        'c6ec39374c4d79bb9e9cdeeb6db44732d90bb4a334cec92002b3f4b9cac4b5ee')
++         '20241122-189881/edk2/SBSA_FLASH1.fd.xz'),
++        'f850f243bd8dbd49c51e061e0f79f1697546938f454aeb59ab7d93e5f0d412fc')
+     def test_sbsaref_edk2_firmware(self):
 @@ -XXX,XX +XXX,XX @@ def test_sbsaref_edk2_firmware(self):
-     # This tests the whole boot chain from EFI to Userspace
-     # We only boot a whole OS for the current top level CPU and GIC
+         # AP Trusted ROM
-     # Other test profiles should use more minimal boots
+         wait_for_console_pattern(self, "Booting Trusted Firmware")
--    def boot_alpine_linux(self, cpu):
+-        wait_for_console_pattern(self, "BL1: v2.11.0(release):")
-+    def boot_alpine_linux(self, cpu=None):
++        wait_for_console_pattern(self, "BL1: v2.12.0(release):")
-         self.fetch_firmware()
+         wait_for_console_pattern(self, "BL1: Booting BL2")
-         iso_path = self.ASSET_ALPINE_ISO.fetch()
+         # Trusted Boot Firmware
+-        wait_for_console_pattern(self, "BL2: v2.11.0(release)")
-         self.vm.set_console()
++        wait_for_console_pattern(self, "BL2: v2.12.0(release)")
-         self.vm.add_args(
+         wait_for_console_pattern(self, "Booting BL31")
--            "-cpu", cpu,
-             "-drive", f"file={iso_path},media=cdrom,format=raw",
+         # EL3 Runtime Software
-         )
+-        wait_for_console_pattern(self, "BL31: v2.11.0(release)")
-+        if cpu:
++        wait_for_console_pattern(self, "BL31: v2.12.0(release)")
-+            self.vm.add_args("-cpu", cpu)
+         # Non-trusted Firmware
-         self.vm.launch()
+         wait_for_console_pattern(self, "UEFI firmware (version 1.0")
          wait_for_console_pattern(self, "Welcome to Alpine Linux 3.17")
@@ -XXX,XX +XXX,XX @@ def boot_alpine_linux(self, cpu):
      def test_sbsaref_alpine_linux_cortex_a57(self):
          self.boot_alpine_linux("cortex-a57")
 -    def test_sbsaref_alpine_linux_neoverse_n1(self):
 -        self.boot_alpine_linux("neoverse-n1")
 +    def test_sbsaref_alpine_linux_default_cpu(self):
 +        self.boot_alpine_linux()
      def test_sbsaref_alpine_linux_max_pauth_off(self):
          self.boot_alpine_linux("max,pauth=off")
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_alpine_linux_max(self):
      # This tests the whole boot chain from EFI to Userspace
      # We only boot a whole OS for the current top level CPU and GIC
      # Other test profiles should use more minimal boots
 -    def boot_openbsd73(self, cpu):
 +    def boot_openbsd73(self, cpu=None):
          self.fetch_firmware()
          img_path = self.ASSET_OPENBSD_ISO.fetch()
          self.vm.set_console()
          self.vm.add_args(
 -            "-cpu", cpu,
              "-drive", f"file={img_path},format=raw,snapshot=on",
          )
 +        if cpu:
 +            self.vm.add_args("-cpu", cpu)
          self.vm.launch()
          wait_for_console_pattern(self,
@@ -XXX,XX +XXX,XX @@ def boot_openbsd73(self, cpu):
      def test_sbsaref_openbsd73_cortex_a57(self):
          self.boot_openbsd73("cortex-a57")
 -    def test_sbsaref_openbsd73_neoverse_n1(self):
 -        self.boot_openbsd73("neoverse-n1")
 +    def test_sbsaref_openbsd73_default_cpu(self):
 +        self.boot_openbsd73()
      def test_sbsaref_openbsd73_max_pauth_off(self):
          self.boot_openbsd73("max,pauth=off")
 --
 .34.1

-[PULL 32/38] tests: add FreeBSD tests for aarch64/sbsa-ref
+Deleted patch
-From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-FreeBSD has longer support cycle for stable release (14.x EoL in 2028)
-than OpenBSD (7.3 we use is already EoL). Also bugfixes are backported
-so we can stay on 14.x for longer.
-Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
-Message-id: 20240910-b4-move-to-freebsd-v5-2-0fb66d803c93@linaro.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- tests/functional/test_aarch64_sbsaref.py | 43 +++++++++++++++++++++++-
-file changed, 42 insertions(+), 1 deletion(-)
-diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
-index XXXXXXX..XXXXXXX 100755
---- a/tests/functional/test_aarch64_sbsaref.py
-+++ b/tests/functional/test_aarch64_sbsaref.py
-@@ -XXX,XX +XXX,XX @@
- #!/usr/bin/env python3
- #
--# Functional test that boots a Linux kernel and checks the console
-+# Functional test that boots a kernel and checks the console
- #
- # SPDX-FileCopyrightText: 2023-2024 Linaro Ltd.
- # SPDX-FileContributor: Philippe Mathieu-Daudé <philmd@linaro.org>
-@@ -XXX,XX +XXX,XX @@ def test_sbsaref_openbsd73_max(self):
-         self.boot_openbsd73("max")
-+    ASSET_FREEBSD_ISO = Asset(
-+        ('https://download.freebsd.org/releases/arm64/aarch64/ISO-IMAGES/'
-+         '14.1/FreeBSD-14.1-RELEASE-arm64-aarch64-bootonly.iso'),
-+        '44cdbae275ef1bb6dab1d5fbb59473d4f741e1c8ea8a80fd9e906b531d6ad461')
-+
-+    # This tests the whole boot chain from EFI to Userspace
-+    # We only boot a whole OS for the current top level CPU and GIC
-+    # Other test profiles should use more minimal boots
-+    def boot_freebsd14(self, cpu=None):
-+        self.fetch_firmware()
-+
-+        img_path = self.ASSET_FREEBSD_ISO.fetch()
-+
-+        self.vm.set_console()
-+        self.vm.add_args(
-+            "-drive", f"file={img_path},format=raw,snapshot=on",
-+        )
-+        if cpu:
-+            self.vm.add_args("-cpu", cpu)
-+
-+        self.vm.launch()
-+        wait_for_console_pattern(self, 'Welcome to FreeBSD!')
-+
-+    def test_sbsaref_freebsd14_cortex_a57(self):
-+        self.boot_freebsd14("cortex-a57")
-+
-+    def test_sbsaref_freebsd14_default_cpu(self):
-+        self.boot_freebsd14()
-+
-+    def test_sbsaref_freebsd14_max_pauth_off(self):
-+        self.boot_freebsd14("max,pauth=off")
-+
-+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
-+    def test_sbsaref_freebsd14_max_pauth_impdef(self):
-+        self.boot_freebsd14("max,pauth-impdef=on")
-+
-+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
-+    def test_sbsaref_freebsd14_max(self):
-+        self.boot_freebsd14("max")
-+
-+
- if __name__ == '__main__':
-     QemuSystemTest.main()
---
-.34.1

-[PULL 36/38] kvm: Remove unreachable code in kvm_dirty_ring_reaper_thread()
+Deleted patch
-The code at the tail end of the loop in kvm_dirty_ring_reaper_thread()
-is unreachable, because there is no way for execution to leave the
-loop. Replace it with a g_assert_not_reached().
-(The code has always been unreachable, right from the start
-when the function was added in commit b4420f198dd8.)
-Resolves: Coverity CID 1547687
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20240815131206.3231819-3-peter.maydell@linaro.org
----
- accel/kvm/kvm-all.c | 6 +-----
-file changed, 1 insertion(+), 5 deletions(-)
-diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
-index XXXXXXX..XXXXXXX 100644
---- a/accel/kvm/kvm-all.c
-+++ b/accel/kvm/kvm-all.c
-@@ -XXX,XX +XXX,XX @@ static void *kvm_dirty_ring_reaper_thread(void *data)
-         r->reaper_iteration++;
-     }
--    trace_kvm_dirty_ring_reaper("exit");
--
--    rcu_unregister_thread();
--
--    return NULL;
-+    g_assert_not_reached();
- }
- static void kvm_dirty_ring_reaper_init(KVMState *s)
---
-.34.1

The following changes since commit 14556211bc6d7125a44d5b5df90caba019b0ec0e:

Merge tag 'qemu-macppc-20240918' of https://github.com/mcayland/qemu into staging (2024-09-18 20:59:10 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240919

for you to fetch changes up to 89b30b4921e51bb47313d2d8fdc3d7bce987e4c5:

docs/devel: Remove nested-papr.txt (2024-09-19 13:33:15 +0100)

----------------------------------------------------------------
target-arm queue:
 * target/arm: Correct ID_AA64ISAR1_EL1 value for neoverse-v1
 * target/arm: More conversions to decodetree of A64 SIMD insns
 * hw/char/stm32l4x5_usart.c: Enable USART ACK bit response
 * tests: update aarch64/sbsa-ref tests
 * kvm: minor Coverity nit fixes
 * docs/devel: Remove nested-papr.txt

----------------------------------------------------------------
Jacob Abrams (1):
      hw/char/stm32l4x5_usart.c: Enable USART ACK bit response

Marcin Juszkiewicz (4):
      tests: use default cpu for aarch64/sbsa-ref
      tests: add FreeBSD tests for aarch64/sbsa-ref
      tests: expand timeout information for aarch64/sbsa-ref
      tests: drop OpenBSD tests for aarch64/sbsa-ref

Peter Maydell (4):
      kvm: Make 'mmap_size' be 'int' in kvm_init_vcpu(), do_kvm_destroy_vcpu()
      kvm: Remove unreachable code in kvm_dirty_ring_reaper_thread()
      target/arm: Correct ID_AA64ISAR1_EL1 value for neoverse-v1
      docs/devel: Remove nested-papr.txt

Richard Henderson (29):
      target/arm: Replace tcg_gen_dupi_vec with constants in gengvec.c
      target/arm: Replace tcg_gen_dupi_vec with constants in translate-sve.c
      target/arm: Use cmpsel in gen_ushl_vec
      target/arm: Use cmpsel in gen_sshl_vec
      target/arm: Use tcg_gen_extract2_i64 for EXT
      target/arm: Convert EXT to decodetree
      target/arm: Convert TBL, TBX to decodetree
      target/arm: Convert UZP, TRN, ZIP to decodetree
      target/arm: Simplify do_reduction_op
      target/arm: Convert ADDV, *ADDLV, *MAXV, *MINV to decodetree
      target/arm: Convert FMAXNMV, FMINNMV, FMAXV, FMINV to decodetree
      target/arm: Convert FMOVI (scalar, immediate) to decodetree
      target/arm: Convert MOVI, FMOV, ORR, BIC (vector immediate) to decodetree
      target/arm: Introduce gen_gvec_sshr, gen_gvec_ushr
      target/arm: Fix whitespace near gen_srshr64_i64
      target/arm: Convert handle_vec_simd_shri to decodetree
      target/arm: Convert handle_vec_simd_shli to decodetree
      target/arm: Use {, s}extract in handle_vec_simd_wshli
      target/arm: Convert SSHLL, USHLL to decodetree
      target/arm: Push tcg_rnd into handle_shri_with_rndacc
      target/arm: Split out subroutines of handle_shri_with_rndacc
      target/arm: Convert SHRN, RSHRN to decodetree
      target/arm: Convert handle_scalar_simd_shri to decodetree
      target/arm: Convert handle_scalar_simd_shli to decodetree
      target/arm: Convert VQSHL, VQSHLU to gvec
      target/arm: Widen NeonGenNarrowEnvFn return to 64 bits
      target/arm: Convert SQSHL, UQSHL, SQSHLU (immediate) to decodetree
      target/arm: Convert vector [US]QSHRN, [US]QRSHRN, SQSHRUN to decodetree
      target/arm: Convert scalar [US]QSHRN, [US]QRSHRN, SQSHRUN to decodetree

From: Richard Henderson <richard.henderson@linaro.org>

Instead of copying a constant into a temporary with dupi,
use a vector constant directly.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/gengvec.c | 43 ++++++++++++++++++----------------------
 1 file changed, 19 insertions(+), 24 deletions(-)

diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/gengvec.c
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 {
     TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_constant_vec_matching(d, vece, 1);
 
     tcg_gen_shri_vec(vece, t, a, sh - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
     tcg_gen_and_vec(vece, t, t, ones);
     tcg_gen_sari_vec(vece, d, a, sh);
     tcg_gen_add_vec(vece, d, d, t);
@@ -XXX,XX +XXX,XX @@ void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
 {
     TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_constant_vec_matching(d, vece, 1);
 
     tcg_gen_shri_vec(vece, t, a, shift - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
     tcg_gen_and_vec(vece, t, t, ones);
     tcg_gen_shri_vec(vece, d, a, shift);
     tcg_gen_add_vec(vece, d, d, t);
@@ -XXX,XX +XXX,XX @@ static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 {
     TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
+    int64_t mi = MAKE_64BIT_MASK((8 << vece) - sh, sh);
+    TCGv_vec m = tcg_constant_vec_matching(d, vece, mi);
 
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
     tcg_gen_shri_vec(vece, t, a, sh);
     tcg_gen_and_vec(vece, d, d, m);
     tcg_gen_or_vec(vece, d, d, t);
@@ -XXX,XX +XXX,XX @@ static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 {
     TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_constant_vec_matching(d, vece, MAKE_64BIT_MASK(0, sh));
 
     tcg_gen_shli_vec(vece, t, a, sh);
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
     tcg_gen_and_vec(vece, d, d, m);
     tcg_gen_or_vec(vece, d, d, t);
 }
@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
     TCGv_vec rval = tcg_temp_new_vec_matching(dst);
     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec msk, max;
+    TCGv_vec max;
 
     tcg_gen_neg_vec(vece, rsh, shift);
     if (vece == MO_8) {
         tcg_gen_mov_vec(lsh, shift);
     } else {
-        msk = tcg_temp_new_vec_matching(dst);
-        tcg_gen_dupi_vec(vece, msk, 0xff);
+        TCGv_vec msk = tcg_constant_vec_matching(dst, vece, 0xff);
         tcg_gen_and_vec(vece, lsh, shift, msk);
         tcg_gen_and_vec(vece, rsh, rsh, msk);
     }
@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
     tcg_gen_shlv_vec(vece, lval, src, lsh);
     tcg_gen_shrv_vec(vece, rval, src, rsh);
 
-    max = tcg_temp_new_vec_matching(dst);
-    tcg_gen_dupi_vec(vece, max, 8 << vece);
-
     /*
      * The choice of LT (signed) and GEU (unsigned) are biased toward
      * the instructions of the x86_64 host.  For MO_8, the whole byte
@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
      * have already masked to a byte and so a signed compare works.
      * Other tcg hosts have a full set of comparisons and do not care.
      */
+    max = tcg_constant_vec_matching(dst, vece, 8 << vece);
     if (vece == MO_8) {
         tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
         tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
     TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
+    TCGv_vec max, zero;
 
     /*
      * Rely on the TCG guarantee that out of range shifts produce
@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
     if (vece == MO_8) {
         tcg_gen_mov_vec(lsh, shift);
     } else {
-        tcg_gen_dupi_vec(vece, tmp, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, tmp);
-        tcg_gen_and_vec(vece, rsh, rsh, tmp);
+        TCGv_vec msk = tcg_constant_vec_matching(dst, vece, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, msk);
+        tcg_gen_and_vec(vece, rsh, rsh, msk);
     }
 
     /* Bound rsh so out of bound right shift gets -1.  */
-    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
-    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
+    max = tcg_constant_vec_matching(dst, vece, (8 << vece) - 1);
+    tcg_gen_umin_vec(vece, rsh, rsh, max);
+    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, max);
 
     tcg_gen_shlv_vec(vece, lval, src, lsh);
     tcg_gen_sarv_vec(vece, rval, src, rsh);
@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
     tcg_gen_andc_vec(vece, lval, lval, tmp);
 
     /* Select between left and right shift.  */
+    zero = tcg_constant_vec_matching(dst, vece, 0);
     if (vece == MO_8) {
-        tcg_gen_dupi_vec(vece, tmp, 0);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, zero, rval, lval);
     } else {
-        tcg_gen_dupi_vec(vece, tmp, 0x80);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
+        TCGv_vec sgn = tcg_constant_vec_matching(dst, vece, 0x80);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, sgn, lval, rval);
     }
 }
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Instead of copying a constant into a temporary with dupi,
use a vector constant directly.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-sve.c | 128 +++++++++++++--------------------
 1 file changed, 49 insertions(+), 79 deletions(-)

diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-sve.c
+++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ static void gen_sshll_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t imm)
 
     if (top) {
         if (shl == halfbits) {
-            TCGv_vec t = tcg_temp_new_vec_matching(d);
-            tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(halfbits, halfbits));
-            tcg_gen_and_vec(vece, d, n, t);
+            tcg_gen_and_vec(vece, d, n,
+                            tcg_constant_vec_matching(d, vece,
+                                MAKE_64BIT_MASK(halfbits, halfbits)));
         } else {
             tcg_gen_sari_vec(vece, d, n, halfbits);
             tcg_gen_shli_vec(vece, d, d, shl);
@@ -XXX,XX +XXX,XX @@ static void gen_ushll_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t imm)
 
     if (top) {
         if (shl == halfbits) {
-            TCGv_vec t = tcg_temp_new_vec_matching(d);
-            tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(halfbits, halfbits));
-            tcg_gen_and_vec(vece, d, n, t);
+            tcg_gen_and_vec(vece, d, n,
+                            tcg_constant_vec_matching(d, vece,
+                                MAKE_64BIT_MASK(halfbits, halfbits)));
         } else {
             tcg_gen_shri_vec(vece, d, n, halfbits);
             tcg_gen_shli_vec(vece, d, d, shl);
         }
     } else {
         if (shl == 0) {
-            TCGv_vec t = tcg_temp_new_vec_matching(d);
-            tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
-            tcg_gen_and_vec(vece, d, n, t);
+            tcg_gen_and_vec(vece, d, n,
+                            tcg_constant_vec_matching(d, vece,
+                                MAKE_64BIT_MASK(0, halfbits)));
         } else {
             tcg_gen_shli_vec(vece, d, n, halfbits);
             tcg_gen_shri_vec(vece, d, d, halfbits - shl);
@@ -XXX,XX +XXX,XX @@ static const TCGOpcode sqxtn_list[] = {
 
 static void gen_sqxtnb_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t mask = (1ull << halfbits) - 1;
     int64_t min = -1ull << (halfbits - 1);
     int64_t max = -min - 1;
 
-    tcg_gen_dupi_vec(vece, t, min);
-    tcg_gen_smax_vec(vece, d, n, t);
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_smin_vec(vece, d, d, t);
-    tcg_gen_dupi_vec(vece, t, mask);
-    tcg_gen_and_vec(vece, d, d, t);
+    tcg_gen_smax_vec(vece, d, n, tcg_constant_vec_matching(d, vece, min));
+    tcg_gen_smin_vec(vece, d, d, tcg_constant_vec_matching(d, vece, max));
+    tcg_gen_and_vec(vece, d, d, tcg_constant_vec_matching(d, vece, mask));
 }
 
 static const GVecGen2 sqxtnb_ops[3] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQXTNB, aa64_sve2, do_narrow_extract, a, sqxtnb_ops)
 
 static void gen_sqxtnt_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t mask = (1ull << halfbits) - 1;
     int64_t min = -1ull << (halfbits - 1);
     int64_t max = -min - 1;
 
-    tcg_gen_dupi_vec(vece, t, min);
-    tcg_gen_smax_vec(vece, n, n, t);
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_smin_vec(vece, n, n, t);
+    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, min));
+    tcg_gen_smin_vec(vece, n, n, tcg_constant_vec_matching(d, vece, max));
     tcg_gen_shli_vec(vece, n, n, halfbits);
-    tcg_gen_dupi_vec(vece, t, mask);
-    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_gen_bitsel_vec(vece, d, tcg_constant_vec_matching(d, vece, mask), d, n);
 }
 
 static const GVecGen2 sqxtnt_ops[3] = {
@@ -XXX,XX +XXX,XX @@ static const TCGOpcode uqxtn_list[] = {
 
 static void gen_uqxtnb_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t max = (1ull << halfbits) - 1;
 
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_umin_vec(vece, d, n, t);
+    tcg_gen_umin_vec(vece, d, n, tcg_constant_vec_matching(d, vece, max));
 }
 
 static const GVecGen2 uqxtnb_ops[3] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(UQXTNB, aa64_sve2, do_narrow_extract, a, uqxtnb_ops)
 
 static void gen_uqxtnt_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t max = (1ull << halfbits) - 1;
+    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
 
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_umin_vec(vece, n, n, t);
+    tcg_gen_umin_vec(vece, n, n, maxv);
     tcg_gen_shli_vec(vece, n, n, halfbits);
-    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
 }
 
 static const GVecGen2 uqxtnt_ops[3] = {
@@ -XXX,XX +XXX,XX @@ static const TCGOpcode sqxtun_list[] = {
 
 static void gen_sqxtunb_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t max = (1ull << halfbits) - 1;
 
-    tcg_gen_dupi_vec(vece, t, 0);
-    tcg_gen_smax_vec(vece, d, n, t);
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_umin_vec(vece, d, d, t);
+    tcg_gen_smax_vec(vece, d, n, tcg_constant_vec_matching(d, vece, 0));
+    tcg_gen_umin_vec(vece, d, d, tcg_constant_vec_matching(d, vece, max));
 }
 
 static const GVecGen2 sqxtunb_ops[3] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQXTUNB, aa64_sve2, do_narrow_extract, a, sqxtunb_ops)
 
 static void gen_sqxtunt_vec(unsigned vece, TCGv_vec d, TCGv_vec n)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t max = (1ull << halfbits) - 1;
+    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
 
-    tcg_gen_dupi_vec(vece, t, 0);
-    tcg_gen_smax_vec(vece, n, n, t);
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_umin_vec(vece, n, n, t);
+    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, 0));
+    tcg_gen_umin_vec(vece, n, n, maxv);
     tcg_gen_shli_vec(vece, n, n, halfbits);
-    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
 }
 
 static const GVecGen2 sqxtunt_ops[3] = {
@@ -XXX,XX +XXX,XX @@ static void gen_shrnb64_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
 
 static void gen_shrnb_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     uint64_t mask = MAKE_64BIT_MASK(0, halfbits);
 
     tcg_gen_shri_vec(vece, n, n, shr);
-    tcg_gen_dupi_vec(vece, t, mask);
-    tcg_gen_and_vec(vece, d, n, t);
+    tcg_gen_and_vec(vece, d, n, tcg_constant_vec_matching(d, vece, mask));
 }
 
 static const TCGOpcode shrnb_vec_list[] = { INDEX_op_shri_vec, 0 };
@@ -XXX,XX +XXX,XX @@ static void gen_shrnt64_i64(TCGv_i64 d, TCGv_i64 n, int64_t shr)
 
 static void gen_shrnt_vec(unsigned vece, TCGv_vec d, TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     uint64_t mask = MAKE_64BIT_MASK(0, halfbits);
 
     tcg_gen_shli_vec(vece, n, n, halfbits - shr);
-    tcg_gen_dupi_vec(vece, t, mask);
-    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_gen_bitsel_vec(vece, d, tcg_constant_vec_matching(d, vece, mask), d, n);
 }
 
 static const TCGOpcode shrnt_vec_list[] = { INDEX_op_shli_vec, 0 };
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(RSHRNT, aa64_sve2, do_shr_narrow, a, rshrnt_ops)
 static void gen_sqshrunb_vec(unsigned vece, TCGv_vec d,
                              TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
+    uint64_t max = MAKE_64BIT_MASK(0, halfbits);
 
     tcg_gen_sari_vec(vece, n, n, shr);
-    tcg_gen_dupi_vec(vece, t, 0);
-    tcg_gen_smax_vec(vece, n, n, t);
-    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
-    tcg_gen_umin_vec(vece, d, n, t);
+    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, 0));
+    tcg_gen_umin_vec(vece, d, n, tcg_constant_vec_matching(d, vece, max));
 }
 
 static const TCGOpcode sqshrunb_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQSHRUNB, aa64_sve2, do_shr_narrow, a, sqshrunb_ops)
 static void gen_sqshrunt_vec(unsigned vece, TCGv_vec d,
                              TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
+    uint64_t max = MAKE_64BIT_MASK(0, halfbits);
+    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
 
     tcg_gen_sari_vec(vece, n, n, shr);
-    tcg_gen_dupi_vec(vece, t, 0);
-    tcg_gen_smax_vec(vece, n, n, t);
-    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
-    tcg_gen_umin_vec(vece, n, n, t);
+    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, 0));
+    tcg_gen_umin_vec(vece, n, n, maxv);
     tcg_gen_shli_vec(vece, n, n, halfbits);
-    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
 }
 
 static const TCGOpcode sqshrunt_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQRSHRUNT, aa64_sve2, do_shr_narrow, a, sqrshrunt_ops)
 static void gen_sqshrnb_vec(unsigned vece, TCGv_vec d,
                             TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t max = MAKE_64BIT_MASK(0, halfbits - 1);
     int64_t min = -max - 1;
+    int64_t mask = MAKE_64BIT_MASK(0, halfbits);
 
     tcg_gen_sari_vec(vece, n, n, shr);
-    tcg_gen_dupi_vec(vece, t, min);
-    tcg_gen_smax_vec(vece, n, n, t);
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_smin_vec(vece, n, n, t);
-    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
-    tcg_gen_and_vec(vece, d, n, t);
+    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, min));
+    tcg_gen_smin_vec(vece, n, n, tcg_constant_vec_matching(d, vece, max));
+    tcg_gen_and_vec(vece, d, n, tcg_constant_vec_matching(d, vece, mask));
 }
 
 static const TCGOpcode sqshrnb_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQSHRNB, aa64_sve2, do_shr_narrow, a, sqshrnb_ops)
 static void gen_sqshrnt_vec(unsigned vece, TCGv_vec d,
                              TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
     int64_t max = MAKE_64BIT_MASK(0, halfbits - 1);
     int64_t min = -max - 1;
+    int64_t mask = MAKE_64BIT_MASK(0, halfbits);
 
     tcg_gen_sari_vec(vece, n, n, shr);
-    tcg_gen_dupi_vec(vece, t, min);
-    tcg_gen_smax_vec(vece, n, n, t);
-    tcg_gen_dupi_vec(vece, t, max);
-    tcg_gen_smin_vec(vece, n, n, t);
+    tcg_gen_smax_vec(vece, n, n, tcg_constant_vec_matching(d, vece, min));
+    tcg_gen_smin_vec(vece, n, n, tcg_constant_vec_matching(d, vece, max));
     tcg_gen_shli_vec(vece, n, n, halfbits);
-    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
-    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_gen_bitsel_vec(vece, d, tcg_constant_vec_matching(d, vece, mask), d, n);
 }
 
 static const TCGOpcode sqshrnt_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SQRSHRNT, aa64_sve2, do_shr_narrow, a, sqrshrnt_ops)
 static void gen_uqshrnb_vec(unsigned vece, TCGv_vec d,
                             TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
+    int64_t max = MAKE_64BIT_MASK(0, halfbits);
 
     tcg_gen_shri_vec(vece, n, n, shr);
-    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
-    tcg_gen_umin_vec(vece, d, n, t);
+    tcg_gen_umin_vec(vece, d, n, tcg_constant_vec_matching(d, vece, max));
 }
 
 static const TCGOpcode uqshrnb_vec_list[] = {
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(UQSHRNB, aa64_sve2, do_shr_narrow, a, uqshrnb_ops)
 static void gen_uqshrnt_vec(unsigned vece, TCGv_vec d,
                             TCGv_vec n, int64_t shr)
 {
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
     int halfbits = 4 << vece;
+    int64_t max = MAKE_64BIT_MASK(0, halfbits);
+    TCGv_vec maxv = tcg_constant_vec_matching(d, vece, max);
 
     tcg_gen_shri_vec(vece, n, n, shr);
-    tcg_gen_dupi_vec(vece, t, MAKE_64BIT_MASK(0, halfbits));
-    tcg_gen_umin_vec(vece, n, n, t);
+    tcg_gen_umin_vec(vece, n, n, maxv);
     tcg_gen_shli_vec(vece, n, n, halfbits);
-    tcg_gen_bitsel_vec(vece, d, t, d, n);
+    tcg_gen_bitsel_vec(vece, d, maxv, d, n);
 }
 
 static const TCGOpcode uqshrnt_vec_list[] = {
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Instead of cmp+and or cmp+andc, use cmpsel.  This will
be better for hosts that use predicate registers for cmp.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/gengvec.c | 19 ++++++++-----------
 1 file changed, 8 insertions(+), 11 deletions(-)

diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/gengvec.c
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
     TCGv_vec rval = tcg_temp_new_vec_matching(dst);
     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec max;
+    TCGv_vec max, zero;
 
     tcg_gen_neg_vec(vece, rsh, shift);
     if (vece == MO_8) {
@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
     tcg_gen_shrv_vec(vece, rval, src, rsh);
 
     /*
-     * The choice of LT (signed) and GEU (unsigned) are biased toward
+     * The choice of GE (signed) and GEU (unsigned) are biased toward
      * the instructions of the x86_64 host.  For MO_8, the whole byte
      * is significant so we must use an unsigned compare; otherwise we
      * have already masked to a byte and so a signed compare works.
      * Other tcg hosts have a full set of comparisons and do not care.
      */
+    zero = tcg_constant_vec_matching(dst, vece, 0);
     max = tcg_constant_vec_matching(dst, vece, 8 << vece);
     if (vece == MO_8) {
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
-        tcg_gen_andc_vec(vece, lval, lval, lsh);
-        tcg_gen_andc_vec(vece, rval, rval, rsh);
+        tcg_gen_cmpsel_vec(TCG_COND_GEU, vece, lval, lsh, max, zero, lval);
+        tcg_gen_cmpsel_vec(TCG_COND_GEU, vece, rval, rsh, max, zero, rval);
     } else {
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
-        tcg_gen_and_vec(vece, lval, lval, lsh);
-        tcg_gen_and_vec(vece, rval, rval, rsh);
+        tcg_gen_cmpsel_vec(TCG_COND_GE, vece, lval, lsh, max, zero, lval);
+        tcg_gen_cmpsel_vec(TCG_COND_GE, vece, rval, rsh, max, zero, rval);
     }
     tcg_gen_or_vec(vece, dst, lval, rval);
 }
@@ -XXX,XX +XXX,XX @@ void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 {
     static const TCGOpcode vecop_list[] = {
         INDEX_op_neg_vec, INDEX_op_shlv_vec,
-        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+        INDEX_op_shrv_vec, INDEX_op_cmpsel_vec, 0
     };
     static const GVecGen3 ops[4] = {
         { .fniv = gen_ushl_vec,
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Instead of cmp+and or cmp+andc, use cmpsel.  This will
be better for hosts that use predicate registers for cmp.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/gengvec.c | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/gengvec.c
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
     TCGv_vec rval = tcg_temp_new_vec_matching(dst);
     TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
     TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
     TCGv_vec max, zero;
 
     /*
@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
     /* Bound rsh so out of bound right shift gets -1.  */
     max = tcg_constant_vec_matching(dst, vece, (8 << vece) - 1);
     tcg_gen_umin_vec(vece, rsh, rsh, max);
-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, max);
 
     tcg_gen_shlv_vec(vece, lval, src, lsh);
     tcg_gen_sarv_vec(vece, rval, src, rsh);
 
     /* Select in-bound left shift.  */
-    tcg_gen_andc_vec(vece, lval, lval, tmp);
+    zero = tcg_constant_vec_matching(dst, vece, 0);
+    tcg_gen_cmpsel_vec(TCG_COND_GT, vece, lval, lsh, max, zero, lval);
 
     /* Select between left and right shift.  */
-    zero = tcg_constant_vec_matching(dst, vece, 0);
     if (vece == MO_8) {
         tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, zero, rval, lval);
     } else {
@@ -XXX,XX +XXX,XX @@ void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 {
     static const TCGOpcode vecop_list[] = {
         INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
-        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+        INDEX_op_sarv_vec, INDEX_op_cmpsel_vec, 0
     };
     static const GVecGen3 ops[4] = {
         { .fniv = gen_sshl_vec,
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

The extract2 tcg op performs the same operation
as the do_ext64 function.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 23 +++--------------------
 1 file changed, 3 insertions(+), 20 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
     }
 }
 
-static void do_ext64(DisasContext *s, TCGv_i64 tcg_left, TCGv_i64 tcg_right,
-                     int pos)
-{
-    /* Extract 64 bits from the middle of two concatenated 64 bit
-     * vector register slices left:right. The extracted bits start
-     * at 'pos' bits into the right (least significant) side.
-     * We return the result in tcg_right, and guarantee not to
-     * trash tcg_left.
-     */
-    TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-    assert(pos > 0 && pos < 64);
-
-    tcg_gen_shri_i64(tcg_right, tcg_right, pos);
-    tcg_gen_shli_i64(tcg_tmp, tcg_left, 64 - pos);
-    tcg_gen_or_i64(tcg_right, tcg_right, tcg_tmp);
-}
-
 /* EXT
  *   31  30 29         24 23 22  21 20  16 15  14  11 10  9    5 4    0
  * +---+---+-------------+-----+---+------+---+------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_ext(DisasContext *s, uint32_t insn)
         read_vec_element(s, tcg_resl, rn, 0, MO_64);
         if (pos != 0) {
             read_vec_element(s, tcg_resh, rm, 0, MO_64);
-            do_ext64(s, tcg_resh, tcg_resl, pos);
+            tcg_gen_extract2_i64(tcg_resl, tcg_resl, tcg_resh, pos);
         }
     } else {
         TCGv_i64 tcg_hh;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_ext(DisasContext *s, uint32_t insn)
         read_vec_element(s, tcg_resh, elt->reg, elt->elt, MO_64);
         elt++;
         if (pos != 0) {
-            do_ext64(s, tcg_resh, tcg_resl, pos);
+            tcg_gen_extract2_i64(tcg_resl, tcg_resl, tcg_resh, pos);
             tcg_hh = tcg_temp_new_i64();
             read_vec_element(s, tcg_hh, elt->reg, elt->elt, MO_64);
-            do_ext64(s, tcg_hh, tcg_resh, pos);
+            tcg_gen_extract2_i64(tcg_resh, tcg_resh, tcg_hh, pos);
         }
     }
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   5 ++
 target/arm/tcg/translate-a64.c | 121 +++++++++++++--------------------
 2 files changed, 53 insertions(+), 73 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  4 +++
 target/arm/tcg/translate-a64.c | 47 ++++++++++------------------------
 2 files changed, 18 insertions(+), 33 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FNMSUB          0001 1111 .. 1 ..... 1 ..... ..... .....    @rrrr_hsd
 
 EXT_d           0010 1110 00 0 rm:5 00 imm:3 0 rn:5 rd:5
 EXT_q           0110 1110 00 0 rm:5 0  imm:4 0 rn:5 rd:5
+
+# Advanced SIMD Table Lookup
+
+TBL_TBX         0 q:1 00 1110 000 rm:5 0 len:2 tbx:1 00 rn:5 rd:5
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
     return true;
 }
 
+static bool trans_TBL_TBX(DisasContext *s, arg_TBL_TBX *a)
+{
+    if (fp_access_check(s)) {
+        int len = (a->len + 1) * 16;
+
+        tcg_gen_gvec_2_ptr(vec_full_reg_offset(s, a->rd),
+                           vec_full_reg_offset(s, a->rm), tcg_env,
+                           a->q ? 16 : 8, vec_full_reg_size(s),
+                           (len << 6) | (a->tbx << 5) | a->rn,
+                           gen_helper_simd_tblx);
+    }
+    return true;
+}
+
 /*
  * Cryptographic AES, SHA, SHA512
  */
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
     }
 }
 
-/* TBL/TBX
- *   31  30 29         24 23 22  21 20  16 15  14 13  12  11 10 9    5 4    0
- * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
- * | 0 | Q | 0 0 1 1 1 0 | op2 | 0 |  Rm  | 0 | len | op | 0 0 |  Rn  |  Rd  |
- * +---+---+-------------+-----+---+------+---+-----+----+-----+------+------+
- */
-static void disas_simd_tb(DisasContext *s, uint32_t insn)
-{
-    int op2 = extract32(insn, 22, 2);
-    int is_q = extract32(insn, 30, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    int is_tbx = extract32(insn, 12, 1);
-    int len = (extract32(insn, 13, 2) + 1) * 16;
-
-    if (op2 != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    tcg_gen_gvec_2_ptr(vec_full_reg_offset(s, rd),
-                       vec_full_reg_offset(s, rm), tcg_env,
-                       is_q ? 16 : 8, vec_full_reg_size(s),
-                       (len << 6) | (is_tbx << 5) | rn,
-                       gen_helper_simd_tblx);
-}
-
 /* ZIP/UZP/TRN
  *   31  30 29         24 23  22  21 20   16 15 14 12 11 10 9    5 4    0
  * +---+---+-------------+------+---+------+---+------------------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
-    { 0x0e000000, 0xbf208c00, disas_simd_tb },
     { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   9 ++
 target/arm/tcg/translate-a64.c | 158 ++++++++++++++-------------------
 2 files changed, 77 insertions(+), 90 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ EXT_q           0110 1110 00 0 rm:5 0  imm:4 0 rn:5 rd:5
 # Advanced SIMD Table Lookup
 
 TBL_TBX         0 q:1 00 1110 000 rm:5 0 len:2 tbx:1 00 rn:5 rd:5
+
+# Advanced SIMD Permute
+
+UZP1            0.00 1110 .. 0 ..... 0 001 10 ..... .....   @qrrr_e
+UZP2            0.00 1110 .. 0 ..... 0 101 10 ..... .....   @qrrr_e
+TRN1            0.00 1110 .. 0 ..... 0 010 10 ..... .....   @qrrr_e
+TRN2            0.00 1110 .. 0 ..... 0 110 10 ..... .....   @qrrr_e
+ZIP1            0.00 1110 .. 0 ..... 0 011 10 ..... .....   @qrrr_e
+ZIP2            0.00 1110 .. 0 ..... 0 111 10 ..... .....   @qrrr_e
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_TBL_TBX(DisasContext *s, arg_TBL_TBX *a)
     return true;
 }
 
+typedef int simd_permute_idx_fn(int i, int part, int elements);
+
+static bool do_simd_permute(DisasContext *s, arg_qrrr_e *a,
+                            simd_permute_idx_fn *fn, int part)
+{
+    MemOp esz = a->esz;
+    int datasize = a->q ? 16 : 8;
+    int elements = datasize >> esz;
+    TCGv_i64 tcg_res[2], tcg_ele;
+
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (!fp_access_check(s)) {
+        return true;
+    }
+
+    tcg_res[0] = tcg_temp_new_i64();
+    tcg_res[1] = a->q ? tcg_temp_new_i64() : NULL;
+    tcg_ele = tcg_temp_new_i64();
+
+    for (int i = 0; i < elements; i++) {
+        int o, w, idx;
+
+        idx = fn(i, part, elements);
+        read_vec_element(s, tcg_ele, (idx & elements ? a->rm : a->rn),
+                         idx & (elements - 1), esz);
+
+        w = (i << (esz + 3)) / 64;
+        o = (i << (esz + 3)) % 64;
+        if (o == 0) {
+            tcg_gen_mov_i64(tcg_res[w], tcg_ele);
+        } else {
+            tcg_gen_deposit_i64(tcg_res[w], tcg_res[w], tcg_ele, o, 8 << esz);
+        }
+    }
+
+    for (int i = a->q; i >= 0; --i) {
+        write_vec_element(s, tcg_res[i], a->rd, i, MO_64);
+    }
+    clear_vec_high(s, a->q, a->rd);
+    return true;
+}
+
+static int permute_load_uzp(int i, int part, int elements)
+{
+    return 2 * i + part;
+}
+
+TRANS(UZP1, do_simd_permute, a, permute_load_uzp, 0)
+TRANS(UZP2, do_simd_permute, a, permute_load_uzp, 1)
+
+static int permute_load_trn(int i, int part, int elements)
+{
+    return (i & 1) * elements + (i & ~1) + part;
+}
+
+TRANS(TRN1, do_simd_permute, a, permute_load_trn, 0)
+TRANS(TRN2, do_simd_permute, a, permute_load_trn, 1)
+
+static int permute_load_zip(int i, int part, int elements)
+{
+    return (i & 1) * elements + ((part * elements + i) >> 1);
+}
+
+TRANS(ZIP1, do_simd_permute, a, permute_load_zip, 0)
+TRANS(ZIP2, do_simd_permute, a, permute_load_zip, 1)
+
 /*
  * Cryptographic AES, SHA, SHA512
  */
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
     }
 }
 
-/* ZIP/UZP/TRN
- *   31  30 29         24 23  22  21 20   16 15 14 12 11 10 9    5 4    0
- * +---+---+-------------+------+---+------+---+------------------+------+
- * | 0 | Q | 0 0 1 1 1 0 | size | 0 |  Rm  | 0 | opc | 1 0 |  Rn  |  Rd  |
- * +---+---+-------------+------+---+------+---+------------------+------+
- */
-static void disas_simd_zip_trn(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int rm = extract32(insn, 16, 5);
-    int size = extract32(insn, 22, 2);
-    /* opc field bits [1:0] indicate ZIP/UZP/TRN;
-     * bit 2 indicates 1 vs 2 variant of the insn.
-     */
-    int opcode = extract32(insn, 12, 2);
-    bool part = extract32(insn, 14, 1);
-    bool is_q = extract32(insn, 30, 1);
-    int esize = 8 << size;
-    int i;
-    int datasize = is_q ? 128 : 64;
-    int elements = datasize / esize;
-    TCGv_i64 tcg_res[2], tcg_ele;
-
-    if (opcode == 0 || (size == 3 && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    tcg_res[0] = tcg_temp_new_i64();
-    tcg_res[1] = is_q ? tcg_temp_new_i64() : NULL;
-    tcg_ele = tcg_temp_new_i64();
-
-    for (i = 0; i < elements; i++) {
-        int o, w;
-
-        switch (opcode) {
-        case 1: /* UZP1/2 */
-        {
-            int midpoint = elements / 2;
-            if (i < midpoint) {
-                read_vec_element(s, tcg_ele, rn, 2 * i + part, size);
-            } else {
-                read_vec_element(s, tcg_ele, rm,
-                                 2 * (i - midpoint) + part, size);
-            }
-            break;
-        }
-        case 2: /* TRN1/2 */
-            if (i & 1) {
-                read_vec_element(s, tcg_ele, rm, (i & ~1) + part, size);
-            } else {
-                read_vec_element(s, tcg_ele, rn, (i & ~1) + part, size);
-            }
-            break;
-        case 3: /* ZIP1/2 */
-        {
-            int base = part * elements / 2;
-            if (i & 1) {
-                read_vec_element(s, tcg_ele, rm, base + (i >> 1), size);
-            } else {
-                read_vec_element(s, tcg_ele, rn, base + (i >> 1), size);
-            }
-            break;
-        }
-        default:
-            g_assert_not_reached();
-        }
-
-        w = (i * esize) / 64;
-        o = (i * esize) % 64;
-        if (o == 0) {
-            tcg_gen_mov_i64(tcg_res[w], tcg_ele);
-        } else {
-            tcg_gen_shli_i64(tcg_ele, tcg_ele, o);
-            tcg_gen_or_i64(tcg_res[w], tcg_res[w], tcg_ele);
-        }
-    }
-
-    for (i = 0; i <= is_q; ++i) {
-        write_vec_element(s, tcg_res[i], rd, i, MO_64);
-    }
-    clear_vec_high(s, is_q, rd);
-}
-
 /*
  * do_reduction_op helper
  *
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
-    { 0x0e000800, 0xbf208c00, disas_simd_zip_trn },
     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Use simple shift and add instead of ctpop, ctz, shift and mask.
Unlike SVE, there is no predicate to disable elements.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 40 +++++++++++-----------------------
 1 file changed, 13 insertions(+), 27 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
  * important for correct NaN propagation that we do these
  * operations in exactly the order specified by the pseudocode.
  *
- * This is a recursive function, TCG temps should be freed by the
- * calling function once it is done with the values.
+ * This is a recursive function.
  */
 static TCGv_i32 do_reduction_op(DisasContext *s, int fpopcode, int rn,
-                                int esize, int size, int vmap, TCGv_ptr fpst)
+                                MemOp esz, int ebase, int ecount, TCGv_ptr fpst)
 {
-    if (esize == size) {
-        int element;
-        MemOp msize = esize == 16 ? MO_16 : MO_32;
-        TCGv_i32 tcg_elem;
-
-        /* We should have one register left here */
-        assert(ctpop8(vmap) == 1);
-        element = ctz32(vmap);
-        assert(element < 8);
-
-        tcg_elem = tcg_temp_new_i32();
-        read_vec_element_i32(s, tcg_elem, rn, element, msize);
+    if (ecount == 1) {
+        TCGv_i32 tcg_elem = tcg_temp_new_i32();
+        read_vec_element_i32(s, tcg_elem, rn, ebase, esz);
         return tcg_elem;
     } else {
-        int bits = size / 2;
-        int shift = ctpop8(vmap) / 2;
-        int vmap_lo = (vmap >> shift) & vmap;
-        int vmap_hi = (vmap & ~vmap_lo);
+        int half = ecount >> 1;
         TCGv_i32 tcg_hi, tcg_lo, tcg_res;
 
-        tcg_hi = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_hi, fpst);
-        tcg_lo = do_reduction_op(s, fpopcode, rn, esize, bits, vmap_lo, fpst);
+        tcg_hi = do_reduction_op(s, fpopcode, rn, esz,
+                                 ebase + half, half, fpst);
+        tcg_lo = do_reduction_op(s, fpopcode, rn, esz,
+                                 ebase, half, fpst);
         tcg_res = tcg_temp_new_i32();
 
         switch (fpopcode) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
     bool is_u = extract32(insn, 29, 1);
     bool is_fp = false;
     bool is_min = false;
-    int esize;
     int elements;
     int i;
     TCGv_i64 tcg_res, tcg_elt;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
         return;
     }
 
-    esize = 8 << size;
-    elements = (is_q ? 128 : 64) / esize;
+    elements = (is_q ? 16 : 8) >> size;
 
     tcg_res = tcg_temp_new_i64();
     tcg_elt = tcg_temp_new_i64();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
          */
         TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
         int fpopcode = opcode | is_min << 4 | is_u << 5;
-        int vmap = (1 << elements) - 1;
-        TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, esize,
-                                             (is_q ? 128 : 64), vmap, fpst);
+        TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, size,
+                                             0, elements, fpst);
         tcg_gen_extu_i32_i64(tcg_res, tcg_res32);
     }
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  12 +++
 target/arm/tcg/translate-a64.c | 140 ++++++++++++---------------------
 2 files changed, 61 insertions(+), 91 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrr_e          . q:1 ...... esz:2 ...... ...... rn:5 rd:5  &qrr_e
+
 @qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
 @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 @qrrr_s         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=2
@@ -XXX,XX +XXX,XX @@ TRN1            0.00 1110 .. 0 ..... 0 010 10 ..... .....   @qrrr_e
 TRN2            0.00 1110 .. 0 ..... 0 110 10 ..... .....   @qrrr_e
 ZIP1            0.00 1110 .. 0 ..... 0 011 10 ..... .....   @qrrr_e
 ZIP2            0.00 1110 .. 0 ..... 0 111 10 ..... .....   @qrrr_e
+
+# Advanced SIMD Across Lanes
+
+ADDV            0.00 1110 .. 11000 11011 10 ..... .....     @qrr_e
+SADDLV          0.00 1110 .. 11000 00011 10 ..... .....     @qrr_e
+UADDLV          0.10 1110 .. 11000 00011 10 ..... .....     @qrr_e
+SMAXV           0.00 1110 .. 11000 01010 10 ..... .....     @qrr_e
+UMAXV           0.10 1110 .. 11000 01010 10 ..... .....     @qrr_e
+SMINV           0.00 1110 .. 11000 11010 10 ..... .....     @qrr_e
+UMINV           0.10 1110 .. 11000 11010 10 ..... .....     @qrr_e
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(FNMADD, do_fmadd, a, true, true)
 TRANS(FMSUB, do_fmadd, a, false, true)
 TRANS(FNMSUB, do_fmadd, a, true, false)
 
+/*
+ * Advanced SIMD Across Lanes
+ */
+
+static bool do_int_reduction(DisasContext *s, arg_qrr_e *a, bool widen,
+                             MemOp src_sign, NeonGenTwo64OpFn *fn)
+{
+    TCGv_i64 tcg_res, tcg_elt;
+    MemOp src_mop = a->esz | src_sign;
+    int elements = (a->q ? 16 : 8) >> a->esz;
+
+    /* Reject MO_64, and MO_32 without Q: a minimum of 4 elements. */
+    if (elements < 4) {
+        return false;
+    }
+    if (!fp_access_check(s)) {
+        return true;
+    }
+
+    tcg_res = tcg_temp_new_i64();
+    tcg_elt = tcg_temp_new_i64();
+
+    read_vec_element(s, tcg_res, a->rn, 0, src_mop);
+    for (int i = 1; i < elements; i++) {
+        read_vec_element(s, tcg_elt, a->rn, i, src_mop);
+        fn(tcg_res, tcg_res, tcg_elt);
+    }
+
+    tcg_gen_ext_i64(tcg_res, tcg_res, a->esz + widen);
+    write_fp_dreg(s, a->rd, tcg_res);
+    return true;
+}
+
+TRANS(ADDV, do_int_reduction, a, false, 0, tcg_gen_add_i64)
+TRANS(SADDLV, do_int_reduction, a, true, MO_SIGN, tcg_gen_add_i64)
+TRANS(UADDLV, do_int_reduction, a, true, 0, tcg_gen_add_i64)
+TRANS(SMAXV, do_int_reduction, a, false, MO_SIGN, tcg_gen_smax_i64)
+TRANS(UMAXV, do_int_reduction, a, false, 0, tcg_gen_umax_i64)
+TRANS(SMINV, do_int_reduction, a, false, MO_SIGN, tcg_gen_smin_i64)
+TRANS(UMINV, do_int_reduction, a, false, 0, tcg_gen_umin_i64)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 12, 5);
     bool is_q = extract32(insn, 30, 1);
     bool is_u = extract32(insn, 29, 1);
-    bool is_fp = false;
     bool is_min = false;
     int elements;
-    int i;
-    TCGv_i64 tcg_res, tcg_elt;
 
     switch (opcode) {
-    case 0x1b: /* ADDV */
-        if (is_u) {
-            unallocated_encoding(s);
-            return;
-        }
-        /* fall through */
-    case 0x3: /* SADDLV, UADDLV */
-    case 0xa: /* SMAXV, UMAXV */
-    case 0x1a: /* SMINV, UMINV */
-        if (size == 3 || (size == 2 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-        break;
     case 0xc: /* FMAXNMV, FMINNMV */
     case 0xf: /* FMAXV, FMINV */
         /* Bit 1 of size field encodes min vs max and the actual size
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
          * precision.
          */
         is_min = extract32(size, 1, 1);
-        is_fp = true;
         if (!is_u && dc_isar_feature(aa64_fp16, s)) {
             size = 1;
         } else if (!is_u || !is_q || extract32(size, 0, 1)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
         }
         break;
     default:
+    case 0x3: /* SADDLV, UADDLV */
+    case 0xa: /* SMAXV, UMAXV */
+    case 0x1a: /* SMINV, UMINV */
+    case 0x1b: /* ADDV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
 
     elements = (is_q ? 16 : 8) >> size;
 
-    tcg_res = tcg_temp_new_i64();
-    tcg_elt = tcg_temp_new_i64();
-
-    /* These instructions operate across all lanes of a vector
-     * to produce a single result. We can guarantee that a 64
-     * bit intermediate is sufficient:
-     *  + for [US]ADDLV the maximum element size is 32 bits, and
-     *    the result type is 64 bits
-     *  + for FMAX*V, FMIN*V, ADDV the intermediate type is the
-     *    same as the element size, which is 32 bits at most
-     * For the integer operations we can choose to work at 64
-     * or 32 bits and truncate at the end; for simplicity
-     * we use 64 bits always. The floating point
-     * ops do require 32 bit intermediates, though.
-     */
-    if (!is_fp) {
-        read_vec_element(s, tcg_res, rn, 0, size | (is_u ? 0 : MO_SIGN));
-
-        for (i = 1; i < elements; i++) {
-            read_vec_element(s, tcg_elt, rn, i, size | (is_u ? 0 : MO_SIGN));
-
-            switch (opcode) {
-            case 0x03: /* SADDLV / UADDLV */
-            case 0x1b: /* ADDV */
-                tcg_gen_add_i64(tcg_res, tcg_res, tcg_elt);
-                break;
-            case 0x0a: /* SMAXV / UMAXV */
-                if (is_u) {
-                    tcg_gen_umax_i64(tcg_res, tcg_res, tcg_elt);
-                } else {
-                    tcg_gen_smax_i64(tcg_res, tcg_res, tcg_elt);
-                }
-                break;
-            case 0x1a: /* SMINV / UMINV */
-                if (is_u) {
-                    tcg_gen_umin_i64(tcg_res, tcg_res, tcg_elt);
-                } else {
-                    tcg_gen_smin_i64(tcg_res, tcg_res, tcg_elt);
-                }
-                break;
-            default:
-                g_assert_not_reached();
-            }
-
-        }
-    } else {
+    {
         /* Floating point vector reduction ops which work across 32
          * bit (single) or 16 bit (half-precision) intermediates.
          * Note that correct NaN propagation requires that we do these
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
          */
         TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
         int fpopcode = opcode | is_min << 4 | is_u << 5;
-        TCGv_i32 tcg_res32 = do_reduction_op(s, fpopcode, rn, size,
-                                             0, elements, fpst);
-        tcg_gen_extu_i32_i64(tcg_res, tcg_res32);
+        TCGv_i32 tcg_res = do_reduction_op(s, fpopcode, rn, size,
+                                           0, elements, fpst);
+        write_fp_sreg(s, rd, tcg_res);
     }
-
-    /* Now truncate the result to the width required for the final output */
-    if (opcode == 0x03) {
-        /* SADDLV, UADDLV: result is 2*esize */
-        size++;
-    }
-
-    switch (size) {
-    case 0:
-        tcg_gen_ext8u_i64(tcg_res, tcg_res);
-        break;
-    case 1:
-        tcg_gen_ext16u_i64(tcg_res, tcg_res);
-        break;
-    case 2:
-        tcg_gen_ext32u_i64(tcg_res, tcg_res);
-        break;
-    case 3:
-        break;
-    default:
-        g_assert_not_reached();
-    }
-
-    write_fp_dreg(s, rd, tcg_res);
 }
 
 /* AdvSIMD modified immediate
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  14 +++
 target/arm/tcg/translate-a64.c | 176 ++++++++++-----------------------
 2 files changed, 67 insertions(+), 123 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+@rr_q1e2        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=2
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrr_h          . q:1 ...... .. ...... ...... rn:5 rd:5  &qrr_e esz=1
 @qrr_e          . q:1 ...... esz:2 ...... ...... rn:5 rd:5  &qrr_e
 
 @qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
@@ -XXX,XX +XXX,XX @@ SMAXV           0.00 1110 .. 11000 01010 10 ..... .....     @qrr_e
 UMAXV           0.10 1110 .. 11000 01010 10 ..... .....     @qrr_e
 SMINV           0.00 1110 .. 11000 11010 10 ..... .....     @qrr_e
 UMINV           0.10 1110 .. 11000 11010 10 ..... .....     @qrr_e
+
+FMAXNMV_h       0.00 1110 00 11000 01100 10 ..... .....     @qrr_h
+FMAXNMV_s       0110 1110 00 11000 01100 10 ..... .....     @rr_q1e2
+
+FMINNMV_h       0.00 1110 10 11000 01100 10 ..... .....     @qrr_h
+FMINNMV_s       0110 1110 10 11000 01100 10 ..... .....     @rr_q1e2
+
+FMAXV_h         0.00 1110 00 11000 01111 10 ..... .....     @qrr_h
+FMAXV_s         0110 1110 00 11000 01111 10 ..... .....     @rr_q1e2
+
+FMINV_h         0.00 1110 10 11000 01111 10 ..... .....     @qrr_h
+FMINV_s         0110 1110 10 11000 01111 10 ..... .....     @rr_q1e2
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(UMAXV, do_int_reduction, a, false, 0, tcg_gen_umax_i64)
 TRANS(SMINV, do_int_reduction, a, false, MO_SIGN, tcg_gen_smin_i64)
 TRANS(UMINV, do_int_reduction, a, false, 0, tcg_gen_umin_i64)
 
+/*
+ * do_fp_reduction helper
+ *
+ * This mirrors the Reduce() pseudocode in the ARM ARM. It is
+ * important for correct NaN propagation that we do these
+ * operations in exactly the order specified by the pseudocode.
+ *
+ * This is a recursive function.
+ */
+static TCGv_i32 do_reduction_op(DisasContext *s, int rn, MemOp esz,
+                                int ebase, int ecount, TCGv_ptr fpst,
+                                NeonGenTwoSingleOpFn *fn)
+{
+    if (ecount == 1) {
+        TCGv_i32 tcg_elem = tcg_temp_new_i32();
+        read_vec_element_i32(s, tcg_elem, rn, ebase, esz);
+        return tcg_elem;
+    } else {
+        int half = ecount >> 1;
+        TCGv_i32 tcg_hi, tcg_lo, tcg_res;
+
+        tcg_hi = do_reduction_op(s, rn, esz, ebase + half, half, fpst, fn);
+        tcg_lo = do_reduction_op(s, rn, esz, ebase, half, fpst, fn);
+        tcg_res = tcg_temp_new_i32();
+
+        fn(tcg_res, tcg_lo, tcg_hi, fpst);
+        return tcg_res;
+    }
+}
+
+static bool do_fp_reduction(DisasContext *s, arg_qrr_e *a,
+                              NeonGenTwoSingleOpFn *fn)
+{
+    if (fp_access_check(s)) {
+        MemOp esz = a->esz;
+        int elts = (a->q ? 16 : 8) >> esz;
+        TCGv_ptr fpst = fpstatus_ptr(esz == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
+        TCGv_i32 res = do_reduction_op(s, a->rn, esz, 0, elts, fpst, fn);
+        write_fp_sreg(s, a->rd, res);
+    }
+    return true;
+}
+
+TRANS_FEAT(FMAXNMV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_maxnumh)
+TRANS_FEAT(FMINNMV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_minnumh)
+TRANS_FEAT(FMAXV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_maxh)
+TRANS_FEAT(FMINV_h, aa64_fp16, do_fp_reduction, a, gen_helper_advsimd_minh)
+
+TRANS(FMAXNMV_s, do_fp_reduction, a, gen_helper_vfp_maxnums)
+TRANS(FMINNMV_s, do_fp_reduction, a, gen_helper_vfp_minnums)
+TRANS(FMAXV_s, do_fp_reduction, a, gen_helper_vfp_maxs)
+TRANS(FMINV_s, do_fp_reduction, a, gen_helper_vfp_mins)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
     }
 }
 
-/*
- * do_reduction_op helper
- *
- * This mirrors the Reduce() pseudocode in the ARM ARM. It is
- * important for correct NaN propagation that we do these
- * operations in exactly the order specified by the pseudocode.
- *
- * This is a recursive function.
- */
-static TCGv_i32 do_reduction_op(DisasContext *s, int fpopcode, int rn,
-                                MemOp esz, int ebase, int ecount, TCGv_ptr fpst)
-{
-    if (ecount == 1) {
-        TCGv_i32 tcg_elem = tcg_temp_new_i32();
-        read_vec_element_i32(s, tcg_elem, rn, ebase, esz);
-        return tcg_elem;
-    } else {
-        int half = ecount >> 1;
-        TCGv_i32 tcg_hi, tcg_lo, tcg_res;
-
-        tcg_hi = do_reduction_op(s, fpopcode, rn, esz,
-                                 ebase + half, half, fpst);
-        tcg_lo = do_reduction_op(s, fpopcode, rn, esz,
-                                 ebase, half, fpst);
-        tcg_res = tcg_temp_new_i32();
-
-        switch (fpopcode) {
-        case 0x0c: /* fmaxnmv half-precision */
-            gen_helper_advsimd_maxnumh(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        case 0x0f: /* fmaxv half-precision */
-            gen_helper_advsimd_maxh(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        case 0x1c: /* fminnmv half-precision */
-            gen_helper_advsimd_minnumh(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        case 0x1f: /* fminv half-precision */
-            gen_helper_advsimd_minh(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        case 0x2c: /* fmaxnmv */
-            gen_helper_vfp_maxnums(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        case 0x2f: /* fmaxv */
-            gen_helper_vfp_maxs(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        case 0x3c: /* fminnmv */
-            gen_helper_vfp_minnums(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        case 0x3f: /* fminv */
-            gen_helper_vfp_mins(tcg_res, tcg_lo, tcg_hi, fpst);
-            break;
-        default:
-            g_assert_not_reached();
-        }
-        return tcg_res;
-    }
-}
-
-/* AdvSIMD across lanes
- *   31  30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
- * +---+---+---+-----------+------+-----------+--------+-----+------+------+
- * | 0 | Q | U | 0 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
- * +---+---+---+-----------+------+-----------+--------+-----+------+------+
- */
-static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 5);
-    bool is_q = extract32(insn, 30, 1);
-    bool is_u = extract32(insn, 29, 1);
-    bool is_min = false;
-    int elements;
-
-    switch (opcode) {
-    case 0xc: /* FMAXNMV, FMINNMV */
-    case 0xf: /* FMAXV, FMINV */
-        /* Bit 1 of size field encodes min vs max and the actual size
-         * depends on the encoding of the U bit. If not set (and FP16
-         * enabled) then we do half-precision float instead of single
-         * precision.
-         */
-        is_min = extract32(size, 1, 1);
-        if (!is_u && dc_isar_feature(aa64_fp16, s)) {
-            size = 1;
-        } else if (!is_u || !is_q || extract32(size, 0, 1)) {
-            unallocated_encoding(s);
-            return;
-        } else {
-            size = 2;
-        }
-        break;
-    default:
-    case 0x3: /* SADDLV, UADDLV */
-    case 0xa: /* SMAXV, UMAXV */
-    case 0x1a: /* SMINV, UMINV */
-    case 0x1b: /* ADDV */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    elements = (is_q ? 16 : 8) >> size;
-
-    {
-        /* Floating point vector reduction ops which work across 32
-         * bit (single) or 16 bit (half-precision) intermediates.
-         * Note that correct NaN propagation requires that we do these
-         * operations in exactly the order specified by the pseudocode.
-         */
-        TCGv_ptr fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-        int fpopcode = opcode | is_min << 4 | is_u << 5;
-        TCGv_i32 tcg_res = do_reduction_op(s, fpopcode, rn, size,
-                                           0, elements, fpst);
-        write_fp_sreg(s, rd, tcg_res);
-    }
-}
-
 /* AdvSIMD modified immediate
  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
 static const AArch64DecodeTable data_proc_simd[] = {
     /* pattern  ,  mask     ,  fn                        */
     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
-    { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  4 ++
 target/arm/tcg/translate-a64.c | 74 ++++++++++++----------------------
 2 files changed, 30 insertions(+), 48 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   9 +++
 target/arm/tcg/translate-a64.c | 117 ++++++++++++++-------------------
 2 files changed, 59 insertions(+), 67 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINV_s         0110 1110 10 11000 01111 10 ..... .....     @rr_q1e2
 # Floating-point Immediate
 
 FMOVI_s         0001 1110 .. 1 imm:8 100 00000 rd:5         esz=%esz_hsd
+
+# Advanced SIMD Modified Immediate
+
+%abcdefgh       16:3 5:5
+
+FMOVI_v_h       0 q:1 00 1111 00000 ... 1111 11 ..... rd:5  %abcdefgh
+
+# MOVI, MVNI, ORR, BIC, FMOV are all intermixed via cmode.
+Vimm            0 q:1 op:1 0 1111 00000 ... cmode:4 01 ..... rd:5 %abcdefgh
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_FMOVI_s(DisasContext *s, arg_FMOVI_s *a)
     return true;
 }
 
+/*
+ * Advanced SIMD Modified Immediate
+ */
+
+static bool trans_FMOVI_v_h(DisasContext *s, arg_FMOVI_v_h *a)
+{
+    if (!dc_isar_feature(aa64_fp16, s)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_imm(MO_16, vec_full_reg_offset(s, a->rd),
+                             a->q ? 16 : 8, vec_full_reg_size(s),
+                             vfp_expand_imm(MO_16, a->abcdefgh));
+    }
+    return true;
+}
+
+static void gen_movi(unsigned vece, uint32_t dofs, uint32_t aofs,
+                     int64_t c, uint32_t oprsz, uint32_t maxsz)
+{
+    tcg_gen_gvec_dup_imm(MO_64, dofs, oprsz, maxsz, c);
+}
+
+static bool trans_Vimm(DisasContext *s, arg_Vimm *a)
+{
+    GVecGen2iFn *fn;
+
+    /* Handle decode of cmode/op here between ORR/BIC/MOVI */
+    if ((a->cmode & 1) && a->cmode < 12) {
+        /* For op=1, the imm will be inverted, so BIC becomes AND. */
+        fn = a->op ? tcg_gen_gvec_andi : tcg_gen_gvec_ori;
+    } else {
+        /* There is one unallocated cmode/op combination in this space */
+        if (a->cmode == 15 && a->op == 1 && a->q == 0) {
+            return false;
+        }
+        fn = gen_movi;
+    }
+
+    if (fp_access_check(s)) {
+        uint64_t imm = asimd_imm_const(a->abcdefgh, a->cmode, a->op);
+        gen_gvec_fn2i(s, a->q, a->rd, a->rd, imm, fn, MO_64);
+    }
+    return true;
+}
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
     }
 }
 
-/* AdvSIMD modified immediate
- *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
- * +---+---+----+---------------------+-----+-------+----+---+-------+------+
- * | 0 | Q | op | 0 1 1 1 1 0 0 0 0 0 | abc | cmode | o2 | 1 | defgh |  Rd  |
- * +---+---+----+---------------------+-----+-------+----+---+-------+------+
- *
- * There are a number of operations that can be carried out here:
- *   MOVI - move (shifted) imm into register
- *   MVNI - move inverted (shifted) imm into register
- *   ORR  - bitwise OR of (shifted) imm with register
- *   BIC  - bitwise clear of (shifted) imm with register
- * With ARMv8.2 we also have:
- *   FMOV half-precision
- */
-static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int cmode = extract32(insn, 12, 4);
-    int o2 = extract32(insn, 11, 1);
-    uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
-    bool is_neg = extract32(insn, 29, 1);
-    bool is_q = extract32(insn, 30, 1);
-    uint64_t imm = 0;
-
-    if (o2) {
-        if (cmode != 0xf || is_neg) {
-            unallocated_encoding(s);
-            return;
-        }
-        /* FMOV (vector, immediate) - half-precision */
-        if (!dc_isar_feature(aa64_fp16, s)) {
-            unallocated_encoding(s);
-            return;
-        }
-        imm = vfp_expand_imm(MO_16, abcdefgh);
-        /* now duplicate across the lanes */
-        imm = dup_const(MO_16, imm);
-    } else {
-        if (cmode == 0xf && is_neg && !is_q) {
-            unallocated_encoding(s);
-            return;
-        }
-        imm = asimd_imm_const(abcdefgh, cmode, is_neg);
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
-        /* MOVI or MVNI, with MVNI negation handled above.  */
-        tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
-                             vec_full_reg_size(s), imm);
-    } else {
-        /* ORR or BIC, with BIC negation to AND handled above.  */
-        if (is_neg) {
-            gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_andi, MO_64);
-        } else {
-            gen_gvec_fn2i(s, is_q, rd, rd, imm, tcg_gen_gvec_ori, MO_64);
-        }
-    }
-}
-
 /*
  * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
  *
@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
     bool is_u = extract32(insn, 29, 1);
     bool is_q = extract32(insn, 30, 1);
 
-    /* data_proc_simd[] has sent immh == 0 to disas_simd_mod_imm. */
-    assert(immh != 0);
+    if (immh == 0) {
+        unallocated_encoding(s);
+        return;
+    }
 
     switch (opcode) {
     case 0x08: /* SRI */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc_fp16(DisasContext *s, uint32_t insn)
 static const AArch64DecodeTable data_proc_simd[] = {
     /* pattern  ,  mask     ,  fn                        */
     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
-    /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
-    { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
     { 0x0f000400, 0x9f800400, disas_simd_shift_imm },
     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Handle the two special cases within these new
functions instead of higher in the call stack.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate.h      |  5 +++++
 target/arm/tcg/gengvec.c        | 19 +++++++++++++++++++
 target/arm/tcg/translate-a64.c  | 16 +---------------
 target/arm/tcg/translate-neon.c | 25 ++-----------------------
 4 files changed, 27 insertions(+), 38 deletions(-)

diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_sqsub_d(TCGv_i64 d, TCGv_i64 q, TCGv_i64 a, TCGv_i64 b);
 void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                        uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 
+void gen_gvec_sshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_ushr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+
 void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/gengvec.c
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
 
 #undef GEN_CMP0
 
+void gen_gvec_sshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    /* Signed shift out of range results in all-sign-bits */
+    shift = MIN(shift, (8 << vece) - 1);
+    tcg_gen_gvec_sari(vece, rd_ofs, rm_ofs, shift, opr_sz, max_sz);
+}
+
+void gen_gvec_ushr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    /* Unsigned shift out of range results in all-zero-bits */
+    if (shift >= (8 << vece)) {
+        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+    } else {
+        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift, opr_sz, max_sz);
+    }
+}
+
 static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 {
     tcg_gen_vec_sar8i_i64(a, a, shift);
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
         break;
 
     case 0x00: /* SSHR / USHR */
-        if (is_u) {
-            if (shift == 8 << size) {
-                /* Shift count the same size as element size produces zero.  */
-                tcg_gen_gvec_dup_imm(size, vec_full_reg_offset(s, rd),
-                                     is_q ? 16 : 8, vec_full_reg_size(s), 0);
-                return;
-            }
-            gvec_fn = tcg_gen_gvec_shri;
-        } else {
-            /* Shift count the same size as element size produces all sign.  */
-            if (shift == 8 << size) {
-                shift -= 1;
-            }
-            gvec_fn = tcg_gen_gvec_sari;
-        }
+        gvec_fn = is_u ? gen_gvec_ushr : gen_gvec_sshr;
         break;
 
     case 0x04: /* SRSHR / URSHR (rounding) */
diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_2SH(VRSHR_S, gen_gvec_srshr)
 DO_2SH(VRSHR_U, gen_gvec_urshr)
 DO_2SH(VRSRA_S, gen_gvec_srsra)
 DO_2SH(VRSRA_U, gen_gvec_ursra)
-
-static bool trans_VSHR_S_2sh(DisasContext *s, arg_2reg_shift *a)
-{
-    /* Signed shift out of range results in all-sign-bits */
-    a->shift = MIN(a->shift, (8 << a->size) - 1);
-    return do_vector_2sh(s, a, tcg_gen_gvec_sari);
-}
-
-static void gen_zero_rd_2sh(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                            int64_t shift, uint32_t oprsz, uint32_t maxsz)
-{
-    tcg_gen_gvec_dup_imm(vece, rd_ofs, oprsz, maxsz, 0);
-}
-
-static bool trans_VSHR_U_2sh(DisasContext *s, arg_2reg_shift *a)
-{
-    /* Shift out of range is architecturally valid and results in zero. */
-    if (a->shift >= (8 << a->size)) {
-        return do_vector_2sh(s, a, gen_zero_rd_2sh);
-    } else {
-        return do_vector_2sh(s, a, tcg_gen_gvec_shri);
-    }
-}
+DO_2SH(VSHR_S, gen_gvec_sshr)
+DO_2SH(VSHR_U, gen_gvec_ushr)
 
 static bool do_2shift_env_64(DisasContext *s, arg_2reg_shift *a,
                              NeonGenTwo64OpEnvFn *fn)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This includes SSHR, USHR, SSRA, USRA, SRSHR, URSHR, SRSRA, URSRA, SRI.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 63 ++++++++++++++++++++++++-
 target/arm/tcg/translate-a64.c | 86 +++++++++++-----------------------
 2 files changed, 89 insertions(+), 60 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 &rrx_e          rd rn rm idx esz
 &rrrr_e         rd rn rm ra esz
 &qrr_e          q rd rn esz
+&qrri_e         q rd rn imm esz
 &qrrr_e         q rd rn rm esz
 &qrrx_e         q rd rn rm idx esz
 &qrrrr_e        q rd rn rm ra esz
@@ -XXX,XX +XXX,XX @@ FMINV_s         0110 1110 10 11000 01111 10 ..... .....     @rr_q1e2
 
 FMOVI_s         0001 1110 .. 1 imm:8 100 00000 rd:5         esz=%esz_hsd
 
-# Advanced SIMD Modified Immediate
+# Advanced SIMD Modified Immediate / Shift by Immediate
 
 %abcdefgh       16:3 5:5
 
+# Right shifts are encoded as N - shift, where N is the element size in bits.
+%neon_rshift_i6 16:6 !function=rsub_64
+%neon_rshift_i5 16:5 !function=rsub_32
+%neon_rshift_i4 16:4 !function=rsub_16
+%neon_rshift_i3 16:3 !function=rsub_8
+
+@q_shri_b       . q:1 .. ..... 0001 ... ..... . rn:5 rd:5   \
+                &qrri_e esz=0 imm=%neon_rshift_i3
+@q_shri_h       . q:1 .. ..... 001 .... ..... . rn:5 rd:5   \
+                &qrri_e esz=1 imm=%neon_rshift_i4
+@q_shri_s       . q:1 .. ..... 01 ..... ..... . rn:5 rd:5   \
+                &qrri_e esz=2 imm=%neon_rshift_i5
+@q_shri_d       . 1 .. ..... 1 ...... ..... . rn:5 rd:5     \
+                &qrri_e esz=3 imm=%neon_rshift_i6 q=1
+
 FMOVI_v_h       0 q:1 00 1111 00000 ... 1111 11 ..... rd:5  %abcdefgh
 
 # MOVI, MVNI, ORR, BIC, FMOV are all intermixed via cmode.
 Vimm            0 q:1 op:1 0 1111 00000 ... cmode:4 01 ..... rd:5 %abcdefgh
+
+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_b
+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_h
+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_s
+SSHR_v          0.00 11110 .... ... 00000 1 ..... .....     @q_shri_d
+
+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_b
+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_h
+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_s
+USHR_v          0.10 11110 .... ... 00000 1 ..... .....     @q_shri_d
+
+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_b
+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_h
+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_s
+SSRA_v          0.00 11110 .... ... 00010 1 ..... .....     @q_shri_d
+
+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_b
+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_h
+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_s
+USRA_v          0.10 11110 .... ... 00010 1 ..... .....     @q_shri_d
+
+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_b
+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_h
+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_s
+SRSHR_v         0.00 11110 .... ... 00100 1 ..... .....     @q_shri_d
+
+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_b
+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_h
+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_s
+URSHR_v         0.10 11110 .... ... 00100 1 ..... .....     @q_shri_d
+
+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_b
+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_h
+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_s
+SRSRA_v         0.00 11110 .... ... 00110 1 ..... .....     @q_shri_d
+
+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_b
+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_h
+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_s
+URSRA_v         0.10 11110 .... ... 00110 1 ..... .....     @q_shri_d
+
+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_b
+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_h
+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_s
+SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_Vimm(DisasContext *s, arg_Vimm *a)
     return true;
 }
 
+/*
+ * Advanced SIMD Shift by Immediate
+ */
+
+static bool do_vec_shift_imm(DisasContext *s, arg_qrri_e *a, GVecGen2iFn *fn)
+{
+    if (fp_access_check(s)) {
+        gen_gvec_fn2i(s, a->q, a->rd, a->rn, a->imm, fn, a->esz);
+    }
+    return true;
+}
+
+TRANS(SSHR_v, do_vec_shift_imm, a, gen_gvec_sshr)
+TRANS(USHR_v, do_vec_shift_imm, a, gen_gvec_ushr)
+TRANS(SSRA_v, do_vec_shift_imm, a, gen_gvec_ssra)
+TRANS(USRA_v, do_vec_shift_imm, a, gen_gvec_usra)
+TRANS(SRSHR_v, do_vec_shift_imm, a, gen_gvec_srshr)
+TRANS(URSHR_v, do_vec_shift_imm, a, gen_gvec_urshr)
+TRANS(SRSRA_v, do_vec_shift_imm, a, gen_gvec_srsra)
+TRANS(URSRA_v, do_vec_shift_imm, a, gen_gvec_ursra)
+TRANS(SRI_v, do_vec_shift_imm, a, gen_gvec_sri)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
     }
 }
 
-/* SSHR[RA]/USHR[RA] - Vector shift right (optional rounding/accumulate) */
-static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
-                                 int immh, int immb, int opcode, int rn, int rd)
-{
-    int size = 32 - clz32(immh) - 1;
-    int immhb = immh << 3 | immb;
-    int shift = 2 * (8 << size) - immhb;
-    GVecGen2iFn *gvec_fn;
-
-    if (extract32(immh, 3, 1) && !is_q) {
-        unallocated_encoding(s);
-        return;
-    }
-    tcg_debug_assert(size <= 3);
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    switch (opcode) {
-    case 0x02: /* SSRA / USRA (accumulate) */
-        gvec_fn = is_u ? gen_gvec_usra : gen_gvec_ssra;
-        break;
-
-    case 0x08: /* SRI */
-        gvec_fn = gen_gvec_sri;
-        break;
-
-    case 0x00: /* SSHR / USHR */
-        gvec_fn = is_u ? gen_gvec_ushr : gen_gvec_sshr;
-        break;
-
-    case 0x04: /* SRSHR / URSHR (rounding) */
-        gvec_fn = is_u ? gen_gvec_urshr : gen_gvec_srshr;
-        break;
-
-    case 0x06: /* SRSRA / URSRA (accum + rounding) */
-        gvec_fn = is_u ? gen_gvec_ursra : gen_gvec_srsra;
-        break;
-
-    default:
-        g_assert_not_reached();
-    }
-
-    gen_gvec_fn2i(s, is_q, rd, rn, shift, gvec_fn, size);
-}
-
 /* SHL/SLI - Vector shift left */
 static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
                                  int immh, int immb, int opcode, int rn, int rd)
@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
     }
 
     switch (opcode) {
-    case 0x08: /* SRI */
-        if (!is_u) {
-            unallocated_encoding(s);
-            return;
-        }
-        /* fall through */
-    case 0x00: /* SSHR / USHR */
-    case 0x02: /* SSRA / USRA (accumulate) */
-    case 0x04: /* SRSHR / URSHR (rounding) */
-    case 0x06: /* SRSRA / URSRA (accum + rounding) */
-        handle_vec_simd_shri(s, is_q, is_u, immh, immb, opcode, rn, rd);
-        break;
     case 0x0a: /* SHL / SLI */
         handle_vec_simd_shli(s, is_q, is_u, immh, immb, opcode, rn, rd);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
         handle_simd_shift_fpint_conv(s, false, is_q, is_u, immh, immb, rn, rd);
         return;
     default:
+    case 0x00: /* SSHR / USHR */
+    case 0x02: /* SSRA / USRA (accumulate) */
+    case 0x04: /* SRSHR / URSHR (rounding) */
+    case 0x06: /* SRSRA / URSRA (accum + rounding) */
+    case 0x08: /* SRI */
         unallocated_encoding(s);
         return;
     }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This includes SHL and SLI.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 15 +++++++++++++++
 target/arm/tcg/translate-a64.c | 33 +++------------------------------
 2 files changed, 18 insertions(+), 30 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMOVI_s         0001 1110 .. 1 imm:8 100 00000 rd:5         esz=%esz_hsd
 @q_shri_d       . 1 .. ..... 1 ...... ..... . rn:5 rd:5     \
                 &qrri_e esz=3 imm=%neon_rshift_i6 q=1
 
+@q_shli_b       . q:1 .. ..... 0001 imm:3 ..... . rn:5 rd:5 &qrri_e esz=0
+@q_shli_h       . q:1 .. ..... 001  imm:4 ..... . rn:5 rd:5 &qrri_e esz=1
+@q_shli_s       . q:1 .. ..... 01   imm:5 ..... . rn:5 rd:5 &qrri_e esz=2
+@q_shli_d       . 1   .. ..... 1    imm:6 ..... . rn:5 rd:5 &qrri_e esz=3 q=1
+
 FMOVI_v_h       0 q:1 00 1111 00000 ... 1111 11 ..... rd:5  %abcdefgh
 
 # MOVI, MVNI, ORR, BIC, FMOV are all intermixed via cmode.
@@ -XXX,XX +XXX,XX @@ SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_b
 SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_h
 SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_s
 SRI_v           0.10 11110 .... ... 01000 1 ..... .....     @q_shri_d
+
+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_b
+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_h
+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_s
+SHL_v           0.00 11110 .... ... 01010 1 ..... .....     @q_shli_d
+
+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_b
+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_h
+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_s
+SLI_v           0.10 11110 .... ... 01010 1 ..... .....     @q_shli_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(URSHR_v, do_vec_shift_imm, a, gen_gvec_urshr)
 TRANS(SRSRA_v, do_vec_shift_imm, a, gen_gvec_srsra)
 TRANS(URSRA_v, do_vec_shift_imm, a, gen_gvec_ursra)
 TRANS(SRI_v, do_vec_shift_imm, a, gen_gvec_sri)
+TRANS(SHL_v, do_vec_shift_imm, a, tcg_gen_gvec_shli)
+TRANS(SLI_v, do_vec_shift_imm, a, gen_gvec_sli);
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_two_reg_misc(DisasContext *s, uint32_t insn)
     }
 }
 
-/* SHL/SLI - Vector shift left */
-static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
-                                 int immh, int immb, int opcode, int rn, int rd)
-{
-    int size = 32 - clz32(immh) - 1;
-    int immhb = immh << 3 | immb;
-    int shift = immhb - (8 << size);
-
-    /* Range of size is limited by decode: immh is a non-zero 4 bit field */
-    assert(size >= 0 && size <= 3);
-
-    if (extract32(immh, 3, 1) && !is_q) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (insert) {
-        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sli, size);
-    } else {
-        gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
-    }
-}
-
 /* USHLL/SHLL - Vector shift left with widening */
 static void handle_vec_simd_wshli(DisasContext *s, bool is_q, bool is_u,
                                  int immh, int immb, int opcode, int rn, int rd)
@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
     }
 
     switch (opcode) {
-    case 0x0a: /* SHL / SLI */
-        handle_vec_simd_shli(s, is_q, is_u, immh, immb, opcode, rn, rd);
-        break;
     case 0x10: /* SHRN */
     case 0x11: /* RSHRN / SQRSHRUN */
         if (is_u) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
     case 0x04: /* SRSHR / URSHR (rounding) */
     case 0x06: /* SRSRA / URSRA (accum + rounding) */
     case 0x08: /* SRI */
+    case 0x0a: /* SHL / SLI */
         unallocated_encoding(s);
         return;
     }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Combine the right shift with the extension via
the tcg extract operations.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-19-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  8 ++++
 target/arm/tcg/translate-a64.c | 81 ++++++++++++++++------------------
 2 files changed, 45 insertions(+), 44 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

We always pass the same value for round; compute it
within common code.

Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 32 ++++++--------------------------
 1 file changed, 6 insertions(+), 26 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
  * the vector and scalar code.
  */
 static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
-                                    TCGv_i64 tcg_rnd, bool accumulate,
+                                    bool round, bool accumulate,
                                     bool is_u, int size, int shift)
 {
     bool extended_result = false;
-    bool round = tcg_rnd != NULL;
     int ext_lshift = 0;
     TCGv_i64 tcg_src_hi;
 
@@ -XXX,XX +XXX,XX @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
 
     /* Deal with the rounding step */
     if (round) {
+        TCGv_i64 tcg_rnd = tcg_constant_i64(1ull << (shift - 1));
         if (extended_result) {
             TCGv_i64 tcg_zero = tcg_constant_i64(0);
             if (!is_u) {
@@ -XXX,XX +XXX,XX @@ static void handle_scalar_simd_shri(DisasContext *s,
     bool insert = false;
     TCGv_i64 tcg_rn;
     TCGv_i64 tcg_rd;
-    TCGv_i64 tcg_round;
 
     if (!extract32(immh, 3, 1)) {
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void handle_scalar_simd_shri(DisasContext *s,
         break;
     }
 
-    if (round) {
-        tcg_round = tcg_constant_i64(1ULL << (shift - 1));
-    } else {
-        tcg_round = NULL;
-    }
-
     tcg_rn = read_fp_dreg(s, rn);
     tcg_rd = (accumulate || insert) ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
 
@@ -XXX,XX +XXX,XX @@ static void handle_scalar_simd_shri(DisasContext *s,
             tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, 0, esize - shift);
         }
     } else {
-        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
+        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
                                 accumulate, is_u, size, shift);
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
     int elements = is_scalar ? 1 : (64 / esize);
     bool round = extract32(opcode, 0, 1);
     MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
-    TCGv_i64 tcg_rn, tcg_rd, tcg_round;
+    TCGv_i64 tcg_rn, tcg_rd;
     TCGv_i32 tcg_rd_narrowed;
     TCGv_i64 tcg_final;
 
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
     tcg_rd_narrowed = tcg_temp_new_i32();
     tcg_final = tcg_temp_new_i64();
 
-    if (round) {
-        tcg_round = tcg_constant_i64(1ULL << (shift - 1));
-    } else {
-        tcg_round = NULL;
-    }
-
     for (i = 0; i < elements; i++) {
         read_vec_element(s, tcg_rn, rn, i, ldop);
-        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
+        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
                                 false, is_u_shift, size+1, shift);
         narrowfn(tcg_rd_narrowed, tcg_env, tcg_rd);
         tcg_gen_extu_i32_i64(tcg_rd, tcg_rd_narrowed);
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
     int shift = (2 * esize) - immhb;
     bool round = extract32(opcode, 0, 1);
     TCGv_i64 tcg_rn, tcg_rd, tcg_final;
-    TCGv_i64 tcg_round;
     int i;
 
     if (extract32(immh, 3, 1)) {
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shrn(DisasContext *s, bool is_q,
     tcg_final = tcg_temp_new_i64();
     read_vec_element(s, tcg_final, rd, is_q ? 1 : 0, MO_64);
 
-    if (round) {
-        tcg_round = tcg_constant_i64(1ULL << (shift - 1));
-    } else {
-        tcg_round = NULL;
-    }
-
     for (i = 0; i < elements; i++) {
         read_vec_element(s, tcg_rn, rn, i, size+1);
-        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
+        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
                                 false, true, size+1, shift);
 
         tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

There isn't a lot of commonality along the different paths of
handle_shri_with_rndacc.  Split them out to separate functions,
which will be usable during the decodetree conversion.

Simplify 64-bit rounding operations to not require double-word arithmetic.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 138 ++++++++++++++++++++-------------
 1 file changed, 82 insertions(+), 56 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_vec_shift_imm_wide(DisasContext *s, arg_qrri_e *a, bool is_u)
 TRANS(SSHLL_v, do_vec_shift_imm_wide, a, false)
 TRANS(USHLL_v, do_vec_shift_imm_wide, a, true)
 
+static void gen_sshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    assert(shift >= 0 && shift <= 64);
+    tcg_gen_sari_i64(dst, src, MIN(shift, 63));
+}
+
+static void gen_ushr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    assert(shift >= 0 && shift <= 64);
+    if (shift == 64) {
+        tcg_gen_movi_i64(dst, 0);
+    } else {
+        tcg_gen_shri_i64(dst, src, shift);
+    }
+}
+
+static void gen_srshr_bhs(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    assert(shift >= 0 && shift <= 32);
+    if (shift) {
+        TCGv_i64 rnd = tcg_constant_i64(1ull << (shift - 1));
+        tcg_gen_add_i64(dst, src, rnd);
+        tcg_gen_sari_i64(dst, dst, shift);
+    } else {
+        tcg_gen_mov_i64(dst, src);
+    }
+}
+
+static void gen_urshr_bhs(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    assert(shift >= 0 && shift <= 32);
+    if (shift) {
+        TCGv_i64 rnd = tcg_constant_i64(1ull << (shift - 1));
+        tcg_gen_add_i64(dst, src, rnd);
+        tcg_gen_shri_i64(dst, dst, shift);
+    } else {
+        tcg_gen_mov_i64(dst, src);
+    }
+}
+
+static void gen_srshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    assert(shift >= 0 && shift <= 64);
+    if (shift == 0) {
+        tcg_gen_mov_i64(dst, src);
+    } else if (shift == 64) {
+        /* Extension of sign bit (0,-1) plus sign bit (0,1) is zero. */
+        tcg_gen_movi_i64(dst, 0);
+    } else {
+        TCGv_i64 rnd = tcg_temp_new_i64();
+        tcg_gen_extract_i64(rnd, src, shift - 1, 1);
+        tcg_gen_sari_i64(dst, src, shift);
+        tcg_gen_add_i64(dst, dst, rnd);
+    }
+}
+
+static void gen_urshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    assert(shift >= 0 && shift <= 64);
+    if (shift == 0) {
+        tcg_gen_mov_i64(dst, src);
+    } else if (shift == 64) {
+        /* Rounding will propagate bit 63 into bit 64. */
+        tcg_gen_shri_i64(dst, src, 63);
+    } else {
+        TCGv_i64 rnd = tcg_temp_new_i64();
+        tcg_gen_extract_i64(rnd, src, shift - 1, 1);
+        tcg_gen_shri_i64(dst, src, shift);
+        tcg_gen_add_i64(dst, dst, rnd);
+    }
+}
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
                                     bool round, bool accumulate,
                                     bool is_u, int size, int shift)
 {
-    bool extended_result = false;
-    int ext_lshift = 0;
-    TCGv_i64 tcg_src_hi;
-
-    if (round && size == 3) {
-        extended_result = true;
-        ext_lshift = 64 - shift;
-        tcg_src_hi = tcg_temp_new_i64();
-    } else if (shift == 64) {
-        if (!accumulate && is_u) {
-            /* result is zero */
-            tcg_gen_movi_i64(tcg_res, 0);
-            return;
-        }
-    }
-
-    /* Deal with the rounding step */
-    if (round) {
-        TCGv_i64 tcg_rnd = tcg_constant_i64(1ull << (shift - 1));
-        if (extended_result) {
-            TCGv_i64 tcg_zero = tcg_constant_i64(0);
-            if (!is_u) {
-                /* take care of sign extending tcg_res */
-                tcg_gen_sari_i64(tcg_src_hi, tcg_src, 63);
-                tcg_gen_add2_i64(tcg_src, tcg_src_hi,
-                                 tcg_src, tcg_src_hi,
-                                 tcg_rnd, tcg_zero);
-            } else {
-                tcg_gen_add2_i64(tcg_src, tcg_src_hi,
-                                 tcg_src, tcg_zero,
-                                 tcg_rnd, tcg_zero);
-            }
+    if (!round) {
+        if (is_u) {
+            gen_ushr_d(tcg_src, tcg_src, shift);
         } else {
-            tcg_gen_add_i64(tcg_src, tcg_src, tcg_rnd);
+            gen_sshr_d(tcg_src, tcg_src, shift);
         }
-    }
-
-    /* Now do the shift right */
-    if (round && extended_result) {
-        /* extended case, >64 bit precision required */
-        if (ext_lshift == 0) {
-            /* special case, only high bits matter */
-            tcg_gen_mov_i64(tcg_src, tcg_src_hi);
+    } else if (size == MO_64) {
+        if (is_u) {
+            gen_urshr_d(tcg_src, tcg_src, shift);
         } else {
-            tcg_gen_shri_i64(tcg_src, tcg_src, shift);
-            tcg_gen_shli_i64(tcg_src_hi, tcg_src_hi, ext_lshift);
-            tcg_gen_or_i64(tcg_src, tcg_src, tcg_src_hi);
+            gen_srshr_d(tcg_src, tcg_src, shift);
         }
     } else {
         if (is_u) {
-            if (shift == 64) {
-                /* essentially shifting in 64 zeros */
-                tcg_gen_movi_i64(tcg_src, 0);
-            } else {
-                tcg_gen_shri_i64(tcg_src, tcg_src, shift);
-            }
+            gen_urshr_bhs(tcg_src, tcg_src, shift);
         } else {
-            if (shift == 64) {
-                /* effectively extending the sign-bit */
-                tcg_gen_sari_i64(tcg_src, tcg_src, 63);
-            } else {
-                tcg_gen_sari_i64(tcg_src, tcg_src, shift);
-            }
+            gen_srshr_bhs(tcg_src, tcg_src, shift);
         }
     }
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  8 +++
 target/arm/tcg/translate-a64.c | 95 +++++++++++++++++-----------------
 2 files changed, 55 insertions(+), 48 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This includes SSHR, USHR, SSRA, USRA, SRSHR, URSHR,
SRSRA, URSRA, SRI.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  16 ++++
 target/arm/tcg/translate-a64.c | 140 ++++++++++++++++-----------------
 2 files changed, 86 insertions(+), 70 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 &rri_sf         rd rn imm sf
 &i              imm
 &rr_e           rd rn esz
+&rri_e          rd rn imm esz
 &rrr_e          rd rn rm esz
 &rrx_e          rd rn rm idx esz
 &rrrr_e         rd rn rm ra esz
@@ -XXX,XX +XXX,XX @@ SHRN_v          0.00 11110 .... ... 10000 1 ..... .....     @q_shri_s
 RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_b
 RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_h
 RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_s
+
+# Advanced SIMD scalar shift by immediate
+
+@shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
+                &rri_e esz=3 imm=%neon_rshift_i6
+
+SSHR_s          0101 11110 .... ... 00000 1 ..... .....     @shri_d
+USHR_s          0111 11110 .... ... 00000 1 ..... .....     @shri_d
+SSRA_s          0101 11110 .... ... 00010 1 ..... .....     @shri_d
+USRA_s          0111 11110 .... ... 00010 1 ..... .....     @shri_d
+SRSHR_s         0101 11110 .... ... 00100 1 ..... .....     @shri_d
+URSHR_s         0111 11110 .... ... 00100 1 ..... .....     @shri_d
+SRSRA_s         0101 11110 .... ... 00110 1 ..... .....     @shri_d
+URSRA_s         0111 11110 .... ... 00110 1 ..... .....     @shri_d
+SRI_s           0111 11110 .... ... 01000 1 ..... .....     @shri_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_ushr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
     }
 }
 
+static void gen_ssra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    gen_sshr_d(src, src, shift);
+    tcg_gen_add_i64(dst, dst, src);
+}
+
+static void gen_usra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    gen_ushr_d(src, src, shift);
+    tcg_gen_add_i64(dst, dst, src);
+}
+
 static void gen_srshr_bhs(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
 {
     assert(shift >= 0 && shift <= 32);
@@ -XXX,XX +XXX,XX @@ static void gen_urshr_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
     }
 }
 
+static void gen_srsra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    gen_srshr_d(src, src, shift);
+    tcg_gen_add_i64(dst, dst, src);
+}
+
+static void gen_ursra_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    gen_urshr_d(src, src, shift);
+    tcg_gen_add_i64(dst, dst, src);
+}
+
+static void gen_sri_d(TCGv_i64 dst, TCGv_i64 src, int64_t shift)
+{
+    /* If shift is 64, dst is unchanged. */
+    if (shift != 64) {
+        tcg_gen_shri_i64(src, src, shift);
+        tcg_gen_deposit_i64(dst, dst, src, 0, 64 - shift);
+    }
+}
+
 static bool do_vec_shift_imm_narrow(DisasContext *s, arg_qrri_e *a,
                                     WideShiftImmFn * const fns[3], MemOp sign)
 {
@@ -XXX,XX +XXX,XX @@ static WideShiftImmFn * const rshrn_fns[] = {
 };
 TRANS(RSHRN_v, do_vec_shift_imm_narrow, a, rshrn_fns, 0)
 
+/*
+ * Advanced SIMD Scalar Shift by Immediate
+ */
+
+static bool do_scalar_shift_imm(DisasContext *s, arg_rri_e *a,
+                                WideShiftImmFn *fn, bool accumulate,
+                                MemOp sign)
+{
+    if (fp_access_check(s)) {
+        TCGv_i64 rd = tcg_temp_new_i64();
+        TCGv_i64 rn = tcg_temp_new_i64();
+
+        read_vec_element(s, rn, a->rn, 0, a->esz | sign);
+        if (accumulate) {
+            read_vec_element(s, rd, a->rd, 0, a->esz | sign);
+        }
+        fn(rd, rn, a->imm);
+        write_fp_dreg(s, a->rd, rd);
+    }
+    return true;
+}
+
+TRANS(SSHR_s, do_scalar_shift_imm, a, gen_sshr_d, false, 0)
+TRANS(USHR_s, do_scalar_shift_imm, a, gen_ushr_d, false, 0)
+TRANS(SSRA_s, do_scalar_shift_imm, a, gen_ssra_d, true, 0)
+TRANS(USRA_s, do_scalar_shift_imm, a, gen_usra_d, true, 0)
+TRANS(SRSHR_s, do_scalar_shift_imm, a, gen_srshr_d, false, 0)
+TRANS(URSHR_s, do_scalar_shift_imm, a, gen_urshr_d, false, 0)
+TRANS(SRSRA_s, do_scalar_shift_imm, a, gen_srsra_d, true, 0)
+TRANS(URSRA_s, do_scalar_shift_imm, a, gen_ursra_d, true, 0)
+TRANS(SRI_s, do_scalar_shift_imm, a, gen_sri_d, true, 0)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
     }
 }
 
-/* SSHR[RA]/USHR[RA] - Scalar shift right (optional rounding/accumulate) */
-static void handle_scalar_simd_shri(DisasContext *s,
-                                    bool is_u, int immh, int immb,
-                                    int opcode, int rn, int rd)
-{
-    const int size = 3;
-    int immhb = immh << 3 | immb;
-    int shift = 2 * (8 << size) - immhb;
-    bool accumulate = false;
-    bool round = false;
-    bool insert = false;
-    TCGv_i64 tcg_rn;
-    TCGv_i64 tcg_rd;
-
-    if (!extract32(immh, 3, 1)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    switch (opcode) {
-    case 0x02: /* SSRA / USRA (accumulate) */
-        accumulate = true;
-        break;
-    case 0x04: /* SRSHR / URSHR (rounding) */
-        round = true;
-        break;
-    case 0x06: /* SRSRA / URSRA (accum + rounding) */
-        accumulate = round = true;
-        break;
-    case 0x08: /* SRI */
-        insert = true;
-        break;
-    }
-
-    tcg_rn = read_fp_dreg(s, rn);
-    tcg_rd = (accumulate || insert) ? read_fp_dreg(s, rd) : tcg_temp_new_i64();
-
-    if (insert) {
-        /* shift count same as element size is valid but does nothing;
-         * special case to avoid potential shift by 64.
-         */
-        int esize = 8 << size;
-        if (shift != esize) {
-            tcg_gen_shri_i64(tcg_rn, tcg_rn, shift);
-            tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_rn, 0, esize - shift);
-        }
-    } else {
-        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
-                                accumulate, is_u, size, shift);
-    }
-
-    write_fp_dreg(s, rd, tcg_rd);
-}
-
 /* SHL/SLI - Scalar shift left */
 static void handle_scalar_simd_shli(DisasContext *s, bool insert,
                                     int immh, int immb, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
     }
 
     switch (opcode) {
-    case 0x08: /* SRI */
-        if (!is_u) {
-            unallocated_encoding(s);
-            return;
-        }
-        /* fall through */
-    case 0x00: /* SSHR / USHR */
-    case 0x02: /* SSRA / USRA */
-    case 0x04: /* SRSHR / URSHR */
-    case 0x06: /* SRSRA / URSRA */
-        handle_scalar_simd_shri(s, is_u, immh, immb, opcode, rn, rd);
-        break;
     case 0x0a: /* SHL / SLI */
         handle_scalar_simd_shli(s, is_u, immh, immb, opcode, rn, rd);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
         break;
     default:
+    case 0x00: /* SSHR / USHR */
+    case 0x02: /* SSRA / USRA */
+    case 0x04: /* SRSHR / URSHR */
+    case 0x06: /* SRSRA / URSRA */
+    case 0x08: /* SRI */
         unallocated_encoding(s);
         break;
     }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This includes SHL and SLI.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-25-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  4 ++++
 target/arm/tcg/translate-a64.c | 44 +++++++---------------------------
 2 files changed, 13 insertions(+), 35 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-26-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             |  12 ++++
 target/arm/tcg/translate.h      |   7 ++
 target/arm/tcg/neon-dp.decode   |   6 +-
 target/arm/tcg/gengvec.c        |  36 +++++++++++
 target/arm/tcg/neon_helper.c    |  33 ++++++++++
 target/arm/tcg/translate-neon.c | 110 +-------------------------------
 6 files changed, 94 insertions(+), 110 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

While these functions really do return a 32-bit value,
widening the return type means that we need do less
marshalling between TCG types.

Remove NeonGenNarrowEnvFn typedef; add NeonGenOne64OpEnvFn.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240912024114.1097832-27-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             | 22 ++++++------
 target/arm/tcg/translate.h      |  2 +-
 target/arm/tcg/neon_helper.c    | 43 ++++++++++++++---------
 target/arm/tcg/translate-a64.c  | 60 ++++++++++++++++++---------------
 target/arm/tcg/translate-neon.c | 44 ++++++++++++------------
 5 files changed, 93 insertions(+), 78 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrdmulh_s32, i32, env, i32, i32)
 DEF_HELPER_4(neon_qrdmlah_s32, i32, env, s32, s32, s32)
 DEF_HELPER_4(neon_qrdmlsh_s32, i32, env, s32, s32, s32)
 
-DEF_HELPER_1(neon_narrow_u8, i32, i64)
-DEF_HELPER_1(neon_narrow_u16, i32, i64)
-DEF_HELPER_2(neon_unarrow_sat8, i32, env, i64)
-DEF_HELPER_2(neon_narrow_sat_u8, i32, env, i64)
-DEF_HELPER_2(neon_narrow_sat_s8, i32, env, i64)
-DEF_HELPER_2(neon_unarrow_sat16, i32, env, i64)
-DEF_HELPER_2(neon_narrow_sat_u16, i32, env, i64)
-DEF_HELPER_2(neon_narrow_sat_s16, i32, env, i64)
-DEF_HELPER_2(neon_unarrow_sat32, i32, env, i64)
-DEF_HELPER_2(neon_narrow_sat_u32, i32, env, i64)
-DEF_HELPER_2(neon_narrow_sat_s32, i32, env, i64)
+DEF_HELPER_1(neon_narrow_u8, i64, i64)
+DEF_HELPER_1(neon_narrow_u16, i64, i64)
+DEF_HELPER_2(neon_unarrow_sat8, i64, env, i64)
+DEF_HELPER_2(neon_narrow_sat_u8, i64, env, i64)
+DEF_HELPER_2(neon_narrow_sat_s8, i64, env, i64)
+DEF_HELPER_2(neon_unarrow_sat16, i64, env, i64)
+DEF_HELPER_2(neon_narrow_sat_u16, i64, env, i64)
+DEF_HELPER_2(neon_narrow_sat_s16, i64, env, i64)
+DEF_HELPER_2(neon_unarrow_sat32, i64, env, i64)
+DEF_HELPER_2(neon_narrow_sat_u32, i64, env, i64)
+DEF_HELPER_2(neon_narrow_sat_s32, i64, env, i64)
 DEF_HELPER_1(neon_narrow_high_u8, i32, i64)
 DEF_HELPER_1(neon_narrow_high_u16, i32, i64)
 DEF_HELPER_1(neon_narrow_round_high_u8, i32, i64)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void NeonGenThreeOpEnvFn(TCGv_i32, TCGv_env, TCGv_i32,
 typedef void NeonGenTwo64OpFn(TCGv_i64, TCGv_i64, TCGv_i64);
 typedef void NeonGenTwo64OpEnvFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i64);
 typedef void NeonGenNarrowFn(TCGv_i32, TCGv_i64);
-typedef void NeonGenNarrowEnvFn(TCGv_i32, TCGv_ptr, TCGv_i64);
 typedef void NeonGenWidenFn(TCGv_i64, TCGv_i32);
 typedef void NeonGenTwoOpWidenFn(TCGv_i64, TCGv_i32, TCGv_i32);
 typedef void NeonGenOneSingleOpFn(TCGv_i32, TCGv_i32, TCGv_ptr);
 typedef void NeonGenTwoSingleOpFn(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
 typedef void NeonGenTwoDoubleOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
 typedef void NeonGenOne64OpFn(TCGv_i64, TCGv_i64);
+typedef void NeonGenOne64OpEnvFn(TCGv_i64, TCGv_env, TCGv_i64);
 typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
 typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
 typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/neon_helper.c
+++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ NEON_VOP_ENV(qrdmulh_s32, neon_s32, 1)
 #undef NEON_FN
 #undef NEON_QDMULH32
 
-uint32_t HELPER(neon_narrow_u8)(uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_u8)(uint64_t x)
 {
     return (x & 0xffu) | ((x >> 8) & 0xff00u) | ((x >> 16) & 0xff0000u)
            | ((x >> 24) & 0xff000000u);
 }
 
-uint32_t HELPER(neon_narrow_u16)(uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_u16)(uint64_t x)
 {
     return (x & 0xffffu) | ((x >> 16) & 0xffff0000u);
 }
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_round_high_u16)(uint64_t x)
     return ((x >> 16) & 0xffff) | ((x >> 32) & 0xffff0000);
 }
 
-uint32_t HELPER(neon_unarrow_sat8)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_unarrow_sat8)(CPUARMState *env, uint64_t x)
 {
     uint16_t s;
     uint8_t d;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_unarrow_sat8)(CPUARMState *env, uint64_t x)
     return res;
 }
 
-uint32_t HELPER(neon_narrow_sat_u8)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_sat_u8)(CPUARMState *env, uint64_t x)
 {
     uint16_t s;
     uint8_t d;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_u8)(CPUARMState *env, uint64_t x)
     return res;
 }
 
-uint32_t HELPER(neon_narrow_sat_s8)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_sat_s8)(CPUARMState *env, uint64_t x)
 {
     int16_t s;
     uint8_t d;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_s8)(CPUARMState *env, uint64_t x)
     return res;
 }
 
-uint32_t HELPER(neon_unarrow_sat16)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_unarrow_sat16)(CPUARMState *env, uint64_t x)
 {
     uint32_t high;
     uint32_t low;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_unarrow_sat16)(CPUARMState *env, uint64_t x)
         high = 0xffff;
         SET_QC();
     }
-    return low | (high << 16);
+    return deposit32(low, 16, 16, high);
 }
 
-uint32_t HELPER(neon_narrow_sat_u16)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_sat_u16)(CPUARMState *env, uint64_t x)
 {
     uint32_t high;
     uint32_t low;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_u16)(CPUARMState *env, uint64_t x)
         high = 0xffff;
         SET_QC();
     }
-    return low | (high << 16);
+    return deposit32(low, 16, 16, high);
 }
 
-uint32_t HELPER(neon_narrow_sat_s16)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_sat_s16)(CPUARMState *env, uint64_t x)
 {
     int32_t low;
     int32_t high;
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_s16)(CPUARMState *env, uint64_t x)
         high = (high >> 31) ^ 0x7fff;
         SET_QC();
     }
-    return (uint16_t)low | (high << 16);
+    return deposit32(low, 16, 16, high);
 }
 
-uint32_t HELPER(neon_unarrow_sat32)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_unarrow_sat32)(CPUARMState *env, uint64_t x)
 {
     if (x & 0x8000000000000000ull) {
         SET_QC();
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_unarrow_sat32)(CPUARMState *env, uint64_t x)
     return x;
 }
 
-uint32_t HELPER(neon_narrow_sat_u32)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_sat_u32)(CPUARMState *env, uint64_t x)
 {
     if (x > 0xffffffffu) {
         SET_QC();
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_narrow_sat_u32)(CPUARMState *env, uint64_t x)
     return x;
 }
 
-uint32_t HELPER(neon_narrow_sat_s32)(CPUARMState *env, uint64_t x)
+/* Only the low 32-bits of output are significant. */
+uint64_t HELPER(neon_narrow_sat_s32)(CPUARMState *env, uint64_t x)
 {
     if ((int64_t)x != (int32_t)x) {
         SET_QC();
-        return ((int64_t)x >> 63) ^ 0x7fffffff;
+        return (uint32_t)((int64_t)x >> 63) ^ 0x7fffffff;
     }
-    return x;
+    return (uint32_t)x;
 }
 
 uint64_t HELPER(neon_widen_u8)(uint32_t x)
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
     int elements = is_scalar ? 1 : (64 / esize);
     bool round = extract32(opcode, 0, 1);
     MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
-    TCGv_i64 tcg_rn, tcg_rd;
-    TCGv_i32 tcg_rd_narrowed;
-    TCGv_i64 tcg_final;
+    TCGv_i64 tcg_rn, tcg_rd, tcg_final;
 
-    static NeonGenNarrowEnvFn * const signed_narrow_fns[4][2] = {
+    static NeonGenOne64OpEnvFn * const signed_narrow_fns[4][2] = {
         { gen_helper_neon_narrow_sat_s8,
           gen_helper_neon_unarrow_sat8 },
         { gen_helper_neon_narrow_sat_s16,
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
           gen_helper_neon_unarrow_sat32 },
         { NULL, NULL },
     };
-    static NeonGenNarrowEnvFn * const unsigned_narrow_fns[4] = {
+    static NeonGenOne64OpEnvFn * const unsigned_narrow_fns[4] = {
         gen_helper_neon_narrow_sat_u8,
         gen_helper_neon_narrow_sat_u16,
         gen_helper_neon_narrow_sat_u32,
         NULL
     };
-    NeonGenNarrowEnvFn *narrowfn;
+    NeonGenOne64OpEnvFn *narrowfn;
 
     int i;
 
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
 
     tcg_rn = tcg_temp_new_i64();
     tcg_rd = tcg_temp_new_i64();
-    tcg_rd_narrowed = tcg_temp_new_i32();
     tcg_final = tcg_temp_new_i64();
 
     for (i = 0; i < elements; i++) {
         read_vec_element(s, tcg_rn, rn, i, ldop);
         handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
                                 false, is_u_shift, size+1, shift);
-        narrowfn(tcg_rd_narrowed, tcg_env, tcg_rd);
-        tcg_gen_extu_i32_i64(tcg_rd, tcg_rd_narrowed);
+        narrowfn(tcg_rd, tcg_env, tcg_rd);
         if (i == 0) {
             tcg_gen_extract_i64(tcg_final, tcg_rd, 0, esize);
         } else {
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
      * in the source becomes a size element in the destination).
      */
     int pass;
-    TCGv_i32 tcg_res[2];
+    TCGv_i64 tcg_res[2];
     int destelt = is_q ? 2 : 0;
     int passes = scalar ? 1 : 2;
 
     if (scalar) {
-        tcg_res[1] = tcg_constant_i32(0);
+        tcg_res[1] = tcg_constant_i64(0);
     }
 
     for (pass = 0; pass < passes; pass++) {
         TCGv_i64 tcg_op = tcg_temp_new_i64();
-        NeonGenNarrowFn *genfn = NULL;
-        NeonGenNarrowEnvFn *genenvfn = NULL;
+        NeonGenOne64OpFn *genfn = NULL;
+        NeonGenOne64OpEnvFn *genenvfn = NULL;
 
         if (scalar) {
             read_vec_element(s, tcg_op, rn, pass, size + 1);
         } else {
             read_vec_element(s, tcg_op, rn, pass, MO_64);
         }
-        tcg_res[pass] = tcg_temp_new_i32();
+        tcg_res[pass] = tcg_temp_new_i64();
 
         switch (opcode) {
         case 0x12: /* XTN, SQXTUN */
         {
-            static NeonGenNarrowFn * const xtnfns[3] = {
+            static NeonGenOne64OpFn * const xtnfns[3] = {
                 gen_helper_neon_narrow_u8,
                 gen_helper_neon_narrow_u16,
-                tcg_gen_extrl_i64_i32,
+                tcg_gen_ext32u_i64,
             };
-            static NeonGenNarrowEnvFn * const sqxtunfns[3] = {
+            static NeonGenOne64OpEnvFn * const sqxtunfns[3] = {
                 gen_helper_neon_unarrow_sat8,
                 gen_helper_neon_unarrow_sat16,
                 gen_helper_neon_unarrow_sat32,
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
         }
         case 0x14: /* SQXTN, UQXTN */
         {
-            static NeonGenNarrowEnvFn * const fns[3][2] = {
+            static NeonGenOne64OpEnvFn * const fns[3][2] = {
                 { gen_helper_neon_narrow_sat_s8,
                   gen_helper_neon_narrow_sat_u8 },
                 { gen_helper_neon_narrow_sat_s16,
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
         case 0x16: /* FCVTN, FCVTN2 */
             /* 32 bit to 16 bit or 64 bit to 32 bit float conversion */
             if (size == 2) {
-                gen_helper_vfp_fcvtsd(tcg_res[pass], tcg_op, tcg_env);
+                TCGv_i32 tmp = tcg_temp_new_i32();
+                gen_helper_vfp_fcvtsd(tmp, tcg_op, tcg_env);
+                tcg_gen_extu_i32_i64(tcg_res[pass], tmp);
             } else {
                 TCGv_i32 tcg_lo = tcg_temp_new_i32();
                 TCGv_i32 tcg_hi = tcg_temp_new_i32();
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
                 tcg_gen_extr_i64_i32(tcg_lo, tcg_hi, tcg_op);
                 gen_helper_vfp_fcvt_f32_to_f16(tcg_lo, tcg_lo, fpst, ahp);
                 gen_helper_vfp_fcvt_f32_to_f16(tcg_hi, tcg_hi, fpst, ahp);
-                tcg_gen_deposit_i32(tcg_res[pass], tcg_lo, tcg_hi, 16, 16);
+                tcg_gen_deposit_i32(tcg_lo, tcg_lo, tcg_hi, 16, 16);
+                tcg_gen_extu_i32_i64(tcg_res[pass], tcg_lo);
             }
             break;
         case 0x36: /* BFCVTN, BFCVTN2 */
             {
                 TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-                gen_helper_bfcvt_pair(tcg_res[pass], tcg_op, fpst);
+                TCGv_i32 tmp = tcg_temp_new_i32();
+                gen_helper_bfcvt_pair(tmp, tcg_op, fpst);
+                tcg_gen_extu_i32_i64(tcg_res[pass], tmp);
             }
             break;
         case 0x56:  /* FCVTXN, FCVTXN2 */
-            /* 64 bit to 32 bit float conversion
-             * with von Neumann rounding (round to odd)
-             */
-            assert(size == 2);
-            gen_helper_fcvtx_f64_to_f32(tcg_res[pass], tcg_op, tcg_env);
+            {
+                /*
+                 * 64 bit to 32 bit float conversion
+                 * with von Neumann rounding (round to odd)
+                 */
+                TCGv_i32 tmp = tcg_temp_new_i32();
+                assert(size == 2);
+                gen_helper_fcvtx_f64_to_f32(tmp, tcg_op, tcg_env);
+                tcg_gen_extu_i32_i64(tcg_res[pass], tmp);
+            }
             break;
         default:
             g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_narrow(DisasContext *s, bool scalar,
     }
 
     for (pass = 0; pass < 2; pass++) {
-        write_vec_element_i32(s, tcg_res[pass], rd, destelt + pass, MO_32);
+        write_vec_element(s, tcg_res[pass], rd, destelt + pass, MO_32);
     }
     clear_vec_high(s, is_q, rd);
 }
diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_2SH(VQSHL_S, gen_neon_sqshli)
 
 static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
                                 NeonGenTwo64OpFn *shiftfn,
-                                NeonGenNarrowEnvFn *narrowfn)
+                                NeonGenOne64OpEnvFn *narrowfn)
 {
     /* 2-reg-and-shift narrowing-shift operations, size == 3 case */
-    TCGv_i64 constimm, rm1, rm2;
-    TCGv_i32 rd;
+    TCGv_i64 constimm, rm1, rm2, rd;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
         return false;
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
     constimm = tcg_constant_i64(-a->shift);
     rm1 = tcg_temp_new_i64();
     rm2 = tcg_temp_new_i64();
-    rd = tcg_temp_new_i32();
+    rd = tcg_temp_new_i64();
 
     /* Load both inputs first to avoid potential overwrite if rm == rd */
     read_neon_element64(rm1, a->vm, 0, MO_64);
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_64(DisasContext *s, arg_2reg_shift *a,
 
     shiftfn(rm1, rm1, constimm);
     narrowfn(rd, tcg_env, rm1);
-    write_neon_element32(rd, a->vd, 0, MO_32);
+    write_neon_element64(rd, a->vd, 0, MO_32);
 
     shiftfn(rm2, rm2, constimm);
     narrowfn(rd, tcg_env, rm2);
-    write_neon_element32(rd, a->vd, 1, MO_32);
+    write_neon_element64(rd, a->vd, 1, MO_32);
 
     return true;
 }
 
 static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
                                 NeonGenTwoOpFn *shiftfn,
-                                NeonGenNarrowEnvFn *narrowfn)
+                                NeonGenOne64OpEnvFn *narrowfn)
 {
     /* 2-reg-and-shift narrowing-shift operations, size < 3 case */
     TCGv_i32 constimm, rm1, rm2, rm3, rm4;
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
 
     tcg_gen_concat_i32_i64(rtmp, rm1, rm2);
 
-    narrowfn(rm1, tcg_env, rtmp);
-    write_neon_element32(rm1, a->vd, 0, MO_32);
+    narrowfn(rtmp, tcg_env, rtmp);
+    write_neon_element64(rtmp, a->vd, 0, MO_32);
 
     shiftfn(rm3, rm3, constimm);
     shiftfn(rm4, rm4, constimm);
 
     tcg_gen_concat_i32_i64(rtmp, rm3, rm4);
 
-    narrowfn(rm3, tcg_env, rtmp);
-    write_neon_element32(rm3, a->vd, 1, MO_32);
+    narrowfn(rtmp, tcg_env, rtmp);
+    write_neon_element64(rtmp, a->vd, 1, MO_32);
     return true;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool do_2shift_narrow_32(DisasContext *s, arg_2reg_shift *a,
         return do_2shift_narrow_32(s, a, FUNC, NARROWFUNC);             \
     }
 
-static void gen_neon_narrow_u32(TCGv_i32 dest, TCGv_ptr env, TCGv_i64 src)
+static void gen_neon_narrow_u32(TCGv_i64 dest, TCGv_ptr env, TCGv_i64 src)
 {
-    tcg_gen_extrl_i64_i32(dest, src);
+    tcg_gen_ext32u_i64(dest, src);
 }
 
-static void gen_neon_narrow_u16(TCGv_i32 dest, TCGv_ptr env, TCGv_i64 src)
+static void gen_neon_narrow_u16(TCGv_i64 dest, TCGv_ptr env, TCGv_i64 src)
 {
     gen_helper_neon_narrow_u16(dest, src);
 }
 
-static void gen_neon_narrow_u8(TCGv_i32 dest, TCGv_ptr env, TCGv_i64 src)
+static void gen_neon_narrow_u8(TCGv_i64 dest, TCGv_ptr env, TCGv_i64 src)
 {
     gen_helper_neon_narrow_u8(dest, src);
 }
@@ -XXX,XX +XXX,XX @@ static bool trans_VZIP(DisasContext *s, arg_2misc *a)
 }
 
 static bool do_vmovn(DisasContext *s, arg_2misc *a,
-                     NeonGenNarrowEnvFn *narrowfn)
+                     NeonGenOne64OpEnvFn *narrowfn)
 {
-    TCGv_i64 rm;
-    TCGv_i32 rd0, rd1;
+    TCGv_i64 rm, rd0, rd1;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
         return false;
@@ -XXX,XX +XXX,XX @@ static bool do_vmovn(DisasContext *s, arg_2misc *a,
     }
 
     rm = tcg_temp_new_i64();
-    rd0 = tcg_temp_new_i32();
-    rd1 = tcg_temp_new_i32();
+    rd0 = tcg_temp_new_i64();
+    rd1 = tcg_temp_new_i64();
 
     read_neon_element64(rm, a->vm, 0, MO_64);
     narrowfn(rd0, tcg_env, rm);
     read_neon_element64(rm, a->vm, 1, MO_64);
     narrowfn(rd1, tcg_env, rm);
-    write_neon_element32(rd0, a->vd, 0, MO_32);
-    write_neon_element32(rd1, a->vd, 1, MO_32);
+    write_neon_element64(rd0, a->vd, 0, MO_32);
+    write_neon_element64(rd1, a->vd, 1, MO_32);
     return true;
 }
 
 #define DO_VMOVN(INSN, FUNC)                                    \
     static bool trans_##INSN(DisasContext *s, arg_2misc *a)     \
     {                                                           \
-        static NeonGenNarrowEnvFn * const narrowfn[] = {        \
+        static NeonGenOne64OpEnvFn * const narrowfn[] = {       \
             FUNC##8,                                            \
             FUNC##16,                                           \
             FUNC##32,                                           \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-28-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  36 +++++-
 target/arm/tcg/translate-a64.c | 223 ++++++++++++++-------------------
 2 files changed, 128 insertions(+), 131 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_b
 RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_h
 RSHRN_v         0.00 11110 .... ... 10001 1 ..... .....     @q_shri_s
 
+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_b
+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_h
+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_s
+SQSHL_vi        0.00 11110 .... ... 01110 1 ..... .....     @q_shli_d
+
+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_b
+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_h
+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_s
+UQSHL_vi        0.10 11110 .... ... 01110 1 ..... .....     @q_shli_d
+
+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_b
+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_h
+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_s
+SQSHLU_vi       0.10 11110 .... ... 01100 1 ..... .....     @q_shli_d
+
 # Advanced SIMD scalar shift by immediate
 
 @shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
                 &rri_e esz=3 imm=%neon_rshift_i6
-@shli_d         .... ..... 1 imm:6  ..... . rn:5 rd:5   &rri_e esz=3 
+
+@shli_b         .... ..... 0001 imm:3  ..... . rn:5 rd:5    &rri_e esz=0
+@shli_h         .... ..... 001  imm:4  ..... . rn:5 rd:5    &rri_e esz=1
+@shli_s         .... ..... 01   imm:5  ..... . rn:5 rd:5    &rri_e esz=2
+@shli_d         .... ..... 1    imm:6  ..... . rn:5 rd:5    &rri_e esz=3
 
 SSHR_s          0101 11110 .... ... 00000 1 ..... .....     @shri_d
 USHR_s          0111 11110 .... ... 00000 1 ..... .....     @shri_d
@@ -XXX,XX +XXX,XX @@ SRI_s           0111 11110 .... ... 01000 1 ..... .....     @shri_d
 
 SHL_s           0101 11110 .... ... 01010 1 ..... .....     @shli_d
 SLI_s           0111 11110 .... ... 01010 1 ..... .....     @shli_d
+
+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_b
+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_h
+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_s
+SQSHL_si        0101 11110 .... ... 01110 1 ..... .....     @shli_d
+
+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_b
+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_h
+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_s
+UQSHL_si        0111 11110 .... ... 01110 1 ..... .....     @shli_d
+
+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_b
+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_h
+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_s
+SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(URSRA_v, do_vec_shift_imm, a, gen_gvec_ursra)
 TRANS(SRI_v, do_vec_shift_imm, a, gen_gvec_sri)
 TRANS(SHL_v, do_vec_shift_imm, a, tcg_gen_gvec_shli)
 TRANS(SLI_v, do_vec_shift_imm, a, gen_gvec_sli);
+TRANS(SQSHL_vi, do_vec_shift_imm, a, gen_neon_sqshli)
+TRANS(UQSHL_vi, do_vec_shift_imm, a, gen_neon_uqshli)
+TRANS(SQSHLU_vi, do_vec_shift_imm, a, gen_neon_sqshlui)
 
 static bool do_vec_shift_imm_wide(DisasContext *s, arg_qrri_e *a, bool is_u)
 {
@@ -XXX,XX +XXX,XX @@ TRANS(SRI_s, do_scalar_shift_imm, a, gen_sri_d, true, 0)
 TRANS(SHL_s, do_scalar_shift_imm, a, tcg_gen_shli_i64, false, 0)
 TRANS(SLI_s, do_scalar_shift_imm, a, gen_sli_d, true, 0)
 
+static void trunc_i64_env_imm(TCGv_i64 d, TCGv_i64 s, int64_t i,
+                              NeonGenTwoOpEnvFn *fn)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    tcg_gen_extrl_i64_i32(t, s);
+    fn(t, tcg_env, t, tcg_constant_i32(i));
+    tcg_gen_extu_i32_i64(d, t);
+}
+
+static void gen_sqshli_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_s8);
+}
+
+static void gen_sqshli_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_s16);
+}
+
+static void gen_sqshli_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_s32);
+}
+
+static void gen_sqshli_d(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    gen_helper_neon_qshl_s64(d, tcg_env, s, tcg_constant_i64(i));
+}
+
+static void gen_uqshli_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_u8);
+}
+
+static void gen_uqshli_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_u16);
+}
+
+static void gen_uqshli_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshl_u32);
+}
+
+static void gen_uqshli_d(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    gen_helper_neon_qshl_u64(d, tcg_env, s, tcg_constant_i64(i));
+}
+
+static void gen_sqshlui_b(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshlu_s8);
+}
+
+static void gen_sqshlui_h(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshlu_s16);
+}
+
+static void gen_sqshlui_s(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    trunc_i64_env_imm(d, s, i, gen_helper_neon_qshlu_s32);
+}
+
+static void gen_sqshlui_d(TCGv_i64 d, TCGv_i64 s, int64_t i)
+{
+    gen_helper_neon_qshlu_s64(d, tcg_env, s, tcg_constant_i64(i));
+}
+
+static WideShiftImmFn * const f_scalar_sqshli[] = {
+    gen_sqshli_b, gen_sqshli_h, gen_sqshli_s, gen_sqshli_d
+};
+
+static WideShiftImmFn * const f_scalar_uqshli[] = {
+    gen_uqshli_b, gen_uqshli_h, gen_uqshli_s, gen_uqshli_d
+};
+
+static WideShiftImmFn * const f_scalar_sqshlui[] = {
+    gen_sqshlui_b, gen_sqshlui_h, gen_sqshlui_s, gen_sqshlui_d
+};
+
+/* Note that the helpers sign-extend their inputs, so don't do it here. */
+TRANS(SQSHL_si, do_scalar_shift_imm, a, f_scalar_sqshli[a->esz], false, 0)
+TRANS(UQSHL_si, do_scalar_shift_imm, a, f_scalar_uqshli[a->esz], false, 0)
+TRANS(SQSHLU_si, do_scalar_shift_imm, a, f_scalar_sqshlui[a->esz], false, 0)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
     clear_vec_high(s, is_q, rd);
 }
 
-/* SQSHLU, UQSHL, SQSHL: saturating left shifts */
-static void handle_simd_qshl(DisasContext *s, bool scalar, bool is_q,
-                             bool src_unsigned, bool dst_unsigned,
-                             int immh, int immb, int rn, int rd)
-{
-    int immhb = immh << 3 | immb;
-    int size = 32 - clz32(immh) - 1;
-    int shift = immhb - (8 << size);
-    int pass;
-
-    assert(immh != 0);
-    assert(!(scalar && is_q));
-
-    if (!scalar) {
-        if (!is_q && extract32(immh, 3, 1)) {
-            unallocated_encoding(s);
-            return;
-        }
-
-        /* Since we use the variable-shift helpers we must
-         * replicate the shift count into each element of
-         * the tcg_shift value.
-         */
-        switch (size) {
-        case 0:
-            shift |= shift << 8;
-            /* fall through */
-        case 1:
-            shift |= shift << 16;
-            break;
-        case 2:
-        case 3:
-            break;
-        default:
-            g_assert_not_reached();
-        }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (size == 3) {
-        TCGv_i64 tcg_shift = tcg_constant_i64(shift);
-        static NeonGenTwo64OpEnvFn * const fns[2][2] = {
-            { gen_helper_neon_qshl_s64, gen_helper_neon_qshlu_s64 },
-            { NULL, gen_helper_neon_qshl_u64 },
-        };
-        NeonGenTwo64OpEnvFn *genfn = fns[src_unsigned][dst_unsigned];
-        int maxpass = is_q ? 2 : 1;
-
-        for (pass = 0; pass < maxpass; pass++) {
-            TCGv_i64 tcg_op = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op, rn, pass, MO_64);
-            genfn(tcg_op, tcg_env, tcg_op, tcg_shift);
-            write_vec_element(s, tcg_op, rd, pass, MO_64);
-        }
-        clear_vec_high(s, is_q, rd);
-    } else {
-        TCGv_i32 tcg_shift = tcg_constant_i32(shift);
-        static NeonGenTwoOpEnvFn * const fns[2][2][3] = {
-            {
-                { gen_helper_neon_qshl_s8,
-                  gen_helper_neon_qshl_s16,
-                  gen_helper_neon_qshl_s32 },
-                { gen_helper_neon_qshlu_s8,
-                  gen_helper_neon_qshlu_s16,
-                  gen_helper_neon_qshlu_s32 }
-            }, {
-                { NULL, NULL, NULL },
-                { gen_helper_neon_qshl_u8,
-                  gen_helper_neon_qshl_u16,
-                  gen_helper_neon_qshl_u32 }
-            }
-        };
-        NeonGenTwoOpEnvFn *genfn = fns[src_unsigned][dst_unsigned][size];
-        MemOp memop = scalar ? size : MO_32;
-        int maxpass = scalar ? 1 : is_q ? 4 : 2;
-
-        for (pass = 0; pass < maxpass; pass++) {
-            TCGv_i32 tcg_op = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op, rn, pass, memop);
-            genfn(tcg_op, tcg_env, tcg_op, tcg_shift);
-            if (scalar) {
-                switch (size) {
-                case 0:
-                    tcg_gen_ext8u_i32(tcg_op, tcg_op);
-                    break;
-                case 1:
-                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
-                    break;
-                case 2:
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                write_fp_sreg(s, rd, tcg_op);
-            } else {
-                write_vec_element_i32(s, tcg_op, rd, pass, MO_32);
-            }
-        }
-
-        if (!scalar) {
-            clear_vec_high(s, is_q, rd);
-        }
-    }
-}
-
 /* Common vector code for handling integer to FP conversion */
 static void handle_simd_intfp_conv(DisasContext *s, int rd, int rn,
                                    int elements, int is_signed,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
         handle_vec_simd_sqshrn(s, true, false, is_u, is_u,
                                immh, immb, opcode, rn, rd);
         break;
-    case 0xc: /* SQSHLU */
-        if (!is_u) {
-            unallocated_encoding(s);
-            return;
-        }
-        handle_simd_qshl(s, true, false, false, true, immh, immb, rn, rd);
-        break;
-    case 0xe: /* SQSHL, UQSHL */
-        handle_simd_qshl(s, true, false, is_u, is_u, immh, immb, rn, rd);
-        break;
     case 0x1f: /* FCVTZS, FCVTZU */
         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
     case 0x06: /* SRSRA / URSRA */
     case 0x08: /* SRI */
     case 0x0a: /* SHL / SLI */
+    case 0x0c: /* SQSHLU */
+    case 0x0e: /* SQSHL, UQSHL */
         unallocated_encoding(s);
         break;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
         handle_simd_shift_intfp_conv(s, false, is_q, is_u, immh, immb,
                                      opcode, rn, rd);
         break;
-    case 0xc: /* SQSHLU */
-        if (!is_u) {
-            unallocated_encoding(s);
-            return;
-        }
-        handle_simd_qshl(s, false, is_q, false, true, immh, immb, rn, rd);
-        break;
-    case 0xe: /* SQSHL, UQSHL */
-        handle_simd_qshl(s, false, is_q, is_u, is_u, immh, immb, rn, rd);
-        break;
     case 0x1f: /* FCVTZS/ FCVTZU */
         handle_simd_shift_fpint_conv(s, false, is_q, is_u, immh, immb, rn, rd);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_shift_imm(DisasContext *s, uint32_t insn)
     case 0x06: /* SRSRA / URSRA (accum + rounding) */
     case 0x08: /* SRI */
     case 0x0a: /* SHL / SLI */
+    case 0x0c: /* SQSHLU */
+    case 0x0e: /* SQSHL, UQSHL */
     case 0x14: /* SSHLL / USHLL */
         unallocated_encoding(s);
         return;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-29-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  24 +++++
 target/arm/tcg/translate-a64.c | 176 ++++++++++++++++++++++++++++++---
 2 files changed, 186 insertions(+), 14 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240912024114.1097832-30-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  30 +++++++
 target/arm/tcg/translate-a64.c | 160 +++++++--------------------------
 2 files changed, 63 insertions(+), 127 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ SQRSHRUN_v      0.10 11110 .... ... 10001 1 ..... .....     @q_shri_s
 
 # Advanced SIMD scalar shift by immediate
 
+@shri_b         .... ..... 0001 ... ..... . rn:5 rd:5   \
+                &rri_e esz=0 imm=%neon_rshift_i3
+@shri_h         .... ..... 001 .... ..... . rn:5 rd:5   \
+                &rri_e esz=1 imm=%neon_rshift_i4
+@shri_s         .... ..... 01 ..... ..... . rn:5 rd:5   \
+                &rri_e esz=2 imm=%neon_rshift_i5
 @shri_d         .... ..... 1 ...... ..... . rn:5 rd:5   \
                 &rri_e esz=3 imm=%neon_rshift_i6
 
@@ -XXX,XX +XXX,XX @@ SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_b
 SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_h
 SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_s
 SQSHLU_si       0111 11110 .... ... 01100 1 ..... .....     @shli_d
+
+SQSHRN_si       0101 11110 .... ... 10010 1 ..... .....     @shri_b
+SQSHRN_si       0101 11110 .... ... 10010 1 ..... .....     @shri_h
+SQSHRN_si       0101 11110 .... ... 10010 1 ..... .....     @shri_s
+
+UQSHRN_si       0111 11110 .... ... 10010 1 ..... .....     @shri_b
+UQSHRN_si       0111 11110 .... ... 10010 1 ..... .....     @shri_h
+UQSHRN_si       0111 11110 .... ... 10010 1 ..... .....     @shri_s
+
+SQSHRUN_si      0111 11110 .... ... 10000 1 ..... .....     @shri_b
+SQSHRUN_si      0111 11110 .... ... 10000 1 ..... .....     @shri_h
+SQSHRUN_si      0111 11110 .... ... 10000 1 ..... .....     @shri_s
+
+SQRSHRN_si      0101 11110 .... ... 10011 1 ..... .....     @shri_b
+SQRSHRN_si      0101 11110 .... ... 10011 1 ..... .....     @shri_h
+SQRSHRN_si      0101 11110 .... ... 10011 1 ..... .....     @shri_s
+
+UQRSHRN_si      0111 11110 .... ... 10011 1 ..... .....     @shri_b
+UQRSHRN_si      0111 11110 .... ... 10011 1 ..... .....     @shri_h
+UQRSHRN_si      0111 11110 .... ... 10011 1 ..... .....     @shri_s
+
+SQRSHRUN_si     0111 11110 .... ... 10001 1 ..... .....     @shri_b
+SQRSHRUN_si     0111 11110 .... ... 10001 1 ..... .....     @shri_h
+SQRSHRUN_si     0111 11110 .... ... 10001 1 ..... .....     @shri_s
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(SQSHL_si, do_scalar_shift_imm, a, f_scalar_sqshli[a->esz], false, 0)
 TRANS(UQSHL_si, do_scalar_shift_imm, a, f_scalar_uqshli[a->esz], false, 0)
 TRANS(SQSHLU_si, do_scalar_shift_imm, a, f_scalar_sqshlui[a->esz], false, 0)
 
+static bool do_scalar_shift_imm_narrow(DisasContext *s, arg_rri_e *a,
+                                       WideShiftImmFn * const fns[3],
+                                       MemOp sign, bool zext)
+{
+    MemOp esz = a->esz;
+
+    tcg_debug_assert(esz >= MO_8 && esz <= MO_32);
+
+    if (fp_access_check(s)) {
+        TCGv_i64 rd = tcg_temp_new_i64();
+        TCGv_i64 rn = tcg_temp_new_i64();
+
+        read_vec_element(s, rn, a->rn, 0, (esz + 1) | sign);
+        fns[esz](rd, rn, a->imm);
+        if (zext) {
+            tcg_gen_ext_i64(rd, rd, esz);
+        }
+        write_fp_dreg(s, a->rd, rd);
+    }
+    return true;
+}
+
+TRANS(SQSHRN_si, do_scalar_shift_imm_narrow, a, sqshrn_fns, MO_SIGN, true)
+TRANS(SQRSHRN_si, do_scalar_shift_imm_narrow, a, sqrshrn_fns, MO_SIGN, true)
+TRANS(UQSHRN_si, do_scalar_shift_imm_narrow, a, uqshrn_fns, 0, false)
+TRANS(UQRSHRN_si, do_scalar_shift_imm_narrow, a, uqrshrn_fns, 0, false)
+TRANS(SQSHRUN_si, do_scalar_shift_imm_narrow, a, sqshrun_fns, MO_SIGN, false)
+TRANS(SQRSHRUN_si, do_scalar_shift_imm_narrow, a, sqrshrun_fns, MO_SIGN, false)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
     }
 }
 
-/*
- * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
- *
- * This code is handles the common shifting code and is used by both
- * the vector and scalar code.
- */
-static void handle_shri_with_rndacc(TCGv_i64 tcg_res, TCGv_i64 tcg_src,
-                                    bool round, bool accumulate,
-                                    bool is_u, int size, int shift)
-{
-    if (!round) {
-        if (is_u) {
-            gen_ushr_d(tcg_src, tcg_src, shift);
-        } else {
-            gen_sshr_d(tcg_src, tcg_src, shift);
-        }
-    } else if (size == MO_64) {
-        if (is_u) {
-            gen_urshr_d(tcg_src, tcg_src, shift);
-        } else {
-            gen_srshr_d(tcg_src, tcg_src, shift);
-        }
-    } else {
-        if (is_u) {
-            gen_urshr_bhs(tcg_src, tcg_src, shift);
-        } else {
-            gen_srshr_bhs(tcg_src, tcg_src, shift);
-        }
-    }
-
-    if (accumulate) {
-        tcg_gen_add_i64(tcg_res, tcg_res, tcg_src);
-    } else {
-        tcg_gen_mov_i64(tcg_res, tcg_src);
-    }
-}
-
-/* SQSHRN/SQSHRUN - Saturating (signed/unsigned) shift right with
- * (signed/unsigned) narrowing */
-static void handle_vec_simd_sqshrn(DisasContext *s, bool is_scalar, bool is_q,
-                                   bool is_u_shift, bool is_u_narrow,
-                                   int immh, int immb, int opcode,
-                                   int rn, int rd)
-{
-    int immhb = immh << 3 | immb;
-    int size = 32 - clz32(immh) - 1;
-    int esize = 8 << size;
-    int shift = (2 * esize) - immhb;
-    int elements = is_scalar ? 1 : (64 / esize);
-    bool round = extract32(opcode, 0, 1);
-    MemOp ldop = (size + 1) | (is_u_shift ? 0 : MO_SIGN);
-    TCGv_i64 tcg_rn, tcg_rd, tcg_final;
-
-    static NeonGenOne64OpEnvFn * const signed_narrow_fns[4][2] = {
-        { gen_helper_neon_narrow_sat_s8,
-          gen_helper_neon_unarrow_sat8 },
-        { gen_helper_neon_narrow_sat_s16,
-          gen_helper_neon_unarrow_sat16 },
-        { gen_helper_neon_narrow_sat_s32,
-          gen_helper_neon_unarrow_sat32 },
-        { NULL, NULL },
-    };
-    static NeonGenOne64OpEnvFn * const unsigned_narrow_fns[4] = {
-        gen_helper_neon_narrow_sat_u8,
-        gen_helper_neon_narrow_sat_u16,
-        gen_helper_neon_narrow_sat_u32,
-        NULL
-    };
-    NeonGenOne64OpEnvFn *narrowfn;
-
-    int i;
-
-    assert(size < 4);
-
-    if (extract32(immh, 3, 1)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (is_u_shift) {
-        narrowfn = unsigned_narrow_fns[size];
-    } else {
-        narrowfn = signed_narrow_fns[size][is_u_narrow ? 1 : 0];
-    }
-
-    tcg_rn = tcg_temp_new_i64();
-    tcg_rd = tcg_temp_new_i64();
-    tcg_final = tcg_temp_new_i64();
-
-    for (i = 0; i < elements; i++) {
-        read_vec_element(s, tcg_rn, rn, i, ldop);
-        handle_shri_with_rndacc(tcg_rd, tcg_rn, round,
-                                false, is_u_shift, size+1, shift);
-        narrowfn(tcg_rd, tcg_env, tcg_rd);
-        if (i == 0) {
-            tcg_gen_extract_i64(tcg_final, tcg_rd, 0, esize);
-        } else {
-            tcg_gen_deposit_i64(tcg_final, tcg_final, tcg_rd, esize * i, esize);
-        }
-    }
-
-    if (!is_q) {
-        write_vec_element(s, tcg_final, rd, 0, MO_64);
-    } else {
-        write_vec_element(s, tcg_final, rd, 1, MO_64);
-    }
-    clear_vec_high(s, is_q, rd);
-}
-
 /* Common vector code for handling integer to FP conversion */
 static void handle_simd_intfp_conv(DisasContext *s, int rd, int rn,
                                    int elements, int is_signed,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
         handle_simd_shift_intfp_conv(s, true, false, is_u, immh, immb,
                                      opcode, rn, rd);
         break;
-    case 0x10: /* SQSHRUN, SQSHRUN2 */
-    case 0x11: /* SQRSHRUN, SQRSHRUN2 */
-        if (!is_u) {
-            unallocated_encoding(s);
-            return;
-        }
-        handle_vec_simd_sqshrn(s, true, false, false, true,
-                               immh, immb, opcode, rn, rd);
-        break;
-    case 0x12: /* SQSHRN, SQSHRN2, UQSHRN */
-    case 0x13: /* SQRSHRN, SQRSHRN2, UQRSHRN, UQRSHRN2 */
-        handle_vec_simd_sqshrn(s, true, false, is_u, is_u,
-                               immh, immb, opcode, rn, rd);
-        break;
     case 0x1f: /* FCVTZS, FCVTZU */
         handle_simd_shift_fpint_conv(s, true, false, is_u, immh, immb, rn, rd);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_shift_imm(DisasContext *s, uint32_t insn)
     case 0x0a: /* SHL / SLI */
     case 0x0c: /* SQSHLU */
     case 0x0e: /* SQSHL, UQSHL */
+    case 0x10: /* SQSHRUN */
+    case 0x11: /* SQRSHRUN */
+    case 0x12: /* SQSHRN, UQSHRN */
+    case 0x13: /* SQRSHRN, UQRSHRN */
         unallocated_encoding(s);
         break;
     }
-- 
2.34.1

From: Jacob Abrams <satur9nine@gmail.com>

SW modifying USART_CR1 TE bit should cuase HW to respond by altering
USART_ISR TEACK bit, and likewise for RE and REACK bit.

This resolves some but not all issues necessary for the official STM USART
HAL driver to function as is.

Fixes: 87b77e6e01ca ("hw/char/stm32l4x5_usart: Enable serial read and write")
Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2540
Signed-off-by: Jacob Abrams <satur9nine@gmail.com>
Message-id: 20240911043255.51966-1-satur9nine@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/char/stm32l4x5_usart.c          | 16 +++++++++++++
 tests/qtest/stm32l4x5_usart-test.c | 36 +++++++++++++++++++++++++++++-
 2 files changed, 51 insertions(+), 1 deletion(-)

diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/stm32l4x5_usart.c
+++ b/hw/char/stm32l4x5_usart.c
@@ -XXX,XX +XXX,XX @@ REG32(RDR, 0x24)
 REG32(TDR, 0x28)
     FIELD(TDR, TDR, 0, 9)
 
+static void stm32l4x5_update_isr(Stm32l4x5UsartBaseState *s)
+{
+    if (s->cr1 & R_CR1_TE_MASK) {
+        s->isr |= R_ISR_TEACK_MASK;
+    } else {
+        s->isr &= ~R_ISR_TEACK_MASK;
+    }
+
+    if (s->cr1 & R_CR1_RE_MASK) {
+        s->isr |= R_ISR_REACK_MASK;
+    } else {
+        s->isr &= ~R_ISR_REACK_MASK;
+    }
+}
+
 static void stm32l4x5_update_irq(Stm32l4x5UsartBaseState *s)
 {
     if (((s->isr & R_ISR_WUF_MASK) && (s->cr3 & R_CR3_WUFIE_MASK))        ||
@@ -XXX,XX +XXX,XX @@ static void stm32l4x5_usart_base_write(void *opaque, hwaddr addr,
     case A_CR1:
         s->cr1 = value;
         stm32l4x5_update_params(s);
+        stm32l4x5_update_isr(s);
         stm32l4x5_update_irq(s);
         return;
     case A_CR2:
diff --git a/tests/qtest/stm32l4x5_usart-test.c b/tests/qtest/stm32l4x5_usart-test.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/stm32l4x5_usart-test.c
+++ b/tests/qtest/stm32l4x5_usart-test.c
@@ -XXX,XX +XXX,XX @@ REG32(GTPR, 0x10)
 REG32(RTOR, 0x14)
 REG32(RQR, 0x18)
 REG32(ISR, 0x1C)
+    FIELD(ISR, REACK, 22, 1)
+    FIELD(ISR, TEACK, 21, 1)
     FIELD(ISR, TXE, 7, 1)
     FIELD(ISR, RXNE, 5, 1)
     FIELD(ISR, ORE, 3, 1)
@@ -XXX,XX +XXX,XX @@ static void init_uart(QTestState *qts)
 
     /* Enable the transmitter, the receiver and the USART. */
     qtest_writel(qts, (USART1_BASE_ADDR + A_CR1),
-        R_CR1_UE_MASK | R_CR1_RE_MASK | R_CR1_TE_MASK);
+        cr1 | R_CR1_UE_MASK | R_CR1_RE_MASK | R_CR1_TE_MASK);
 }
 
 static void test_write_read(void)
@@ -XXX,XX +XXX,XX @@ static void test_send_str(void)
     qtest_quit(qts);
 }
 
+static void test_ack(void)
+{
+    uint32_t cr1;
+    uint32_t isr;
+    QTestState *qts = qtest_init("-M b-l475e-iot01a");
+
+    init_uart(qts);
+
+    cr1 = qtest_readl(qts, (USART1_BASE_ADDR + A_CR1));
+
+    /* Disable the transmitter and receiver. */
+    qtest_writel(qts, (USART1_BASE_ADDR + A_CR1),
+        cr1 & ~(R_CR1_RE_MASK | R_CR1_TE_MASK));
+
+    /* Test ISR ACK for transmitter and receiver disabled */
+    isr = qtest_readl(qts, (USART1_BASE_ADDR + A_ISR));
+    g_assert_false(isr & R_ISR_TEACK_MASK);
+    g_assert_false(isr & R_ISR_REACK_MASK);
+
+    /* Enable the transmitter and receiver. */
+    qtest_writel(qts, (USART1_BASE_ADDR + A_CR1),
+        cr1 | (R_CR1_RE_MASK | R_CR1_TE_MASK));
+
+    /* Test ISR ACK for transmitter and receiver disabled */
+    isr = qtest_readl(qts, (USART1_BASE_ADDR + A_ISR));
+    g_assert_true(isr & R_ISR_TEACK_MASK);
+    g_assert_true(isr & R_ISR_REACK_MASK);
+
+    qtest_quit(qts);
+}
+
 int main(int argc, char **argv)
 {
     int ret;
@@ -XXX,XX +XXX,XX @@ int main(int argc, char **argv)
     qtest_add_func("stm32l4x5/usart/send_char", test_send_char);
     qtest_add_func("stm32l4x5/usart/receive_str", test_receive_str);
     qtest_add_func("stm32l4x5/usart/send_str", test_send_str);
+    qtest_add_func("stm32l4x5/usart/ack", test_ack);
     ret = g_test_run();
 
     return ret;
-- 
2.34.1

From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>

We want to run tests using default cpu without having to remember which
Arm core is it.

Change Neoverse-N1 (old default) test to use default cpu (Neoverse-N2 at
the moment).

Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Message-id: 20240910-b4-move-to-freebsd-v5-1-0fb66d803c93@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/functional/test_aarch64_sbsaref.py | 18 ++++++++++--------
 1 file changed, 10 insertions(+), 8 deletions(-)

diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
index XXXXXXX..XXXXXXX 100755
--- a/tests/functional/test_aarch64_sbsaref.py
+++ b/tests/functional/test_aarch64_sbsaref.py
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_edk2_firmware(self):
     # This tests the whole boot chain from EFI to Userspace
     # We only boot a whole OS for the current top level CPU and GIC
     # Other test profiles should use more minimal boots
-    def boot_alpine_linux(self, cpu):
+    def boot_alpine_linux(self, cpu=None):
         self.fetch_firmware()
 
         iso_path = self.ASSET_ALPINE_ISO.fetch()
 
         self.vm.set_console()
         self.vm.add_args(
-            "-cpu", cpu,
             "-drive", f"file={iso_path},media=cdrom,format=raw",
         )
+        if cpu:
+            self.vm.add_args("-cpu", cpu)
 
         self.vm.launch()
         wait_for_console_pattern(self, "Welcome to Alpine Linux 3.17")
@@ -XXX,XX +XXX,XX @@ def boot_alpine_linux(self, cpu):
     def test_sbsaref_alpine_linux_cortex_a57(self):
         self.boot_alpine_linux("cortex-a57")
 
-    def test_sbsaref_alpine_linux_neoverse_n1(self):
-        self.boot_alpine_linux("neoverse-n1")
+    def test_sbsaref_alpine_linux_default_cpu(self):
+        self.boot_alpine_linux()
 
     def test_sbsaref_alpine_linux_max_pauth_off(self):
         self.boot_alpine_linux("max,pauth=off")
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_alpine_linux_max(self):
     # This tests the whole boot chain from EFI to Userspace
     # We only boot a whole OS for the current top level CPU and GIC
     # Other test profiles should use more minimal boots
-    def boot_openbsd73(self, cpu):
+    def boot_openbsd73(self, cpu=None):
         self.fetch_firmware()
 
         img_path = self.ASSET_OPENBSD_ISO.fetch()
 
         self.vm.set_console()
         self.vm.add_args(
-            "-cpu", cpu,
             "-drive", f"file={img_path},format=raw,snapshot=on",
         )
+        if cpu:
+            self.vm.add_args("-cpu", cpu)
 
         self.vm.launch()
         wait_for_console_pattern(self,
@@ -XXX,XX +XXX,XX @@ def boot_openbsd73(self, cpu):
     def test_sbsaref_openbsd73_cortex_a57(self):
         self.boot_openbsd73("cortex-a57")
 
-    def test_sbsaref_openbsd73_neoverse_n1(self):
-        self.boot_openbsd73("neoverse-n1")
+    def test_sbsaref_openbsd73_default_cpu(self):
+        self.boot_openbsd73()
 
     def test_sbsaref_openbsd73_max_pauth_off(self):
         self.boot_openbsd73("max,pauth=off")
-- 
2.34.1

From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>

FreeBSD has longer support cycle for stable release (14.x EoL in 2028)
than OpenBSD (7.3 we use is already EoL). Also bugfixes are backported
so we can stay on 14.x for longer.

Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Message-id: 20240910-b4-move-to-freebsd-v5-2-0fb66d803c93@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/functional/test_aarch64_sbsaref.py | 43 +++++++++++++++++++++++-
 1 file changed, 42 insertions(+), 1 deletion(-)

diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
index XXXXXXX..XXXXXXX 100755
--- a/tests/functional/test_aarch64_sbsaref.py
+++ b/tests/functional/test_aarch64_sbsaref.py
@@ -XXX,XX +XXX,XX @@
 #!/usr/bin/env python3
 #
-# Functional test that boots a Linux kernel and checks the console
+# Functional test that boots a kernel and checks the console
 #
 # SPDX-FileCopyrightText: 2023-2024 Linaro Ltd.
 # SPDX-FileContributor: Philippe Mathieu-Daudé <philmd@linaro.org>
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_openbsd73_max(self):
         self.boot_openbsd73("max")
 
 
+    ASSET_FREEBSD_ISO = Asset(
+        ('https://download.freebsd.org/releases/arm64/aarch64/ISO-IMAGES/'
+         '14.1/FreeBSD-14.1-RELEASE-arm64-aarch64-bootonly.iso'),
+        '44cdbae275ef1bb6dab1d5fbb59473d4f741e1c8ea8a80fd9e906b531d6ad461')
+
+    # This tests the whole boot chain from EFI to Userspace
+    # We only boot a whole OS for the current top level CPU and GIC
+    # Other test profiles should use more minimal boots
+    def boot_freebsd14(self, cpu=None):
+        self.fetch_firmware()
+
+        img_path = self.ASSET_FREEBSD_ISO.fetch()
+
+        self.vm.set_console()
+        self.vm.add_args(
+            "-drive", f"file={img_path},format=raw,snapshot=on",
+        )
+        if cpu:
+            self.vm.add_args("-cpu", cpu)
+
+        self.vm.launch()
+        wait_for_console_pattern(self, 'Welcome to FreeBSD!')
+
+    def test_sbsaref_freebsd14_cortex_a57(self):
+        self.boot_freebsd14("cortex-a57")
+
+    def test_sbsaref_freebsd14_default_cpu(self):
+        self.boot_freebsd14()
+
+    def test_sbsaref_freebsd14_max_pauth_off(self):
+        self.boot_freebsd14("max,pauth=off")
+
+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+    def test_sbsaref_freebsd14_max_pauth_impdef(self):
+        self.boot_freebsd14("max,pauth-impdef=on")
+
+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+    def test_sbsaref_freebsd14_max(self):
+        self.boot_freebsd14("max")
+
+
 if __name__ == '__main__':
     QemuSystemTest.main()
-- 
2.34.1

From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>

'Test might timeout' means nothing. Replace it with useful information
that it is emulation of pointer authentication what makes this test run
too long.

Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Message-id: 20240910-b4-move-to-freebsd-v5-3-0fb66d803c93@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/functional/test_aarch64_sbsaref.py | 15 ++++++++++-----
 1 file changed, 10 insertions(+), 5 deletions(-)

diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
index XXXXXXX..XXXXXXX 100755
--- a/tests/functional/test_aarch64_sbsaref.py
+++ b/tests/functional/test_aarch64_sbsaref.py
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_alpine_linux_max_pauth_off(self):
     def test_sbsaref_alpine_linux_max_pauth_impdef(self):
         self.boot_alpine_linux("max,pauth-impdef=on")
 
-    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+                'Test might timeout due to PAuth emulation')
     def test_sbsaref_alpine_linux_max(self):
         self.boot_alpine_linux("max")
 
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_openbsd73_default_cpu(self):
     def test_sbsaref_openbsd73_max_pauth_off(self):
         self.boot_openbsd73("max,pauth=off")
 
-    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+                'Test might timeout due to PAuth emulation')
     def test_sbsaref_openbsd73_max_pauth_impdef(self):
         self.boot_openbsd73("max,pauth-impdef=on")
 
-    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+                'Test might timeout due to PAuth emulation')
     def test_sbsaref_openbsd73_max(self):
         self.boot_openbsd73("max")
 
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_freebsd14_default_cpu(self):
     def test_sbsaref_freebsd14_max_pauth_off(self):
         self.boot_freebsd14("max,pauth=off")
 
-    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+                'Test might timeout due to PAuth emulation')
     def test_sbsaref_freebsd14_max_pauth_impdef(self):
         self.boot_freebsd14("max,pauth-impdef=on")
 
-    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'), 'Test might timeout')
+    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
+                'Test might timeout due to PAuth emulation')
     def test_sbsaref_freebsd14_max(self):
         self.boot_freebsd14("max")
 
-- 
2.34.1

From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>

OpenBSD 7.3 we use is EoL. Both 7.4 and 7.5 releases do not work on
anything above Neoverse-N1 due to PAC emulation:

https://marc.info/?l=openbsd-arm&m=171050428327850&w=2

OpenBSD 7.6 is not yet released.

Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Message-id: 20240910-b4-move-to-freebsd-v5-4-0fb66d803c93@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/functional/test_aarch64_sbsaref.py | 44 ------------------------
 1 file changed, 44 deletions(-)

diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
index XXXXXXX..XXXXXXX 100755
--- a/tests/functional/test_aarch64_sbsaref.py
+++ b/tests/functional/test_aarch64_sbsaref.py
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_alpine_linux_max(self):
         self.boot_alpine_linux("max")
 
 
-    ASSET_OPENBSD_ISO = Asset(
-        ('https://cdn.openbsd.org/pub/OpenBSD/7.3/arm64/miniroot73.img'),
-        '7fc2c75401d6f01fbfa25f4953f72ad7d7c18650056d30755c44b9c129b707e5')
-
-    # This tests the whole boot chain from EFI to Userspace
-    # We only boot a whole OS for the current top level CPU and GIC
-    # Other test profiles should use more minimal boots
-    def boot_openbsd73(self, cpu=None):
-        self.fetch_firmware()
-
-        img_path = self.ASSET_OPENBSD_ISO.fetch()
-
-        self.vm.set_console()
-        self.vm.add_args(
-            "-drive", f"file={img_path},format=raw,snapshot=on",
-        )
-        if cpu:
-            self.vm.add_args("-cpu", cpu)
-
-        self.vm.launch()
-        wait_for_console_pattern(self,
-                                 "Welcome to the OpenBSD/arm64"
-                                 " 7.3 installation program.")
-
-    def test_sbsaref_openbsd73_cortex_a57(self):
-        self.boot_openbsd73("cortex-a57")
-
-    def test_sbsaref_openbsd73_default_cpu(self):
-        self.boot_openbsd73()
-
-    def test_sbsaref_openbsd73_max_pauth_off(self):
-        self.boot_openbsd73("max,pauth=off")
-
-    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
-                'Test might timeout due to PAuth emulation')
-    def test_sbsaref_openbsd73_max_pauth_impdef(self):
-        self.boot_openbsd73("max,pauth-impdef=on")
-
-    @skipUnless(os.getenv('QEMU_TEST_TIMEOUT_EXPECTED'),
-                'Test might timeout due to PAuth emulation')
-    def test_sbsaref_openbsd73_max(self):
-        self.boot_openbsd73("max")
-
-
     ASSET_FREEBSD_ISO = Asset(
         ('https://download.freebsd.org/releases/arm64/aarch64/ISO-IMAGES/'
          '14.1/FreeBSD-14.1-RELEASE-arm64-aarch64-bootonly.iso'),
-- 
2.34.1

In kvm_init_vcpu()and do_kvm_destroy_vcpu(), the return value from
  kvm_ioctl(..., KVM_GET_VCPU_MMAP_SIZE, ...)
is an 'int', but we put it into a 'long' logal variable mmap_size.
Coverity then complains that there might be a truncation when we copy
that value into the 'int ret' which we use for returning a value in
an error-exit codepath. This can't ever actually overflow because
the value was in an 'int' to start with, but it makes more sense
to use 'int' for mmap_size so we don't do the widen-then-narrow
sequence in the first place.

Resolves: Coverity CID 1547515
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240815131206.3231819-2-peter.maydell@linaro.org
---
 accel/kvm/kvm-all.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/kvm/kvm-all.c
+++ b/accel/kvm/kvm-all.c
@@ -XXX,XX +XXX,XX @@ int kvm_create_and_park_vcpu(CPUState *cpu)
 static int do_kvm_destroy_vcpu(CPUState *cpu)
 {
     KVMState *s = kvm_state;
-    long mmap_size;
+    int mmap_size;
     int ret = 0;
 
     trace_kvm_destroy_vcpu(cpu->cpu_index, kvm_arch_vcpu_id(cpu));
@@ -XXX,XX +XXX,XX @@ void kvm_destroy_vcpu(CPUState *cpu)
 int kvm_init_vcpu(CPUState *cpu, Error **errp)
 {
     KVMState *s = kvm_state;
-    long mmap_size;
+    int mmap_size;
     int ret;
 
     trace_kvm_init_vcpu(cpu->cpu_index, kvm_arch_vcpu_id(cpu));
-- 
2.34.1

The Neoverse-V1 TRM is a bit confused about the layout of the
ID_AA64ISAR1_EL1 register, and so its table 3-6 has the wrong value
for this ID register.  Trust instead section 3.2.74's list of which
fields are set.

This means that we stop incorrectly reporting FEAT_XS as present, and
now report the presence of FEAT_BF16.

Cc: qemu-stable@nongnu.org
Reported-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240917161337.3012188-1-peter.maydell@linaro.org
---
 target/arm/tcg/cpu64.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/tcg/cpu64.c b/target/arm/tcg/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/cpu64.c
+++ b/target/arm/tcg/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_neoverse_v1_initfn(Object *obj)
     cpu->isar.id_aa64dfr0  = 0x000001f210305519ull;
     cpu->isar.id_aa64dfr1 = 0x00000000;
     cpu->isar.id_aa64isar0 = 0x1011111110212120ull; /* with FEAT_RNG */
-    cpu->isar.id_aa64isar1 = 0x0111000001211032ull;
+    cpu->isar.id_aa64isar1 = 0x0011100001211032ull;
     cpu->isar.id_aa64mmfr0 = 0x0000000000101125ull;
     cpu->isar.id_aa64mmfr1 = 0x0000000010212122ull;
     cpu->isar.id_aa64mmfr2 = 0x0220011102101011ull;
-- 
2.34.1

docs/devel/nested-papr.txt is entirely (apart from the initial
paragraph) a partial copy of the kernel documentation
https://docs.kernel.org/arch/powerpc/kvm-nested.html

There's no benefit to the QEMU docs to converting this to rST,
so instead delete it. Anybody needing to know the API and
protocol for the guest to communicate with the hypervisor
to created nested VMs should refer to the authoratitative
documentation in the kernel docs.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Daniel Henrique Barboza <danielhb413@gmail.com>
Message-id: 20240816133318.3603114-1-peter.maydell@linaro.org
---
 docs/devel/nested-papr.txt | 119 -------------------------------------
 1 file changed, 119 deletions(-)
 delete mode 100644 docs/devel/nested-papr.txt

diff --git a/docs/devel/nested-papr.txt b/docs/devel/nested-papr.txt
deleted file mode 100644
index XXXXXXX..XXXXXXX
--- a/docs/devel/nested-papr.txt
+++ /dev/null
@@ -XXX,XX +XXX,XX @@
-Nested PAPR API (aka KVM on PowerVM)
-====================================
-
-This API aims at providing support to enable nested virtualization with
-KVM on PowerVM. While the existing support for nested KVM on PowerNV was
-introduced with cap-nested-hv option, however, with a slight design change,
-to enable this on papr/pseries, a new cap-nested-papr option is added. eg:
-
-  qemu-system-ppc64 -cpu POWER10 -machine pseries,cap-nested-papr=true ...
-
-Work by:
-    Michael Neuling <mikey@neuling.org>
-    Vaibhav Jain <vaibhav@linux.ibm.com>
-    Jordan Niethe <jniethe5@gmail.com>
-    Harsh Prateek Bora <harshpb@linux.ibm.com>
-    Shivaprasad G Bhat <sbhat@linux.ibm.com>
-    Kautuk Consul <kconsul@linux.vnet.ibm.com>
-
-Below taken from the kernel documentation:
-
-Introduction
-============
-
-This document explains how a guest operating system can act as a
-hypervisor and run nested guests through the use of hypercalls, if the
-hypervisor has implemented them. The terms L0, L1, and L2 are used to
-refer to different software entities. L0 is the hypervisor mode entity
-that would normally be called the "host" or "hypervisor". L1 is a
-guest virtual machine that is directly run under L0 and is initiated
-and controlled by L0. L2 is a guest virtual machine that is initiated
-and controlled by L1 acting as a hypervisor. A significant design change
-wrt existing API is that now the entire L2 state is maintained within L0.
-
-Existing Nested-HV API
-======================
-
-Linux/KVM has had support for Nesting as an L0 or L1 since 2018
-
-The L0 code was added::
-
-   commit 8e3f5fc1045dc49fd175b978c5457f5f51e7a2ce
-   Author: Paul Mackerras <paulus@ozlabs.org>
-   Date:   Mon Oct 8 16:31:03 2018 +1100
-   KVM: PPC: Book3S HV: Framework and hcall stubs for nested virtualization
-
-The L1 code was added::
-
-   commit 360cae313702cdd0b90f82c261a8302fecef030a
-   Author: Paul Mackerras <paulus@ozlabs.org>
-   Date:   Mon Oct 8 16:31:04 2018 +1100
-   KVM: PPC: Book3S HV: Nested guest entry via hypercall
-
-This API works primarily using a signal hcall h_enter_nested(). This
-call made by the L1 to tell the L0 to start an L2 vCPU with the given
-state. The L0 then starts this L2 and runs until an L2 exit condition
-is reached. Once the L2 exits, the state of the L2 is given back to
-the L1 by the L0. The full L2 vCPU state is always transferred from
-and to L1 when the L2 is run. The L0 doesn't keep any state on the L2
-vCPU (except in the short sequence in the L0 on L1 -> L2 entry and L2
--> L1 exit).
-
-The only state kept by the L0 is the partition table. The L1 registers
-it's partition table using the h_set_partition_table() hcall. All
-other state held by the L0 about the L2s is cached state (such as
-shadow page tables).
-
-The L1 may run any L2 or vCPU without first informing the L0. It
-simply starts the vCPU using h_enter_nested(). The creation of L2s and
-vCPUs is done implicitly whenever h_enter_nested() is called.
-
-In this document, we call this existing API the v1 API.
-
-New PAPR API
-===============
-
-The new PAPR API changes from the v1 API such that the creating L2 and
-associated vCPUs is explicit. In this document, we call this the v2
-API.
-
-h_enter_nested() is replaced with H_GUEST_VCPU_RUN().  Before this can
-be called the L1 must explicitly create the L2 using h_guest_create()
-and any associated vCPUs() created with h_guest_create_vCPU(). Getting
-and setting vCPU state can also be performed using h_guest_{g|s}et
-hcall.
-
-The basic execution flow is for an L1 to create an L2, run it, and
-delete it is:
-
-- L1 and L0 negotiate capabilities with H_GUEST_{G,S}ET_CAPABILITIES()
-  (normally at L1 boot time).
-
-- L1 requests the L0 to create an L2 with H_GUEST_CREATE() and receives a token
-
-- L1 requests the L0 to create an L2 vCPU with H_GUEST_CREATE_VCPU()
-
-- L1 and L0 communicate the vCPU state using the H_GUEST_{G,S}ET() hcall
-
-- L1 requests the L0 to run the vCPU using H_GUEST_RUN_VCPU() hcall
-
-- L1 deletes L2 with H_GUEST_DELETE()
-
-For more details, please refer:
-
-[1] Linux Kernel documentation (upstream documentation commit):
-
-commit 476652297f94a2e5e5ef29e734b0da37ade94110
-Author: Michael Neuling <mikey@neuling.org>
-Date:   Thu Sep 14 13:06:00 2023 +1000
-
-    docs: powerpc: Document nested KVM on POWER
-
-    Document support for nested KVM on POWER using the existing API as well
-    as the new PAPR API. This includes the new HCALL interface and how it
-    used by KVM.
-
-    Signed-off-by: Michael Neuling <mikey@neuling.org>
-    Signed-off-by: Jordan Niethe <jniethe5@gmail.com>
-    Signed-off-by: Michael Ellerman <mpe@ellerman.id.au>
-    Link: https://msgid.link/20230914030600.16993-12-jniethe5@gmail.com
-- 
2.34.1

Hi; this is one last arm pullreq before the end of the year.
Mostly minor cleanups, and also implementation of the
FEAT_XS architectural feature.

thanks
-- PMM

The following changes since commit 8032c78e556cd0baec111740a6c636863f9bd7c8:

Merge tag 'firmware-20241216-pull-request' of https://gitlab.com/kraxel/qemu into staging (2024-12-16 14:20:33 -0500)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20241217

for you to fetch changes up to e91254250acb8570bd7b8a8f89d30e6d18291d02:

tests/functional: update sbsa-ref firmware used in test (2024-12-17 15:21:06 +0000)

----------------------------------------------------------------
target-arm queue:
 * remove a line of redundant code
 * convert various TCG helper fns to use 'fpst' alias
 * Use float_status in helper_fcvtx_f64_to_f32
 * Use float_status in helper_vfp_fcvt{ds,sd}
 * Implement FEAT_XS
 * hw/intc/arm_gicv3_its: Zero initialize local DTEntry etc structs
 * tests/functional: update sbsa-ref firmware used in test

----------------------------------------------------------------
Denis Rastyogin (1):
      target/arm: remove redundant code

Manos Pitsidianakis (3):
      target/arm: Add decodetree entry for DSB nXS variant
      target/arm: Enable FEAT_XS for the max cpu
      tests/tcg/aarch64: add system test for FEAT_XS

Marcin Juszkiewicz (1):
      tests/functional: update sbsa-ref firmware used in test

Peter Maydell (4):
      target/arm: Implement fine-grained-trap handling for FEAT_XS
      target/arm: Add ARM_CP_ADD_TLBI_NXS type flag for NXS insns
      target/arm: Add ARM_CP_ADD_TLBI_NXS type flag to TLBI insns
      hw/intc/arm_gicv3_its: Zero initialize local DTEntry etc structs

Richard Henderson (10):
      target/arm: Convert vfp_helper.c to fpst alias
      target/arm: Convert helper-a64.c to fpst alias
      target/arm: Convert vec_helper.c to fpst alias
      target/arm: Convert neon_helper.c to fpst alias
      target/arm: Convert sve_helper.c to fpst alias
      target/arm: Convert sme_helper.c to fpst alias
      target/arm: Convert vec_helper.c to use env alias
      target/arm: Convert neon_helper.c to use env alias
      target/arm: Use float_status in helper_fcvtx_f64_to_f32
      target/arm: Use float_status in helper_vfp_fcvt{ds,sd}

From: Denis Rastyogin <gerben@altlinux.org>

This call is redundant as it only retrieves a value that is not used further.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Signed-off-by: Denis Rastyogin <gerben@altlinux.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20241212120618.518369-1-gerben@altlinux.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/vfp_helper.c | 2 --
 1 file changed, 2 deletions(-)

diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rintd)(float64 x, void *fp_status)
 
     ret = float64_round_to_int(x, fp_status);
 
-    new_flags = get_float_exception_flags(fp_status);
-
     /* Suppress any inexact exceptions the conversion produced */
     if (!(old_flags & float_flag_inexact)) {
         new_flags = get_float_exception_flags(fp_status);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031224.78525-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h     | 268 ++++++++++++++++++++--------------------
 target/arm/vfp_helper.c | 120 ++++++++----------
 2 files changed, 186 insertions(+), 202 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(probe_access, TCG_CALL_NO_WG, void, env, tl, i32, i32, i32)
 DEF_HELPER_1(vfp_get_fpscr, i32, env)
 DEF_HELPER_2(vfp_set_fpscr, void, env, i32)
 
-DEF_HELPER_3(vfp_addh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_adds, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_addd, f64, f64, f64, ptr)
-DEF_HELPER_3(vfp_subh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_subs, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_subd, f64, f64, f64, ptr)
-DEF_HELPER_3(vfp_mulh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_muls, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_muld, f64, f64, f64, ptr)
-DEF_HELPER_3(vfp_divh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_divs, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_divd, f64, f64, f64, ptr)
-DEF_HELPER_3(vfp_maxh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_maxs, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_maxd, f64, f64, f64, ptr)
-DEF_HELPER_3(vfp_minh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_mins, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_mind, f64, f64, f64, ptr)
-DEF_HELPER_3(vfp_maxnumh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_maxnums, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
-DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
-DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
-DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
-DEF_HELPER_2(vfp_sqrth, f16, f16, ptr)
-DEF_HELPER_2(vfp_sqrts, f32, f32, ptr)
-DEF_HELPER_2(vfp_sqrtd, f64, f64, ptr)
+DEF_HELPER_3(vfp_addh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_adds, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_addd, f64, f64, f64, fpst)
+DEF_HELPER_3(vfp_subh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_subs, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_subd, f64, f64, f64, fpst)
+DEF_HELPER_3(vfp_mulh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_muls, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_muld, f64, f64, f64, fpst)
+DEF_HELPER_3(vfp_divh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_divs, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_divd, f64, f64, f64, fpst)
+DEF_HELPER_3(vfp_maxh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_maxs, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_maxd, f64, f64, f64, fpst)
+DEF_HELPER_3(vfp_minh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_mins, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_mind, f64, f64, f64, fpst)
+DEF_HELPER_3(vfp_maxnumh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_maxnums, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, fpst)
+DEF_HELPER_3(vfp_minnumh, f16, f16, f16, fpst)
+DEF_HELPER_3(vfp_minnums, f32, f32, f32, fpst)
+DEF_HELPER_3(vfp_minnumd, f64, f64, f64, fpst)
+DEF_HELPER_2(vfp_sqrth, f16, f16, fpst)
+DEF_HELPER_2(vfp_sqrts, f32, f32, fpst)
+DEF_HELPER_2(vfp_sqrtd, f64, f64, fpst)
 DEF_HELPER_3(vfp_cmph, void, f16, f16, env)
 DEF_HELPER_3(vfp_cmps, void, f32, f32, env)
 DEF_HELPER_3(vfp_cmpd, void, f64, f64, env)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_cmped, void, f64, f64, env)
 
 DEF_HELPER_2(vfp_fcvtds, f64, f32, env)
 DEF_HELPER_2(vfp_fcvtsd, f32, f64, env)
-DEF_HELPER_FLAGS_2(bfcvt, TCG_CALL_NO_RWG, i32, f32, ptr)
-DEF_HELPER_FLAGS_2(bfcvt_pair, TCG_CALL_NO_RWG, i32, i64, ptr)
+DEF_HELPER_FLAGS_2(bfcvt, TCG_CALL_NO_RWG, i32, f32, fpst)
+DEF_HELPER_FLAGS_2(bfcvt_pair, TCG_CALL_NO_RWG, i32, i64, fpst)
 
-DEF_HELPER_2(vfp_uitoh, f16, i32, ptr)
-DEF_HELPER_2(vfp_uitos, f32, i32, ptr)
-DEF_HELPER_2(vfp_uitod, f64, i32, ptr)
-DEF_HELPER_2(vfp_sitoh, f16, i32, ptr)
-DEF_HELPER_2(vfp_sitos, f32, i32, ptr)
-DEF_HELPER_2(vfp_sitod, f64, i32, ptr)
+DEF_HELPER_2(vfp_uitoh, f16, i32, fpst)
+DEF_HELPER_2(vfp_uitos, f32, i32, fpst)
+DEF_HELPER_2(vfp_uitod, f64, i32, fpst)
+DEF_HELPER_2(vfp_sitoh, f16, i32, fpst)
+DEF_HELPER_2(vfp_sitos, f32, i32, fpst)
+DEF_HELPER_2(vfp_sitod, f64, i32, fpst)
 
-DEF_HELPER_2(vfp_touih, i32, f16, ptr)
-DEF_HELPER_2(vfp_touis, i32, f32, ptr)
-DEF_HELPER_2(vfp_touid, i32, f64, ptr)
-DEF_HELPER_2(vfp_touizh, i32, f16, ptr)
-DEF_HELPER_2(vfp_touizs, i32, f32, ptr)
-DEF_HELPER_2(vfp_touizd, i32, f64, ptr)
-DEF_HELPER_2(vfp_tosih, s32, f16, ptr)
-DEF_HELPER_2(vfp_tosis, s32, f32, ptr)
-DEF_HELPER_2(vfp_tosid, s32, f64, ptr)
-DEF_HELPER_2(vfp_tosizh, s32, f16, ptr)
-DEF_HELPER_2(vfp_tosizs, s32, f32, ptr)
-DEF_HELPER_2(vfp_tosizd, s32, f64, ptr)
+DEF_HELPER_2(vfp_touih, i32, f16, fpst)
+DEF_HELPER_2(vfp_touis, i32, f32, fpst)
+DEF_HELPER_2(vfp_touid, i32, f64, fpst)
+DEF_HELPER_2(vfp_touizh, i32, f16, fpst)
+DEF_HELPER_2(vfp_touizs, i32, f32, fpst)
+DEF_HELPER_2(vfp_touizd, i32, f64, fpst)
+DEF_HELPER_2(vfp_tosih, s32, f16, fpst)
+DEF_HELPER_2(vfp_tosis, s32, f32, fpst)
+DEF_HELPER_2(vfp_tosid, s32, f64, fpst)
+DEF_HELPER_2(vfp_tosizh, s32, f16, fpst)
+DEF_HELPER_2(vfp_tosizs, s32, f32, fpst)
+DEF_HELPER_2(vfp_tosizd, s32, f64, fpst)
 
-DEF_HELPER_3(vfp_toshh_round_to_zero, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_toslh_round_to_zero, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_touhh_round_to_zero, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_toulh_round_to_zero, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_toshs_round_to_zero, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_tosls_round_to_zero, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_touhs_round_to_zero, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_touls_round_to_zero, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_toshd_round_to_zero, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_tosld_round_to_zero, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_tosqd_round_to_zero, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_touhd_round_to_zero, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_tould_round_to_zero, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_touqd_round_to_zero, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_touhh, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_toshh, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_toulh, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_toslh, i32, f16, i32, ptr)
-DEF_HELPER_3(vfp_touqh, i64, f16, i32, ptr)
-DEF_HELPER_3(vfp_tosqh, i64, f16, i32, ptr)
-DEF_HELPER_3(vfp_toshs, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_tosls, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_tosqs, i64, f32, i32, ptr)
-DEF_HELPER_3(vfp_touhs, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_touls, i32, f32, i32, ptr)
-DEF_HELPER_3(vfp_touqs, i64, f32, i32, ptr)
-DEF_HELPER_3(vfp_toshd, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_tosld, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_tosqd, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_touhd, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_tould, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_touqd, i64, f64, i32, ptr)
-DEF_HELPER_3(vfp_shtos, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_sltos, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_sqtos, f32, i64, i32, ptr)
-DEF_HELPER_3(vfp_uhtos, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_ultos, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_uqtos, f32, i64, i32, ptr)
-DEF_HELPER_3(vfp_shtod, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_sltod, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_sqtod, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_uhtod, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_ultod, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_uqtod, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_shtoh, f16, i32, i32, ptr)
-DEF_HELPER_3(vfp_uhtoh, f16, i32, i32, ptr)
-DEF_HELPER_3(vfp_sltoh, f16, i32, i32, ptr)
-DEF_HELPER_3(vfp_ultoh, f16, i32, i32, ptr)
-DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, ptr)
-DEF_HELPER_3(vfp_uqtoh, f16, i64, i32, ptr)
+DEF_HELPER_3(vfp_toshh_round_to_zero, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_toslh_round_to_zero, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_touhh_round_to_zero, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_toulh_round_to_zero, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_toshs_round_to_zero, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_tosls_round_to_zero, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_touhs_round_to_zero, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_touls_round_to_zero, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_toshd_round_to_zero, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_tosld_round_to_zero, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_tosqd_round_to_zero, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_touhd_round_to_zero, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_tould_round_to_zero, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_touqd_round_to_zero, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_touhh, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_toshh, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_toulh, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_toslh, i32, f16, i32, fpst)
+DEF_HELPER_3(vfp_touqh, i64, f16, i32, fpst)
+DEF_HELPER_3(vfp_tosqh, i64, f16, i32, fpst)
+DEF_HELPER_3(vfp_toshs, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_tosls, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_tosqs, i64, f32, i32, fpst)
+DEF_HELPER_3(vfp_touhs, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_touls, i32, f32, i32, fpst)
+DEF_HELPER_3(vfp_touqs, i64, f32, i32, fpst)
+DEF_HELPER_3(vfp_toshd, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_tosld, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_tosqd, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_touhd, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_tould, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_touqd, i64, f64, i32, fpst)
+DEF_HELPER_3(vfp_shtos, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_sltos, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_sqtos, f32, i64, i32, fpst)
+DEF_HELPER_3(vfp_uhtos, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_ultos, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_uqtos, f32, i64, i32, fpst)
+DEF_HELPER_3(vfp_shtod, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_sltod, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_sqtod, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_uhtod, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_ultod, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_uqtod, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_shtoh, f16, i32, i32, fpst)
+DEF_HELPER_3(vfp_uhtoh, f16, i32, i32, fpst)
+DEF_HELPER_3(vfp_sltoh, f16, i32, i32, fpst)
+DEF_HELPER_3(vfp_ultoh, f16, i32, i32, fpst)
+DEF_HELPER_3(vfp_sqtoh, f16, i64, i32, fpst)
+DEF_HELPER_3(vfp_uqtoh, f16, i64, i32, fpst)
 
-DEF_HELPER_3(vfp_shtos_round_to_nearest, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_sltos_round_to_nearest, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_uhtos_round_to_nearest, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_ultos_round_to_nearest, f32, i32, i32, ptr)
-DEF_HELPER_3(vfp_shtod_round_to_nearest, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_sltod_round_to_nearest, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_uhtod_round_to_nearest, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_ultod_round_to_nearest, f64, i64, i32, ptr)
-DEF_HELPER_3(vfp_shtoh_round_to_nearest, f16, i32, i32, ptr)
-DEF_HELPER_3(vfp_uhtoh_round_to_nearest, f16, i32, i32, ptr)
-DEF_HELPER_3(vfp_sltoh_round_to_nearest, f16, i32, i32, ptr)
-DEF_HELPER_3(vfp_ultoh_round_to_nearest, f16, i32, i32, ptr)
+DEF_HELPER_3(vfp_shtos_round_to_nearest, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_sltos_round_to_nearest, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_uhtos_round_to_nearest, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_ultos_round_to_nearest, f32, i32, i32, fpst)
+DEF_HELPER_3(vfp_shtod_round_to_nearest, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_sltod_round_to_nearest, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_uhtod_round_to_nearest, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_ultod_round_to_nearest, f64, i64, i32, fpst)
+DEF_HELPER_3(vfp_shtoh_round_to_nearest, f16, i32, i32, fpst)
+DEF_HELPER_3(vfp_uhtoh_round_to_nearest, f16, i32, i32, fpst)
+DEF_HELPER_3(vfp_sltoh_round_to_nearest, f16, i32, i32, fpst)
+DEF_HELPER_3(vfp_ultoh_round_to_nearest, f16, i32, i32, fpst)
 
-DEF_HELPER_FLAGS_2(set_rmode, TCG_CALL_NO_RWG, i32, i32, ptr)
+DEF_HELPER_FLAGS_2(set_rmode, TCG_CALL_NO_RWG, i32, i32, fpst)
 
-DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f32, TCG_CALL_NO_RWG, f32, f16, ptr, i32)
-DEF_HELPER_FLAGS_3(vfp_fcvt_f32_to_f16, TCG_CALL_NO_RWG, f16, f32, ptr, i32)
-DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f64, TCG_CALL_NO_RWG, f64, f16, ptr, i32)
-DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, ptr, i32)
+DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f32, TCG_CALL_NO_RWG, f32, f16, fpst, i32)
+DEF_HELPER_FLAGS_3(vfp_fcvt_f32_to_f16, TCG_CALL_NO_RWG, f16, f32, fpst, i32)
+DEF_HELPER_FLAGS_3(vfp_fcvt_f16_to_f64, TCG_CALL_NO_RWG, f64, f16, fpst, i32)
+DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, fpst, i32)
 
-DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
-DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
-DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, ptr)
+DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, fpst)
+DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, fpst)
+DEF_HELPER_4(vfp_muladdh, f16, f16, f16, f16, fpst)
 
-DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
-DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
-DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
-DEF_HELPER_FLAGS_2(rsqrte_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
-DEF_HELPER_FLAGS_2(rsqrte_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
-DEF_HELPER_FLAGS_2(rsqrte_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
+DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
+DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
+DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
+DEF_HELPER_FLAGS_2(rsqrte_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
+DEF_HELPER_FLAGS_2(rsqrte_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
+DEF_HELPER_FLAGS_2(rsqrte_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
 DEF_HELPER_FLAGS_1(recpe_u32, TCG_CALL_NO_RWG, i32, i32)
 DEF_HELPER_FLAGS_1(rsqrte_u32, TCG_CALL_NO_RWG, i32, i32)
 DEF_HELPER_FLAGS_4(neon_tbl, TCG_CALL_NO_RWG, i64, env, i32, i64, i64)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(shr_cc, i32, env, i32, i32)
 DEF_HELPER_3(sar_cc, i32, env, i32, i32)
 DEF_HELPER_3(ror_cc, i32, env, i32, i32)
 
-DEF_HELPER_FLAGS_2(rinth_exact, TCG_CALL_NO_RWG, f16, f16, ptr)
-DEF_HELPER_FLAGS_2(rints_exact, TCG_CALL_NO_RWG, f32, f32, ptr)
-DEF_HELPER_FLAGS_2(rintd_exact, TCG_CALL_NO_RWG, f64, f64, ptr)
-DEF_HELPER_FLAGS_2(rinth, TCG_CALL_NO_RWG, f16, f16, ptr)
-DEF_HELPER_FLAGS_2(rints, TCG_CALL_NO_RWG, f32, f32, ptr)
-DEF_HELPER_FLAGS_2(rintd, TCG_CALL_NO_RWG, f64, f64, ptr)
+DEF_HELPER_FLAGS_2(rinth_exact, TCG_CALL_NO_RWG, f16, f16, fpst)
+DEF_HELPER_FLAGS_2(rints_exact, TCG_CALL_NO_RWG, f32, f32, fpst)
+DEF_HELPER_FLAGS_2(rintd_exact, TCG_CALL_NO_RWG, f64, f64, fpst)
+DEF_HELPER_FLAGS_2(rinth, TCG_CALL_NO_RWG, f16, f16, fpst)
+DEF_HELPER_FLAGS_2(rints, TCG_CALL_NO_RWG, f32, f32, fpst)
+DEF_HELPER_FLAGS_2(rintd, TCG_CALL_NO_RWG, f64, f64, fpst)
 
 DEF_HELPER_FLAGS_2(vjcvt, TCG_CALL_NO_RWG, i32, f64, env)
-DEF_HELPER_FLAGS_2(fjcvtzs, TCG_CALL_NO_RWG, i64, f64, ptr)
+DEF_HELPER_FLAGS_2(fjcvtzs, TCG_CALL_NO_RWG, i64, f64, fpst)
 
 DEF_HELPER_FLAGS_3(check_hcr_el2_trap, TCG_CALL_NO_WG, void, env, i32, i32)
 
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmlal_idx_a32, TCG_CALL_NO_RWG,
 DEF_HELPER_FLAGS_5(gvec_fmlal_idx_a64, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 
-DEF_HELPER_FLAGS_2(frint32_s, TCG_CALL_NO_RWG, f32, f32, ptr)
-DEF_HELPER_FLAGS_2(frint64_s, TCG_CALL_NO_RWG, f32, f32, ptr)
-DEF_HELPER_FLAGS_2(frint32_d, TCG_CALL_NO_RWG, f64, f64, ptr)
-DEF_HELPER_FLAGS_2(frint64_d, TCG_CALL_NO_RWG, f64, f64, ptr)
+DEF_HELPER_FLAGS_2(frint32_s, TCG_CALL_NO_RWG, f32, f32, fpst)
+DEF_HELPER_FLAGS_2(frint64_s, TCG_CALL_NO_RWG, f32, f32, fpst)
+DEF_HELPER_FLAGS_2(frint32_d, TCG_CALL_NO_RWG, f64, f64, fpst)
+DEF_HELPER_FLAGS_2(frint64_d, TCG_CALL_NO_RWG, f64, f64, fpst)
 
 DEF_HELPER_FLAGS_3(gvec_ceq0_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 DEF_HELPER_FLAGS_3(gvec_ceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ void vfp_set_fpscr(CPUARMState *env, uint32_t val)
 #define VFP_HELPER(name, p) HELPER(glue(glue(vfp_,name),p))
 
 #define VFP_BINOP(name) \
-dh_ctype_f16 VFP_HELPER(name, h)(dh_ctype_f16 a, dh_ctype_f16 b, void *fpstp) \
+dh_ctype_f16 VFP_HELPER(name, h)(dh_ctype_f16 a, dh_ctype_f16 b, float_status *fpst) \
 { \
-    float_status *fpst = fpstp; \
     return float16_ ## name(a, b, fpst); \
 } \
-float32 VFP_HELPER(name, s)(float32 a, float32 b, void *fpstp) \
+float32 VFP_HELPER(name, s)(float32 a, float32 b, float_status *fpst) \
 { \
-    float_status *fpst = fpstp; \
     return float32_ ## name(a, b, fpst); \
 } \
-float64 VFP_HELPER(name, d)(float64 a, float64 b, void *fpstp) \
+float64 VFP_HELPER(name, d)(float64 a, float64 b, float_status *fpst) \
 { \
-    float_status *fpst = fpstp; \
     return float64_ ## name(a, b, fpst); \
 }
 VFP_BINOP(add)
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
 VFP_BINOP(maxnum)
 #undef VFP_BINOP
 
-dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, void *fpstp)
+dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, float_status *fpst)
 {
-    return float16_sqrt(a, fpstp);
+    return float16_sqrt(a, fpst);
 }
 
-float32 VFP_HELPER(sqrt, s)(float32 a, void *fpstp)
+float32 VFP_HELPER(sqrt, s)(float32 a, float_status *fpst)
 {
-    return float32_sqrt(a, fpstp);
+    return float32_sqrt(a, fpst);
 }
 
-float64 VFP_HELPER(sqrt, d)(float64 a, void *fpstp)
+float64 VFP_HELPER(sqrt, d)(float64 a, float_status *fpst)
 {
-    return float64_sqrt(a, fpstp);
+    return float64_sqrt(a, fpst);
 }
 
 static void softfloat_to_vfp_compare(CPUARMState *env, FloatRelation cmp)
@@ -XXX,XX +XXX,XX @@ DO_VFP_cmp(d, float64, float64, fp_status)
 /* Integer to float and float to integer conversions */
 
 #define CONV_ITOF(name, ftype, fsz, sign)                           \
-ftype HELPER(name)(uint32_t x, void *fpstp)                         \
+ftype HELPER(name)(uint32_t x, float_status *fpst)                  \
 {                                                                   \
-    float_status *fpst = fpstp;                                     \
     return sign##int32_to_##float##fsz((sign##int32_t)x, fpst);     \
 }
 
 #define CONV_FTOI(name, ftype, fsz, sign, round)                \
-sign##int32_t HELPER(name)(ftype x, void *fpstp)                \
+sign##int32_t HELPER(name)(ftype x, float_status *fpst)         \
 {                                                               \
-    float_status *fpst = fpstp;                                 \
     if (float##fsz##_is_any_nan(x)) {                           \
         float_raise(float_flag_invalid, fpst);                  \
         return 0;                                               \
@@ -XXX,XX +XXX,XX @@ float32 VFP_HELPER(fcvts, d)(float64 x, CPUARMState *env)
     return float64_to_float32(x, &env->vfp.fp_status);
 }
 
-uint32_t HELPER(bfcvt)(float32 x, void *status)
+uint32_t HELPER(bfcvt)(float32 x, float_status *status)
 {
     return float32_to_bfloat16(x, status);
 }
 
-uint32_t HELPER(bfcvt_pair)(uint64_t pair, void *status)
+uint32_t HELPER(bfcvt_pair)(uint64_t pair, float_status *status)
 {
     bfloat16 lo = float32_to_bfloat16(extract64(pair, 0, 32), status);
     bfloat16 hi = float32_to_bfloat16(extract64(pair, 32, 32), status);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(bfcvt_pair)(uint64_t pair, void *status)
  */
 #define VFP_CONV_FIX_FLOAT(name, p, fsz, ftype, isz, itype)            \
 ftype HELPER(vfp_##name##to##p)(uint##isz##_t  x, uint32_t shift,      \
-                                     void *fpstp) \
-{ return itype##_to_##float##fsz##_scalbn(x, -shift, fpstp); }
+                                float_status *fpst)                    \
+{ return itype##_to_##float##fsz##_scalbn(x, -shift, fpst); }
 
 #define VFP_CONV_FIX_FLOAT_ROUND(name, p, fsz, ftype, isz, itype)      \
     ftype HELPER(vfp_##name##to##p##_round_to_nearest)(uint##isz##_t  x, \
                                                      uint32_t shift,   \
-                                                     void *fpstp)      \
+                                                     float_status *fpst) \
     {                                                                  \
         ftype ret;                                                     \
-        float_status *fpst = fpstp;                                    \
         FloatRoundMode oldmode = fpst->float_rounding_mode;            \
         fpst->float_rounding_mode = float_round_nearest_even;          \
-        ret = itype##_to_##float##fsz##_scalbn(x, -shift, fpstp);      \
+        ret = itype##_to_##float##fsz##_scalbn(x, -shift, fpst);       \
         fpst->float_rounding_mode = oldmode;                           \
         return ret;                                                    \
     }
 
 #define VFP_CONV_FLOAT_FIX_ROUND(name, p, fsz, ftype, isz, itype, ROUND, suff) \
 uint##isz##_t HELPER(vfp_to##name##p##suff)(ftype x, uint32_t shift,      \
-                                            void *fpst)                   \
+                                            float_status *fpst)           \
 {                                                                         \
     if (unlikely(float##fsz##_is_any_nan(x))) {                           \
         float_raise(float_flag_invalid, fpst);                            \
@@ -XXX,XX +XXX,XX @@ VFP_CONV_FLOAT_FIX_ROUND(uq, d, 64, float64, 64, uint64,
 /* Set the current fp rounding mode and return the old one.
  * The argument is a softfloat float_round_ value.
  */
-uint32_t HELPER(set_rmode)(uint32_t rmode, void *fpstp)
+uint32_t HELPER(set_rmode)(uint32_t rmode, float_status *fp_status)
 {
-    float_status *fp_status = fpstp;
-
     uint32_t prev_rmode = get_float_rounding_mode(fp_status);
     set_float_rounding_mode(rmode, fp_status);
 
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(set_rmode)(uint32_t rmode, void *fpstp)
 }
 
 /* Half precision conversions.  */
-float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
+float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, float_status *fpst,
+                                    uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing input denormals.
      */
-    float_status *fpst = fpstp;
     bool save = get_flush_inputs_to_zero(fpst);
     set_flush_inputs_to_zero(false, fpst);
     float32 r = float16_to_float32(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(vfp_fcvt_f16_to_f32)(uint32_t a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
+uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, float_status *fpst,
+                                     uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing output denormals.
      */
-    float_status *fpst = fpstp;
     bool save = get_flush_to_zero(fpst);
     set_flush_to_zero(false, fpst);
     float16 r = float32_to_float16(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f32_to_f16)(float32 a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, void *fpstp, uint32_t ahp_mode)
+float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, float_status *fpst,
+                                    uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing input denormals.
      */
-    float_status *fpst = fpstp;
     bool save = get_flush_inputs_to_zero(fpst);
     set_flush_inputs_to_zero(false, fpst);
     float64 r = float16_to_float64(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(vfp_fcvt_f16_to_f64)(uint32_t a, void *fpstp, uint32_t ahp_mode)
     return r;
 }
 
-uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
+uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, float_status *fpst,
+                                     uint32_t ahp_mode)
 {
     /* Squash FZ16 to 0 for the duration of conversion.  In this case,
      * it would affect flushing output denormals.
      */
-    float_status *fpst = fpstp;
     bool save = get_flush_to_zero(fpst);
     set_flush_to_zero(false, fpst);
     float16 r = float64_to_float16(a, !ahp_mode, fpst);
@@ -XXX,XX +XXX,XX @@ static bool round_to_inf(float_status *fpst, bool sign_bit)
     }
 }
 
-uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
+uint32_t HELPER(recpe_f16)(uint32_t input, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float16 f16 = float16_squash_input_denormal(input, fpst);
     uint32_t f16_val = float16_val(f16);
     uint32_t f16_sign = float16_is_neg(f16);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
     return make_float16(f16_val);
 }
 
-float32 HELPER(recpe_f32)(float32 input, void *fpstp)
+float32 HELPER(recpe_f32)(float32 input, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float32 f32 = float32_squash_input_denormal(input, fpst);
     uint32_t f32_val = float32_val(f32);
     bool f32_sign = float32_is_neg(f32);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(recpe_f32)(float32 input, void *fpstp)
     return make_float32(f32_val);
 }
 
-float64 HELPER(recpe_f64)(float64 input, void *fpstp)
+float64 HELPER(recpe_f64)(float64 input, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float64 f64 = float64_squash_input_denormal(input, fpst);
     uint64_t f64_val = float64_val(f64);
     bool f64_sign = float64_is_neg(f64);
@@ -XXX,XX +XXX,XX @@ static uint64_t recip_sqrt_estimate(int *exp , int exp_off, uint64_t frac)
     return extract64(estimate, 0, 8) << 44;
 }
 
-uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
+uint32_t HELPER(rsqrte_f16)(uint32_t input, float_status *s)
 {
-    float_status *s = fpstp;
     float16 f16 = float16_squash_input_denormal(input, s);
     uint16_t val = float16_val(f16);
     bool f16_sign = float16_is_neg(f16);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
         if (float16_is_signaling_nan(f16, s)) {
             float_raise(float_flag_invalid, s);
             if (!s->default_nan_mode) {
-                nan = float16_silence_nan(f16, fpstp);
+                nan = float16_silence_nan(f16, s);
             }
         }
         if (s->default_nan_mode) {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
     return make_float16(val);
 }
 
-float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
+float32 HELPER(rsqrte_f32)(float32 input, float_status *s)
 {
-    float_status *s = fpstp;
     float32 f32 = float32_squash_input_denormal(input, s);
     uint32_t val = float32_val(f32);
     uint32_t f32_sign = float32_is_neg(f32);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
         if (float32_is_signaling_nan(f32, s)) {
             float_raise(float_flag_invalid, s);
             if (!s->default_nan_mode) {
-                nan = float32_silence_nan(f32, fpstp);
+                nan = float32_silence_nan(f32, s);
             }
         }
         if (s->default_nan_mode) {
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
     return make_float32(val);
 }
 
-float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
+float64 HELPER(rsqrte_f64)(float64 input, float_status *s)
 {
-    float_status *s = fpstp;
     float64 f64 = float64_squash_input_denormal(input, s);
     uint64_t val = float64_val(f64);
     bool f64_sign = float64_is_neg(f64);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
         if (float64_is_signaling_nan(f64, s)) {
             float_raise(float_flag_invalid, s);
             if (!s->default_nan_mode) {
-                nan = float64_silence_nan(f64, fpstp);
+                nan = float64_silence_nan(f64, s);
             }
         }
         if (s->default_nan_mode) {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_u32)(uint32_t a)
 
 /* VFPv4 fused multiply-accumulate */
 dh_ctype_f16 VFP_HELPER(muladd, h)(dh_ctype_f16 a, dh_ctype_f16 b,
-                                   dh_ctype_f16 c, void *fpstp)
+                                   dh_ctype_f16 c, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return float16_muladd(a, b, c, 0, fpst);
 }
 
-float32 VFP_HELPER(muladd, s)(float32 a, float32 b, float32 c, void *fpstp)
+float32 VFP_HELPER(muladd, s)(float32 a, float32 b, float32 c,
+                              float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return float32_muladd(a, b, c, 0, fpst);
 }
 
-float64 VFP_HELPER(muladd, d)(float64 a, float64 b, float64 c, void *fpstp)
+float64 VFP_HELPER(muladd, d)(float64 a, float64 b, float64 c,
+                              float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return float64_muladd(a, b, c, 0, fpst);
 }
 
 /* ARMv8 round to integral */
-dh_ctype_f16 HELPER(rinth_exact)(dh_ctype_f16 x, void *fp_status)
+dh_ctype_f16 HELPER(rinth_exact)(dh_ctype_f16 x, float_status *fp_status)
 {
     return float16_round_to_int(x, fp_status);
 }
 
-float32 HELPER(rints_exact)(float32 x, void *fp_status)
+float32 HELPER(rints_exact)(float32 x, float_status *fp_status)
 {
     return float32_round_to_int(x, fp_status);
 }
 
-float64 HELPER(rintd_exact)(float64 x, void *fp_status)
+float64 HELPER(rintd_exact)(float64 x, float_status *fp_status)
 {
     return float64_round_to_int(x, fp_status);
 }
 
-dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, void *fp_status)
+dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, float_status *fp_status)
 {
     int old_flags = get_float_exception_flags(fp_status), new_flags;
     float16 ret;
@@ -XXX,XX +XXX,XX @@ dh_ctype_f16 HELPER(rinth)(dh_ctype_f16 x, void *fp_status)
     return ret;
 }
 
-float32 HELPER(rints)(float32 x, void *fp_status)
+float32 HELPER(rints)(float32 x, float_status *fp_status)
 {
     int old_flags = get_float_exception_flags(fp_status), new_flags;
     float32 ret;
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rints)(float32 x, void *fp_status)
     return ret;
 }
 
-float64 HELPER(rintd)(float64 x, void *fp_status)
+float64 HELPER(rintd)(float64 x, float_status *fp_status)
 {
     int old_flags = get_float_exception_flags(fp_status), new_flags;
     float64 ret;
@@ -XXX,XX +XXX,XX @@ const FloatRoundMode arm_rmode_to_sf_map[] = {
  * Implement float64 to int32_t conversion without saturation;
  * the result is supplied modulo 2^32.
  */
-uint64_t HELPER(fjcvtzs)(float64 value, void *vstatus)
+uint64_t HELPER(fjcvtzs)(float64 value, float_status *status)
 {
-    float_status *status = vstatus;
     uint32_t frac, e_old, e_new;
     bool inexact;
 
@@ -XXX,XX +XXX,XX @@ static float32 frint_s(float32 f, float_status *fpst, int intsize)
     return (0x100u + 126u + intsize) << 23;
 }
 
-float32 HELPER(frint32_s)(float32 f, void *fpst)
+float32 HELPER(frint32_s)(float32 f, float_status *fpst)
 {
     return frint_s(f, fpst, 32);
 }
 
-float32 HELPER(frint64_s)(float32 f, void *fpst)
+float32 HELPER(frint64_s)(float32 f, float_status *fpst)
 {
     return frint_s(f, fpst, 64);
 }
@@ -XXX,XX +XXX,XX @@ static float64 frint_d(float64 f, float_status *fpst, int intsize)
     return (uint64_t)(0x800 + 1022 + intsize) << 52;
 }
 
-float64 HELPER(frint32_d)(float64 f, void *fpst)
+float64 HELPER(frint32_d)(float64 f, float_status *fpst)
 {
     return frint_d(f, fpst, 32);
 }
 
-float64 HELPER(frint64_d)(float64 f, void *fpst)
+float64 HELPER(frint64_d)(float64 f, float_status *fpst)
 {
     return frint_d(f, fpst, 64);
 }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031224.78525-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h | 94 +++++++++++++++++------------------
 target/arm/tcg/helper-a64.c | 98 +++++++++++++------------------------
 2 files changed, 80 insertions(+), 112 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(msr_i_spsel, void, env, i32)
 DEF_HELPER_2(msr_i_daifset, void, env, i32)
 DEF_HELPER_2(msr_i_daifclear, void, env, i32)
 DEF_HELPER_1(msr_set_allint_el1, void, env)
-DEF_HELPER_3(vfp_cmph_a64, i64, f16, f16, ptr)
-DEF_HELPER_3(vfp_cmpeh_a64, i64, f16, f16, ptr)
-DEF_HELPER_3(vfp_cmps_a64, i64, f32, f32, ptr)
-DEF_HELPER_3(vfp_cmpes_a64, i64, f32, f32, ptr)
-DEF_HELPER_3(vfp_cmpd_a64, i64, f64, f64, ptr)
-DEF_HELPER_3(vfp_cmped_a64, i64, f64, f64, ptr)
+DEF_HELPER_3(vfp_cmph_a64, i64, f16, f16, fpst)
+DEF_HELPER_3(vfp_cmpeh_a64, i64, f16, f16, fpst)
+DEF_HELPER_3(vfp_cmps_a64, i64, f32, f32, fpst)
+DEF_HELPER_3(vfp_cmpes_a64, i64, f32, f32, fpst)
+DEF_HELPER_3(vfp_cmpd_a64, i64, f64, f64, fpst)
+DEF_HELPER_3(vfp_cmped_a64, i64, f64, f64, fpst)
 DEF_HELPER_FLAGS_4(simd_tblx, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_3(vfp_mulxs, TCG_CALL_NO_RWG, f32, f32, f32, ptr)
-DEF_HELPER_FLAGS_3(vfp_mulxd, TCG_CALL_NO_RWG, f64, f64, f64, ptr)
-DEF_HELPER_FLAGS_3(neon_ceq_f64, TCG_CALL_NO_RWG, i64, i64, i64, ptr)
-DEF_HELPER_FLAGS_3(neon_cge_f64, TCG_CALL_NO_RWG, i64, i64, i64, ptr)
-DEF_HELPER_FLAGS_3(neon_cgt_f64, TCG_CALL_NO_RWG, i64, i64, i64, ptr)
-DEF_HELPER_FLAGS_3(recpsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
-DEF_HELPER_FLAGS_3(recpsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, ptr)
-DEF_HELPER_FLAGS_3(recpsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, ptr)
-DEF_HELPER_FLAGS_3(rsqrtsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
-DEF_HELPER_FLAGS_3(rsqrtsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, ptr)
-DEF_HELPER_FLAGS_3(rsqrtsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, ptr)
-DEF_HELPER_FLAGS_2(frecpx_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
-DEF_HELPER_FLAGS_2(frecpx_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
-DEF_HELPER_FLAGS_2(frecpx_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
+DEF_HELPER_FLAGS_3(vfp_mulxs, TCG_CALL_NO_RWG, f32, f32, f32, fpst)
+DEF_HELPER_FLAGS_3(vfp_mulxd, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
+DEF_HELPER_FLAGS_3(neon_ceq_f64, TCG_CALL_NO_RWG, i64, i64, i64, fpst)
+DEF_HELPER_FLAGS_3(neon_cge_f64, TCG_CALL_NO_RWG, i64, i64, i64, fpst)
+DEF_HELPER_FLAGS_3(neon_cgt_f64, TCG_CALL_NO_RWG, i64, i64, i64, fpst)
+DEF_HELPER_FLAGS_3(recpsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
+DEF_HELPER_FLAGS_3(recpsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, fpst)
+DEF_HELPER_FLAGS_3(recpsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
+DEF_HELPER_FLAGS_3(rsqrtsf_f16, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
+DEF_HELPER_FLAGS_3(rsqrtsf_f32, TCG_CALL_NO_RWG, f32, f32, f32, fpst)
+DEF_HELPER_FLAGS_3(rsqrtsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
+DEF_HELPER_FLAGS_2(frecpx_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
+DEF_HELPER_FLAGS_2(frecpx_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
+DEF_HELPER_FLAGS_2(frecpx_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
 DEF_HELPER_FLAGS_2(fcvtx_f64_to_f32, TCG_CALL_NO_RWG, f32, f64, env)
 DEF_HELPER_FLAGS_3(crc32_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
 DEF_HELPER_FLAGS_3(crc32c_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
-DEF_HELPER_FLAGS_3(advsimd_maxh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
-DEF_HELPER_FLAGS_3(advsimd_minh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
-DEF_HELPER_FLAGS_3(advsimd_maxnumh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
-DEF_HELPER_FLAGS_3(advsimd_minnumh, TCG_CALL_NO_RWG, f16, f16, f16, ptr)
-DEF_HELPER_3(advsimd_addh, f16, f16, f16, ptr)
-DEF_HELPER_3(advsimd_subh, f16, f16, f16, ptr)
-DEF_HELPER_3(advsimd_mulh, f16, f16, f16, ptr)
-DEF_HELPER_3(advsimd_divh, f16, f16, f16, ptr)
-DEF_HELPER_3(advsimd_ceq_f16, i32, f16, f16, ptr)
-DEF_HELPER_3(advsimd_cge_f16, i32, f16, f16, ptr)
-DEF_HELPER_3(advsimd_cgt_f16, i32, f16, f16, ptr)
-DEF_HELPER_3(advsimd_acge_f16, i32, f16, f16, ptr)
-DEF_HELPER_3(advsimd_acgt_f16, i32, f16, f16, ptr)
-DEF_HELPER_3(advsimd_mulxh, f16, f16, f16, ptr)
-DEF_HELPER_4(advsimd_muladdh, f16, f16, f16, f16, ptr)
-DEF_HELPER_3(advsimd_add2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_sub2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_mul2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_div2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_max2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_min2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_maxnum2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_minnum2h, i32, i32, i32, ptr)
-DEF_HELPER_3(advsimd_mulx2h, i32, i32, i32, ptr)
-DEF_HELPER_4(advsimd_muladd2h, i32, i32, i32, i32, ptr)
-DEF_HELPER_2(advsimd_rinth_exact, f16, f16, ptr)
-DEF_HELPER_2(advsimd_rinth, f16, f16, ptr)
+DEF_HELPER_FLAGS_3(advsimd_maxh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
+DEF_HELPER_FLAGS_3(advsimd_minh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
+DEF_HELPER_FLAGS_3(advsimd_maxnumh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
+DEF_HELPER_FLAGS_3(advsimd_minnumh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
+DEF_HELPER_3(advsimd_addh, f16, f16, f16, fpst)
+DEF_HELPER_3(advsimd_subh, f16, f16, f16, fpst)
+DEF_HELPER_3(advsimd_mulh, f16, f16, f16, fpst)
+DEF_HELPER_3(advsimd_divh, f16, f16, f16, fpst)
+DEF_HELPER_3(advsimd_ceq_f16, i32, f16, f16, fpst)
+DEF_HELPER_3(advsimd_cge_f16, i32, f16, f16, fpst)
+DEF_HELPER_3(advsimd_cgt_f16, i32, f16, f16, fpst)
+DEF_HELPER_3(advsimd_acge_f16, i32, f16, f16, fpst)
+DEF_HELPER_3(advsimd_acgt_f16, i32, f16, f16, fpst)
+DEF_HELPER_3(advsimd_mulxh, f16, f16, f16, fpst)
+DEF_HELPER_4(advsimd_muladdh, f16, f16, f16, f16, fpst)
+DEF_HELPER_3(advsimd_add2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_sub2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_mul2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_div2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_max2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_min2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_maxnum2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_minnum2h, i32, i32, i32, fpst)
+DEF_HELPER_3(advsimd_mulx2h, i32, i32, i32, fpst)
+DEF_HELPER_4(advsimd_muladd2h, i32, i32, i32, i32, fpst)
+DEF_HELPER_2(advsimd_rinth_exact, f16, f16, fpst)
+DEF_HELPER_2(advsimd_rinth, f16, f16, fpst)
 
 DEF_HELPER_2(exception_return, void, env, i64)
 DEF_HELPER_FLAGS_2(dc_zva, TCG_CALL_NO_WG, void, env, i64)
diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.c
+++ b/target/arm/tcg/helper-a64.c
@@ -XXX,XX +XXX,XX @@ static inline uint32_t float_rel_to_flags(int res)
     return flags;
 }
 
-uint64_t HELPER(vfp_cmph_a64)(uint32_t x, uint32_t y, void *fp_status)
+uint64_t HELPER(vfp_cmph_a64)(uint32_t x, uint32_t y, float_status *fp_status)
 {
     return float_rel_to_flags(float16_compare_quiet(x, y, fp_status));
 }
 
-uint64_t HELPER(vfp_cmpeh_a64)(uint32_t x, uint32_t y, void *fp_status)
+uint64_t HELPER(vfp_cmpeh_a64)(uint32_t x, uint32_t y, float_status *fp_status)
 {
     return float_rel_to_flags(float16_compare(x, y, fp_status));
 }
 
-uint64_t HELPER(vfp_cmps_a64)(float32 x, float32 y, void *fp_status)
+uint64_t HELPER(vfp_cmps_a64)(float32 x, float32 y, float_status *fp_status)
 {
     return float_rel_to_flags(float32_compare_quiet(x, y, fp_status));
 }
 
-uint64_t HELPER(vfp_cmpes_a64)(float32 x, float32 y, void *fp_status)
+uint64_t HELPER(vfp_cmpes_a64)(float32 x, float32 y, float_status *fp_status)
 {
     return float_rel_to_flags(float32_compare(x, y, fp_status));
 }
 
-uint64_t HELPER(vfp_cmpd_a64)(float64 x, float64 y, void *fp_status)
+uint64_t HELPER(vfp_cmpd_a64)(float64 x, float64 y, float_status *fp_status)
 {
     return float_rel_to_flags(float64_compare_quiet(x, y, fp_status));
 }
 
-uint64_t HELPER(vfp_cmped_a64)(float64 x, float64 y, void *fp_status)
+uint64_t HELPER(vfp_cmped_a64)(float64 x, float64 y, float_status *fp_status)
 {
     return float_rel_to_flags(float64_compare(x, y, fp_status));
 }
 
-float32 HELPER(vfp_mulxs)(float32 a, float32 b, void *fpstp)
+float32 HELPER(vfp_mulxs)(float32 a, float32 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float32_squash_input_denormal(a, fpst);
     b = float32_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ float32 HELPER(vfp_mulxs)(float32 a, float32 b, void *fpstp)
     return float32_mul(a, b, fpst);
 }
 
-float64 HELPER(vfp_mulxd)(float64 a, float64 b, void *fpstp)
+float64 HELPER(vfp_mulxd)(float64 a, float64 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float64_squash_input_denormal(a, fpst);
     b = float64_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ float64 HELPER(vfp_mulxd)(float64 a, float64 b, void *fpstp)
 }
 
 /* 64bit/double versions of the neon float compare functions */
-uint64_t HELPER(neon_ceq_f64)(float64 a, float64 b, void *fpstp)
+uint64_t HELPER(neon_ceq_f64)(float64 a, float64 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return -float64_eq_quiet(a, b, fpst);
 }
 
-uint64_t HELPER(neon_cge_f64)(float64 a, float64 b, void *fpstp)
+uint64_t HELPER(neon_cge_f64)(float64 a, float64 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return -float64_le(b, a, fpst);
 }
 
-uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
+uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return -float64_lt(b, a, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_cgt_f64)(float64 a, float64 b, void *fpstp)
  * multiply-add-and-halve.
  */
 
-uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float16_squash_input_denormal(a, fpst);
     b = float16_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpsf_f16)(uint32_t a, uint32_t b, void *fpstp)
     return float16_muladd(a, b, float16_two, 0, fpst);
 }
 
-float32 HELPER(recpsf_f32)(float32 a, float32 b, void *fpstp)
+float32 HELPER(recpsf_f32)(float32 a, float32 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float32_squash_input_denormal(a, fpst);
     b = float32_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ float32 HELPER(recpsf_f32)(float32 a, float32 b, void *fpstp)
     return float32_muladd(a, b, float32_two, 0, fpst);
 }
 
-float64 HELPER(recpsf_f64)(float64 a, float64 b, void *fpstp)
+float64 HELPER(recpsf_f64)(float64 a, float64 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float64_squash_input_denormal(a, fpst);
     b = float64_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ float64 HELPER(recpsf_f64)(float64 a, float64 b, void *fpstp)
     return float64_muladd(a, b, float64_two, 0, fpst);
 }
 
-uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float16_squash_input_denormal(a, fpst);
     b = float16_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrtsf_f16)(uint32_t a, uint32_t b, void *fpstp)
     return float16_muladd(a, b, float16_three, float_muladd_halve_result, fpst);
 }
 
-float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, void *fpstp)
+float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float32_squash_input_denormal(a, fpst);
     b = float32_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrtsf_f32)(float32 a, float32 b, void *fpstp)
     return float32_muladd(a, b, float32_three, float_muladd_halve_result, fpst);
 }
 
-float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, void *fpstp)
+float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float64_squash_input_denormal(a, fpst);
     b = float64_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrtsf_f64)(float64 a, float64 b, void *fpstp)
 }
 
 /* Floating-point reciprocal exponent - see FPRecpX in ARM ARM */
-uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
+uint32_t HELPER(frecpx_f16)(uint32_t a, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     uint16_t val16, sbit;
     int16_t exp;
 
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
     }
 }
 
-float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
+float32 HELPER(frecpx_f32)(float32 a, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     uint32_t val32, sbit;
     int32_t exp;
 
@@ -XXX,XX +XXX,XX @@ float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
     }
 }
 
-float64 HELPER(frecpx_f64)(float64 a, void *fpstp)
+float64 HELPER(frecpx_f64)(float64 a, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     uint64_t val64, sbit;
     int64_t exp;
 
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(crc32c_64)(uint64_t acc, uint64_t val, uint32_t bytes)
 #define ADVSIMD_HELPER(name, suffix) HELPER(glue(glue(advsimd_, name), suffix))
 
 #define ADVSIMD_HALFOP(name) \
-uint32_t ADVSIMD_HELPER(name, h)(uint32_t a, uint32_t b, void *fpstp) \
+uint32_t ADVSIMD_HELPER(name, h)(uint32_t a, uint32_t b, float_status *fpst) \
 { \
-    float_status *fpst = fpstp; \
     return float16_ ## name(a, b, fpst);    \
 }
 
@@ -XXX,XX +XXX,XX @@ ADVSIMD_HALFOP(minnum)
 ADVSIMD_HALFOP(maxnum)
 
 #define ADVSIMD_TWOHALFOP(name)                                         \
-uint32_t ADVSIMD_HELPER(name, 2h)(uint32_t two_a, uint32_t two_b, void *fpstp) \
+uint32_t ADVSIMD_HELPER(name, 2h)(uint32_t two_a, uint32_t two_b,       \
+                                  float_status *fpst)                   \
 { \
     float16  a1, a2, b1, b2;                        \
     uint32_t r1, r2;                                \
-    float_status *fpst = fpstp;                     \
     a1 = extract32(two_a, 0, 16);                   \
     a2 = extract32(two_a, 16, 16);                  \
     b1 = extract32(two_b, 0, 16);                   \
@@ -XXX,XX +XXX,XX @@ ADVSIMD_TWOHALFOP(minnum)
 ADVSIMD_TWOHALFOP(maxnum)
 
 /* Data processing - scalar floating-point and advanced SIMD */
-static float16 float16_mulx(float16 a, float16 b, void *fpstp)
+static float16 float16_mulx(float16 a, float16 b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
-
     a = float16_squash_input_denormal(a, fpst);
     b = float16_squash_input_denormal(b, fpst);
 
@@ -XXX,XX +XXX,XX @@ ADVSIMD_TWOHALFOP(mulx)
 
 /* fused multiply-accumulate */
 uint32_t HELPER(advsimd_muladdh)(uint32_t a, uint32_t b, uint32_t c,
-                                 void *fpstp)
+                                 float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return float16_muladd(a, b, c, 0, fpst);
 }
 
 uint32_t HELPER(advsimd_muladd2h)(uint32_t two_a, uint32_t two_b,
-                                  uint32_t two_c, void *fpstp)
+                                  uint32_t two_c, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float16  a1, a2, b1, b2, c1, c2;
     uint32_t r1, r2;
     a1 = extract32(two_a, 0, 16);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_muladd2h)(uint32_t two_a, uint32_t two_b,
 
 #define ADVSIMD_CMPRES(test) (test) ? 0xffff : 0
 
-uint32_t HELPER(advsimd_ceq_f16)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(advsimd_ceq_f16)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     int compare = float16_compare_quiet(a, b, fpst);
     return ADVSIMD_CMPRES(compare == float_relation_equal);
 }
 
-uint32_t HELPER(advsimd_cge_f16)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(advsimd_cge_f16)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     int compare = float16_compare(a, b, fpst);
     return ADVSIMD_CMPRES(compare == float_relation_greater ||
                           compare == float_relation_equal);
 }
 
-uint32_t HELPER(advsimd_cgt_f16)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(advsimd_cgt_f16)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     int compare = float16_compare(a, b, fpst);
     return ADVSIMD_CMPRES(compare == float_relation_greater);
 }
 
-uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float16 f0 = float16_abs(a);
     float16 f1 = float16_abs(b);
     int compare = float16_compare(f0, f1, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acge_f16)(uint32_t a, uint32_t b, void *fpstp)
                           compare == float_relation_equal);
 }
 
-uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float16 f0 = float16_abs(a);
     float16 f1 = float16_abs(b);
     int compare = float16_compare(f0, f1, fpst);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_acgt_f16)(uint32_t a, uint32_t b, void *fpstp)
 }
 
 /* round to integral */
-uint32_t HELPER(advsimd_rinth_exact)(uint32_t x, void *fp_status)
+uint32_t HELPER(advsimd_rinth_exact)(uint32_t x, float_status *fp_status)
 {
     return float16_round_to_int(x, fp_status);
 }
 
-uint32_t HELPER(advsimd_rinth)(uint32_t x, void *fp_status)
+uint32_t HELPER(advsimd_rinth)(uint32_t x, float_status *fp_status)
 {
     int old_flags = get_float_exception_flags(fp_status), new_flags;
     float16 ret;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031224.78525-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h         | 284 ++++++++++++++++++------------------
 target/arm/tcg/helper-a64.h |  18 +--
 target/arm/tcg/helper-sve.h |  12 +-
 target/arm/tcg/vec_helper.c |  60 ++++----
 4 files changed, 183 insertions(+), 191 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_usdot_idx_b, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcaddh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_fcadds, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_fcaddd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(gvec_fcmlah, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(gvec_fcmlah_idx, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(gvec_fcmlas, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(gvec_fcmlad, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_uitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_tosszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_uitos, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_tosszh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_tosizs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_touszh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_touizs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_vcvt_sf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_sf, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_uf, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rz_fu, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_vcvt_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hu, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_sh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_uh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hs, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rz_hu, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_vcvt_sd, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_ud, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rz_ds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rz_du, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_sd, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_ud, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rz_ds, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rz_du, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sd, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ud, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ss, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sd, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ud, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_ss, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_us, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_sh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vcvt_rm_uh, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vrint_rm_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vrint_rm_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_vrintx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_vrintx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_vrintx_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_vrintx_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_frecpe_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_frecpe_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_frecpe_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_frsqrte_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_frsqrte_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_frsqrte_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_frsqrte_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_frsqrte_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_frsqrte_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_fcgt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fcgt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fcgt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fcgt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fcgt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fcgt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_fcge0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fcge0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fcge0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fcge0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fcge0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fcge0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_fceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fceq0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fceq0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fceq0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fceq0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fceq0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_fcle0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fcle0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fcle0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fcle0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fcle0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fcle0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_4(gvec_fclt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fclt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(gvec_fclt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_fclt0_h, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fclt0_s, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_4(gvec_fclt0_d, TCG_CALL_NO_RWG, void, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fadd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fadd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fadd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fadd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fadd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fadd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fsub_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fsub_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fsub_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fsub_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fsub_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fsub_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_rsqrts_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmla_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmls_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_ftsmul_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmul_idx_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_fmul_idx_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_fmul_idx_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_fmla_nf_idx_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_fmls_nf_idx_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(gvec_fmla_idx_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(gvec_fmla_idx_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(gvec_fmla_idx_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(gvec_uqadd_b, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_bfmmla, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, env, i32)
 
 DEF_HELPER_FLAGS_6(gvec_bfmlal, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(gvec_bfmlal_idx, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(gvec_sclamp_b, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_uclamp_s, TCG_CALL_NO_RWG,
 DEF_HELPER_FLAGS_5(gvec_uclamp_d, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 
-DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(gvec_addp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
 DEF_HELPER_FLAGS_1(guarded_page_check, TCG_CALL_NO_WG, void, env)
 DEF_HELPER_FLAGS_2(guarded_page_br, TCG_CALL_NO_RWG, void, env, tl)
 
-DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
diff --git a/target/arm/tcg/helper-sve.h b/target/arm/tcg/helper-sve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-sve.h
+++ b/target/arm/tcg/helper-sve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve_umini_s, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
 DEF_HELPER_FLAGS_4(sve_umini_d, TCG_CALL_NO_RWG, void, ptr, ptr, i64, i32)
 
 DEF_HELPER_FLAGS_5(gvec_recps_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_recps_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_recps_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(gvec_rsqrts_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_rsqrts_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(gvec_rsqrts_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve_faddv_h, TCG_CALL_NO_RWG,
                    i64, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_DOT_IDX(gvec_sdot_idx_h, int64_t, int16_t, int16_t, H8)
 DO_DOT_IDX(gvec_udot_idx_h, uint64_t, uint16_t, uint16_t, H8)
 
 void HELPER(gvec_fcaddh)(void *vd, void *vn, void *vm,
-                         void *vfpst, uint32_t desc)
+                         float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float16 *d = vd;
     float16 *n = vn;
     float16 *m = vm;
-    float_status *fpst = vfpst;
     uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
     uint32_t neg_imag = neg_real ^ 1;
     uintptr_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcaddh)(void *vd, void *vn, void *vm,
 }
 
 void HELPER(gvec_fcadds)(void *vd, void *vn, void *vm,
-                         void *vfpst, uint32_t desc)
+                         float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float32 *d = vd;
     float32 *n = vn;
     float32 *m = vm;
-    float_status *fpst = vfpst;
     uint32_t neg_real = extract32(desc, SIMD_DATA_SHIFT, 1);
     uint32_t neg_imag = neg_real ^ 1;
     uintptr_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcadds)(void *vd, void *vn, void *vm,
 }
 
 void HELPER(gvec_fcaddd)(void *vd, void *vn, void *vm,
-                         void *vfpst, uint32_t desc)
+                         float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float64 *d = vd;
     float64 *n = vn;
     float64 *m = vm;
-    float_status *fpst = vfpst;
     uint64_t neg_real = extract64(desc, SIMD_DATA_SHIFT, 1);
     uint64_t neg_imag = neg_real ^ 1;
     uintptr_t i;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcaddd)(void *vd, void *vn, void *vm,
 }
 
 void HELPER(gvec_fcmlah)(void *vd, void *vn, void *vm, void *va,
-                         void *vfpst, uint32_t desc)
+                         float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float16 *d = vd, *n = vn, *m = vm, *a = va;
-    float_status *fpst = vfpst;
     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
     uint32_t neg_real = flip ^ neg_imag;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlah)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(gvec_fcmlah_idx)(void *vd, void *vn, void *vm, void *va,
-                             void *vfpst, uint32_t desc)
+                             float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float16 *d = vd, *n = vn, *m = vm, *a = va;
-    float_status *fpst = vfpst;
     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
     intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlah_idx)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(gvec_fcmlas)(void *vd, void *vn, void *vm, void *va,
-                         void *vfpst, uint32_t desc)
+                         float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float32 *d = vd, *n = vn, *m = vm, *a = va;
-    float_status *fpst = vfpst;
     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
     uint32_t neg_real = flip ^ neg_imag;
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlas)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(gvec_fcmlas_idx)(void *vd, void *vn, void *vm, void *va,
-                             void *vfpst, uint32_t desc)
+                             float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float32 *d = vd, *n = vn, *m = vm, *a = va;
-    float_status *fpst = vfpst;
     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
     uint32_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
     intptr_t index = extract32(desc, SIMD_DATA_SHIFT + 2, 2);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_fcmlas_idx)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(gvec_fcmlad)(void *vd, void *vn, void *vm, void *va,
-                         void *vfpst, uint32_t desc)
+                         float_status *fpst, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     float64 *d = vd, *n = vn, *m = vm, *a = va;
-    float_status *fpst = vfpst;
     intptr_t flip = extract32(desc, SIMD_DATA_SHIFT, 1);
     uint64_t neg_imag = extract32(desc, SIMD_DATA_SHIFT + 1, 1);
     uint64_t neg_real = flip ^ neg_imag;
@@ -XXX,XX +XXX,XX @@ static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
     return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
 }
 
-static int16_t vfp_tosszh(float16 x, void *fpstp)
+static int16_t vfp_tosszh(float16 x, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     if (float16_is_any_nan(x)) {
         float_raise(float_flag_invalid, fpst);
         return 0;
@@ -XXX,XX +XXX,XX @@ static int16_t vfp_tosszh(float16 x, void *fpstp)
     return float16_to_int16_round_to_zero(x, fpst);
 }
 
-static uint16_t vfp_touszh(float16 x, void *fpstp)
+static uint16_t vfp_touszh(float16 x, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     if (float16_is_any_nan(x)) {
         float_raise(float_flag_invalid, fpst);
         return 0;
@@ -XXX,XX +XXX,XX @@ static uint16_t vfp_touszh(float16 x, void *fpstp)
 }
 
 #define DO_2OP(NAME, FUNC, TYPE) \
-void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)  \
+void HELPER(NAME)(void *vd, void *vn, float_status *stat, uint32_t desc)  \
 {                                                                 \
     intptr_t i, oprsz = simd_oprsz(desc);                         \
     TYPE *d = vd, *n = vn;                                        \
@@ -XXX,XX +XXX,XX @@ static float32 float32_rsqrts_nf(float32 op1, float32 op2, float_status *stat)
 }
 
 #define DO_3OP(NAME, FUNC, TYPE) \
-void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
+                  float_status *stat, uint32_t desc)                       \
 {                                                                          \
     intptr_t i, oprsz = simd_oprsz(desc);                                  \
     TYPE *d = vd, *n = vn, *m = vm;                                        \
@@ -XXX,XX +XXX,XX @@ static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
     return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
 }
 
-#define DO_MULADD(NAME, FUNC, TYPE)                                     \
-void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+#define DO_MULADD(NAME, FUNC, TYPE)                                        \
+void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
+                  float_status *stat, uint32_t desc)                       \
 {                                                                          \
     intptr_t i, oprsz = simd_oprsz(desc);                                  \
     TYPE *d = vd, *n = vn, *m = vm;                                        \
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
 #undef DO_MLA_IDX
 
 #define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
-void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
+                  float_status *stat, uint32_t desc)                       \
 {                                                                          \
     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
     intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
@@ -XXX,XX +XXX,XX @@ DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 
 #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
-                  void *stat, uint32_t desc)                               \
+                  float_status *stat, uint32_t desc)                       \
 {                                                                          \
     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
     intptr_t segment = MIN(16, oprsz) / sizeof(TYPE);                      \
@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_d, uint64_t)
 #undef DO_ABA
 
 #define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
-void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+void HELPER(NAME)(void *vd, void *vn, void *vm,                            \
+                  float_status *stat, uint32_t desc)                       \
 {                                                                          \
     ARMVectorReg scratch;                                                  \
     intptr_t oprsz = simd_oprsz(desc);                                     \
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_uminp_s, MIN, uint32_t, H4)
 #undef DO_3OP_PAIR
 
 #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
-    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+    void HELPER(NAME)(void *vd, void *vn, float_status *stat, uint32_t desc) \
     {                                                                   \
         intptr_t i, oprsz = simd_oprsz(desc);                           \
         int shift = simd_data(desc);                                    \
@@ -XXX,XX +XXX,XX @@ DO_VCVT_FIXED(gvec_vcvt_rz_hu, helper_vfp_touhh_round_to_zero, uint16_t)
 #undef DO_VCVT_FIXED
 
 #define DO_VCVT_RMODE(NAME, FUNC, TYPE)                                 \
-    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+    void HELPER(NAME)(void *vd, void *vn, float_status *fpst, uint32_t desc) \
     {                                                                   \
-        float_status *fpst = stat;                                      \
         intptr_t i, oprsz = simd_oprsz(desc);                           \
         uint32_t rmode = simd_data(desc);                               \
         uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
@@ -XXX,XX +XXX,XX @@ DO_VCVT_RMODE(gvec_vcvt_rm_uh, helper_vfp_touhh, uint16_t)
 #undef DO_VCVT_RMODE
 
 #define DO_VRINT_RMODE(NAME, FUNC, TYPE)                                \
-    void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+    void HELPER(NAME)(void *vd, void *vn, float_status *fpst, uint32_t desc) \
     {                                                                   \
-        float_status *fpst = stat;                                      \
         intptr_t i, oprsz = simd_oprsz(desc);                           \
         uint32_t rmode = simd_data(desc);                               \
         uint32_t prev_rmode = get_float_rounding_mode(fpst);            \
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_bfmmla)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(gvec_bfmlal)(void *vd, void *vn, void *vm, void *va,
-                         void *stat, uint32_t desc)
+                         float_status *stat, uint32_t desc)
 {
     intptr_t i, opr_sz = simd_oprsz(desc);
     intptr_t sel = simd_data(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_bfmlal)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(gvec_bfmlal_idx)(void *vd, void *vn, void *vm,
-                             void *va, void *stat, uint32_t desc)
+                             void *va, float_status *stat, uint32_t desc)
 {
     intptr_t i, j, opr_sz = simd_oprsz(desc);
     intptr_t sel = extract32(desc, SIMD_DATA_SHIFT, 1);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031224.78525-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h          | 14 +++++++-------
 target/arm/tcg/neon_helper.c | 21 +++++++--------------
 2 files changed, 14 insertions(+), 21 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(neon_qneg_s16, TCG_CALL_NO_RWG, i32, env, i32)
 DEF_HELPER_FLAGS_2(neon_qneg_s32, TCG_CALL_NO_RWG, i32, env, i32)
 DEF_HELPER_FLAGS_2(neon_qneg_s64, TCG_CALL_NO_RWG, i64, env, i64)
 
-DEF_HELPER_3(neon_ceq_f32, i32, i32, i32, ptr)
-DEF_HELPER_3(neon_cge_f32, i32, i32, i32, ptr)
-DEF_HELPER_3(neon_cgt_f32, i32, i32, i32, ptr)
-DEF_HELPER_3(neon_acge_f32, i32, i32, i32, ptr)
-DEF_HELPER_3(neon_acgt_f32, i32, i32, i32, ptr)
-DEF_HELPER_3(neon_acge_f64, i64, i64, i64, ptr)
-DEF_HELPER_3(neon_acgt_f64, i64, i64, i64, ptr)
+DEF_HELPER_3(neon_ceq_f32, i32, i32, i32, fpst)
+DEF_HELPER_3(neon_cge_f32, i32, i32, i32, fpst)
+DEF_HELPER_3(neon_cgt_f32, i32, i32, i32, fpst)
+DEF_HELPER_3(neon_acge_f32, i32, i32, i32, fpst)
+DEF_HELPER_3(neon_acgt_f32, i32, i32, i32, fpst)
+DEF_HELPER_3(neon_acge_f64, i64, i64, i64, fpst)
+DEF_HELPER_3(neon_acgt_f64, i64, i64, i64, fpst)
 
 /* iwmmxt_helper.c */
 DEF_HELPER_2(iwmmxt_maddsq, i64, i64, i64)
diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/neon_helper.c
+++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_qneg_s64)(CPUARMState *env, uint64_t x)
  * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
  * Softfloat routines return 0/1, which we convert to the 0/-1 Neon requires.
  */
-uint32_t HELPER(neon_ceq_f32)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(neon_ceq_f32)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return -float32_eq_quiet(make_float32(a), make_float32(b), fpst);
 }
 
-uint32_t HELPER(neon_cge_f32)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(neon_cge_f32)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return -float32_le(make_float32(b), make_float32(a), fpst);
 }
 
-uint32_t HELPER(neon_cgt_f32)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(neon_cgt_f32)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     return -float32_lt(make_float32(b), make_float32(a), fpst);
 }
 
-uint32_t HELPER(neon_acge_f32)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(neon_acge_f32)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float32 f0 = float32_abs(make_float32(a));
     float32 f1 = float32_abs(make_float32(b));
     return -float32_le(f1, f0, fpst);
 }
 
-uint32_t HELPER(neon_acgt_f32)(uint32_t a, uint32_t b, void *fpstp)
+uint32_t HELPER(neon_acgt_f32)(uint32_t a, uint32_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float32 f0 = float32_abs(make_float32(a));
     float32 f1 = float32_abs(make_float32(b));
     return -float32_lt(f1, f0, fpst);
 }
 
-uint64_t HELPER(neon_acge_f64)(uint64_t a, uint64_t b, void *fpstp)
+uint64_t HELPER(neon_acge_f64)(uint64_t a, uint64_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float64 f0 = float64_abs(make_float64(a));
     float64 f1 = float64_abs(make_float64(b));
     return -float64_le(f1, f0, fpst);
 }
 
-uint64_t HELPER(neon_acgt_f64)(uint64_t a, uint64_t b, void *fpstp)
+uint64_t HELPER(neon_acgt_f64)(uint64_t a, uint64_t b, float_status *fpst)
 {
-    float_status *fpst = fpstp;
     float64 f0 = float64_abs(make_float64(a));
     float64 f1 = float64_abs(make_float64(b));
     return -float64_lt(f1, f0, fpst);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031224.78525-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-sve.h | 414 ++++++++++++++++++------------------
 target/arm/tcg/sve_helper.c |  96 +++++----
 2 files changed, 258 insertions(+), 252 deletions(-)

diff --git a/target/arm/tcg/helper-sve.h b/target/arm/tcg/helper-sve.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-sve.h
+++ b/target/arm/tcg/helper-sve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_rsqrts_d, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve_faddv_h, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_faddv_s, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_faddv_d, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve_fmaxnmv_h, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fmaxnmv_s, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fmaxnmv_d, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve_fminnmv_h, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fminnmv_s, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fminnmv_d, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve_fmaxv_h, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fmaxv_s, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fmaxv_d, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve_fminv_h, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fminv_s, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_4(sve_fminv_d, TCG_CALL_NO_RWG,
-                   i64, ptr, ptr, ptr, i32)
+                   i64, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fadda_h, TCG_CALL_NO_RWG,
-                   i64, i64, ptr, ptr, ptr, i32)
+                   i64, i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fadda_s, TCG_CALL_NO_RWG,
-                   i64, i64, ptr, ptr, ptr, i32)
+                   i64, i64, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fadda_d, TCG_CALL_NO_RWG,
-                   i64, i64, ptr, ptr, ptr, i32)
+                   i64, i64, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcmge0_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmge0_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmge0_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcmgt0_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmgt0_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmgt0_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcmlt0_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmlt0_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmlt0_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcmle0_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmle0_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmle0_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcmeq0_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmeq0_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmeq0_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcmne0_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmne0_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcmne0_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fadd_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fadd_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fadd_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fsub_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fsub_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fsub_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmul_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmul_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmul_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fdiv_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fdiv_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fdiv_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmin_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmin_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmin_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmax_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmax_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmax_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fminnum_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fminnum_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fminnum_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmaxnum_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmaxnum_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmaxnum_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fabd_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fabd_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fabd_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fscalbn_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fscalbn_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fscalbn_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmulx_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmulx_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmulx_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fadds_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fadds_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fadds_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fsubs_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fsubs_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fsubs_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmuls_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmuls_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmuls_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fsubrs_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fsubrs_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fsubrs_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmaxnms_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmaxnms_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmaxnms_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fminnms_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fminnms_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fminnms_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmaxs_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmaxs_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmaxs_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fmins_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmins_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fmins_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, i64, ptr, i32)
+                   void, ptr, ptr, ptr, i64, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcvt_sh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvt_dh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvt_hs, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvt_ds, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvt_hd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvt_sd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_bfcvt, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcvtzs_hh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzs_hs, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzs_ss, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzs_ds, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzs_hd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzs_sd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzs_dd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fcvtzu_hh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzu_hs, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzu_ss, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzu_ds, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzu_hd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzu_sd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fcvtzu_dd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_frint_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_frint_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_frint_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_frintx_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_frintx_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_frintx_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_frecpx_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_frecpx_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_frecpx_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_fsqrt_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fsqrt_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_fsqrt_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_scvt_hh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_scvt_sh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_scvt_dh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_scvt_ss, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_scvt_sd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_scvt_ds, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_scvt_dd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve_ucvt_hh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_ucvt_sh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_ucvt_dh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_ucvt_ss, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_ucvt_sd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_ucvt_ds, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_ucvt_dd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fcmge_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmge_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmge_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fcmgt_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmgt_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmgt_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fcmeq_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmeq_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmeq_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fcmne_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmne_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmne_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fcmuo_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmuo_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcmuo_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_facge_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_facge_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_facge_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_facgt_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_facgt_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_facgt_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve_fcadd_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcadd_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve_fcadd_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_7(sve_fmla_zpzzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fmla_zpzzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fmla_zpzzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_7(sve_fmls_zpzzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fmls_zpzzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fmls_zpzzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_7(sve_fnmla_zpzzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fnmla_zpzzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fnmla_zpzzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_7(sve_fnmls_zpzzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fnmls_zpzzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fnmls_zpzzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_7(sve_fcmla_zpzzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fcmla_zpzzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sve_fcmla_zpzzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(sve_ftmad_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(sve_ftmad_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(sve_ftmad_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(sve_ftmad_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(sve_ftmad_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(sve_ftmad_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve2_saddl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(sve2_saddl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(sve2_xar_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(sve2_xar_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_faddp_zpzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve2_fmaxnmp_zpzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fmaxnmp_zpzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fmaxnmp_zpzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve2_fminnmp_zpzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fminnmp_zpzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fminnmp_zpzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve2_fmaxp_zpzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fmaxp_zpzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fmaxp_zpzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_6(sve2_fminp_zpzz_h, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fminp_zpzz_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_6(sve2_fminp_zpzz_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve2_eor3, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(sve2_bcax, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sve2_sqrdcmlah_zzzz_s, TCG_CALL_NO_RWG,
 DEF_HELPER_FLAGS_5(sve2_sqrdcmlah_zzzz_d, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 
-DEF_HELPER_FLAGS_6(fmmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_6(fmmla_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_6(fmmla_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_6(fmmla_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve2_sqrdmlah_idx_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sve2_cdot_idx_d, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(sve2_fcvtnt_sh, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve2_fcvtnt_ds, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve_bfcvtnt, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_5(sve2_fcvtlt_hs, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_5(sve2_fcvtlt_sd, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, fpst, i32)
 
-DEF_HELPER_FLAGS_5(flogb_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(flogb_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(flogb_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(flogb_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(flogb_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
+DEF_HELPER_FLAGS_5(flogb_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, fpst, i32)
 
 DEF_HELPER_FLAGS_4(sve2_sqshl_zpzi_b, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/sve_helper.c
+++ b/target/arm/tcg/sve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ZPZZ_PAIR_D(sve2_sminp_zpzz_d, int64_t, DO_MIN)
 
 #define DO_ZPZZ_PAIR_FP(NAME, TYPE, H, OP)                              \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg,               \
-                  void *status, uint32_t desc)                          \
+                  float_status *status, uint32_t desc)                  \
 {                                                                       \
     intptr_t i, opr_sz = simd_oprsz(desc);                              \
     for (i = 0; i < opr_sz; ) {                                         \
@@ -XXX,XX +XXX,XX @@ static TYPE NAME##_reduce(TYPE *data, float_status *status, uintptr_t n) \
         return TYPE##_##FUNC(lo, hi, status);                         \
     }                                                                 \
 }                                                                     \
-uint64_t HELPER(NAME)(void *vn, void *vg, void *vs, uint32_t desc)    \
+uint64_t HELPER(NAME)(void *vn, void *vg, float_status *s, uint32_t desc) \
 {                                                                     \
     uintptr_t i, oprsz = simd_oprsz(desc), maxsz = simd_data(desc);   \
     TYPE data[sizeof(ARMVectorReg) / sizeof(TYPE)];                   \
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(NAME)(void *vn, void *vg, void *vs, uint32_t desc)    \
     for (; i < maxsz; i += sizeof(TYPE)) {                            \
         *(TYPE *)((void *)data + i) = IDENT;                          \
     }                                                                 \
-    return NAME##_reduce(data, vs, maxsz / sizeof(TYPE));             \
+    return NAME##_reduce(data, s, maxsz / sizeof(TYPE));              \
 }
 
 DO_REDUCE(sve_faddv_h, float16, H1_2, add, float16_zero)
@@ -XXX,XX +XXX,XX @@ DO_REDUCE(sve_fmaxv_d, float64, H1_8, max, float64_chs(float64_infinity))
 #undef DO_REDUCE
 
 uint64_t HELPER(sve_fadda_h)(uint64_t nn, void *vm, void *vg,
-                             void *status, uint32_t desc)
+                             float_status *status, uint32_t desc)
 {
     intptr_t i = 0, opr_sz = simd_oprsz(desc);
     float16 result = nn;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_fadda_h)(uint64_t nn, void *vm, void *vg,
 }
 
 uint64_t HELPER(sve_fadda_s)(uint64_t nn, void *vm, void *vg,
-                             void *status, uint32_t desc)
+                             float_status *status, uint32_t desc)
 {
     intptr_t i = 0, opr_sz = simd_oprsz(desc);
     float32 result = nn;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_fadda_s)(uint64_t nn, void *vm, void *vg,
 }
 
 uint64_t HELPER(sve_fadda_d)(uint64_t nn, void *vm, void *vg,
-                             void *status, uint32_t desc)
+                             float_status *status, uint32_t desc)
 {
     intptr_t i = 0, opr_sz = simd_oprsz(desc) / 8;
     uint64_t *m = vm;
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(sve_fadda_d)(uint64_t nn, void *vm, void *vg,
  */
 #define DO_ZPZZ_FP(NAME, TYPE, H, OP)                           \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg,       \
-                  void *status, uint32_t desc)                  \
+                  float_status *status, uint32_t desc)          \
 {                                                               \
     intptr_t i = simd_oprsz(desc);                              \
     uint64_t *g = vg;                                           \
@@ -XXX,XX +XXX,XX @@ DO_ZPZZ_FP(sve_fmulx_d, uint64_t, H1_8, helper_vfp_mulxd)
  */
 #define DO_ZPZS_FP(NAME, TYPE, H, OP) \
 void HELPER(NAME)(void *vd, void *vn, void *vg, uint64_t scalar,  \
-                  void *status, uint32_t desc)                    \
+                  float_status *status, uint32_t desc)            \
 {                                                                 \
     intptr_t i = simd_oprsz(desc);                                \
     uint64_t *g = vg;                                             \
@@ -XXX,XX +XXX,XX @@ DO_ZPZS_FP(sve_fmins_d, float64, H1_8, float64_min)
  * With the extra float_status parameter.
  */
 #define DO_ZPZ_FP(NAME, TYPE, H, OP)                                  \
-void HELPER(NAME)(void *vd, void *vn, void *vg, void *status, uint32_t desc) \
+void HELPER(NAME)(void *vd, void *vn, void *vg,                       \
+                  float_status *status, uint32_t desc)                \
 {                                                                     \
     intptr_t i = simd_oprsz(desc);                                    \
     uint64_t *g = vg;                                                 \
@@ -XXX,XX +XXX,XX @@ static void do_fmla_zpzzz_h(void *vd, void *vn, void *vm, void *va, void *vg,
 }
 
 void HELPER(sve_fmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
-                              void *vg, void *status, uint32_t desc)
+                              void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0, 0);
 }
 
 void HELPER(sve_fmls_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
-                              void *vg, void *status, uint32_t desc)
+                              void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0x8000, 0);
 }
 
 void HELPER(sve_fnmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0x8000, 0x8000);
 }
 
 void HELPER(sve_fnmls_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_h(vd, vn, vm, va, vg, status, desc, 0, 0x8000);
 }
@@ -XXX,XX +XXX,XX @@ static void do_fmla_zpzzz_s(void *vd, void *vn, void *vm, void *va, void *vg,
 }
 
 void HELPER(sve_fmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
-                              void *vg, void *status, uint32_t desc)
+                              void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0, 0);
 }
 
 void HELPER(sve_fmls_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
-                              void *vg, void *status, uint32_t desc)
+                              void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0x80000000, 0);
 }
 
 void HELPER(sve_fnmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0x80000000, 0x80000000);
 }
 
 void HELPER(sve_fnmls_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_s(vd, vn, vm, va, vg, status, desc, 0, 0x80000000);
 }
@@ -XXX,XX +XXX,XX @@ static void do_fmla_zpzzz_d(void *vd, void *vn, void *vm, void *va, void *vg,
 }
 
 void HELPER(sve_fmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
-                              void *vg, void *status, uint32_t desc)
+                              void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, 0, 0);
 }
 
 void HELPER(sve_fmls_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
-                              void *vg, void *status, uint32_t desc)
+                              void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, INT64_MIN, 0);
 }
 
 void HELPER(sve_fnmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, INT64_MIN, INT64_MIN);
 }
 
 void HELPER(sve_fnmls_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     do_fmla_zpzzz_d(vd, vn, vm, va, vg, status, desc, 0, INT64_MIN);
 }
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fnmls_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
  */
 #define DO_FPCMP_PPZZ(NAME, TYPE, H, OP)                                \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *vg,               \
-                  void *status, uint32_t desc)                          \
+                  float_status *status, uint32_t desc)                  \
 {                                                                       \
     intptr_t i = simd_oprsz(desc), j = (i - 1) >> 6;                    \
     uint64_t *d = vd, *g = vg;                                          \
@@ -XXX,XX +XXX,XX @@ DO_FPCMP_PPZZ_ALL(sve_facgt, DO_FACGT)
  */
 #define DO_FPCMP_PPZ0(NAME, TYPE, H, OP)                   \
 void HELPER(NAME)(void *vd, void *vn, void *vg,            \
-                  void *status, uint32_t desc)             \
+                  float_status *status, uint32_t desc)     \
 {                                                          \
     intptr_t i = simd_oprsz(desc), j = (i - 1) >> 6;       \
     uint64_t *d = vd, *g = vg;                             \
@@ -XXX,XX +XXX,XX @@ DO_FPCMP_PPZ0_ALL(sve_fcmne0, DO_FCMNE)
 
 /* FP Trig Multiply-Add. */
 
-void HELPER(sve_ftmad_h)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
+void HELPER(sve_ftmad_h)(void *vd, void *vn, void *vm,
+                         float_status *s, uint32_t desc)
 {
     static const float16 coeff[16] = {
         0x3c00, 0xb155, 0x2030, 0x0000, 0x0000, 0x0000, 0x0000, 0x0000,
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_h)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
             mm = float16_abs(mm);
             xx += 8;
         }
-        d[i] = float16_muladd(n[i], mm, coeff[xx], 0, vs);
+        d[i] = float16_muladd(n[i], mm, coeff[xx], 0, s);
     }
 }
 
-void HELPER(sve_ftmad_s)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
+void HELPER(sve_ftmad_s)(void *vd, void *vn, void *vm,
+                         float_status *s, uint32_t desc)
 {
     static const float32 coeff[16] = {
         0x3f800000, 0xbe2aaaab, 0x3c088886, 0xb95008b9,
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_s)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
             mm = float32_abs(mm);
             xx += 8;
         }
-        d[i] = float32_muladd(n[i], mm, coeff[xx], 0, vs);
+        d[i] = float32_muladd(n[i], mm, coeff[xx], 0, s);
     }
 }
 
-void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
+void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm,
+                         float_status *s, uint32_t desc)
 {
     static const float64 coeff[16] = {
         0x3ff0000000000000ull, 0xbfc5555555555543ull,
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
             mm = float64_abs(mm);
             xx += 8;
         }
-        d[i] = float64_muladd(n[i], mm, coeff[xx], 0, vs);
+        d[i] = float64_muladd(n[i], mm, coeff[xx], 0, s);
     }
 }
 
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ftmad_d)(void *vd, void *vn, void *vm, void *vs, uint32_t desc)
  */
 
 void HELPER(sve_fcadd_h)(void *vd, void *vn, void *vm, void *vg,
-                         void *vs, uint32_t desc)
+                         float_status *s, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
     uint64_t *g = vg;
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_h)(void *vd, void *vn, void *vm, void *vg,
             e3 = *(float16 *)(vm + H1_2(i)) ^ neg_imag;
 
             if (likely((pg >> (i & 63)) & 1)) {
-                *(float16 *)(vd + H1_2(i)) = float16_add(e0, e1, vs);
+                *(float16 *)(vd + H1_2(i)) = float16_add(e0, e1, s);
             }
             if (likely((pg >> (j & 63)) & 1)) {
-                *(float16 *)(vd + H1_2(j)) = float16_add(e2, e3, vs);
+                *(float16 *)(vd + H1_2(j)) = float16_add(e2, e3, s);
             }
         } while (i & 63);
     } while (i != 0);
 }
 
 void HELPER(sve_fcadd_s)(void *vd, void *vn, void *vm, void *vg,
-                         void *vs, uint32_t desc)
+                         float_status *s, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
     uint64_t *g = vg;
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_s)(void *vd, void *vn, void *vm, void *vg,
             e3 = *(float32 *)(vm + H1_2(i)) ^ neg_imag;
 
             if (likely((pg >> (i & 63)) & 1)) {
-                *(float32 *)(vd + H1_2(i)) = float32_add(e0, e1, vs);
+                *(float32 *)(vd + H1_2(i)) = float32_add(e0, e1, s);
             }
             if (likely((pg >> (j & 63)) & 1)) {
-                *(float32 *)(vd + H1_2(j)) = float32_add(e2, e3, vs);
+                *(float32 *)(vd + H1_2(j)) = float32_add(e2, e3, s);
             }
         } while (i & 63);
     } while (i != 0);
 }
 
 void HELPER(sve_fcadd_d)(void *vd, void *vn, void *vm, void *vg,
-                         void *vs, uint32_t desc)
+                         float_status *s, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
     uint64_t *g = vg;
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_d)(void *vd, void *vn, void *vm, void *vg,
             e3 = *(float64 *)(vm + H1_2(i)) ^ neg_imag;
 
             if (likely((pg >> (i & 63)) & 1)) {
-                *(float64 *)(vd + H1_2(i)) = float64_add(e0, e1, vs);
+                *(float64 *)(vd + H1_2(i)) = float64_add(e0, e1, s);
             }
             if (likely((pg >> (j & 63)) & 1)) {
-                *(float64 *)(vd + H1_2(j)) = float64_add(e2, e3, vs);
+                *(float64 *)(vd + H1_2(j)) = float64_add(e2, e3, s);
             }
         } while (i & 63);
     } while (i != 0);
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcadd_d)(void *vd, void *vn, void *vm, void *vg,
  */
 
 void HELPER(sve_fcmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
     unsigned rot = simd_data(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcmla_zpzzz_h)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(sve_fcmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
     unsigned rot = simd_data(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_fcmla_zpzzz_s)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(sve_fcmla_zpzzz_d)(void *vd, void *vn, void *vm, void *va,
-                               void *vg, void *status, uint32_t desc)
+                               void *vg, float_status *status, uint32_t desc)
 {
     intptr_t j, i = simd_oprsz(desc);
     unsigned rot = simd_data(desc);
@@ -XXX,XX +XXX,XX @@ void HELPER(sve2_xar_s)(void *vd, void *vn, void *vm, uint32_t desc)
 }
 
 void HELPER(fmmla_s)(void *vd, void *vn, void *vm, void *va,
-                     void *status, uint32_t desc)
+                     float_status *status, uint32_t desc)
 {
     intptr_t s, opr_sz = simd_oprsz(desc) / (sizeof(float32) * 4);
 
@@ -XXX,XX +XXX,XX @@ void HELPER(fmmla_s)(void *vd, void *vn, void *vm, void *va,
 }
 
 void HELPER(fmmla_d)(void *vd, void *vn, void *vm, void *va,
-                     void *status, uint32_t desc)
+                     float_status *status, uint32_t desc)
 {
     intptr_t s, opr_sz = simd_oprsz(desc) / (sizeof(float64) * 4);
 
@@ -XXX,XX +XXX,XX @@ void HELPER(fmmla_d)(void *vd, void *vn, void *vm, void *va,
 }
 
 #define DO_FCVTNT(NAME, TYPEW, TYPEN, HW, HN, OP)                             \
-void HELPER(NAME)(void *vd, void *vn, void *vg, void *status, uint32_t desc)  \
+void HELPER(NAME)(void *vd, void *vn, void *vg,                               \
+                  float_status *status, uint32_t desc)                        \
 {                                                                             \
     intptr_t i = simd_oprsz(desc);                                            \
     uint64_t *g = vg;                                                         \
@@ -XXX,XX +XXX,XX @@ DO_FCVTNT(sve2_fcvtnt_sh, uint32_t, uint16_t, H1_4, H1_2, sve_f32_to_f16)
 DO_FCVTNT(sve2_fcvtnt_ds, uint64_t, uint32_t, H1_8, H1_4, float64_to_float32)
 
 #define DO_FCVTLT(NAME, TYPEW, TYPEN, HW, HN, OP)                             \
-void HELPER(NAME)(void *vd, void *vn, void *vg, void *status, uint32_t desc)  \
+void HELPER(NAME)(void *vd, void *vn, void *vg,                               \
+                  float_status *status, uint32_t desc)                        \
 {                                                                             \
     intptr_t i = simd_oprsz(desc);                                            \
     uint64_t *g = vg;                                                         \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20241206031224.78525-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-sme.h | 4 ++--
 target/arm/tcg/sme_helper.c | 8 ++++----
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/target/arm/tcg/helper-sme.h b/target/arm/tcg/helper-sme.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-sme.h
+++ b/target/arm/tcg/helper-sme.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(sme_addva_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_7(sme_fmopa_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, ptr, env, i32)
 DEF_HELPER_FLAGS_7(sme_fmopa_s, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sme_fmopa_d, TCG_CALL_NO_RWG,
-                   void, ptr, ptr, ptr, ptr, ptr, ptr, i32)
+                   void, ptr, ptr, ptr, ptr, ptr, fpst, i32)
 DEF_HELPER_FLAGS_7(sme_bfmopa, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, ptr, env, i32)
 DEF_HELPER_FLAGS_6(sme_smopa_s, TCG_CALL_NO_RWG,
diff --git a/target/arm/tcg/sme_helper.c b/target/arm/tcg/sme_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/sme_helper.c
+++ b/target/arm/tcg/sme_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(sme_addva_d)(void *vzda, void *vzn, void *vpn,
 }
 
 void HELPER(sme_fmopa_s)(void *vza, void *vzn, void *vzm, void *vpn,
-                         void *vpm, void *vst, uint32_t desc)
+                         void *vpm, float_status *fpst_in, uint32_t desc)
 {
     intptr_t row, col, oprsz = simd_maxsz(desc);
     uint32_t neg = simd_data(desc) << 31;
@@ -XXX,XX +XXX,XX @@ void HELPER(sme_fmopa_s)(void *vza, void *vzn, void *vzm, void *vpn,
      * update the cumulative fp exception status.  It also produces
      * default nans.
      */
-    fpst = *(float_status *)vst;
+    fpst = *fpst_in;
     set_default_nan_mode(true, &fpst);
 
     for (row = 0; row < oprsz; ) {
@@ -XXX,XX +XXX,XX @@ void HELPER(sme_fmopa_s)(void *vza, void *vzn, void *vzm, void *vpn,
 }
 
 void HELPER(sme_fmopa_d)(void *vza, void *vzn, void *vzm, void *vpn,
-                         void *vpm, void *vst, uint32_t desc)
+                         void *vpm, float_status *fpst_in, uint32_t desc)
 {
     intptr_t row, col, oprsz = simd_oprsz(desc) / 8;
     uint64_t neg = (uint64_t)simd_data(desc) << 63;
     uint64_t *za = vza, *zn = vzn, *zm = vzm;
     uint8_t *pn = vpn, *pm = vpm;
-    float_status fpst = *(float_status *)vst;
+    float_status fpst = *fpst_in;
 
     set_default_nan_mode(true, &fpst);
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Allow the helpers to receive CPUARMState* directly
instead of via void*.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031224.78525-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h         | 12 ++++++------
 target/arm/tcg/helper-a64.h |  2 +-
 target/arm/tcg/vec_helper.c | 21 +++++++--------------
 3 files changed, 14 insertions(+), 21 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031224.78525-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h          | 56 ++++++++++++++++++------------------
 target/arm/tcg/neon_helper.c |  6 ++--
 2 files changed, 30 insertions(+), 32 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_u32, i32, env, i32, i32)
 DEF_HELPER_3(neon_qrshl_s32, i32, env, i32, i32)
 DEF_HELPER_3(neon_qrshl_u64, i64, env, i64, i64)
 DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
-DEF_HELPER_FLAGS_5(neon_sqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_sqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_sqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_sqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_sqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_sqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_sqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_sqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_5(neon_uqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_uqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_uqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_uqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_uqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshlui_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshlui_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshlui_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-DEF_HELPER_FLAGS_4(neon_sqshlui_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(neon_sqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_sqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_sqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_sqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_sqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_sqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_sqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_sqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqrshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqrshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqrshl_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_5(neon_uqrshl_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_uqshli_b, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_uqshli_h, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_uqshli_s, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_uqshli_d, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshlui_b, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshlui_h, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshlui_s, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
+DEF_HELPER_FLAGS_4(neon_sqshlui_d, TCG_CALL_NO_RWG, void, ptr, ptr, env, i32)
 
 DEF_HELPER_FLAGS_4(gvec_srshl_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_srshl_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/neon_helper.c
+++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(name)(void *vd, void *vn, void *vm, uint32_t desc) \
 }
 
 #define NEON_GVEC_VOP2_ENV(name, vtype) \
-void HELPER(name)(void *vd, void *vn, void *vm, void *venv, uint32_t desc) \
+void HELPER(name)(void *vd, void *vn, void *vm, CPUARMState *env, uint32_t desc) \
 {                                                               \
     intptr_t i, opr_sz = simd_oprsz(desc);                      \
     vtype *d = vd, *n = vn, *m = vm;                            \
-    CPUARMState *env = venv;                                    \
     for (i = 0; i < opr_sz / sizeof(vtype); i++) {              \
         NEON_FN(d[i], n[i], m[i]);                              \
     }                                                           \
@@ -XXX,XX +XXX,XX @@ void HELPER(name)(void *vd, void *vn, void *vm, void *venv, uint32_t desc) \
 }
 
 #define NEON_GVEC_VOP2i_ENV(name, vtype) \
-void HELPER(name)(void *vd, void *vn, void *venv, uint32_t desc) \
+void HELPER(name)(void *vd, void *vn, CPUARMState *env, uint32_t desc) \
 {                                                               \
     intptr_t i, opr_sz = simd_oprsz(desc);                      \
     int imm = simd_data(desc);                                  \
     vtype *d = vd, *n = vn;                                     \
-    CPUARMState *env = venv;                                    \
     for (i = 0; i < opr_sz / sizeof(vtype); i++) {              \
         NEON_FN(d[i], n[i], imm);                               \
     }                                                           \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Pass float_status not env to match other functions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031952.78776-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    | 2 +-
 target/arm/tcg/helper-a64.c    | 3 +--
 target/arm/tcg/translate-a64.c | 2 +-
 3 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(rsqrtsf_f64, TCG_CALL_NO_RWG, f64, f64, f64, fpst)
 DEF_HELPER_FLAGS_2(frecpx_f64, TCG_CALL_NO_RWG, f64, f64, fpst)
 DEF_HELPER_FLAGS_2(frecpx_f32, TCG_CALL_NO_RWG, f32, f32, fpst)
 DEF_HELPER_FLAGS_2(frecpx_f16, TCG_CALL_NO_RWG, f16, f16, fpst)
-DEF_HELPER_FLAGS_2(fcvtx_f64_to_f32, TCG_CALL_NO_RWG, f32, f64, env)
+DEF_HELPER_FLAGS_2(fcvtx_f64_to_f32, TCG_CALL_NO_RWG, f32, f64, fpst)
 DEF_HELPER_FLAGS_3(crc32_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
 DEF_HELPER_FLAGS_3(crc32c_64, TCG_CALL_NO_RWG_SE, i64, i64, i64, i32)
 DEF_HELPER_FLAGS_3(advsimd_maxh, TCG_CALL_NO_RWG, f16, f16, f16, fpst)
diff --git a/target/arm/tcg/helper-a64.c b/target/arm/tcg/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.c
+++ b/target/arm/tcg/helper-a64.c
@@ -XXX,XX +XXX,XX @@ float64 HELPER(frecpx_f64)(float64 a, float_status *fpst)
     }
 }
 
-float32 HELPER(fcvtx_f64_to_f32)(float64 a, CPUARMState *env)
+float32 HELPER(fcvtx_f64_to_f32)(float64 a, float_status *fpst)
 {
     float32 r;
-    float_status *fpst = &env->vfp.fp_status;
     int old = get_float_rounding_mode(fpst);
 
     set_float_rounding_mode(float_round_to_odd, fpst);
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_fcvtxn_sd(TCGv_i64 d, TCGv_i64 n)
      * with von Neumann rounding (round to odd)
      */
     TCGv_i32 tmp = tcg_temp_new_i32();
-    gen_helper_fcvtx_f64_to_f32(tmp, n, tcg_env);
+    gen_helper_fcvtx_f64_to_f32(tmp, n, fpstatus_ptr(FPST_FPCR));
     tcg_gen_extu_i32_i64(d, tmp);
 }
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Pass float_status not env to match other functions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241206031952.78776-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  4 ++--
 target/arm/tcg/translate-a64.c | 15 ++++++++++-----
 target/arm/tcg/translate-vfp.c |  4 ++--
 target/arm/vfp_helper.c        |  8 ++++----
 4 files changed, 18 insertions(+), 13 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_cmpeh, void, f16, f16, env)
 DEF_HELPER_3(vfp_cmpes, void, f32, f32, env)
 DEF_HELPER_3(vfp_cmped, void, f64, f64, env)
 
-DEF_HELPER_2(vfp_fcvtds, f64, f32, env)
-DEF_HELPER_2(vfp_fcvtsd, f32, f64, env)
+DEF_HELPER_2(vfp_fcvtds, f64, f32, fpst)
+DEF_HELPER_2(vfp_fcvtsd, f32, f64, fpst)
 DEF_HELPER_FLAGS_2(bfcvt, TCG_CALL_NO_RWG, i32, f32, fpst)
 DEF_HELPER_FLAGS_2(bfcvt_pair, TCG_CALL_NO_RWG, i32, i64, fpst)
 
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_FCVT_s_ds(DisasContext *s, arg_rr *a)
     if (fp_access_check(s)) {
         TCGv_i32 tcg_rn = read_fp_sreg(s, a->rn);
         TCGv_i64 tcg_rd = tcg_temp_new_i64();
+        TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
 
-        gen_helper_vfp_fcvtds(tcg_rd, tcg_rn, tcg_env);
+        gen_helper_vfp_fcvtds(tcg_rd, tcg_rn, fpst);
         write_fp_dreg(s, a->rd, tcg_rd);
     }
     return true;
@@ -XXX,XX +XXX,XX @@ static bool trans_FCVT_s_sd(DisasContext *s, arg_rr *a)
     if (fp_access_check(s)) {
         TCGv_i64 tcg_rn = read_fp_dreg(s, a->rn);
         TCGv_i32 tcg_rd = tcg_temp_new_i32();
+        TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
 
-        gen_helper_vfp_fcvtsd(tcg_rd, tcg_rn, tcg_env);
+        gen_helper_vfp_fcvtsd(tcg_rd, tcg_rn, fpst);
         write_fp_sreg(s, a->rd, tcg_rd);
     }
     return true;
@@ -XXX,XX +XXX,XX @@ static void gen_fcvtn_hs(TCGv_i64 d, TCGv_i64 n)
 static void gen_fcvtn_sd(TCGv_i64 d, TCGv_i64 n)
 {
     TCGv_i32 tmp = tcg_temp_new_i32();
-    gen_helper_vfp_fcvtsd(tmp, n, tcg_env);
+    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
+
+    gen_helper_vfp_fcvtsd(tmp, n, fpst);
     tcg_gen_extu_i32_i64(d, tmp);
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_FCVTL_v(DisasContext *s, arg_qrr_e *a)
      * The only instruction like this is FCVTL.
      */
     int pass;
+    TCGv_ptr fpst;
 
     if (!fp_access_check(s)) {
         return true;
     }
 
+    fpst = fpstatus_ptr(FPST_FPCR);
     if (a->esz == MO_64) {
         /* 32 -> 64 bit fp conversion */
         TCGv_i64 tcg_res[2];
@@ -XXX,XX +XXX,XX @@ static bool trans_FCVTL_v(DisasContext *s, arg_qrr_e *a)
         for (pass = 0; pass < 2; pass++) {
             tcg_res[pass] = tcg_temp_new_i64();
             read_vec_element_i32(s, tcg_op, a->rn, srcelt + pass, MO_32);
-            gen_helper_vfp_fcvtds(tcg_res[pass], tcg_op, tcg_env);
+            gen_helper_vfp_fcvtds(tcg_res[pass], tcg_op, fpst);
         }
         for (pass = 0; pass < 2; pass++) {
             write_vec_element(s, tcg_res[pass], a->rd, pass, MO_64);
@@ -XXX,XX +XXX,XX @@ static bool trans_FCVTL_v(DisasContext *s, arg_qrr_e *a)
         /* 16 -> 32 bit fp conversion */
         int srcelt = a->q ? 4 : 0;
         TCGv_i32 tcg_res[4];
-        TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
         TCGv_i32 ahp = get_ahp_flag();
 
         for (pass = 0; pass < 4; pass++) {
diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_sp(DisasContext *s, arg_VCVT_sp *a)
     vm = tcg_temp_new_i32();
     vd = tcg_temp_new_i64();
     vfp_load_reg32(vm, a->vm);
-    gen_helper_vfp_fcvtds(vd, vm, tcg_env);
+    gen_helper_vfp_fcvtds(vd, vm, fpstatus_ptr(FPST_FPCR));
     vfp_store_reg64(vd, a->vd);
     return true;
 }
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_dp(DisasContext *s, arg_VCVT_dp *a)
     vd = tcg_temp_new_i32();
     vm = tcg_temp_new_i64();
     vfp_load_reg64(vm, a->vm);
-    gen_helper_vfp_fcvtsd(vd, vm, tcg_env);
+    gen_helper_vfp_fcvtsd(vd, vm, fpstatus_ptr(FPST_FPCR));
     vfp_store_reg32(vd, a->vd);
     return true;
 }
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ FLOAT_CONVS(ui, d, float64, 64, u)
 #undef FLOAT_CONVS
 
 /* floating point conversion */
-float64 VFP_HELPER(fcvtd, s)(float32 x, CPUARMState *env)
+float64 VFP_HELPER(fcvtd, s)(float32 x, float_status *status)
 {
-    return float32_to_float64(x, &env->vfp.fp_status);
+    return float32_to_float64(x, status);
 }
 
-float32 VFP_HELPER(fcvts, d)(float64 x, CPUARMState *env)
+float32 VFP_HELPER(fcvts, d)(float64 x, float_status *status)
 {
-    return float64_to_float32(x, &env->vfp.fp_status);
+    return float64_to_float32(x, status);
 }
 
 uint32_t HELPER(bfcvt)(float32 x, float_status *status)
-- 
2.34.1

FEAT_XS introduces a set of new TLBI maintenance instructions with an
"nXS" qualifier.  These behave like the stardard ones except that
they do not wait for memory accesses with the XS attribute to
complete.  They have an interaction with the fine-grained-trap
handling: the FGT bits that a hypervisor can use to trap TLBI
maintenance instructions normally trap also the nXS variants, but the
hypervisor can elect to not trap the nXS variants by setting
HCRX_EL2.FGTnXS to 1.

Add support to our FGT mechanism for these TLBI bits. For each
TLBI-trapping FGT bit we define, for example:
 * FGT_TLBIVAE1 -- the same value we do at present for the
   normal variant of the insn
 * FGT_TLBIVAE1NXS -- for the nXS qualified insn; the value of
   this enum has an NXS bit ORed into it

In access_check_cp_reg() we can then ignore the trap bit for an
access where ri->fgt has the NXS bit set and HCRX_EL2.FGTnXS is 1.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20241211144440.2700268-2-peter.maydell@linaro.org
---
 target/arm/cpregs.h        | 72 ++++++++++++++++++++++----------------
 target/arm/cpu-features.h  |  5 +++
 target/arm/helper.c        |  5 ++-
 target/arm/tcg/op_helper.c | 11 +++++-
 4 files changed, 61 insertions(+), 32 deletions(-)

diff --git a/target/arm/cpregs.h b/target/arm/cpregs.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpregs.h
+++ b/target/arm/cpregs.h
@@ -XXX,XX +XXX,XX @@ FIELD(HDFGWTR_EL2, NBRBCTL, 60, 1)
 FIELD(HDFGWTR_EL2, NBRBDATA, 61, 1)
 FIELD(HDFGWTR_EL2, NPMSNEVFR_EL1, 62, 1)
 
+FIELD(FGT, NXS, 13, 1) /* Honour HCR_EL2.FGTnXS to suppress FGT */
 /* Which fine-grained trap bit register to check, if any */
 FIELD(FGT, TYPE, 10, 3)
 FIELD(FGT, REV, 9, 1) /* Is bit sense reversed? */
@@ -XXX,XX +XXX,XX @@ FIELD(FGT, BITPOS, 0, 6) /* Bit position within the uint64_t */
 #define DO_REV_BIT(REG, BITNAME)                                        \
     FGT_##BITNAME = FGT_##REG | FGT_REV | R_##REG##_EL2_##BITNAME##_SHIFT
 
+/*
+ * The FGT bits for TLBI maintenance instructions accessible at EL1 always
+ * affect the "normal" TLBI insns; they affect the corresponding TLBI insns
+ * with the nXS qualifier only if HCRX_EL2.FGTnXS is 0. We define e.g.
+ * FGT_TLBIVAE1 to use for the normal insn, and FGT_TLBIVAE1NXS to use
+ * for the nXS qualified insn.
+ */
+#define DO_TLBINXS_BIT(REG, BITNAME)                             \
+    FGT_##BITNAME = FGT_##REG | R_##REG##_EL2_##BITNAME##_SHIFT, \
+    FGT_##BITNAME##NXS = FGT_##BITNAME | R_FGT_NXS_MASK
+
 typedef enum FGTBit {
     /*
      * These bits tell us which register arrays to use:
@@ -XXX,XX +XXX,XX @@ typedef enum FGTBit {
     DO_BIT(HFGITR, ATS1E0W),
     DO_BIT(HFGITR, ATS1E1RP),
     DO_BIT(HFGITR, ATS1E1WP),
-    DO_BIT(HFGITR, TLBIVMALLE1OS),
-    DO_BIT(HFGITR, TLBIVAE1OS),
-    DO_BIT(HFGITR, TLBIASIDE1OS),
-    DO_BIT(HFGITR, TLBIVAAE1OS),
-    DO_BIT(HFGITR, TLBIVALE1OS),
-    DO_BIT(HFGITR, TLBIVAALE1OS),
-    DO_BIT(HFGITR, TLBIRVAE1OS),
-    DO_BIT(HFGITR, TLBIRVAAE1OS),
-    DO_BIT(HFGITR, TLBIRVALE1OS),
-    DO_BIT(HFGITR, TLBIRVAALE1OS),
-    DO_BIT(HFGITR, TLBIVMALLE1IS),
-    DO_BIT(HFGITR, TLBIVAE1IS),
-    DO_BIT(HFGITR, TLBIASIDE1IS),
-    DO_BIT(HFGITR, TLBIVAAE1IS),
-    DO_BIT(HFGITR, TLBIVALE1IS),
-    DO_BIT(HFGITR, TLBIVAALE1IS),
-    DO_BIT(HFGITR, TLBIRVAE1IS),
-    DO_BIT(HFGITR, TLBIRVAAE1IS),
-    DO_BIT(HFGITR, TLBIRVALE1IS),
-    DO_BIT(HFGITR, TLBIRVAALE1IS),
-    DO_BIT(HFGITR, TLBIRVAE1),
-    DO_BIT(HFGITR, TLBIRVAAE1),
-    DO_BIT(HFGITR, TLBIRVALE1),
-    DO_BIT(HFGITR, TLBIRVAALE1),
-    DO_BIT(HFGITR, TLBIVMALLE1),
-    DO_BIT(HFGITR, TLBIVAE1),
-    DO_BIT(HFGITR, TLBIASIDE1),
-    DO_BIT(HFGITR, TLBIVAAE1),
-    DO_BIT(HFGITR, TLBIVALE1),
-    DO_BIT(HFGITR, TLBIVAALE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIVMALLE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIASIDE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAAE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVALE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAALE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAAE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVALE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAALE1OS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVMALLE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIASIDE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAAE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVALE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAALE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAAE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVALE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAALE1IS),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAAE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVALE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIRVAALE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIVMALLE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIASIDE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAAE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIVALE1),
+    DO_TLBINXS_BIT(HFGITR, TLBIVAALE1),
     DO_BIT(HFGITR, CFPRCTX),
     DO_BIT(HFGITR, DVPRCTX),
     DO_BIT(HFGITR, CPPRCTX),
diff --git a/target/arm/cpu-features.h b/target/arm/cpu-features.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu-features.h
+++ b/target/arm/cpu-features.h
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
 }
 
+static inline bool isar_feature_aa64_xs(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, XS) != 0;
+}
+
 /*
  * These are the values from APA/API/APA3.
  * In general these must be compared '>=', per the normal Arm ARM
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void hcrx_write(CPUARMState *env, const ARMCPRegInfo *ri,
         valid_mask |= HCRX_TALLINT | HCRX_VINMI | HCRX_VFNMI;
     }
     /* FEAT_CMOW adds CMOW */
-
     if (cpu_isar_feature(aa64_cmow, cpu)) {
         valid_mask |= HCRX_CMOW;
     }
+    /* FEAT_XS adds FGTnXS, FnXS */
+    if (cpu_isar_feature(aa64_xs, cpu)) {
+        valid_mask |= HCRX_FGTNXS | HCRX_FNXS;
+    }
 
     /* Clear RES0 bits.  */
     env->cp15.hcrx_el2 = value & valid_mask;
diff --git a/target/arm/tcg/op_helper.c b/target/arm/tcg/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/op_helper.c
+++ b/target/arm/tcg/op_helper.c
@@ -XXX,XX +XXX,XX @@ const void *HELPER(access_check_cp_reg)(CPUARMState *env, uint32_t key,
         unsigned int idx = FIELD_EX32(ri->fgt, FGT, IDX);
         unsigned int bitpos = FIELD_EX32(ri->fgt, FGT, BITPOS);
         bool rev = FIELD_EX32(ri->fgt, FGT, REV);
+        bool nxs = FIELD_EX32(ri->fgt, FGT, NXS);
         bool trapbit;
 
         if (ri->fgt & FGT_EXEC) {
@@ -XXX,XX +XXX,XX @@ const void *HELPER(access_check_cp_reg)(CPUARMState *env, uint32_t key,
             trapword = env->cp15.fgt_write[idx];
         }
 
-        trapbit = extract64(trapword, bitpos, 1);
+        if (nxs && (arm_hcrx_el2_eff(env) & HCRX_FGTNXS)) {
+            /*
+             * If HCRX_EL2.FGTnXS is 1 then the fine-grained trap for
+             * TLBI maintenance insns does *not* apply to the nXS variant.
+             */
+            trapbit = 0;
+        } else {
+            trapbit = extract64(trapword, bitpos, 1);
+        }
         if (trapbit != rev) {
             res = CP_ACCESS_TRAP_EL2;
             goto fail;
-- 
2.34.1

All of the TLBI insns with an NXS variant put that variant at the
same encoding but with a CRn field that is one greater than for the
original TLBI insn.  To avoid having to define every TLBI insn
effectively twice, once in the normal way and once in a set of cpreg
arrays that are only registered when FEAT_XS is present, we define a
new ARM_CP_ADD_TLB_NXS type flag for cpregs.  When this flag is set
in a cpreg struct and FEAT_XS is present,
define_one_arm_cp_reg_with_opaque() will automatically add a second
cpreg to the hash table for the TLBI NXS insn with:
 * the crn+1 encoding
 * an FGT field that indicates that it should honour HCR_EL2.FGTnXS
 * a name with the "NXS" suffix

(If there are future TLBI NXS insns that don't use this same
encoding convention, it is also possible to define them manually.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20241211144440.2700268-3-peter.maydell@linaro.org
---
 target/arm/cpregs.h |  8 ++++++++
 target/arm/helper.c | 25 +++++++++++++++++++++++++
 2 files changed, 33 insertions(+)

diff --git a/target/arm/cpregs.h b/target/arm/cpregs.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpregs.h
+++ b/target/arm/cpregs.h
@@ -XXX,XX +XXX,XX @@ enum {
      * equivalent EL1 register when FEAT_NV2 is enabled.
      */
     ARM_CP_NV2_REDIRECT          = 1 << 20,
+    /*
+     * Flag: this is a TLBI insn which (when FEAT_XS is present) also has
+     * an NXS variant at the same encoding except that crn is 1 greater,
+     * so when registering this cpreg automatically also register one
+     * for the TLBI NXS variant. (For QEMU the NXS variant behaves
+     * identically to the normal one, other than FGT trapping handling.)
+     */
+    ARM_CP_ADD_TLBI_NXS          = 1 << 21,
 };
 
 /*
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void define_one_arm_cp_reg_with_opaque(ARMCPU *cpu,
                     if (r->state != state && r->state != ARM_CP_STATE_BOTH) {
                         continue;
                     }
+                    if ((r->type & ARM_CP_ADD_TLBI_NXS) &&
+                        cpu_isar_feature(aa64_xs, cpu)) {
+                        /*
+                         * This is a TLBI insn which has an NXS variant. The
+                         * NXS variant is at the same encoding except that
+                         * crn is +1, and has the same behaviour except for
+                         * fine-grained trapping. Add the NXS insn here and
+                         * then fall through to add the normal register.
+                         * add_cpreg_to_hashtable() copies the cpreg struct
+                         * and name that it is passed, so it's OK to use
+                         * a local struct here.
+                         */
+                        ARMCPRegInfo nxs_ri = *r;
+                        g_autofree char *name = g_strdup_printf("%sNXS", r->name);
+
+                        assert(state == ARM_CP_STATE_AA64);
+                        assert(nxs_ri.crn < 0xf);
+                        nxs_ri.crn++;
+                        if (nxs_ri.fgt) {
+                            nxs_ri.fgt |= R_FGT_NXS_MASK;
+                        }
+                        add_cpreg_to_hashtable(cpu, &nxs_ri, opaque, state,
+                                               ARM_CP_SECSTATE_NS,
+                                               crm, opc1, opc2, name);
+                    }
                     if (state == ARM_CP_STATE_AA32) {
                         /*
                          * Under AArch32 CP registers can be common
-- 
2.34.1

Add the ARM_CP_ADD_TLBI_NXS to the TLBI insns with an NXS variant.
This is every AArch64 TLBI encoding except for the four FEAT_RME TLBI
insns.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20241211144440.2700268-4-peter.maydell@linaro.org
---
 target/arm/tcg/tlb-insns.c | 202 +++++++++++++++++++++++--------------
 1 file changed, 124 insertions(+), 78 deletions(-)

diff --git a/target/arm/tcg/tlb-insns.c b/target/arm/tcg/tlb-insns.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/tlb-insns.c
+++ b/target/arm/tcg/tlb-insns.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo tlbi_v8_cp_reginfo[] = {
     /* AArch64 TLBI operations */
     { .name = "TLBI_VMALLE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 0,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVMALLE1IS,
       .writefn = tlbi_aa64_vmalle1is_write },
     { .name = "TLBI_VAE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 1,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAE1IS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_ASIDE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 2,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIASIDE1IS,
       .writefn = tlbi_aa64_vmalle1is_write },
     { .name = "TLBI_VAAE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 3,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAAE1IS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_VALE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 5,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVALE1IS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_VAALE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 3, .opc2 = 7,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAALE1IS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_VMALLE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 0,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVMALLE1,
       .writefn = tlbi_aa64_vmalle1_write },
     { .name = "TLBI_VAE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 1,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAE1,
       .writefn = tlbi_aa64_vae1_write },
     { .name = "TLBI_ASIDE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 2,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIASIDE1,
       .writefn = tlbi_aa64_vmalle1_write },
     { .name = "TLBI_VAAE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 3,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAAE1,
       .writefn = tlbi_aa64_vae1_write },
     { .name = "TLBI_VALE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 5,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVALE1,
       .writefn = tlbi_aa64_vae1_write },
     { .name = "TLBI_VAALE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 7, .opc2 = 7,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAALE1,
       .writefn = tlbi_aa64_vae1_write },
     { .name = "TLBI_IPAS2E1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ipas2e1is_write },
     { .name = "TLBI_IPAS2LE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ipas2e1is_write },
     { .name = "TLBI_ALLE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 4,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle1is_write },
     { .name = "TLBI_VMALLS12E1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 6,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle1is_write },
     { .name = "TLBI_IPAS2E1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ipas2e1_write },
     { .name = "TLBI_IPAS2LE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ipas2e1_write },
     { .name = "TLBI_ALLE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 4,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle1_write },
     { .name = "TLBI_VMALLS12E1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 6,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle1is_write },
 };
 
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo tlbi_el2_cp_reginfo[] = {
       .writefn = tlbimva_hyp_is_write },
     { .name = "TLBI_ALLE2", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 0,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_alle2_write },
     { .name = "TLBI_VAE2", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_vae2_write },
     { .name = "TLBI_VALE2", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 7, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_vae2_write },
     { .name = "TLBI_ALLE2IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 0,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_alle2is_write },
     { .name = "TLBI_VAE2IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_vae2is_write },
     { .name = "TLBI_VALE2IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 3, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_vae2is_write },
 };
 
 static const ARMCPRegInfo tlbi_el3_cp_reginfo[] = {
     { .name = "TLBI_ALLE3IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 3, .opc2 = 0,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle3is_write },
     { .name = "TLBI_VAE3IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 3, .opc2 = 1,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_vae3is_write },
     { .name = "TLBI_VALE3IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 3, .opc2 = 5,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_vae3is_write },
     { .name = "TLBI_ALLE3", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 7, .opc2 = 0,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle3_write },
     { .name = "TLBI_VAE3", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 7, .opc2 = 1,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_vae3_write },
     { .name = "TLBI_VALE3", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 7, .opc2 = 5,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_vae3_write },
 };
 
@@ -XXX,XX +XXX,XX @@ static void tlbi_aa64_ripas2e1is_write(CPUARMState *env,
 static const ARMCPRegInfo tlbirange_reginfo[] = {
     { .name = "TLBI_RVAE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 1,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAE1IS,
       .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVAAE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 3,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAAE1IS,
       .writefn = tlbi_aa64_rvae1is_write },
    { .name = "TLBI_RVALE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 5,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVALE1IS,
       .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVAALE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 2, .opc2 = 7,
-      .access = PL1_W, .accessfn = access_ttlbis, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbis,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAALE1IS,
       .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVAE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 1,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAE1OS,
       .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVAAE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 3,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAAE1OS,
       .writefn = tlbi_aa64_rvae1is_write },
    { .name = "TLBI_RVALE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 5,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVALE1OS,
       .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVAALE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 5, .opc2 = 7,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAALE1OS,
       .writefn = tlbi_aa64_rvae1is_write },
     { .name = "TLBI_RVAE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 1,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAE1,
       .writefn = tlbi_aa64_rvae1_write },
     { .name = "TLBI_RVAAE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 3,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAAE1,
       .writefn = tlbi_aa64_rvae1_write },
    { .name = "TLBI_RVALE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 5,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVALE1,
       .writefn = tlbi_aa64_rvae1_write },
     { .name = "TLBI_RVAALE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 6, .opc2 = 7,
-      .access = PL1_W, .accessfn = access_ttlb, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlb,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIRVAALE1,
       .writefn = tlbi_aa64_rvae1_write },
     { .name = "TLBI_RIPAS2E1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 2,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ripas2e1is_write },
     { .name = "TLBI_RIPAS2LE1IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 0, .opc2 = 6,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ripas2e1is_write },
     { .name = "TLBI_RVAE2IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 2, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_rvae2is_write },
    { .name = "TLBI_RVALE2IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 2, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_rvae2is_write },
     { .name = "TLBI_RIPAS2E1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 2,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ripas2e1_write },
     { .name = "TLBI_RIPAS2LE1", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 6,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_ripas2e1_write },
    { .name = "TLBI_RVAE2OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 5, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_rvae2is_write },
    { .name = "TLBI_RVALE2OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 5, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_rvae2is_write },
     { .name = "TLBI_RVAE2", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 6, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_rvae2_write },
    { .name = "TLBI_RVALE2", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 6, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_rvae2_write },
    { .name = "TLBI_RVAE3IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 2, .opc2 = 1,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_rvae3is_write },
    { .name = "TLBI_RVALE3IS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 2, .opc2 = 5,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_rvae3is_write },
    { .name = "TLBI_RVAE3OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 5, .opc2 = 1,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_rvae3is_write },
    { .name = "TLBI_RVALE3OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 5, .opc2 = 5,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_rvae3is_write },
    { .name = "TLBI_RVAE3", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 6, .opc2 = 1,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_rvae3_write },
    { .name = "TLBI_RVALE3", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 6, .opc2 = 5,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_rvae3_write },
 };
 
 static const ARMCPRegInfo tlbios_reginfo[] = {
     { .name = "TLBI_VMALLE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 0,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVMALLE1OS,
       .writefn = tlbi_aa64_vmalle1is_write },
     { .name = "TLBI_VAE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 1,
       .fgt = FGT_TLBIVAE1OS,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_ASIDE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 2,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIASIDE1OS,
       .writefn = tlbi_aa64_vmalle1is_write },
     { .name = "TLBI_VAAE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 3,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAAE1OS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_VALE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 5,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVALE1OS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_VAALE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 0, .crn = 8, .crm = 1, .opc2 = 7,
-      .access = PL1_W, .accessfn = access_ttlbos, .type = ARM_CP_NO_RAW,
+      .access = PL1_W, .accessfn = access_ttlbos,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .fgt = FGT_TLBIVAALE1OS,
       .writefn = tlbi_aa64_vae1is_write },
     { .name = "TLBI_ALLE2OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 0,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_alle2is_write },
     { .name = "TLBI_VAE2OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 1,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_vae2is_write },
    { .name = "TLBI_ALLE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 4,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle1is_write },
     { .name = "TLBI_VALE2OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 5,
-      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_EL3_NO_EL2_UNDEF,
+      .access = PL2_W,
+      .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS | ARM_CP_EL3_NO_EL2_UNDEF,
       .writefn = tlbi_aa64_vae2is_write },
     { .name = "TLBI_VMALLS12E1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 1, .opc2 = 6,
-      .access = PL2_W, .type = ARM_CP_NO_RAW,
+      .access = PL2_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle1is_write },
     { .name = "TLBI_IPAS2E1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 0,
-      .access = PL2_W, .type = ARM_CP_NOP },
+      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
     { .name = "TLBI_RIPAS2E1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 3,
-      .access = PL2_W, .type = ARM_CP_NOP },
+      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
     { .name = "TLBI_IPAS2LE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 4,
-      .access = PL2_W, .type = ARM_CP_NOP },
+      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
     { .name = "TLBI_RIPAS2LE1OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 4, .crn = 8, .crm = 4, .opc2 = 7,
-      .access = PL2_W, .type = ARM_CP_NOP },
+      .access = PL2_W, .type = ARM_CP_NOP | ARM_CP_ADD_TLBI_NXS },
     { .name = "TLBI_ALLE3OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 1, .opc2 = 0,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_alle3is_write },
     { .name = "TLBI_VAE3OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 1, .opc2 = 1,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_vae3is_write },
     { .name = "TLBI_VALE3OS", .state = ARM_CP_STATE_AA64,
       .opc0 = 1, .opc1 = 6, .crn = 8, .crm = 1, .opc2 = 5,
-      .access = PL3_W, .type = ARM_CP_NO_RAW,
+      .access = PL3_W, .type = ARM_CP_NO_RAW | ARM_CP_ADD_TLBI_NXS,
       .writefn = tlbi_aa64_vae3is_write },
 };
 
-- 
2.34.1

From: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>

The DSB nXS variant is always both a reads and writes request type.
Ignore the domain field like we do in plain DSB and perform a full
system barrier operation.

The DSB nXS variant is part of FEAT_XS made mandatory from Armv8.7.

Signed-off-by: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20241211144440.2700268-5-peter.maydell@linaro.org
[PMM: added missing "UNDEF unless feature present" check]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 3 +++
 target/arm/tcg/translate-a64.c | 9 +++++++++
 2 files changed, 12 insertions(+)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ WFIT            1101 0101 0000 0011 0001 0000 001 rd:5
 
 CLREX           1101 0101 0000 0011 0011 ---- 010 11111
 DSB_DMB         1101 0101 0000 0011 0011 domain:2 types:2 10- 11111
+# For the DSB nXS variant, types always equals MBReqTypes_All and we ignore the
+# domain bits.
+DSB_nXS         1101 0101 0000 0011 0011 -- 10 001 11111
 ISB             1101 0101 0000 0011 0011 ---- 110 11111
 SB              1101 0101 0000 0011 0011 0000 111 11111
 
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_DSB_DMB(DisasContext *s, arg_DSB_DMB *a)
     return true;
 }
 
+static bool trans_DSB_nXS(DisasContext *s, arg_DSB_nXS *a)
+{
+    if (!dc_isar_feature(aa64_xs, s)) {
+        return false;
+    }
+    tcg_gen_mb(TCG_BAR_SC | TCG_MO_ALL);
+    return true;
+}
+
 static bool trans_ISB(DisasContext *s, arg_ISB *a)
 {
     /*
-- 
2.34.1

From: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>

Add FEAT_XS feature report value in max cpu's ID_AA64ISAR1 sys register.

Signed-off-by: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20241211144440.2700268-6-peter.maydell@linaro.org
[PMM: Add entry for FEAT_XS to documentation]
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
---
 docs/system/arm/emulation.rst | 1 +
 target/arm/tcg/cpu64.c        | 1 +
 2 files changed, 2 insertions(+)

diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/arm/emulation.rst
+++ b/docs/system/arm/emulation.rst
@@ -XXX,XX +XXX,XX @@ the following architecture extensions:
 - FEAT_VMID16 (16-bit VMID)
 - FEAT_WFxT (WFE and WFI instructions with timeout)
 - FEAT_XNX (Translation table stage 2 Unprivileged Execute-never)
+- FEAT_XS (XS attribute)
 
 For information on the specifics of these extensions, please refer
 to the `Arm Architecture Reference Manual for A-profile architecture
diff --git a/target/arm/tcg/cpu64.c b/target/arm/tcg/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/cpu64.c
+++ b/target/arm/tcg/cpu64.c
@@ -XXX,XX +XXX,XX @@ void aarch64_max_tcg_initfn(Object *obj)
     t = FIELD_DP64(t, ID_AA64ISAR1, BF16, 2);     /* FEAT_BF16, FEAT_EBF16 */
     t = FIELD_DP64(t, ID_AA64ISAR1, DGH, 1);      /* FEAT_DGH */
     t = FIELD_DP64(t, ID_AA64ISAR1, I8MM, 1);     /* FEAT_I8MM */
+    t = FIELD_DP64(t, ID_AA64ISAR1, XS, 1);       /* FEAT_XS */
     cpu->isar.id_aa64isar1 = t;
 
     t = cpu->isar.id_aa64isar2;
-- 
2.34.1

From: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>

Add system test to make sure FEAT_XS is enabled for max cpu emulation
and that QEMU doesn't crash when encountering an NXS instruction
variant.

Signed-off-by: Manos Pitsidianakis <manos.pitsidianakis@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20241211144440.2700268-7-peter.maydell@linaro.org
[PMM: In ISAR field test, mask with 0xf, not 0xff; use < rather
 than an equality test to follow the standard ID register field
 check guidelines]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/tcg/aarch64/system/feat-xs.c | 27 +++++++++++++++++++++++++++
 1 file changed, 27 insertions(+)
 create mode 100644 tests/tcg/aarch64/system/feat-xs.c

diff --git a/tests/tcg/aarch64/system/feat-xs.c b/tests/tcg/aarch64/system/feat-xs.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/tcg/aarch64/system/feat-xs.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * FEAT_XS Test
+ *
+ * Copyright (c) 2024 Linaro Ltd
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#include <minilib.h>
+#include <stdint.h>
+
+int main(void)
+{
+    uint64_t isar1;
+
+    asm volatile ("mrs %0, id_aa64isar1_el1" : "=r"(isar1));
+    if (((isar1 >> 56) & 0xf) < 1) {
+        ml_printf("FEAT_XS not supported by CPU");
+        return 1;
+    }
+    /* VMALLE1NXS */
+    asm volatile (".inst 0xd508971f");
+    /* VMALLE1OSNXS */
+    asm volatile (".inst 0xd508911f");
+
+    return 0;
+}
-- 
2.34.1

In the GICv3 ITS model, we have a common coding pattern which has a
local C struct like "DTEntry dte", which is a C representation of an
in-guest-memory data structure, and we call a function such as
get_dte() to read guest memory and fill in the C struct.  These
functions to read in the struct sometimes have cases where they will
leave early and not fill in the whole struct (for instance get_dte()
will set "dte->valid = false" and nothing else for the case where it
is passed an entry_addr implying that there is no L2 table entry for
the DTE).  This then causes potential use of uninitialized memory
later, for instance when we call a trace event which prints all the
fields of the struct.  Sufficiently advanced compilers may produce
-Wmaybe-uninitialized warnings about this, especially if LTO is
enabled.

Rather than trying to carefully separate out these trace events into
"only the 'valid' field is initialized" and "all fields can be
printed", zero-init all the structs when we define them. None of
these structs are large (the biggest is 24 bytes) and having
consistent behaviour is less likely to be buggy.

Cc: qemu-stable@nongnu.org
Resolves: https://gitlab.com/qemu-project/qemu/-/issues/2718
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20241213182337.3343068-1-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 44 ++++++++++++++++++++---------------------
 1 file changed, 22 insertions(+), 22 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult lookup_vte(GICv3ITSState *s, const char *who,
 static ItsCmdResult process_its_cmd_phys(GICv3ITSState *s, const ITEntry *ite,
                                          int irqlevel)
 {
-    CTEntry cte;
+    CTEntry cte = {};
     ItsCmdResult cmdres;
 
     cmdres = lookup_cte(s, __func__, ite->icid, &cte);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd_phys(GICv3ITSState *s, const ITEntry *ite,
 static ItsCmdResult process_its_cmd_virt(GICv3ITSState *s, const ITEntry *ite,
                                          int irqlevel)
 {
-    VTEntry vte;
+    VTEntry vte = {};
     ItsCmdResult cmdres;
 
     cmdres = lookup_vte(s, __func__, ite->vpeid, &vte);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd_virt(GICv3ITSState *s, const ITEntry *ite,
 static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
                                        uint32_t eventid, ItsCmdType cmd)
 {
-    DTEntry dte;
-    ITEntry ite;
+    DTEntry dte = {};
+    ITEntry ite = {};
     ItsCmdResult cmdres;
     int irqlevel;
 
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     uint32_t pIntid = 0;
     uint64_t num_eventids;
     uint16_t icid = 0;
-    DTEntry dte;
-    ITEntry ite;
+    DTEntry dte = {};
+    ITEntry ite = {};
 
     devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
     eventid = cmdpkt[1] & EVENTID_MASK;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_vmapti(GICv3ITSState *s, const uint64_t *cmdpkt,
 {
     uint32_t devid, eventid, vintid, doorbell, vpeid;
     uint32_t num_eventids;
-    DTEntry dte;
-    ITEntry ite;
+    DTEntry dte = {};
+    ITEntry ite = {};
 
     if (!its_feature_virtual(s)) {
         return CMD_CONTINUE;
@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, const CTEntry *cte)
 static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
     uint16_t icid;
-    CTEntry cte;
+    CTEntry cte = {};
 
     icid = cmdpkt[2] & ICID_MASK;
     cte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, const DTEntry *dte)
 static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
     uint32_t devid;
-    DTEntry dte;
+    DTEntry dte = {};
 
     devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
     dte.size = cmdpkt[1] & SIZE_MASK;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
     uint32_t devid, eventid;
     uint16_t new_icid;
-    DTEntry dte;
-    CTEntry old_cte, new_cte;
-    ITEntry old_ite;
+    DTEntry dte = {};
+    CTEntry old_cte = {}, new_cte = {};
+    ITEntry old_ite = {};
     ItsCmdResult cmdres;
 
     devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
@@ -XXX,XX +XXX,XX @@ static bool update_vte(GICv3ITSState *s, uint32_t vpeid, const VTEntry *vte)
 
 static ItsCmdResult process_vmapp(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
-    VTEntry vte;
+    VTEntry vte = {};
     uint32_t vpeid;
 
     if (!its_feature_virtual(s)) {
@@ -XXX,XX +XXX,XX @@ static void vmovp_callback(gpointer data, gpointer opaque)
      */
     GICv3ITSState *s = data;
     VmovpCallbackData *cbdata = opaque;
-    VTEntry vte;
+    VTEntry vte = {};
     ItsCmdResult cmdres;
 
     cmdres = lookup_vte(s, __func__, cbdata->vpeid, &vte);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_vmovi(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
     uint32_t devid, eventid, vpeid, doorbell;
     bool doorbell_valid;
-    DTEntry dte;
-    ITEntry ite;
-    VTEntry old_vte, new_vte;
+    DTEntry dte = {};
+    ITEntry ite = {};
+    VTEntry old_vte = {}, new_vte = {};
     ItsCmdResult cmdres;
 
     if (!its_feature_virtual(s)) {
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_vinvall(GICv3ITSState *s, const uint64_t *cmdpkt)
 static ItsCmdResult process_inv(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
     uint32_t devid, eventid;
-    ITEntry ite;
-    DTEntry dte;
-    CTEntry cte;
-    VTEntry vte;
+    ITEntry ite = {};
+    DTEntry dte = {};
+    CTEntry cte = {};
+    VTEntry vte = {};
     ItsCmdResult cmdres;
 
     devid = FIELD_EX64(cmdpkt[0], INV_0, DEVICEID);
-- 
2.34.1

From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>

Update the URLs for the binaries we use for the firmware in the
sbsa-ref functional tests.

The firmware is built using Debian 'bookworm' cross toolchain (gcc
12.2.0).

Used versions:

- Trusted Firmware v2.12.0
- Tianocore EDK2 stable202411
- Tianocore EDK2 Platforms code commit 4b3530d

This allows us to move away from "some git commit on trunk"
to a stable release for both TF-A and EDK2.

Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Message-id: 20241125125448.185504-1-marcin.juszkiewicz@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/functional/test_aarch64_sbsaref.py | 20 ++++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/tests/functional/test_aarch64_sbsaref.py b/tests/functional/test_aarch64_sbsaref.py
index XXXXXXX..XXXXXXX 100755
--- a/tests/functional/test_aarch64_sbsaref.py
+++ b/tests/functional/test_aarch64_sbsaref.py
@@ -XXX,XX +XXX,XX @@ def fetch_firmware(test):
 
     Used components:
 
-    - Trusted Firmware         v2.11.0
-    - Tianocore EDK2           4d4f569924
-    - Tianocore EDK2-platforms 3f08401
+    - Trusted Firmware         v2.12.0
+    - Tianocore EDK2           edk2-stable202411
+    - Tianocore EDK2-platforms 4b3530d
 
     """
 
@@ -XXX,XX +XXX,XX @@ class Aarch64SbsarefMachine(QemuSystemTest):
 
     ASSET_FLASH0 = Asset(
         ('https://artifacts.codelinaro.org/artifactory/linaro-419-sbsa-ref/'
-         '20240619-148232/edk2/SBSA_FLASH0.fd.xz'),
-        '0c954842a590988f526984de22e21ae0ab9cb351a0c99a8a58e928f0c7359cf7')
+         '20241122-189881/edk2/SBSA_FLASH0.fd.xz'),
+        '76eb89d42eebe324e4395329f47447cda9ac920aabcf99aca85424609c3384a5')
 
     ASSET_FLASH1 = Asset(
         ('https://artifacts.codelinaro.org/artifactory/linaro-419-sbsa-ref/'
-         '20240619-148232/edk2/SBSA_FLASH1.fd.xz'),
-        'c6ec39374c4d79bb9e9cdeeb6db44732d90bb4a334cec92002b3f4b9cac4b5ee')
+         '20241122-189881/edk2/SBSA_FLASH1.fd.xz'),
+        'f850f243bd8dbd49c51e061e0f79f1697546938f454aeb59ab7d93e5f0d412fc')
 
     def test_sbsaref_edk2_firmware(self):
 
@@ -XXX,XX +XXX,XX @@ def test_sbsaref_edk2_firmware(self):
 
         # AP Trusted ROM
         wait_for_console_pattern(self, "Booting Trusted Firmware")
-        wait_for_console_pattern(self, "BL1: v2.11.0(release):")
+        wait_for_console_pattern(self, "BL1: v2.12.0(release):")
         wait_for_console_pattern(self, "BL1: Booting BL2")
 
         # Trusted Boot Firmware
-        wait_for_console_pattern(self, "BL2: v2.11.0(release)")
+        wait_for_console_pattern(self, "BL2: v2.12.0(release)")
         wait_for_console_pattern(self, "Booting BL31")
 
         # EL3 Runtime Software
-        wait_for_console_pattern(self, "BL31: v2.11.0(release)")
+        wait_for_console_pattern(self, "BL31: v2.12.0(release)")
 
         # Non-trusted Firmware
         wait_for_console_pattern(self, "UEFI firmware (version 1.0")
-- 
2.34.1