Series comparison

-[PULL 00/43] target-arm queue
+[PULL 00/24] target-arm queue
-First arm pullreq for 6.1 cycle. The big stuff here is RTH's alignment series.
+The following changes since commit 5a67d7735d4162630769ef495cf813244fc850df:
-thanks
+  Merge remote-tracking branch 'remotes/berrange-gitlab/tags/tls-deps-pull-request' into staging (2021-07-02 08:22:39 +0100)
 -- PMM
 The following changes since commit ccdf06c1db192152ac70a1dd974c624f566cb7d4:
   Open 6.1 development tree (2021-04-30 11:15:40 +0100)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210430
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210702
-for you to fetch changes up to a6091108aa44e9017af4ca13c43f55a629e3744c:
+for you to fetch changes up to 04ea4d3cfd0a21b248ece8eb7a9436a3d9898dd8:
-  hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows (2021-04-30 11:16:52 +0100)
+  target/arm: Implement MVE shifts by register (2021-07-02 11:48:38 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
+ * more MVE instructions
- * hw: add compat machines for 6.1
+ * hw/gpio/gpio_pwr: use shutdown function for reboot
- * Fault misaligned accesses where the architecture requires it
+ * target/arm: Check NaN mode before silencing NaN
- * Fix some corner cases of MTE faults (notably with misaligned accesses)
+ * tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
- * Make Thumb store insns UNDEF for Rn==1111
+ * hw/arm: Add basic power management to raspi.
- * hw/arm/smmuv3: Support 16K translation granule
+ * docs/system/arm: Add quanta-gbs-bmc, quanta-q7l1-bmc
 ----------------------------------------------------------------
-Cornelia Huck (1):
+Joe Komlodi (1):
-      hw: add compat machines for 6.1
+      target/arm: Check NaN mode before silencing NaN
-Kunkun Jiang (1):
+Maxim Uvarov (1):
-      hw/arm/smmuv3: Support 16K translation granule
+      hw/gpio/gpio_pwr: use shutdown function for reboot
-Peter Maydell (2):
+Nolan Leake (1):
-      target/arm: Make Thumb store insns UNDEF for Rn==1111
+      hw/arm: Add basic power management to raspi.
       hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
-Richard Henderson (39):
+Patrick Venture (2):
-      target/arm: Fix mte_checkN
+      docs/system/arm: Add quanta-q7l1-bmc reference
-      target/arm: Split out mte_probe_int
+      docs/system/arm: Add quanta-gbs-bmc reference
       target/arm: Fix unaligned checks for mte_check1, mte_probe1
       test/tcg/aarch64: Add mte-5
       target/arm: Replace MTEDESC ESIZE+TSIZE with SIZEM1
       target/arm: Merge mte_check1, mte_checkN
       target/arm: Rename mte_probe1 to mte_probe
       target/arm: Simplify sve mte checking
       target/arm: Remove log2_esize parameter to gen_mte_checkN
       target/arm: Fix decode of align in VLDST_single
       target/arm: Rename TBFLAG_A32, SCTLR_B
       target/arm: Rename TBFLAG_ANY, PSTATE_SS
       target/arm: Add wrapper macros for accessing tbflags
       target/arm: Introduce CPUARMTBFlags
       target/arm: Move mode specific TB flags to tb->cs_base
       target/arm: Move TBFLAG_AM32 bits to the top
       target/arm: Move TBFLAG_ANY bits to the bottom
       target/arm: Add ALIGN_MEM to TBFLAG_ANY
       target/arm: Adjust gen_aa32_{ld, st}_i32 for align+endianness
       target/arm: Merge gen_aa32_frob64 into gen_aa32_ld_i64
       target/arm: Fix SCTLR_B test for TCGv_i64 load/store
       target/arm: Adjust gen_aa32_{ld, st}_i64 for align+endianness
       target/arm: Enforce word alignment for LDRD/STRD
       target/arm: Enforce alignment for LDA/LDAH/STL/STLH
       target/arm: Enforce alignment for LDM/STM
       target/arm: Enforce alignment for RFE
       target/arm: Enforce alignment for SRS
       target/arm: Enforce alignment for VLDM/VSTM
       target/arm: Enforce alignment for VLDR/VSTR
       target/arm: Enforce alignment for VLDn (all lanes)
       target/arm: Enforce alignment for VLDn/VSTn (multiple)
       target/arm: Enforce alignment for VLDn/VSTn (single)
       target/arm: Use finalize_memop for aa64 gpr load/store
       target/arm: Use finalize_memop for aa64 fpr load/store
       target/arm: Enforce alignment for aa64 load-acq/store-rel
       target/arm: Use MemOp for size + endian in aa64 vector ld/st
       target/arm: Enforce alignment for aa64 vector LDn/STn (multiple)
       target/arm: Enforce alignment for aa64 vector LDn/STn (single)
       target/arm: Enforce alignment for sve LD1R
- include/hw/boards.h               |   3 +
+Peter Maydell (18):
- include/hw/i386/pc.h              |   3 +
+      target/arm: Fix MVE widening/narrowing VLDR/VSTR offset calculation
- include/hw/pci-host/gpex.h        |   4 +
+      target/arm: Fix bugs in MVE VRMLALDAVH, VRMLSLDAVH
- target/arm/cpu.h                  | 105 ++++++++++-----
+      target/arm: Make asimd_imm_const() public
- target/arm/helper-a64.h           |   3 +-
+      target/arm: Use asimd_imm_const for A64 decode
- target/arm/internals.h            |  11 +-
+      target/arm: Use dup_const() instead of bitfield_replicate()
- target/arm/translate-a64.h        |   2 +-
+      target/arm: Implement MVE logical immediate insns
- target/arm/translate.h            |  38 ++++++
+      target/arm: Implement MVE vector shift left by immediate insns
- target/arm/neon-ls.decode         |   4 +-
+      target/arm: Implement MVE vector shift right by immediate insns
- hw/arm/smmuv3.c                   |   6 +-
+      target/arm: Implement MVE VSHLL
- hw/arm/virt.c                     |   7 +-
+      target/arm: Implement MVE VSRI, VSLI
- hw/core/machine.c                 |   5 +
+      target/arm: Implement MVE VSHRN, VRSHRN
- hw/i386/pc.c                      |   3 +
+      target/arm: Implement MVE saturating narrowing shifts
- hw/i386/pc_piix.c                 |  14 +-
+      target/arm: Implement MVE VSHLC
- hw/i386/pc_q35.c                  |  13 +-
+      target/arm: Implement MVE VADDLV
- hw/pci-host/gpex.c                |  56 +++++++-
+      target/arm: Implement MVE long shifts by immediate
- hw/ppc/spapr.c                    |  17 ++-
+      target/arm: Implement MVE long shifts by register
- hw/s390x/s390-virtio-ccw.c        |  14 +-
+      target/arm: Implement MVE shifts by immediate
- target/arm/helper-a64.c           |   2 +-
+      target/arm: Implement MVE shifts by register
  target/arm/helper.c               | 162 ++++++++++++----------
  target/arm/mte_helper.c           | 185 ++++++++++---------------
  target/arm/sve_helper.c           | 100 +++++---------
  target/arm/translate-a64.c        | 236 ++++++++++++++++----------------
  target/arm/translate-sve.c        |  11 +-
  target/arm/translate.c            | 274 ++++++++++++++++++++++----------------
  tests/tcg/aarch64/mte-5.c         |  44 ++++++
  target/arm/translate-neon.c.inc   | 117 ++++++++++++----
  target/arm/translate-vfp.c.inc    |  20 +--
  tests/tcg/aarch64/Makefile.target |   2 +-
 files changed, 878 insertions(+), 583 deletions(-)
  create mode 100644 tests/tcg/aarch64/mte-5.c
+Philippe Mathieu-Daudé (1):
+      tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
+ docs/system/arm/aspeed.rst             |   1 +
+ docs/system/arm/nuvoton.rst            |   5 +-
+ include/hw/arm/bcm2835_peripherals.h   |   3 +-
+ include/hw/misc/bcm2835_powermgt.h     |  29 ++
+ target/arm/helper-mve.h                | 108 +++++++
+ target/arm/translate.h                 |  41 +++
+ target/arm/mve.decode                  | 177 ++++++++++-
+ target/arm/t32.decode                  |  71 ++++-
+ hw/arm/bcm2835_peripherals.c           |  13 +-
+ hw/gpio/gpio_pwr.c                     |   2 +-
+ hw/misc/bcm2835_powermgt.c             | 160 ++++++++++
+ target/arm/helper-a64.c                |  12 +-
+ target/arm/mve_helper.c                | 524 +++++++++++++++++++++++++++++++--
+ target/arm/translate-a64.c             |  86 +-----
+ target/arm/translate-mve.c             | 261 +++++++++++++++-
+ target/arm/translate-neon.c            |  81 -----
+ target/arm/translate.c                 | 327 +++++++++++++++++++-
+ target/arm/vfp_helper.c                |  24 +-
+ hw/misc/meson.build                    |   1 +
+ tests/acceptance/boot_linux_console.py |  43 +++
+files changed, 1760 insertions(+), 209 deletions(-)
+ create mode 100644 include/hw/misc/bcm2835_powermgt.h
+ create mode 100644 hw/misc/bcm2835_powermgt.c

-[PULL 01/43] hw/arm/smmuv3: Support 16K translation granule
+Deleted patch
-From: Kunkun Jiang <jiangkunkun@huawei.com>
-The driver can query some bits in SMMUv3 IDR5 to learn which
-translation granules are supported. Arm recommends that SMMUv3
-implementations support at least 4K and 64K granules. But in
-the vSMMUv3, there seems to be no reason not to support 16K
-translation granule. In addition, if 16K is not supported,
-vSVA will failed to be enabled in the future for 16K guest
-kernel. So it'd better to support it.
-Signed-off-by: Kunkun Jiang <jiangkunkun@huawei.com>
-Reviewed-by: Eric Auger <eric.auger@redhat.com>
-Tested-by: Eric Auger <eric.auger@redhat.com>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- hw/arm/smmuv3.c | 6 ++++--
-file changed, 4 insertions(+), 2 deletions(-)
-diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/smmuv3.c
-+++ b/hw/arm/smmuv3.c
-@@ -XXX,XX +XXX,XX @@ static void smmuv3_init_regs(SMMUv3State *s)
-     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, RIL, 1);
-     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, HAD, 1);
--   /* 4K and 64K granule support */
-+    /* 4K, 16K and 64K granule support */
-     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN4K, 1);
-+    s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN16K, 1);
-     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN64K, 1);
-     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, OAS, SMMU_IDR5_OAS); /* 44 bits */
-@@ -XXX,XX +XXX,XX @@ static int decode_cd(SMMUTransCfg *cfg, CD *cd, SMMUEventInfo *event)
-         tg = CD_TG(cd, i);
-         tt->granule_sz = tg2granule(tg, i);
--        if ((tt->granule_sz != 12 && tt->granule_sz != 16) || CD_ENDI(cd)) {
-+        if ((tt->granule_sz != 12 && tt->granule_sz != 14 &&
-+             tt->granule_sz != 16) || CD_ENDI(cd)) {
-             goto bad_cd;
-         }
---
-.20.1

-[PULL 36/43] target/arm: Use finalize_memop for aa64 fpr load/store
+[PULL 01/24] docs/system/arm: Add quanta-q7l1-bmc reference
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Patrick Venture <venture@google.com>
-For 128-bit load/store, use 16-byte alignment.  This
+Adds a line-item reference to the supported quanta-q71l-bmc aspeed
-requires that we perform the two operations in the
+entry.
 correct order so that we generate the alignment fault
 before modifying memory.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Patrick Venture <venture@google.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Cédric Le Goater <clg@kaod.org>
-Message-id: 20210419202257.161730-27-richard.henderson@linaro.org
+Message-id: 20210615192848.1065297-2-venture@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 42 +++++++++++++++++++++++---------------
+ docs/system/arm/aspeed.rst | 1 +
-file changed, 26 insertions(+), 16 deletions(-)
+file changed, 1 insertion(+)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/docs/system/arm/aspeed.rst b/docs/system/arm/aspeed.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/docs/system/arm/aspeed.rst
-+++ b/target/arm/translate-a64.c
++++ b/docs/system/arm/aspeed.rst
-@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
+@@ -XXX,XX +XXX,XX @@ etc.
- static void do_fp_st(DisasContext *s, int srcidx, TCGv_i64 tcg_addr, int size)
+ AST2400 SoC based machines :
- {
-     /* This writes the bottom N bits of a 128 bit wide vector to memory */
+ - ``palmetto-bmc``         OpenPOWER Palmetto POWER8 BMC
--    TCGv_i64 tmp = tcg_temp_new_i64();
++- ``quanta-q71l-bmc``      OpenBMC Quanta BMC
--    tcg_gen_ld_i64(tmp, cpu_env, fp_reg_offset(s, srcidx, MO_64));
-+    TCGv_i64 tmplo = tcg_temp_new_i64();
+ AST2500 SoC based machines :
 +    MemOp mop;
 +
 +    tcg_gen_ld_i64(tmplo, cpu_env, fp_reg_offset(s, srcidx, MO_64));
 +
      if (size < 4) {
 -        tcg_gen_qemu_st_i64(tmp, tcg_addr, get_mem_index(s),
 -                            s->be_data + size);
 +        mop = finalize_memop(s, size);
 +        tcg_gen_qemu_st_i64(tmplo, tcg_addr, get_mem_index(s), mop);
      } else {
          bool be = s->be_data == MO_BE;
          TCGv_i64 tcg_hiaddr = tcg_temp_new_i64();
 +        TCGv_i64 tmphi = tcg_temp_new_i64();
 +        tcg_gen_ld_i64(tmphi, cpu_env, fp_reg_hi_offset(s, srcidx));
 +
 +        mop = s->be_data | MO_Q;
 +        tcg_gen_qemu_st_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
 +                            mop | (s->align_mem ? MO_ALIGN_16 : 0));
          tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 -        tcg_gen_qemu_st_i64(tmp, be ? tcg_hiaddr : tcg_addr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 -        tcg_gen_ld_i64(tmp, cpu_env, fp_reg_hi_offset(s, srcidx));
 -        tcg_gen_qemu_st_i64(tmp, be ? tcg_addr : tcg_hiaddr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 +        tcg_gen_qemu_st_i64(be ? tmplo : tmphi, tcg_hiaddr,
 +                            get_mem_index(s), mop);
 +
          tcg_temp_free_i64(tcg_hiaddr);
 +        tcg_temp_free_i64(tmphi);
      }
 -    tcg_temp_free_i64(tmp);
 +    tcg_temp_free_i64(tmplo);
  }
  /*
@@ -XXX,XX +XXX,XX @@ static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
      /* This always zero-extends and writes to a full 128 bit wide vector */
      TCGv_i64 tmplo = tcg_temp_new_i64();
      TCGv_i64 tmphi = NULL;
 +    MemOp mop;
      if (size < 4) {
 -        MemOp memop = s->be_data + size;
 -        tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), memop);
 +        mop = finalize_memop(s, size);
 +        tcg_gen_qemu_ld_i64(tmplo, tcg_addr, get_mem_index(s), mop);
      } else {
          bool be = s->be_data == MO_BE;
          TCGv_i64 tcg_hiaddr;
@@ -XXX,XX +XXX,XX @@ static void do_fp_ld(DisasContext *s, int destidx, TCGv_i64 tcg_addr, int size)
          tmphi = tcg_temp_new_i64();
          tcg_hiaddr = tcg_temp_new_i64();
 +        mop = s->be_data | MO_Q;
 +        tcg_gen_qemu_ld_i64(be ? tmphi : tmplo, tcg_addr, get_mem_index(s),
 +                            mop | (s->align_mem ? MO_ALIGN_16 : 0));
          tcg_gen_addi_i64(tcg_hiaddr, tcg_addr, 8);
 -        tcg_gen_qemu_ld_i64(tmplo, be ? tcg_hiaddr : tcg_addr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 -        tcg_gen_qemu_ld_i64(tmphi, be ? tcg_addr : tcg_hiaddr, get_mem_index(s),
 -                            s->be_data | MO_Q);
 +        tcg_gen_qemu_ld_i64(be ? tmplo : tmphi, tcg_hiaddr,
 +                            get_mem_index(s), mop);
          tcg_temp_free_i64(tcg_hiaddr);
      }
 --
 .20.1

-[PULL 41/43] target/arm: Enforce alignment for sve LD1R
+[PULL 02/24] docs/system/arm: Add quanta-gbs-bmc reference
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Patrick Venture <venture@google.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Add line item reference to quanta-gbs-bmc machine.
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-32-richard.henderson@linaro.org
+Signed-off-by: Patrick Venture <venture@google.com>
 Reviewed-by: Cédric Le Goater <clg@kaod.org>
 Message-id: 20210615192848.1065297-3-venture@google.com
 [PMM: fixed underline Sphinx warning]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-sve.c | 2 +-
+ docs/system/arm/nuvoton.rst | 5 +++--
-file changed, 1 insertion(+), 1 deletion(-)
+file changed, 3 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
+diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
+--- a/docs/system/arm/nuvoton.rst
-+++ b/target/arm/translate-sve.c
++++ b/docs/system/arm/nuvoton.rst
-@@ -XXX,XX +XXX,XX @@ static bool trans_LD1R_zpri(DisasContext *s, arg_rpri_load *a)
+@@ -XXX,XX +XXX,XX @@
-     clean_addr = gen_mte_check1(s, temp, false, true, msz);
+-Nuvoton iBMC boards (``npcm750-evb``, ``quanta-gsj``)
+-=====================================================
-     tcg_gen_qemu_ld_i64(temp, clean_addr, get_mem_index(s),
++Nuvoton iBMC boards (``*-bmc``, ``npcm750-evb``, ``quanta-gsj``)
--                        s->be_data | dtype_mop[a->dtype]);
++================================================================
-+                        finalize_memop(s, dtype_mop[a->dtype]));
+ The `Nuvoton iBMC`_ chips (NPCM7xx) are a family of ARM-based SoCs that are
-     /* Broadcast to *all* elements.  */
+ designed to be used as Baseboard Management Controllers (BMCs) in various
-     tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
+@@ -XXX,XX +XXX,XX @@ segment. The following machines are based on this chip :
  The NPCM730 SoC has two Cortex-A9 cores and is targeted for Data Center and
  Hyperscale applications. The following machines are based on this chip :
 +- ``quanta-gbs-bmc``    Quanta GBS server BMC
  - ``quanta-gsj``        Quanta GSJ server BMC
  There are also two more SoCs, NPCM710 and NPCM705, which are single-core
 --
 .20.1

-[PULL 06/43] test/tcg/aarch64: Add mte-5
+[PULL 03/24] hw/arm: Add basic power management to raspi.
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Nolan Leake <nolan@sigbus.net>
-Buglink: https://bugs.launchpad.net/bugs/1921948
+This is just enough to make reboot and poweroff work. Works for
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+linux, u-boot, and the arm trusted firmware. Not tested, but should
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+work for plan9, and bare-metal/hobby OSes, since they seem to generally
-Message-id: 20210416183106.1516563-5-richard.henderson@linaro.org
+do what linux does for reset.
 The watchdog timer functionality is not yet implemented.
 Resolves: https://gitlab.com/qemu-project/qemu/-/issues/64
 Signed-off-by: Nolan Leake <nolan@sigbus.net>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Message-id: 20210625210209.1870217-1-nolan@sigbus.net
 [PMM: tweaked commit title; fixed region size to 0x200;
  moved header file to include/]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- tests/tcg/aarch64/mte-5.c         | 44 +++++++++++++++++++++++++++++++
+ include/hw/arm/bcm2835_peripherals.h |   3 +-
- tests/tcg/aarch64/Makefile.target |  2 +-
+ include/hw/misc/bcm2835_powermgt.h   |  29 +++++
-files changed, 45 insertions(+), 1 deletion(-)
+ hw/arm/bcm2835_peripherals.c         |  13 ++-
- create mode 100644 tests/tcg/aarch64/mte-5.c
+ hw/misc/bcm2835_powermgt.c           | 160 +++++++++++++++++++++++++++
+ hw/misc/meson.build                  |   1 +
-diff --git a/tests/tcg/aarch64/mte-5.c b/tests/tcg/aarch64/mte-5.c
+files changed, 204 insertions(+), 2 deletions(-)
  create mode 100644 include/hw/misc/bcm2835_powermgt.h
  create mode 100644 hw/misc/bcm2835_powermgt.c
 diff --git a/include/hw/arm/bcm2835_peripherals.h b/include/hw/arm/bcm2835_peripherals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/bcm2835_peripherals.h
 +++ b/include/hw/arm/bcm2835_peripherals.h
@@ -XXX,XX +XXX,XX @@
  #include "hw/misc/bcm2835_mphi.h"
  #include "hw/misc/bcm2835_thermal.h"
  #include "hw/misc/bcm2835_cprman.h"
 +#include "hw/misc/bcm2835_powermgt.h"
  #include "hw/sd/sdhci.h"
  #include "hw/sd/bcm2835_sdhost.h"
  #include "hw/gpio/bcm2835_gpio.h"
@@ -XXX,XX +XXX,XX @@ struct BCM2835PeripheralState {
      BCM2835MphiState mphi;
      UnimplementedDeviceState txp;
      UnimplementedDeviceState armtmr;
 -    UnimplementedDeviceState powermgt;
 +    BCM2835PowerMgtState powermgt;
      BCM2835CprmanState cprman;
      PL011State uart0;
      BCM2835AuxState aux;
 diff --git a/include/hw/misc/bcm2835_powermgt.h b/include/hw/misc/bcm2835_powermgt.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/tests/tcg/aarch64/mte-5.c
++++ b/include/hw/misc/bcm2835_powermgt.h
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Memory tagging, faulting unaligned access.
++ * BCM2835 Power Management emulation
 + *
-+ * Copyright (c) 2021 Linaro Ltd
++ * Copyright (C) 2017 Marcin Chojnacki <marcinch7@gmail.com>
-+ * SPDX-License-Identifier: GPL-2.0-or-later
++ * Copyright (C) 2021 Nolan Leake <nolan@sigbus.net>
 + *
 + * This work is licensed under the terms of the GNU GPL, version 2 or later.
 + * See the COPYING file in the top-level directory.
 + */
 +
-+#include "mte.h"
++#ifndef BCM2835_POWERMGT_H
-+
++#define BCM2835_POWERMGT_H
-+void pass(int sig, siginfo_t *info, void *uc)
++
-+{
++#include "hw/sysbus.h"
-+    assert(info->si_code == SEGV_MTESERR);
++#include "qom/object.h"
-+    exit(0);
++
-+}
++#define TYPE_BCM2835_POWERMGT "bcm2835-powermgt"
-+
++OBJECT_DECLARE_SIMPLE_TYPE(BCM2835PowerMgtState, BCM2835_POWERMGT)
-+int main(int ac, char **av)
++
-+{
++struct BCM2835PowerMgtState {
-+    struct sigaction sa;
++    SysBusDevice busdev;
-+    void *p0, *p1, *p2;
++    MemoryRegion iomem;
-+    long excl = 1;
++
-+
++    uint32_t rstc;
-+    enable_mte(PR_MTE_TCF_SYNC);
++    uint32_t rsts;
-+    p0 = alloc_mte_mem(sizeof(*p0));
++    uint32_t wdog;
-+
++};
-+    /* Create two differently tagged pointers.  */
++
-+    asm("irg %0,%1,%2" : "=r"(p1) : "r"(p0), "r"(excl));
++#endif
-+    asm("gmi %0,%1,%0" : "+r"(excl) : "r" (p1));
+diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
 +    assert(excl != 1);
 +    asm("irg %0,%1,%2" : "=r"(p2) : "r"(p0), "r"(excl));
 +    assert(p1 != p2);
 +
 +    memset(&sa, 0, sizeof(sa));
 +    sa.sa_sigaction = pass;
 +    sa.sa_flags = SA_SIGINFO;
 +    sigaction(SIGSEGV, &sa, NULL);
 +
 +    /* Store store two different tags in sequential granules. */
 +    asm("stg %0, [%0]" : : "r"(p1));
 +    asm("stg %0, [%0]" : : "r"(p2 + 16));
 +
 +    /* Perform an unaligned load crossing the granules. */
 +    asm volatile("ldr %0, [%1]" : "=r"(p0) : "r"(p1 + 12));
 +    abort();
 +}
 diff --git a/tests/tcg/aarch64/Makefile.target b/tests/tcg/aarch64/Makefile.target
 index XXXXXXX..XXXXXXX 100644
---- a/tests/tcg/aarch64/Makefile.target
+--- a/hw/arm/bcm2835_peripherals.c
-+++ b/tests/tcg/aarch64/Makefile.target
++++ b/hw/arm/bcm2835_peripherals.c
-@@ -XXX,XX +XXX,XX @@ AARCH64_TESTS += bti-2
+@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_init(Object *obj)
- # MTE Tests
+     object_property_add_const_link(OBJECT(&s->dwc2), "dma-mr",
- ifneq ($(DOCKER_IMAGE)$(CROSS_CC_HAS_ARMV8_MTE),)
+                                    OBJECT(&s->gpu_bus_mr));
--AARCH64_TESTS += mte-1 mte-2 mte-3 mte-4 mte-6
++
-+AARCH64_TESTS += mte-1 mte-2 mte-3 mte-4 mte-5 mte-6
++    /* Power Management */
- mte-%: CFLAGS += -march=armv8.5-a+memtag
++    object_initialize_child(obj, "powermgt", &s->powermgt,
- endif
++                            TYPE_BCM2835_POWERMGT);
+ }
  static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
          qdev_get_gpio_in_named(DEVICE(&s->ic), BCM2835_IC_GPU_IRQ,
                                 INTERRUPT_USB));
 +    /* Power Management */
 +    if (!sysbus_realize(SYS_BUS_DEVICE(&s->powermgt), errp)) {
 +        return;
 +    }
 +
 +    memory_region_add_subregion(&s->peri_mr, PM_OFFSET,
 +                sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->powermgt), 0));
 +
      create_unimp(s, &s->txp, "bcm2835-txp", TXP_OFFSET, 0x1000);
      create_unimp(s, &s->armtmr, "bcm2835-sp804", ARMCTRL_TIMER0_1_OFFSET, 0x40);
 -    create_unimp(s, &s->powermgt, "bcm2835-powermgt", PM_OFFSET, 0x114);
      create_unimp(s, &s->i2s, "bcm2835-i2s", I2S_OFFSET, 0x100);
      create_unimp(s, &s->smi, "bcm2835-smi", SMI_OFFSET, 0x100);
      create_unimp(s, &s->spi[0], "bcm2835-spi0", SPI0_OFFSET, 0x20);
 diff --git a/hw/misc/bcm2835_powermgt.c b/hw/misc/bcm2835_powermgt.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/hw/misc/bcm2835_powermgt.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + * BCM2835 Power Management emulation
 + *
 + * Copyright (C) 2017 Marcin Chojnacki <marcinch7@gmail.com>
 + * Copyright (C) 2021 Nolan Leake <nolan@sigbus.net>
 + *
 + * This work is licensed under the terms of the GNU GPL, version 2 or later.
 + * See the COPYING file in the top-level directory.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "qemu/log.h"
 +#include "qemu/module.h"
 +#include "hw/misc/bcm2835_powermgt.h"
 +#include "migration/vmstate.h"
 +#include "sysemu/runstate.h"
 +
 +#define PASSWORD 0x5a000000
 +#define PASSWORD_MASK 0xff000000
 +
 +#define R_RSTC 0x1c
 +#define V_RSTC_RESET 0x20
 +#define R_RSTS 0x20
 +#define V_RSTS_POWEROFF 0x555 /* Linux uses partition 63 to indicate halt. */
 +#define R_WDOG 0x24
 +
 +static uint64_t bcm2835_powermgt_read(void *opaque, hwaddr offset,
 +                                      unsigned size)
 +{
 +    BCM2835PowerMgtState *s = (BCM2835PowerMgtState *)opaque;
 +    uint32_t res = 0;
 +
 +    switch (offset) {
 +    case R_RSTC:
 +        res = s->rstc;
 +        break;
 +    case R_RSTS:
 +        res = s->rsts;
 +        break;
 +    case R_WDOG:
 +        res = s->wdog;
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_read: Unknown offset 0x%08"HWADDR_PRIx
 +                      "\n", offset);
 +        res = 0;
 +        break;
 +    }
 +
 +    return res;
 +}
 +
 +static void bcm2835_powermgt_write(void *opaque, hwaddr offset,
 +                                   uint64_t value, unsigned size)
 +{
 +    BCM2835PowerMgtState *s = (BCM2835PowerMgtState *)opaque;
 +
 +    if ((value & PASSWORD_MASK) != PASSWORD) {
 +        qemu_log_mask(LOG_GUEST_ERROR,
 +                      "bcm2835_powermgt_write: Bad password 0x%"PRIx64
 +                      " at offset 0x%08"HWADDR_PRIx"\n",
 +                      value, offset);
 +        return;
 +    }
 +
 +    value = value & ~PASSWORD_MASK;
 +
 +    switch (offset) {
 +    case R_RSTC:
 +        s->rstc = value;
 +        if (value & V_RSTC_RESET) {
 +            if ((s->rsts & 0xfff) == V_RSTS_POWEROFF) {
 +                qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
 +            } else {
 +                qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_RESET);
 +            }
 +        }
 +        break;
 +    case R_RSTS:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: RSTS\n");
 +        s->rsts = value;
 +        break;
 +    case R_WDOG:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: WDOG\n");
 +        s->wdog = value;
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: Unknown offset 0x%08"HWADDR_PRIx
 +                      "\n", offset);
 +        break;
 +    }
 +}
 +
 +static const MemoryRegionOps bcm2835_powermgt_ops = {
 +    .read = bcm2835_powermgt_read,
 +    .write = bcm2835_powermgt_write,
 +    .endianness = DEVICE_NATIVE_ENDIAN,
 +    .impl.min_access_size = 4,
 +    .impl.max_access_size = 4,
 +};
 +
 +static const VMStateDescription vmstate_bcm2835_powermgt = {
 +    .name = TYPE_BCM2835_POWERMGT,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT32(rstc, BCM2835PowerMgtState),
 +        VMSTATE_UINT32(rsts, BCM2835PowerMgtState),
 +        VMSTATE_UINT32(wdog, BCM2835PowerMgtState),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
 +static void bcm2835_powermgt_init(Object *obj)
 +{
 +    BCM2835PowerMgtState *s = BCM2835_POWERMGT(obj);
 +
 +    memory_region_init_io(&s->iomem, obj, &bcm2835_powermgt_ops, s,
 +                          TYPE_BCM2835_POWERMGT, 0x200);
 +    sysbus_init_mmio(SYS_BUS_DEVICE(s), &s->iomem);
 +}
 +
 +static void bcm2835_powermgt_reset(DeviceState *dev)
 +{
 +    BCM2835PowerMgtState *s = BCM2835_POWERMGT(dev);
 +
 +    /* https://elinux.org/BCM2835_registers#PM */
 +    s->rstc = 0x00000102;
 +    s->rsts = 0x00001000;
 +    s->wdog = 0x00000000;
 +}
 +
 +static void bcm2835_powermgt_class_init(ObjectClass *klass, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->reset = bcm2835_powermgt_reset;
 +    dc->vmsd = &vmstate_bcm2835_powermgt;
 +}
 +
 +static TypeInfo bcm2835_powermgt_info = {
 +    .name          = TYPE_BCM2835_POWERMGT,
 +    .parent        = TYPE_SYS_BUS_DEVICE,
 +    .instance_size = sizeof(BCM2835PowerMgtState),
 +    .class_init    = bcm2835_powermgt_class_init,
 +    .instance_init = bcm2835_powermgt_init,
 +};
 +
 +static void bcm2835_powermgt_register_types(void)
 +{
 +    type_register_static(&bcm2835_powermgt_info);
 +}
 +
 +type_init(bcm2835_powermgt_register_types)
 diff --git a/hw/misc/meson.build b/hw/misc/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/misc/meson.build
 +++ b/hw/misc/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files(
    'bcm2835_rng.c',
    'bcm2835_thermal.c',
    'bcm2835_cprman.c',
 +  'bcm2835_powermgt.c',
  ))
  softmmu_ss.add(when: 'CONFIG_SLAVIO', if_true: files('slavio_misc.c'))
  softmmu_ss.add(when: 'CONFIG_ZYNQ', if_true: files('zynq_slcr.c', 'zynq-xadc.c'))
 --
 .20.1

-[PULL 40/43] target/arm: Enforce alignment for aa64 vector LDn/STn (single)
+[PULL 04/24] tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Add a test booting and quickly shutdown a raspi2 machine,
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+to test the power management model:
-Message-id: 20210419202257.161730-31-richard.henderson@linaro.org
    (1/1) tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_raspi2_initrd:
   console: [    0.000000] Booting Linux on physical CPU 0xf00
   console: [    0.000000] Linux version 4.14.98-v7+ (dom@dom-XPS-13-9370) (gcc version 4.9.3 (crosstool-NG crosstool-ng-1.22.0-88-g8460611)) #1200 SMP Tue Feb 12 20:27:48 GMT 2019
   console: [    0.000000] CPU: ARMv7 Processor [410fc075] revision 5 (ARMv7), cr=10c5387d
   console: [    0.000000] CPU: div instructions available: patching division code
   console: [    0.000000] CPU: PIPT / VIPT nonaliasing data cache, VIPT aliasing instruction cache
   console: [    0.000000] OF: fdt: Machine model: Raspberry Pi 2 Model B
   ...
   console: Boot successful.
   console: cat /proc/cpuinfo
   console: / # cat /proc/cpuinfo
   ...
   console: processor      : 3
   console: model name     : ARMv7 Processor rev 5 (v7l)
   console: BogoMIPS       : 125.00
   console: Features       : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt vfpd32 lpae evtstrm
   console: CPU implementer        : 0x41
   console: CPU architecture: 7
   console: CPU variant    : 0x0
   console: CPU part       : 0xc07
   console: CPU revision   : 5
   console: Hardware       : BCM2835
   console: Revision       : 0000
   console: Serial         : 0000000000000000
   console: cat /proc/iomem
   console: / # cat /proc/iomem
   console: 00000000-3bffffff : System RAM
   console: 00008000-00afffff : Kernel code
   console: 00c00000-00d468ef : Kernel data
   console: 3f006000-3f006fff : dwc_otg
   console: 3f007000-3f007eff : /soc/dma@7e007000
   console: 3f00b880-3f00b8bf : /soc/mailbox@7e00b880
   console: 3f100000-3f100027 : /soc/watchdog@7e100000
   console: 3f101000-3f102fff : /soc/cprman@7e101000
   console: 3f200000-3f2000b3 : /soc/gpio@7e200000
   PASS (24.59 s)
   RESULTS    : PASS 1 | ERROR 0 | FAIL 0 | SKIP 0 | WARN 0 | INTERRUPT 0 | CANCEL 0
   JOB TIME   : 25.02 s
 Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Wainer dos Santos Moschetta <wainersm@redhat.com>
 Message-id: 20210531113837.1689775-1-f4bug@amsat.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 9 +++++----
+ tests/acceptance/boot_linux_console.py | 43 ++++++++++++++++++++++++++
-file changed, 5 insertions(+), 4 deletions(-)
+file changed, 43 insertions(+)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/tests/acceptance/boot_linux_console.py
-+++ b/target/arm/translate-a64.c
++++ b/tests/acceptance/boot_linux_console.py
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@
-     int index = is_q << 3 | S << 2 | size;
+ from avocado import skip
-     int xs, total;
+ from avocado import skipUnless
-     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
+ from avocado_qemu import Test
-+    MemOp mop;
++from avocado_qemu import exec_command
+ from avocado_qemu import exec_command_and_wait_for_pattern
-     if (extract32(insn, 31, 1)) {
+ from avocado_qemu import interrupt_interactive_console_until_pattern
-         unallocated_encoding(s);
+ from avocado_qemu import wait_for_console_pattern
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ def test_arm_raspi2_uart0(self):
+         """
-     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
+         self.do_test_arm_raspi2(0)
-                                 total);
-+    mop = finalize_memop(s, scale);
++    def test_arm_raspi2_initrd(self):
++        """
-     tcg_ebytes = tcg_const_i64(1 << scale);
++        :avocado: tags=arch:arm
-     for (xs = 0; xs < selem; xs++) {
++        :avocado: tags=machine:raspi2
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
++        """
-             /* Load and replicate to all elements */
++        deb_url = ('http://archive.raspberrypi.org/debian/'
-             TCGv_i64 tcg_tmp = tcg_temp_new_i64();
++                   'pool/main/r/raspberrypi-firmware/'
++                   'raspberrypi-kernel_1.20190215-1_armhf.deb')
--            tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr,
++        deb_hash = 'cd284220b32128c5084037553db3c482426f3972'
--                                get_mem_index(s), s->be_data + scale);
++        deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
-+            tcg_gen_qemu_ld_i64(tcg_tmp, clean_addr, get_mem_index(s), mop);
++        kernel_path = self.extract_from_deb(deb_path, '/boot/kernel7.img')
-             tcg_gen_gvec_dup_i64(scale, vec_full_reg_offset(s, rt),
++        dtb_path = self.extract_from_deb(deb_path, '/boot/bcm2709-rpi-2-b.dtb')
-                                  (is_q + 1) * 8, vec_full_reg_size(s),
++
-                                  tcg_tmp);
++        initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
++                      '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
-         } else {
++                      'arm/rootfs-armv7a.cpio.gz')
-             /* Load/store one element per register */
++        initrd_hash = '604b2e45cdf35045846b8bbfbf2129b1891bdc9c'
-             if (is_load) {
++        initrd_path_gz = self.fetch_asset(initrd_url, asset_hash=initrd_hash)
--                do_vec_ld(s, rt, index, clean_addr, scale | s->be_data);
++        initrd_path = os.path.join(self.workdir, 'rootfs.cpio')
-+                do_vec_ld(s, rt, index, clean_addr, mop);
++        archive.gzip_uncompress(initrd_path_gz, initrd_path)
-             } else {
++
--                do_vec_st(s, rt, index, clean_addr, scale | s->be_data);
++        self.vm.set_console()
-+                do_vec_st(s, rt, index, clean_addr, mop);
++        kernel_command_line = (self.KERNEL_COMMON_COMMAND_LINE +
-             }
++                               'earlycon=pl011,0x3f201000 console=ttyAMA0 '
-         }
++                               'panic=-1 noreboot ' +
-         tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
++                               'dwc_otg.fiq_fsm_enable=0')
 +        self.vm.add_args('-kernel', kernel_path,
 +                         '-dtb', dtb_path,
 +                         '-initrd', initrd_path,
 +                         '-append', kernel_command_line,
 +                         '-no-reboot')
 +        self.vm.launch()
 +        self.wait_for_console_pattern('Boot successful.')
 +
 +        exec_command_and_wait_for_pattern(self, 'cat /proc/cpuinfo',
 +                                                'BCM2835')
 +        exec_command_and_wait_for_pattern(self, 'cat /proc/iomem',
 +                                                '/soc/cprman@7e101000')
 +        exec_command(self, 'halt')
 +        # Wait for VM to shut down gracefully
 +        self.vm.wait()
 +
      def test_arm_exynos4210_initrd(self):
          """
          :avocado: tags=arch:arm
 --
 .20.1

-[PULL 15/43] target/arm: Add wrapper macros for accessing tbflags
+[PULL 05/24] target/arm: Check NaN mode before silencing NaN
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Joe Komlodi <joe.komlodi@xilinx.com>
-We're about to split tbflags into two parts.  These macros
+If the CPU is running in default NaN mode (FPCR.DN == 1) and we execute
-will ensure that the correct part is used with the correct
+FRSQRTE, FRECPE, or FRECPX with a signaling NaN, parts_silence_nan_frac() will
-set of bits.
+assert due to fpst->default_nan_mode being set.
+To avoid this, we check to see what NaN mode we're running in before we call
+floatxx_silence_nan().
+Signed-off-by: Joe Komlodi <joe.komlodi@xilinx.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 1624662174-175828-2-git-send-email-joe.komlodi@xilinx.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-5-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h           | 22 +++++++++-
+ target/arm/helper-a64.c | 12 +++++++++---
- target/arm/helper-a64.c    |  2 +-
+ target/arm/vfp_helper.c | 24 ++++++++++++++++++------
- target/arm/helper.c        | 85 +++++++++++++++++---------------------
+files changed, 27 insertions(+), 9 deletions(-)
  target/arm/translate-a64.c | 36 ++++++++--------
  target/arm/translate.c     | 48 ++++++++++-----------
 files changed, 101 insertions(+), 92 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, TCMA, 16, 2)
- FIELD(TBFLAG_A64, MTE_ACTIVE, 18, 1)
- FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
-+/*
-+ * Helpers for using the above.
-+ */
-+#define DP_TBFLAG_ANY(DST, WHICH, VAL) \
-+    (DST = FIELD_DP32(DST, TBFLAG_ANY, WHICH, VAL))
-+#define DP_TBFLAG_A64(DST, WHICH, VAL) \
-+    (DST = FIELD_DP32(DST, TBFLAG_A64, WHICH, VAL))
-+#define DP_TBFLAG_A32(DST, WHICH, VAL) \
-+    (DST = FIELD_DP32(DST, TBFLAG_A32, WHICH, VAL))
-+#define DP_TBFLAG_M32(DST, WHICH, VAL) \
-+    (DST = FIELD_DP32(DST, TBFLAG_M32, WHICH, VAL))
-+#define DP_TBFLAG_AM32(DST, WHICH, VAL) \
-+    (DST = FIELD_DP32(DST, TBFLAG_AM32, WHICH, VAL))
-+
-+#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN, TBFLAG_ANY, WHICH)
-+#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A64, WHICH)
-+#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A32, WHICH)
-+#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_M32, WHICH)
-+#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN, TBFLAG_AM32, WHICH)
-+
- /**
-  * cpu_mmu_index:
-  * @env: The cpu environment
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
-  */
- static inline int cpu_mmu_index(CPUARMState *env, bool ifetch)
- {
--    return FIELD_EX32(env->hflags, TBFLAG_ANY, MMUIDX);
-+    return EX_TBFLAG_ANY(env->hflags, MMUIDX);
- }
- static inline bool bswap_code(bool sctlr_b)
 diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-a64.c
 +++ b/target/arm/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env, uint64_t new_pc)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
-          * the hflags rebuild, since we can pull the composite TBII field
+         float16 nan = a;
-          * from there.
+         if (float16_is_signaling_nan(a, fpst)) {
-          */
+             float_raise(float_flag_invalid, fpst);
--        tbii = FIELD_EX32(env->hflags, TBFLAG_A64, TBII);
+-            nan = float16_silence_nan(a, fpst);
-+        tbii = EX_TBFLAG_A64(env->hflags, TBII);
++            if (!fpst->default_nan_mode) {
-         if ((tbii >> extract64(new_pc, 55, 1)) & 1) {
++                nan = float16_silence_nan(a, fpst);
-             /* TBI is enabled. */
++            }
-             int core_mmu_idx = cpu_mmu_index(env, false);
+         }
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+         if (fpst->default_nan_mode) {
              nan = float16_default_nan(fpst);
@@ -XXX,XX +XXX,XX @@ float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
          float32 nan = a;
          if (float32_is_signaling_nan(a, fpst)) {
              float_raise(float_flag_invalid, fpst);
 -            nan = float32_silence_nan(a, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float32_silence_nan(a, fpst);
 +            }
          }
          if (fpst->default_nan_mode) {
              nan = float32_default_nan(fpst);
@@ -XXX,XX +XXX,XX @@ float64 HELPER(frecpx_f64)(float64 a, void *fpstp)
          float64 nan = a;
          if (float64_is_signaling_nan(a, fpst)) {
              float_raise(float_flag_invalid, fpst);
 -            nan = float64_silence_nan(a, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float64_silence_nan(a, fpst);
 +            }
          }
          if (fpst->default_nan_mode) {
              nan = float64_default_nan(fpst);
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/vfp_helper.c
-+++ b/target/arm/helper.c
++++ b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
- static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
+         float16 nan = f16;
-                                       ARMMMUIdx mmu_idx, uint32_t flags)
+         if (float16_is_signaling_nan(f16, fpst)) {
- {
+             float_raise(float_flag_invalid, fpst);
--    flags = FIELD_DP32(flags, TBFLAG_ANY, FPEXC_EL, fp_el);
+-            nan = float16_silence_nan(f16, fpst);
--    flags = FIELD_DP32(flags, TBFLAG_ANY, MMUIDX,
++            if (!fpst->default_nan_mode) {
--                       arm_to_core_mmu_idx(mmu_idx));
++                nan = float16_silence_nan(f16, fpst);
-+    DP_TBFLAG_ANY(flags, FPEXC_EL, fp_el);
++            }
 +    DP_TBFLAG_ANY(flags, MMUIDX, arm_to_core_mmu_idx(mmu_idx));
      if (arm_singlestep_active(env)) {
 -        flags = FIELD_DP32(flags, TBFLAG_ANY, SS_ACTIVE, 1);
 +        DP_TBFLAG_ANY(flags, SS_ACTIVE, 1);
      }
      return flags;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
      bool sctlr_b = arm_sctlr_b(env);
      if (sctlr_b) {
 -        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR__B, 1);
 +        DP_TBFLAG_A32(flags, SCTLR__B, 1);
      }
      if (arm_cpu_data_is_big_endian_a32(env, sctlr_b)) {
 -        flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
 +        DP_TBFLAG_ANY(flags, BE_DATA, 1);
      }
 -    flags = FIELD_DP32(flags, TBFLAG_A32, NS, !access_secure_reg(env));
 +    DP_TBFLAG_A32(flags, NS, !access_secure_reg(env));
      return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
      uint32_t flags = 0;
      if (arm_v7m_is_handler_mode(env)) {
 -        flags = FIELD_DP32(flags, TBFLAG_M32, HANDLER, 1);
 +        DP_TBFLAG_M32(flags, HANDLER, 1);
      }
      /*
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
      if (arm_feature(env, ARM_FEATURE_V8) &&
          !((mmu_idx & ARM_MMU_IDX_M_NEGPRI) &&
            (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
 -        flags = FIELD_DP32(flags, TBFLAG_M32, STACKCHECK, 1);
 +        DP_TBFLAG_M32(flags, STACKCHECK, 1);
      }
      return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_aprofile(CPUARMState *env)
  {
      int flags = 0;
 -    flags = FIELD_DP32(flags, TBFLAG_ANY, DEBUG_TARGET_EL,
 -                       arm_debug_target_el(env));
 +    DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
      return flags;
  }
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
      uint32_t flags = rebuild_hflags_aprofile(env);
      if (arm_el_is_aa64(env, 1)) {
 -        flags = FIELD_DP32(flags, TBFLAG_A32, VFPEN, 1);
 +        DP_TBFLAG_A32(flags, VFPEN, 1);
      }
      if (arm_current_el(env) < 2 && env->cp15.hstr_el2 &&
          (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
 -        flags = FIELD_DP32(flags, TBFLAG_A32, HSTR_ACTIVE, 1);
 +        DP_TBFLAG_A32(flags, HSTR_ACTIVE, 1);
      }
      return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
      uint64_t sctlr;
      int tbii, tbid;
 -    flags = FIELD_DP32(flags, TBFLAG_ANY, AARCH64_STATE, 1);
 +    DP_TBFLAG_ANY(flags, AARCH64_STATE, 1);
      /* Get control bits for tagged addresses.  */
      tbid = aa64_va_parameter_tbi(tcr, mmu_idx);
      tbii = tbid & ~aa64_va_parameter_tbid(tcr, mmu_idx);
 -    flags = FIELD_DP32(flags, TBFLAG_A64, TBII, tbii);
 -    flags = FIELD_DP32(flags, TBFLAG_A64, TBID, tbid);
 +    DP_TBFLAG_A64(flags, TBII, tbii);
 +    DP_TBFLAG_A64(flags, TBID, tbid);
      if (cpu_isar_feature(aa64_sve, env_archcpu(env))) {
          int sve_el = sve_exception_el(env, el);
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
          } else {
              zcr_len = sve_zcr_len_for_el(env, el);
          }
--        flags = FIELD_DP32(flags, TBFLAG_A64, SVEEXC_EL, sve_el);
+         if (fpst->default_nan_mode) {
--        flags = FIELD_DP32(flags, TBFLAG_A64, ZCR_LEN, zcr_len);
+             nan =  float16_default_nan(fpst);
-+        DP_TBFLAG_A64(flags, SVEEXC_EL, sve_el);
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(recpe_f32)(float32 input, void *fpstp)
-+        DP_TBFLAG_A64(flags, ZCR_LEN, zcr_len);
+         float32 nan = f32;
-     }
+         if (float32_is_signaling_nan(f32, fpst)) {
+             float_raise(float_flag_invalid, fpst);
-     sctlr = regime_sctlr(env, stage1);
+-            nan = float32_silence_nan(f32, fpst);
++            if (!fpst->default_nan_mode) {
-     if (arm_cpu_data_is_big_endian_a64(el, sctlr)) {
++                nan = float32_silence_nan(f32, fpst);
--        flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
++            }
 +        DP_TBFLAG_ANY(flags, BE_DATA, 1);
      }
      if (cpu_isar_feature(aa64_pauth, env_archcpu(env))) {
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
           * The decision of which action to take is left to a helper.
           */
          if (sctlr & (SCTLR_EnIA | SCTLR_EnIB | SCTLR_EnDA | SCTLR_EnDB)) {
 -            flags = FIELD_DP32(flags, TBFLAG_A64, PAUTH_ACTIVE, 1);
 +            DP_TBFLAG_A64(flags, PAUTH_ACTIVE, 1);
          }
-     }
+         if (fpst->default_nan_mode) {
+             nan =  float32_default_nan(fpst);
-     if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(recpe_f64)(float64 input, void *fpstp)
-         /* Note that SCTLR_EL[23].BT == SCTLR_BT1.  */
+         float64 nan = f64;
-         if (sctlr & (el == 0 ? SCTLR_BT0 : SCTLR_BT1)) {
+         if (float64_is_signaling_nan(f64, fpst)) {
--            flags = FIELD_DP32(flags, TBFLAG_A64, BT, 1);
+             float_raise(float_flag_invalid, fpst);
-+            DP_TBFLAG_A64(flags, BT, 1);
+-            nan = float64_silence_nan(f64, fpst);
 +            if (!fpst->default_nan_mode) {
 +                nan = float64_silence_nan(f64, fpst);
 +            }
          }
-     }
+         if (fpst->default_nan_mode) {
+             nan =  float64_default_nan(fpst);
-@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
-         case ARMMMUIdx_SE10_1:
+         float16 nan = f16;
-         case ARMMMUIdx_SE10_1_PAN:
+         if (float16_is_signaling_nan(f16, s)) {
-             /* TODO: ARMv8.3-NV */
+             float_raise(float_flag_invalid, s);
--            flags = FIELD_DP32(flags, TBFLAG_A64, UNPRIV, 1);
+-            nan = float16_silence_nan(f16, s);
-+            DP_TBFLAG_A64(flags, UNPRIV, 1);
++            if (!s->default_nan_mode) {
-             break;
++                nan = float16_silence_nan(f16, fpstp);
-         case ARMMMUIdx_E20_2:
++            }
          case ARMMMUIdx_E20_2_PAN:
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
               * gated by HCR_EL2.<E2H,TGE> == '11', and so is LDTR.
               */
              if (env->cp15.hcr_el2 & HCR_TGE) {
 -                flags = FIELD_DP32(flags, TBFLAG_A64, UNPRIV, 1);
 +                DP_TBFLAG_A64(flags, UNPRIV, 1);
              }
              break;
          default:
@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
           * 4) If no Allocation Tag Access, then all accesses are Unchecked.
           */
          if (allocation_tag_access_enabled(env, el, sctlr)) {
 -            flags = FIELD_DP32(flags, TBFLAG_A64, ATA, 1);
 +            DP_TBFLAG_A64(flags, ATA, 1);
              if (tbid
                  && !(env->pstate & PSTATE_TCO)
                  && (sctlr & (el == 0 ? SCTLR_TCF0 : SCTLR_TCF))) {
 -                flags = FIELD_DP32(flags, TBFLAG_A64, MTE_ACTIVE, 1);
 +                DP_TBFLAG_A64(flags, MTE_ACTIVE, 1);
              }
          }
-         /* And again for unprivileged accesses, if required.  */
+         if (s->default_nan_mode) {
--        if (FIELD_EX32(flags, TBFLAG_A64, UNPRIV)
+             nan =  float16_default_nan(s);
-+        if (EX_TBFLAG_A64(flags, UNPRIV)
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
-             && tbid
+         float32 nan = f32;
-             && !(env->pstate & PSTATE_TCO)
+         if (float32_is_signaling_nan(f32, s)) {
-             && (sctlr & SCTLR_TCF0)
+             float_raise(float_flag_invalid, s);
-             && allocation_tag_access_enabled(env, 0, sctlr)) {
+-            nan = float32_silence_nan(f32, s);
--            flags = FIELD_DP32(flags, TBFLAG_A64, MTE0_ACTIVE, 1);
++            if (!s->default_nan_mode) {
-+            DP_TBFLAG_A64(flags, MTE0_ACTIVE, 1);
++                nan = float32_silence_nan(f32, fpstp);
 +            }
          }
-         /* Cache TCMA as well as TBI. */
+         if (s->default_nan_mode) {
--        flags = FIELD_DP32(flags, TBFLAG_A64, TCMA,
+             nan =  float32_default_nan(s);
--                           aa64_va_parameter_tcma(tcr, mmu_idx));
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
-+        DP_TBFLAG_A64(flags, TCMA, aa64_va_parameter_tcma(tcr, mmu_idx));
+         float64 nan = f64;
-     }
+         if (float64_is_signaling_nan(f64, s)) {
+             float_raise(float_flag_invalid, s);
-     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
+-            nan = float64_silence_nan(f64, s);
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
++            if (!s->default_nan_mode) {
-     *cs_base = 0;
++                nan = float64_silence_nan(f64, fpstp);
-     assert_hflags_rebuild_correctly(env);
++            }
 -    if (FIELD_EX32(flags, TBFLAG_ANY, AARCH64_STATE)) {
 +    if (EX_TBFLAG_ANY(flags, AARCH64_STATE)) {
          *pc = env->pc;
          if (cpu_isar_feature(aa64_bti, env_archcpu(env))) {
 -            flags = FIELD_DP32(flags, TBFLAG_A64, BTYPE, env->btype);
 +            DP_TBFLAG_A64(flags, BTYPE, env->btype);
          }
-     } else {
+         if (s->default_nan_mode) {
-         *pc = env->regs[15];
+             nan =  float64_default_nan(s);
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
              if (arm_feature(env, ARM_FEATURE_M_SECURITY) &&
                  FIELD_EX32(env->v7m.fpccr[M_REG_S], V7M_FPCCR, S)
                  != env->v7m.secure) {
 -                flags = FIELD_DP32(flags, TBFLAG_M32, FPCCR_S_WRONG, 1);
 +                DP_TBFLAG_M32(flags, FPCCR_S_WRONG, 1);
              }
              if ((env->v7m.fpccr[env->v7m.secure] & R_V7M_FPCCR_ASPEN_MASK) &&
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                   * active FP context; we must create a new FP context before
                   * executing any FP insn.
                   */
 -                flags = FIELD_DP32(flags, TBFLAG_M32, NEW_FP_CTXT_NEEDED, 1);
 +                DP_TBFLAG_M32(flags, NEW_FP_CTXT_NEEDED, 1);
              }
              bool is_secure = env->v7m.fpccr[M_REG_S] & R_V7M_FPCCR_S_MASK;
              if (env->v7m.fpccr[is_secure] & R_V7M_FPCCR_LSPACT_MASK) {
 -                flags = FIELD_DP32(flags, TBFLAG_M32, LSPACT, 1);
 +                DP_TBFLAG_M32(flags, LSPACT, 1);
              }
          } else {
              /*
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
               * Note that VECLEN+VECSTRIDE are RES0 for M-profile.
               */
              if (arm_feature(env, ARM_FEATURE_XSCALE)) {
 -                flags = FIELD_DP32(flags, TBFLAG_A32,
 -                                   XSCALE_CPAR, env->cp15.c15_cpar);
 +                DP_TBFLAG_A32(flags, XSCALE_CPAR, env->cp15.c15_cpar);
              } else {
 -                flags = FIELD_DP32(flags, TBFLAG_A32, VECLEN,
 -                                   env->vfp.vec_len);
 -                flags = FIELD_DP32(flags, TBFLAG_A32, VECSTRIDE,
 -                                   env->vfp.vec_stride);
 +                DP_TBFLAG_A32(flags, VECLEN, env->vfp.vec_len);
 +                DP_TBFLAG_A32(flags, VECSTRIDE, env->vfp.vec_stride);
              }
              if (env->vfp.xregs[ARM_VFP_FPEXC] & (1 << 30)) {
 -                flags = FIELD_DP32(flags, TBFLAG_A32, VFPEN, 1);
 +                DP_TBFLAG_A32(flags, VFPEN, 1);
              }
          }
 -        flags = FIELD_DP32(flags, TBFLAG_AM32, THUMB, env->thumb);
 -        flags = FIELD_DP32(flags, TBFLAG_AM32, CONDEXEC, env->condexec_bits);
 +        DP_TBFLAG_AM32(flags, THUMB, env->thumb);
 +        DP_TBFLAG_AM32(flags, CONDEXEC, env->condexec_bits);
      }
      /*
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
       *     1            1       Active-not-pending
       * SS_ACTIVE is set in hflags; PSTATE__SS is computed every TB.
       */
 -    if (FIELD_EX32(flags, TBFLAG_ANY, SS_ACTIVE) &&
 -        (env->pstate & PSTATE_SS)) {
 -        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE__SS, 1);
 +    if (EX_TBFLAG_ANY(flags, SS_ACTIVE) && (env->pstate & PSTATE_SS)) {
 +        DP_TBFLAG_ANY(flags, PSTATE__SS, 1);
      }
      *pflags = flags;
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
                                 !arm_el_is_aa64(env, 3);
      dc->thumb = 0;
      dc->sctlr_b = 0;
 -    dc->be_data = FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
 +    dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
      dc->condexec_mask = 0;
      dc->condexec_cond = 0;
 -    core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
 +    core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
      dc->mmu_idx = core_to_aa64_mmu_idx(core_mmu_idx);
 -    dc->tbii = FIELD_EX32(tb_flags, TBFLAG_A64, TBII);
 -    dc->tbid = FIELD_EX32(tb_flags, TBFLAG_A64, TBID);
 -    dc->tcma = FIELD_EX32(tb_flags, TBFLAG_A64, TCMA);
 +    dc->tbii = EX_TBFLAG_A64(tb_flags, TBII);
 +    dc->tbid = EX_TBFLAG_A64(tb_flags, TBID);
 +    dc->tcma = EX_TBFLAG_A64(tb_flags, TCMA);
      dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
  #if !defined(CONFIG_USER_ONLY)
      dc->user = (dc->current_el == 0);
  #endif
 -    dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
 -    dc->sve_excp_el = FIELD_EX32(tb_flags, TBFLAG_A64, SVEEXC_EL);
 -    dc->sve_len = (FIELD_EX32(tb_flags, TBFLAG_A64, ZCR_LEN) + 1) * 16;
 -    dc->pauth_active = FIELD_EX32(tb_flags, TBFLAG_A64, PAUTH_ACTIVE);
 -    dc->bt = FIELD_EX32(tb_flags, TBFLAG_A64, BT);
 -    dc->btype = FIELD_EX32(tb_flags, TBFLAG_A64, BTYPE);
 -    dc->unpriv = FIELD_EX32(tb_flags, TBFLAG_A64, UNPRIV);
 -    dc->ata = FIELD_EX32(tb_flags, TBFLAG_A64, ATA);
 -    dc->mte_active[0] = FIELD_EX32(tb_flags, TBFLAG_A64, MTE_ACTIVE);
 -    dc->mte_active[1] = FIELD_EX32(tb_flags, TBFLAG_A64, MTE0_ACTIVE);
 +    dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
 +    dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
 +    dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
 +    dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
 +    dc->bt = EX_TBFLAG_A64(tb_flags, BT);
 +    dc->btype = EX_TBFLAG_A64(tb_flags, BTYPE);
 +    dc->unpriv = EX_TBFLAG_A64(tb_flags, UNPRIV);
 +    dc->ata = EX_TBFLAG_A64(tb_flags, ATA);
 +    dc->mte_active[0] = EX_TBFLAG_A64(tb_flags, MTE_ACTIVE);
 +    dc->mte_active[1] = EX_TBFLAG_A64(tb_flags, MTE0_ACTIVE);
      dc->vec_len = 0;
      dc->vec_stride = 0;
      dc->cp_regs = arm_cpu->cp_regs;
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
       *   emit code to generate a software step exception
       *   end the TB
       */
 -    dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
 -    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
 +    dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
 +    dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
      dc->is_ldex = false;
 -    dc->debug_target_el = FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
 +    dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
      /* Bound the number of insns to execute to those left on the page.  */
      bound = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
       */
      dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
                                 !arm_el_is_aa64(env, 3);
 -    dc->thumb = FIELD_EX32(tb_flags, TBFLAG_AM32, THUMB);
 -    dc->be_data = FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
 -    condexec = FIELD_EX32(tb_flags, TBFLAG_AM32, CONDEXEC);
 +    dc->thumb = EX_TBFLAG_AM32(tb_flags, THUMB);
 +    dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
 +    condexec = EX_TBFLAG_AM32(tb_flags, CONDEXEC);
      dc->condexec_mask = (condexec & 0xf) << 1;
      dc->condexec_cond = condexec >> 4;
 -    core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
 +    core_mmu_idx = EX_TBFLAG_ANY(tb_flags, MMUIDX);
      dc->mmu_idx = core_to_arm_mmu_idx(env, core_mmu_idx);
      dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
  #if !defined(CONFIG_USER_ONLY)
      dc->user = (dc->current_el == 0);
  #endif
 -    dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
 +    dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
      if (arm_feature(env, ARM_FEATURE_M)) {
          dc->vfp_enabled = 1;
          dc->be_data = MO_TE;
 -        dc->v7m_handler_mode = FIELD_EX32(tb_flags, TBFLAG_M32, HANDLER);
 +        dc->v7m_handler_mode = EX_TBFLAG_M32(tb_flags, HANDLER);
          dc->v8m_secure = arm_feature(env, ARM_FEATURE_M_SECURITY) &&
              regime_is_secure(env, dc->mmu_idx);
 -        dc->v8m_stackcheck = FIELD_EX32(tb_flags, TBFLAG_M32, STACKCHECK);
 -        dc->v8m_fpccr_s_wrong =
 -            FIELD_EX32(tb_flags, TBFLAG_M32, FPCCR_S_WRONG);
 +        dc->v8m_stackcheck = EX_TBFLAG_M32(tb_flags, STACKCHECK);
 +        dc->v8m_fpccr_s_wrong = EX_TBFLAG_M32(tb_flags, FPCCR_S_WRONG);
          dc->v7m_new_fp_ctxt_needed =
 -            FIELD_EX32(tb_flags, TBFLAG_M32, NEW_FP_CTXT_NEEDED);
 -        dc->v7m_lspact = FIELD_EX32(tb_flags, TBFLAG_M32, LSPACT);
 +            EX_TBFLAG_M32(tb_flags, NEW_FP_CTXT_NEEDED);
 +        dc->v7m_lspact = EX_TBFLAG_M32(tb_flags, LSPACT);
      } else {
 -        dc->be_data =
 -            FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
 -        dc->debug_target_el =
 -            FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
 -        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR__B);
 -        dc->hstr_active = FIELD_EX32(tb_flags, TBFLAG_A32, HSTR_ACTIVE);
 -        dc->ns = FIELD_EX32(tb_flags, TBFLAG_A32, NS);
 -        dc->vfp_enabled = FIELD_EX32(tb_flags, TBFLAG_A32, VFPEN);
 +        dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
 +        dc->sctlr_b = EX_TBFLAG_A32(tb_flags, SCTLR__B);
 +        dc->hstr_active = EX_TBFLAG_A32(tb_flags, HSTR_ACTIVE);
 +        dc->ns = EX_TBFLAG_A32(tb_flags, NS);
 +        dc->vfp_enabled = EX_TBFLAG_A32(tb_flags, VFPEN);
          if (arm_feature(env, ARM_FEATURE_XSCALE)) {
 -            dc->c15_cpar = FIELD_EX32(tb_flags, TBFLAG_A32, XSCALE_CPAR);
 +            dc->c15_cpar = EX_TBFLAG_A32(tb_flags, XSCALE_CPAR);
          } else {
 -            dc->vec_len = FIELD_EX32(tb_flags, TBFLAG_A32, VECLEN);
 -            dc->vec_stride = FIELD_EX32(tb_flags, TBFLAG_A32, VECSTRIDE);
 +            dc->vec_len = EX_TBFLAG_A32(tb_flags, VECLEN);
 +            dc->vec_stride = EX_TBFLAG_A32(tb_flags, VECSTRIDE);
          }
      }
      dc->cp_regs = cpu->cp_regs;
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
       *   emit code to generate a software step exception
       *   end the TB
       */
 -    dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
 -    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
 +    dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
 +    dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
      dc->is_ldex = false;
      dc->page_start = dc->base.pc_first & TARGET_PAGE_MASK;
@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns)
      DisasContext dc = { };
      const TranslatorOps *ops = &arm_translator_ops;
 -    if (FIELD_EX32(tb->flags, TBFLAG_AM32, THUMB)) {
 +    if (EX_TBFLAG_AM32(tb->flags, THUMB)) {
          ops = &thumb_translator_ops;
      }
  #ifdef TARGET_AARCH64
 -    if (FIELD_EX32(tb->flags, TBFLAG_ANY, AARCH64_STATE)) {
 +    if (EX_TBFLAG_ANY(tb->flags, AARCH64_STATE)) {
          ops = &aarch64_translator_ops;
      }
  #endif
 --
 .20.1

-[PULL 35/43] target/arm: Use finalize_memop for aa64 gpr load/store
+[PULL 06/24] hw/gpio/gpio_pwr: use shutdown function for reboot
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Maxim Uvarov <maxim.uvarov@linaro.org>
-In the case of gpr load, merge the size and is_signed arguments;
+qemu has 2 type of functions: shutdown and reboot. Shutdown
-otherwise, simply convert size to memop.
+function has to be used for machine shutdown. Otherwise we cause
 a reset with a bogus "cause" value, when we intended a shutdown.
+Signed-off-by: Maxim Uvarov <maxim.uvarov@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210625111842.3790-3-maxim.uvarov@linaro.org
-Message-id: 20210419202257.161730-26-richard.henderson@linaro.org
+[PMM: tweaked commit message]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 78 ++++++++++++++++----------------------
+ hw/gpio/gpio_pwr.c | 2 +-
-file changed, 33 insertions(+), 45 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/hw/gpio/gpio_pwr.c b/hw/gpio/gpio_pwr.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/hw/gpio/gpio_pwr.c
-+++ b/target/arm/translate-a64.c
++++ b/hw/gpio/gpio_pwr.c
-@@ -XXX,XX +XXX,XX @@ static void gen_adc_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+@@ -XXX,XX +XXX,XX @@ static void gpio_pwr_reset(void *opaque, int n, int level)
-  * Store from GPR register to memory.
+ static void gpio_pwr_shutdown(void *opaque, int n, int level)
   */
  static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
 -                             TCGv_i64 tcg_addr, int size, int memidx,
 +                             TCGv_i64 tcg_addr, MemOp memop, int memidx,
                               bool iss_valid,
                               unsigned int iss_srt,
                               bool iss_sf, bool iss_ar)
  {
--    g_assert(size <= 3);
+     if (level) {
--    tcg_gen_qemu_st_i64(source, tcg_addr, memidx, s->be_data + size);
+-        qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
-+    memop = finalize_memop(s, memop);
++        qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
 +    tcg_gen_qemu_st_i64(source, tcg_addr, memidx, memop);
      if (iss_valid) {
          uint32_t syn;
          syn = syn_data_abort_with_iss(0,
 -                                      size,
 +                                      (memop & MO_SIZE),
                                        false,
                                        iss_srt,
                                        iss_sf,
@@ -XXX,XX +XXX,XX @@ static void do_gpr_st_memidx(DisasContext *s, TCGv_i64 source,
  }
  static void do_gpr_st(DisasContext *s, TCGv_i64 source,
 -                      TCGv_i64 tcg_addr, int size,
 +                      TCGv_i64 tcg_addr, MemOp memop,
                        bool iss_valid,
                        unsigned int iss_srt,
                        bool iss_sf, bool iss_ar)
  {
 -    do_gpr_st_memidx(s, source, tcg_addr, size, get_mem_index(s),
 +    do_gpr_st_memidx(s, source, tcg_addr, memop, get_mem_index(s),
                       iss_valid, iss_srt, iss_sf, iss_ar);
  }
  /*
   * Load from memory to GPR register
   */
 -static void do_gpr_ld_memidx(DisasContext *s,
 -                             TCGv_i64 dest, TCGv_i64 tcg_addr,
 -                             int size, bool is_signed,
 -                             bool extend, int memidx,
 +static void do_gpr_ld_memidx(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
 +                             MemOp memop, bool extend, int memidx,
                               bool iss_valid, unsigned int iss_srt,
                               bool iss_sf, bool iss_ar)
  {
 -    MemOp memop = s->be_data + size;
 -
 -    g_assert(size <= 3);
 -
 -    if (is_signed) {
 -        memop += MO_SIGN;
 -    }
 -
 +    memop = finalize_memop(s, memop);
      tcg_gen_qemu_ld_i64(dest, tcg_addr, memidx, memop);
 -    if (extend && is_signed) {
 -        g_assert(size < 3);
 +    if (extend && (memop & MO_SIGN)) {
 +        g_assert((memop & MO_SIZE) <= MO_32);
          tcg_gen_ext32u_i64(dest, dest);
      }
@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld_memidx(DisasContext *s,
          uint32_t syn;
          syn = syn_data_abort_with_iss(0,
 -                                      size,
 -                                      is_signed,
 +                                      (memop & MO_SIZE),
 +                                      (memop & MO_SIGN) != 0,
                                        iss_srt,
                                        iss_sf,
                                        iss_ar,
@@ -XXX,XX +XXX,XX @@ static void do_gpr_ld_memidx(DisasContext *s,
      }
  }
--static void do_gpr_ld(DisasContext *s,
--                      TCGv_i64 dest, TCGv_i64 tcg_addr,
--                      int size, bool is_signed, bool extend,
-+static void do_gpr_ld(DisasContext *s, TCGv_i64 dest, TCGv_i64 tcg_addr,
-+                      MemOp memop, bool extend,
-                       bool iss_valid, unsigned int iss_srt,
-                       bool iss_sf, bool iss_ar)
- {
--    do_gpr_ld_memidx(s, dest, tcg_addr, size, is_signed, extend,
--                     get_mem_index(s),
-+    do_gpr_ld_memidx(s, dest, tcg_addr, memop, extend, get_mem_index(s),
-                      iss_valid, iss_srt, iss_sf, iss_ar);
- }
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
-         }
-         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
-                                     false, rn != 31, size);
--        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, false, true, rt,
-+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, true, rt,
-                   disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
-         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
-         return;
-@@ -XXX,XX +XXX,XX @@ static void disas_ld_lit(DisasContext *s, uint32_t insn)
-         /* Only unsigned 32bit loads target 32bit registers.  */
-         bool iss_sf = opc != 0;
--        do_gpr_ld(s, tcg_rt, clean_addr, size, is_signed, false,
--                  true, rt, iss_sf, false);
-+        do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
-+                  false, true, rt, iss_sf, false);
-     }
-     tcg_temp_free_i64(clean_addr);
- }
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pair(DisasContext *s, uint32_t insn)
-             /* Do not modify tcg_rt before recognizing any exception
-              * from the second load.
-              */
--            do_gpr_ld(s, tmp, clean_addr, size, is_signed, false,
--                      false, 0, false, false);
-+            do_gpr_ld(s, tmp, clean_addr, size + is_signed * MO_SIGN,
-+                      false, false, 0, false, false);
-             tcg_gen_addi_i64(clean_addr, clean_addr, 1 << size);
--            do_gpr_ld(s, tcg_rt2, clean_addr, size, is_signed, false,
--                      false, 0, false, false);
-+            do_gpr_ld(s, tcg_rt2, clean_addr, size + is_signed * MO_SIGN,
-+                      false, false, 0, false, false);
-             tcg_gen_mov_i64(tcg_rt, tmp);
-             tcg_temp_free_i64(tmp);
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_imm9(DisasContext *s, uint32_t insn,
-             do_gpr_st_memidx(s, tcg_rt, clean_addr, size, memidx,
-                              iss_valid, rt, iss_sf, false);
-         } else {
--            do_gpr_ld_memidx(s, tcg_rt, clean_addr, size,
--                             is_signed, is_extended, memidx,
-+            do_gpr_ld_memidx(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
-+                             is_extended, memidx,
-                              iss_valid, rt, iss_sf, false);
-         }
-     }
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_roffset(DisasContext *s, uint32_t insn,
-             do_gpr_st(s, tcg_rt, clean_addr, size,
-                       true, rt, iss_sf, false);
-         } else {
--            do_gpr_ld(s, tcg_rt, clean_addr, size,
--                      is_signed, is_extended,
--                      true, rt, iss_sf, false);
-+            do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
-+                      is_extended, true, rt, iss_sf, false);
-         }
-     }
- }
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg_unsigned_imm(DisasContext *s, uint32_t insn,
-             do_gpr_st(s, tcg_rt, clean_addr, size,
-                       true, rt, iss_sf, false);
-         } else {
--            do_gpr_ld(s, tcg_rt, clean_addr, size, is_signed, is_extended,
--                      true, rt, iss_sf, false);
-+            do_gpr_ld(s, tcg_rt, clean_addr, size + is_signed * MO_SIGN,
-+                      is_extended, true, rt, iss_sf, false);
-         }
-     }
- }
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
-          * full load-acquire (we only need "load-acquire processor consistent"),
-          * but we choose to implement them as full LDAQ.
-          */
--        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, false,
-+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false,
-                   true, rt, disas_ldst_compute_iss_sf(size, false, 0), true);
-         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
-         return;
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pac(DisasContext *s, uint32_t insn,
-                                 is_wback || rn != 31, size);
-     tcg_rt = cpu_reg(s, rt);
--    do_gpr_ld(s, tcg_rt, clean_addr, size, /* is_signed */ false,
-+    do_gpr_ld(s, tcg_rt, clean_addr, size,
-               /* extend */ false, /* iss_valid */ !is_wback,
-               /* iss_srt */ rt, /* iss_sf */ true, /* iss_ar */ false);
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
-          * Load-AcquirePC semantics; we implement as the slightly more
-          * restrictive Load-Acquire.
-          */
--        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, is_signed, extend,
--                  true, rt, iss_sf, true);
-+        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size + is_signed * MO_SIGN,
-+                  extend, true, rt, iss_sf, true);
-         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
-     }
- }
 --
 .20.1

-[PULL 10/43] target/arm: Simplify sve mte checking
+[PULL 07/24] target/arm: Fix MVE widening/narrowing VLDR/VSTR offset calculation
-From: Richard Henderson <richard.henderson@linaro.org>
+In do_ldst(), the calculation of the offset needs to be based on the
 size of the memory access, not the size of the elements in the
 vector.  This meant we were getting it wrong for the widening and
 narrowing variants of the various VLDR and VSTR insns.
-Now that mte_check1 and mte_checkN have been merged, we can
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-merge sve_cont_ldst_mte_check1 and sve_cont_ldst_mte_checkN.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-2-peter.maydell@linaro.org
 ---
  target/arm/translate-mve.c | 17 +++++++++--------
 file changed, 9 insertions(+), 8 deletions(-)
-Which means that we can eliminate the function pointer into
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 sve_ldN_r and sve_stN_r, calling sve_cont_ldst_mte_check directly.
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210416183106.1516563-9-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/sve_helper.c | 84 +++++++++++++----------------------------
 file changed, 26 insertions(+), 58 deletions(-)
 diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
+--- a/target/arm/translate-mve.c
-+++ b/target/arm/sve_helper.c
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_watchpoints(SVEContLdSt *info, CPUARMState *env,
+@@ -XXX,XX +XXX,XX @@ static bool mve_skip_first_beat(DisasContext *s)
  #endif
  }
 -typedef uint64_t mte_check_fn(CPUARMState *, uint32_t, uint64_t, uintptr_t);
 -
 -static inline QEMU_ALWAYS_INLINE
 -void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
 -                                 uint64_t *vg, target_ulong addr, int esize,
 -                                 int msize, uint32_t mtedesc, uintptr_t ra,
 -                                 mte_check_fn *check)
 +static void sve_cont_ldst_mte_check(SVEContLdSt *info, CPUARMState *env,
 +                                    uint64_t *vg, target_ulong addr, int esize,
 +                                    int msize, uint32_t mtedesc, uintptr_t ra)
  {
      intptr_t mem_off, reg_off, reg_last;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
              uint64_t pg = vg[reg_off >> 6];
              do {
                  if ((pg >> (reg_off & 63)) & 1) {
 -                    check(env, mtedesc, addr, ra);
 +                    mte_check(env, mtedesc, addr, ra);
                  }
                  reg_off += esize;
                  mem_off += msize;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
              uint64_t pg = vg[reg_off >> 6];
              do {
                  if ((pg >> (reg_off & 63)) & 1) {
 -                    check(env, mtedesc, addr, ra);
 +                    mte_check(env, mtedesc, addr, ra);
                  }
                  reg_off += esize;
                  mem_off += msize;
@@ -XXX,XX +XXX,XX @@ void sve_cont_ldst_mte_check_int(SVEContLdSt *info, CPUARMState *env,
      }
  }
--typedef void sve_cont_ldst_mte_check_fn(SVEContLdSt *info, CPUARMState *env,
+-static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
--                                        uint64_t *vg, target_ulong addr,
++static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn,
--                                        int esize, int msize, uint32_t mtedesc,
++                    unsigned msize)
 -                                        uintptr_t ra);
 -
 -static void sve_cont_ldst_mte_check1(SVEContLdSt *info, CPUARMState *env,
 -                                     uint64_t *vg, target_ulong addr,
 -                                     int esize, int msize, uint32_t mtedesc,
 -                                     uintptr_t ra)
 -{
 -    sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
 -                                mtedesc, ra, mte_check);
 -}
 -
 -static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
 -                                     uint64_t *vg, target_ulong addr,
 -                                     int esize, int msize, uint32_t mtedesc,
 -                                     uintptr_t ra)
 -{
 -    sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
 -                                mtedesc, ra, mte_check);
 -}
 -
 -
  /*
   * Common helper for all contiguous 1,2,3,4-register predicated stores.
   */
@@ -XXX,XX +XXX,XX @@ void sve_ldN_r(CPUARMState *env, uint64_t *vg, const target_ulong addr,
                 uint32_t desc, const uintptr_t retaddr,
                 const int esz, const int msz, const int N, uint32_t mtedesc,
                 sve_ldst1_host_fn *host_fn,
 -               sve_ldst1_tlb_fn *tlb_fn,
 -               sve_cont_ldst_mte_check_fn *mte_check_fn)
 +               sve_ldst1_tlb_fn *tlb_fn)
  {
-     const unsigned rd = simd_data(desc);
+     TCGv_i32 addr;
-     const intptr_t reg_max = simd_oprsz(desc);
+     uint32_t offset;
-@@ -XXX,XX +XXX,XX @@ void sve_ldN_r(CPUARMState *env, uint64_t *vg, const target_ulong addr,
+@@ -XXX,XX +XXX,XX @@ static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
-      * Handle mte checks for all active elements.
+         return true;
       * Since TBI must be set for MTE, !mtedesc => !mte_active.
       */
 -    if (mte_check_fn && mtedesc) {
 -        mte_check_fn(&info, env, vg, addr, 1 << esz, N << msz,
 -                     mtedesc, retaddr);
 +    if (mtedesc) {
 +        sve_cont_ldst_mte_check(&info, env, vg, addr, 1 << esz, N << msz,
 +                                mtedesc, retaddr);
      }
-     flags = info.page[0].flags | info.page[1].flags;
+-    offset = a->imm << a->size;
-@@ -XXX,XX +XXX,XX @@ void sve_ldN_r_mte(CPUARMState *env, uint64_t *vg, target_ulong addr,
++    offset = a->imm << msize;
-         mtedesc = 0;
+     if (!a->a) {
          offset = -offset;
      }
+@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
--    sve_ldN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn,
+         { gen_helper_mve_vstrw, gen_helper_mve_vldrw },
--              N == 1 ? sve_cont_ldst_mte_check1 : sve_cont_ldst_mte_checkN);
+         { NULL, NULL }
-+    sve_ldN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn);
+     };
 -    return do_ldst(s, a, ldstfns[a->size][a->l]);
 +    return do_ldst(s, a, ldstfns[a->size][a->l], a->size);
  }
- #define DO_LD1_1(NAME, ESZ)                                             \
+-#define DO_VLDST_WIDE_NARROW(OP, SLD, ULD, ST)                  \
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_r)(CPUARMState *env, void *vg,                 \
++#define DO_VLDST_WIDE_NARROW(OP, SLD, ULD, ST, MSIZE)           \
-                             target_ulong addr, uint32_t desc)           \
+     static bool trans_##OP(DisasContext *s, arg_VLDR_VSTR *a)   \
- {                                                                       \
+     {                                                           \
-     sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MO_8, 1, 0,            \
+         static MVEGenLdStFn * const ldstfns[2][2] = {           \
--              sve_##NAME##_host, sve_##NAME##_tlb, NULL);               \
+             { gen_helper_mve_##ST, gen_helper_mve_##SLD },      \
-+              sve_##NAME##_host, sve_##NAME##_tlb);                     \
+             { NULL, gen_helper_mve_##ULD },                     \
- }                                                                       \
+         };                                                      \
- void HELPER(sve_##NAME##_r_mte)(CPUARMState *env, void *vg,             \
+-        return do_ldst(s, a, ldstfns[a->u][a->l]);              \
-                                 target_ulong addr, uint32_t desc)       \
++        return do_ldst(s, a, ldstfns[a->u][a->l], MSIZE);       \
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_##NAME##_le_r)(CPUARMState *env, void *vg,              \
+     }
-                                target_ulong addr, uint32_t desc)        \
- {                                                                       \
+-DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h)
-     sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1, 0,             \
+-DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w)
--              sve_##NAME##_le_host, sve_##NAME##_le_tlb, NULL);         \
+-DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w)
-+              sve_##NAME##_le_host, sve_##NAME##_le_tlb);               \
++DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h, MO_8)
- }                                                                       \
++DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w, MO_8)
- void HELPER(sve_##NAME##_be_r)(CPUARMState *env, void *vg,              \
++DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w, MO_16)
-                                target_ulong addr, uint32_t desc)        \
- {                                                                       \
+ static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1, 0,             \
 -              sve_##NAME##_be_host, sve_##NAME##_be_tlb, NULL);         \
 +              sve_##NAME##_be_host, sve_##NAME##_be_tlb);               \
  }                                                                       \
  void HELPER(sve_##NAME##_le_r_mte)(CPUARMState *env, void *vg,          \
 -                                 target_ulong addr, uint32_t desc)      \
 +                                   target_ulong addr, uint32_t desc)    \
  {                                                                       \
      sve_ldN_r_mte(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1,            \
                    sve_##NAME##_le_host, sve_##NAME##_le_tlb);           \
  }                                                                       \
  void HELPER(sve_##NAME##_be_r_mte)(CPUARMState *env, void *vg,          \
 -                                 target_ulong addr, uint32_t desc)      \
 +                                   target_ulong addr, uint32_t desc)    \
  {                                                                       \
      sve_ldN_r_mte(env, vg, addr, desc, GETPC(), ESZ, MSZ, 1,            \
                    sve_##NAME##_be_host, sve_##NAME##_be_tlb);           \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ld##N##bb_r)(CPUARMState *env, void *vg,                \
                               target_ulong addr, uint32_t desc)          \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), MO_8, MO_8, N, 0,           \
 -              sve_ld1bb_host, sve_ld1bb_tlb, NULL);                     \
 +              sve_ld1bb_host, sve_ld1bb_tlb);                           \
  }                                                                       \
  void HELPER(sve_ld##N##bb_r_mte)(CPUARMState *env, void *vg,            \
                                   target_ulong addr, uint32_t desc)      \
@@ -XXX,XX +XXX,XX @@ void HELPER(sve_ld##N##SUFF##_le_r)(CPUARMState *env, void *vg,         \
                                      target_ulong addr, uint32_t desc)   \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, ESZ, N, 0,             \
 -              sve_ld1##SUFF##_le_host, sve_ld1##SUFF##_le_tlb, NULL);   \
 +              sve_ld1##SUFF##_le_host, sve_ld1##SUFF##_le_tlb);         \
  }                                                                       \
  void HELPER(sve_ld##N##SUFF##_be_r)(CPUARMState *env, void *vg,         \
                                      target_ulong addr, uint32_t desc)   \
  {                                                                       \
      sve_ldN_r(env, vg, addr, desc, GETPC(), ESZ, ESZ, N, 0,             \
 -              sve_ld1##SUFF##_be_host, sve_ld1##SUFF##_be_tlb, NULL);   \
 +              sve_ld1##SUFF##_be_host, sve_ld1##SUFF##_be_tlb);         \
  }                                                                       \
  void HELPER(sve_ld##N##SUFF##_le_r_mte)(CPUARMState *env, void *vg,     \
                                          target_ulong addr, uint32_t desc) \
@@ -XXX,XX +XXX,XX @@ void sve_stN_r(CPUARMState *env, uint64_t *vg, target_ulong addr,
                 uint32_t desc, const uintptr_t retaddr,
                 const int esz, const int msz, const int N, uint32_t mtedesc,
                 sve_ldst1_host_fn *host_fn,
 -               sve_ldst1_tlb_fn *tlb_fn,
 -               sve_cont_ldst_mte_check_fn *mte_check_fn)
 +               sve_ldst1_tlb_fn *tlb_fn)
  {
-     const unsigned rd = simd_data(desc);
-     const intptr_t reg_max = simd_oprsz(desc);
-@@ -XXX,XX +XXX,XX @@ void sve_stN_r(CPUARMState *env, uint64_t *vg, target_ulong addr,
-      * Handle mte checks for all active elements.
-      * Since TBI must be set for MTE, !mtedesc => !mte_active.
-      */
--    if (mte_check_fn && mtedesc) {
--        mte_check_fn(&info, env, vg, addr, 1 << esz, N << msz,
--                     mtedesc, retaddr);
-+    if (mtedesc) {
-+        sve_cont_ldst_mte_check(&info, env, vg, addr, 1 << esz, N << msz,
-+                                mtedesc, retaddr);
-     }
-     flags = info.page[0].flags | info.page[1].flags;
-@@ -XXX,XX +XXX,XX @@ void sve_stN_r_mte(CPUARMState *env, uint64_t *vg, target_ulong addr,
-         mtedesc = 0;
-     }
--    sve_stN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn,
--              N == 1 ? sve_cont_ldst_mte_check1 : sve_cont_ldst_mte_checkN);
-+    sve_stN_r(env, vg, addr, desc, ra, esz, msz, N, mtedesc, host_fn, tlb_fn);
- }
- #define DO_STN_1(N, NAME, ESZ)                                          \
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_st##N##NAME##_r)(CPUARMState *env, void *vg,            \
-                                  target_ulong addr, uint32_t desc)      \
- {                                                                       \
-     sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MO_8, N, 0,            \
--              sve_st1##NAME##_host, sve_st1##NAME##_tlb, NULL);         \
-+              sve_st1##NAME##_host, sve_st1##NAME##_tlb);               \
- }                                                                       \
- void HELPER(sve_st##N##NAME##_r_mte)(CPUARMState *env, void *vg,        \
-                                      target_ulong addr, uint32_t desc)  \
-@@ -XXX,XX +XXX,XX @@ void HELPER(sve_st##N##NAME##_le_r)(CPUARMState *env, void *vg,         \
-                                     target_ulong addr, uint32_t desc)   \
- {                                                                       \
-     sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, N, 0,             \
--              sve_st1##NAME##_le_host, sve_st1##NAME##_le_tlb, NULL);   \
-+              sve_st1##NAME##_le_host, sve_st1##NAME##_le_tlb);         \
- }                                                                       \
- void HELPER(sve_st##N##NAME##_be_r)(CPUARMState *env, void *vg,         \
-                                     target_ulong addr, uint32_t desc)   \
- {                                                                       \
-     sve_stN_r(env, vg, addr, desc, GETPC(), ESZ, MSZ, N, 0,             \
--              sve_st1##NAME##_be_host, sve_st1##NAME##_be_tlb, NULL);   \
-+              sve_st1##NAME##_be_host, sve_st1##NAME##_be_tlb);         \
- }                                                                       \
- void HELPER(sve_st##N##NAME##_le_r_mte)(CPUARMState *env, void *vg,     \
-                                         target_ulong addr, uint32_t desc) \
 --
 .20.1

-[PULL 39/43] target/arm: Enforce alignment for aa64 vector LDn/STn (multiple)
+[PULL 08/24] target/arm: Fix bugs in MVE VRMLALDAVH, VRMLSLDAVH
-From: Richard Henderson <richard.henderson@linaro.org>
+The initial implementation of the MVE VRMLALDAVH and VRMLSLDAVH
 insns had some bugs:
  * the 32x32 multiply of elements was being done as 32x32->32,
    not 32x32->64
  * we were incorrectly maintaining the accumulator in its full
 -bit form across all 4 beats of the insn; in the pseudocode
    it is squashed back into the 64 bits of the RdaHi:RdaLo
    registers after each beat
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+In particular, fixing the second of these allows us to recast
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+the implementation to avoid 128-bit arithmetic entirely.
-Message-id: 20210419202257.161730-30-richard.henderson@linaro.org
 Since the element size here is always 4, we can also drop the
 parameterization of ESIZE to make the code a little more readable.
 Suggested-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-3-peter.maydell@linaro.org
 ---
- target/arm/translate-a64.c | 15 +++++++++++----
+ target/arm/mve_helper.c | 38 +++++++++++++++++++++-----------------
-file changed, 11 insertions(+), 4 deletions(-)
+file changed, 21 insertions(+), 17 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/mve_helper.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@
-     bool is_postidx = extract32(insn, 23, 1);
+  */
-     bool is_q = extract32(insn, 30, 1);
-     TCGv_i64 clean_addr, tcg_rn, tcg_ebytes;
+ #include "qemu/osdep.h"
--    MemOp endian = s->be_data;
+-#include "qemu/int128.h"
-+    MemOp endian, align, mop;
+ #include "cpu.h"
+ #include "internals.h"
-     int total;    /* total bytes */
+ #include "vec_internal.h"
-     int elements; /* elements per vector */
+@@ -XXX,XX +XXX,XX @@ DO_LDAV(vmlsldavsw, 4, int32_t, false, +=, -=)
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
+ DO_LDAV(vmlsldavxsw, 4, int32_t, true, +=, -=)
  /*
 - * Rounding multiply add long dual accumulate high: we must keep
 - * a 72-bit internal accumulator value and return the top 64 bits.
 + * Rounding multiply add long dual accumulate high. In the pseudocode
 + * this is implemented with a 72-bit internal accumulator value of which
 + * the top 64 bits are returned. We optimize this to avoid having to
 + * use 128-bit arithmetic -- we can do this because the 74-bit accumulator
 + * is squashed back into 64-bits after each beat.
   */
 -#define DO_LDAVH(OP, ESIZE, TYPE, XCHG, EVENACC, ODDACC, TO128)         \
 +#define DO_LDAVH(OP, TYPE, LTYPE, XCHG, SUB)                            \
      uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vn,         \
                                      void *vm, uint64_t a)               \
      {                                                                   \
          uint16_t mask = mve_element_mask(env);                          \
          unsigned e;                                                     \
          TYPE *n = vn, *m = vm;                                          \
 -        Int128 acc = int128_lshift(TO128(a), 8);                        \
 -        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {                      \
              if (mask & 1) {                                             \
 +                LTYPE mul;                                              \
                  if (e & 1) {                                            \
 -                    acc = ODDACC(acc, TO128(n[H##ESIZE(e - 1 * XCHG)] * \
 -                                            m[H##ESIZE(e)]));           \
 +                    mul = (LTYPE)n[H4(e - 1 * XCHG)] * m[H4(e)];        \
 +                    if (SUB) {                                          \
 +                        mul = -mul;                                     \
 +                    }                                                   \
                  } else {                                                \
 -                    acc = EVENACC(acc, TO128(n[H##ESIZE(e + 1 * XCHG)] * \
 -                                             m[H##ESIZE(e)]));          \
 +                    mul = (LTYPE)n[H4(e + 1 * XCHG)] * m[H4(e)];        \
                  }                                                       \
 -                acc = int128_add(acc, int128_make64(1 << 7));           \
 +                mul = (mul >> 8) + ((mul >> 7) & 1);                    \
 +                a += mul;                                               \
              }                                                           \
          }                                                               \
          mve_advance_vpt(env);                                           \
 -        return int128_getlo(int128_rshift(acc, 8));                     \
 +        return a;                                                       \
      }
-     /* For our purposes, bytes are always little-endian.  */
+-DO_LDAVH(vrmlaldavhsw, 4, int32_t, false, int128_add, int128_add, int128_makes64)
-+    endian = s->be_data;
+-DO_LDAVH(vrmlaldavhxsw, 4, int32_t, true, int128_add, int128_add, int128_makes64)
-     if (size == 0) {
++DO_LDAVH(vrmlaldavhsw, int32_t, int64_t, false, false)
-         endian = MO_LE;
++DO_LDAVH(vrmlaldavhxsw, int32_t, int64_t, true, false)
-     }
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
+-DO_LDAVH(vrmlaldavhuw, 4, uint32_t, false, int128_add, int128_add, int128_make64)
-      * Consecutive little-endian elements from a single register
++DO_LDAVH(vrmlaldavhuw, uint32_t, uint64_t, false, false)
-      * can be promoted to a larger little-endian operation.
-      */
+-DO_LDAVH(vrmlsldavhsw, 4, int32_t, false, int128_add, int128_sub, int128_makes64)
-+    align = MO_ALIGN;
+-DO_LDAVH(vrmlsldavhxsw, 4, int32_t, true, int128_add, int128_sub, int128_makes64)
-     if (selem == 1 && endian == MO_LE) {
++DO_LDAVH(vrmlsldavhsw, int32_t, int64_t, false, true)
-+        align = pow2_align(size);
++DO_LDAVH(vrmlsldavhxsw, int32_t, int64_t, true, true)
-         size = 3;
-     }
+ /* Vector add across vector */
--    elements = (is_q ? 16 : 8) >> size;
+ #define DO_VADDV(OP, ESIZE, TYPE)                               \
 +    if (!s->align_mem) {
 +        align = 0;
 +    }
 +    mop = endian | size | align;
 +    elements = (is_q ? 16 : 8) >> size;
      tcg_ebytes = tcg_const_i64(1 << size);
      for (r = 0; r < rpt; r++) {
          int e;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
              for (xs = 0; xs < selem; xs++) {
                  int tt = (rt + r + xs) % 32;
                  if (is_store) {
 -                    do_vec_st(s, tt, e, clean_addr, size | endian);
 +                    do_vec_st(s, tt, e, clean_addr, mop);
                  } else {
 -                    do_vec_ld(s, tt, e, clean_addr, size | endian);
 +                    do_vec_ld(s, tt, e, clean_addr, mop);
                  }
                  tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
              }
 --
 .20.1

-[PULL 21/43] target/arm: Adjust gen_aa32_{ld, st}_i32 for align+endianness
+[PULL 09/24] target/arm: Make asimd_imm_const() public
-From: Richard Henderson <richard.henderson@linaro.org>
+The function asimd_imm_const() in translate-neon.c is an
 implementation of the pseudocode AdvSIMDExpandImm(), which we will
 also want for MVE.  Move the implementation to translate.c, with a
 prototype in translate.h.
-Create a finalize_memop function that computes alignment and
-endianness and returns the final MemOp for the operation.
-Split out gen_aa32_{ld,st}_internal_i32 which bypasses any special
-handling of endianness or alignment.  Adjust gen_aa32_{ld,st}_i32
-so that s->be_data is not added by the callers.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-12-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-4-peter.maydell@linaro.org
 ---
- target/arm/translate.h          |  24 ++++++++
+ target/arm/translate.h      | 16 ++++++++++
- target/arm/translate.c          | 100 +++++++++++++++++---------------
+ target/arm/translate-neon.c | 63 -------------------------------------
- target/arm/translate-neon.c.inc |   9 +--
+ target/arm/translate.c      | 57 +++++++++++++++++++++++++++++++++
-files changed, 79 insertions(+), 54 deletions(-)
+files changed, 73 insertions(+), 63 deletions(-)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ static inline TCGv_ptr fpstatus_ptr(ARMFPStatusFlavour flavour)
+@@ -XXX,XX +XXX,XX @@ static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
-     return statusptr;
+     return opc | s->be_data;
  }
 +/**
-+ * finalize_memop:
++ * asimd_imm_const: Expand an encoded SIMD constant value
 + * @s: DisasContext
 + * @opc: size+sign+align of the memory operation
 + *
-+ * Build the complete MemOp for a memory operation, including alignment
++ * Expand a SIMD constant value. This is essentially the pseudocode
-+ * and endianness.
++ * AdvSIMDExpandImm, except that we also perform the boolean NOT needed for
 + * VMVN and VBIC (when cmode < 14 && op == 1).
 + *
-+ * If (op & MO_AMASK) then the operation already contains the required
++ * The combination cmode == 15 op == 1 is a reserved encoding for AArch32;
-+ * alignment, e.g. for AccType_ATOMIC.  Otherwise, this an optionally
++ * callers must catch this.
 + * unaligned operation, e.g. for AccType_NORMAL.
 + *
-+ * In the latter case, there are configuration bits that require alignment,
++ * cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 was UNPREDICTABLE in v7A but
-+ * and this is applied here.  Note that there is no way to indicate that
++ * is either not unpredictable or merely CONSTRAINED UNPREDICTABLE in v8A;
-+ * no alignment should ever be enforced; this must be handled manually.
++ * we produce an immediate constant value of 0 in these cases.
 + */
-+static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
++uint64_t asimd_imm_const(uint32_t imm, int cmode, int op);
 +{
 +    if (s->align_mem && !(opc & MO_AMASK)) {
 +        opc |= MO_ALIGN;
 +    }
 +    return opc | s->be_data;
 +}
 +
  #endif /* TARGET_ARM_TRANSLATE_H */
+diff --git a/target/arm/translate-neon.c b/target/arm/translate-neon.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/translate-neon.c
++++ b/target/arm/translate-neon.c
+@@ -XXX,XX +XXX,XX @@ DO_FP_2SH(VCVT_UH, gen_helper_gvec_vcvt_uh)
+ DO_FP_2SH(VCVT_HS, gen_helper_gvec_vcvt_hs)
+ DO_FP_2SH(VCVT_HU, gen_helper_gvec_vcvt_hu)
+-static uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
+-{
+-    /*
+-     * Expand the encoded constant.
+-     * Note that cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 is UNPREDICTABLE.
+-     * We choose to not special-case this and will behave as if a
+-     * valid constant encoding of 0 had been given.
+-     * cmode = 15 op = 1 must UNDEF; we assume decode has handled that.
+-     */
+-    switch (cmode) {
+-    case 0: case 1:
+-        /* no-op */
+-        break;
+-    case 2: case 3:
+-        imm <<= 8;
+-        break;
+-    case 4: case 5:
+-        imm <<= 16;
+-        break;
+-    case 6: case 7:
+-        imm <<= 24;
+-        break;
+-    case 8: case 9:
+-        imm |= imm << 16;
+-        break;
+-    case 10: case 11:
+-        imm = (imm << 8) | (imm << 24);
+-        break;
+-    case 12:
+-        imm = (imm << 8) | 0xff;
+-        break;
+-    case 13:
+-        imm = (imm << 16) | 0xffff;
+-        break;
+-    case 14:
+-        if (op) {
+-            /*
+-             * This is the only case where the top and bottom 32 bits
+-             * of the encoded constant differ.
+-             */
+-            uint64_t imm64 = 0;
+-            int n;
+-
+-            for (n = 0; n < 8; n++) {
+-                if (imm & (1 << n)) {
+-                    imm64 |= (0xffULL << (n * 8));
+-                }
+-            }
+-            return imm64;
+-        }
+-        imm |= (imm << 8) | (imm << 16) | (imm << 24);
+-        break;
+-    case 15:
+-        imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
+-            | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
+-        break;
+-    }
+-    if (op) {
+-        imm = ~imm;
+-    }
+-    return dup_const(MO_32, imm);
+-}
+-
+ static bool do_1reg_imm(DisasContext *s, arg_1reg_imm *a,
+                         GVecGen2iFn *fn)
+ {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
+@@ -XXX,XX +XXX,XX @@ void arm_translate_init(void)
- #define IS_USER_ONLY 0
+     a64_translate_init();
  #endif
 -/* Abstractions of "generate code to do a guest load/store for
 +/*
 + * Abstractions of "generate code to do a guest load/store for
   * AArch32", where a vaddr is always 32 bits (and is zero
   * extended if we're a 64 bit core) and  data is also
   * 32 bits unless specifically doing a 64 bit access.
@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
   * that the address argument is TCGv_i32 rather than TCGv.
   */
 -static inline TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
 +static TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
  {
      TCGv addr = tcg_temp_new();
      tcg_gen_extu_i32_tl(addr, a32);
@@ -XXX,XX +XXX,XX @@ static inline TCGv gen_aa32_addr(DisasContext *s, TCGv_i32 a32, MemOp op)
      return addr;
  }
-+/*
++uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
 + * Internal routines are used for NEON cases where the endianness
 + * and/or alignment has already been taken into account and manipulated.
 + */
 +static void gen_aa32_ld_internal_i32(DisasContext *s, TCGv_i32 val,
 +                                     TCGv_i32 a32, int index, MemOp opc)
 +{
-+    TCGv addr = gen_aa32_addr(s, a32, opc);
++    /* Expand the encoded constant as per AdvSIMDExpandImm pseudocode */
-+    tcg_gen_qemu_ld_i32(val, addr, index, opc);
++    switch (cmode) {
-+    tcg_temp_free(addr);
++    case 0: case 1:
 +        /* no-op */
 +        break;
 +    case 2: case 3:
 +        imm <<= 8;
 +        break;
 +    case 4: case 5:
 +        imm <<= 16;
 +        break;
 +    case 6: case 7:
 +        imm <<= 24;
 +        break;
 +    case 8: case 9:
 +        imm |= imm << 16;
 +        break;
 +    case 10: case 11:
 +        imm = (imm << 8) | (imm << 24);
 +        break;
 +    case 12:
 +        imm = (imm << 8) | 0xff;
 +        break;
 +    case 13:
 +        imm = (imm << 16) | 0xffff;
 +        break;
 +    case 14:
 +        if (op) {
 +            /*
 +             * This is the only case where the top and bottom 32 bits
 +             * of the encoded constant differ.
 +             */
 +            uint64_t imm64 = 0;
 +            int n;
 +
 +            for (n = 0; n < 8; n++) {
 +                if (imm & (1 << n)) {
 +                    imm64 |= (0xffULL << (n * 8));
 +                }
 +            }
 +            return imm64;
 +        }
 +        imm |= (imm << 8) | (imm << 16) | (imm << 24);
 +        break;
 +    case 15:
 +        imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
 +            | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
 +        break;
 +    }
 +    if (op) {
 +        imm = ~imm;
 +    }
 +    return dup_const(MO_32, imm);
 +}
 +
-+static void gen_aa32_st_internal_i32(DisasContext *s, TCGv_i32 val,
+ /* Generate a label used for skipping this instruction */
-+                                     TCGv_i32 a32, int index, MemOp opc)
+ void arm_gen_condlabel(DisasContext *s)
 +{
 +    TCGv addr = gen_aa32_addr(s, a32, opc);
 +    tcg_gen_qemu_st_i32(val, addr, index, opc);
 +    tcg_temp_free(addr);
 +}
 +
  static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
                              int index, MemOp opc)
  {
--    TCGv addr;
--
--    if (s->align_mem) {
--        opc |= MO_ALIGN;
--    }
--
--    addr = gen_aa32_addr(s, a32, opc);
--    tcg_gen_qemu_ld_i32(val, addr, index, opc);
--    tcg_temp_free(addr);
-+    gen_aa32_ld_internal_i32(s, val, a32, index, finalize_memop(s, opc));
- }
- static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
-                             int index, MemOp opc)
- {
--    TCGv addr;
-+    gen_aa32_st_internal_i32(s, val, a32, index, finalize_memop(s, opc));
-+}
--    if (s->align_mem) {
--        opc |= MO_ALIGN;
-+#define DO_GEN_LD(SUFF, OPC)                                            \
-+    static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val, \
-+                                         TCGv_i32 a32, int index)       \
-+    {                                                                   \
-+        gen_aa32_ld_i32(s, val, a32, index, OPC);                       \
-     }
--    addr = gen_aa32_addr(s, a32, opc);
--    tcg_gen_qemu_st_i32(val, addr, index, opc);
--    tcg_temp_free(addr);
--}
--
--#define DO_GEN_LD(SUFF, OPC)                                             \
--static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val,      \
--                                     TCGv_i32 a32, int index)            \
--{                                                                        \
--    gen_aa32_ld_i32(s, val, a32, index, OPC | s->be_data);               \
--}
--
--#define DO_GEN_ST(SUFF, OPC)                                             \
--static inline void gen_aa32_st##SUFF(DisasContext *s, TCGv_i32 val,      \
--                                     TCGv_i32 a32, int index)            \
--{                                                                        \
--    gen_aa32_st_i32(s, val, a32, index, OPC | s->be_data);               \
--}
-+#define DO_GEN_ST(SUFF, OPC)                                            \
-+    static inline void gen_aa32_st##SUFF(DisasContext *s, TCGv_i32 val, \
-+                                         TCGv_i32 a32, int index)       \
-+    {                                                                   \
-+        gen_aa32_st_i32(s, val, a32, index, OPC);                       \
-+    }
- static inline void gen_aa32_frob64(DisasContext *s, TCGv_i64 val)
- {
-@@ -XXX,XX +XXX,XX @@ static bool op_load_rr(DisasContext *s, arg_ldst_rr *a,
-     addr = op_addr_rr_pre(s, a);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop | s->be_data);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop);
-     disas_set_da_iss(s, mop, issinfo);
-     /*
-@@ -XXX,XX +XXX,XX @@ static bool op_store_rr(DisasContext *s, arg_ldst_rr *a,
-     addr = op_addr_rr_pre(s, a);
-     tmp = load_reg(s, a->rt);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop | s->be_data);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop);
-     disas_set_da_iss(s, mop, issinfo);
-     tcg_temp_free_i32(tmp);
-@@ -XXX,XX +XXX,XX @@ static bool trans_LDRD_rr(DisasContext *s, arg_ldst_rr *a)
-     addr = op_addr_rr_pre(s, a);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-     store_reg(s, a->rt, tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-     store_reg(s, a->rt + 1, tmp);
-     /* LDRD w/ base writeback is undefined if the registers overlap.  */
-@@ -XXX,XX +XXX,XX @@ static bool trans_STRD_rr(DisasContext *s, arg_ldst_rr *a)
-     addr = op_addr_rr_pre(s, a);
-     tmp = load_reg(s, a->rt);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-     tcg_temp_free_i32(tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = load_reg(s, a->rt + 1);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-     tcg_temp_free_i32(tmp);
-     op_addr_rr_post(s, a, addr, -4);
-@@ -XXX,XX +XXX,XX @@ static bool op_load_ri(DisasContext *s, arg_ldst_ri *a,
-     addr = op_addr_ri_pre(s, a);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop | s->be_data);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, mop);
-     disas_set_da_iss(s, mop, issinfo);
-     /*
-@@ -XXX,XX +XXX,XX @@ static bool op_store_ri(DisasContext *s, arg_ldst_ri *a,
-     addr = op_addr_ri_pre(s, a);
-     tmp = load_reg(s, a->rt);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop | s->be_data);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, mop);
-     disas_set_da_iss(s, mop, issinfo);
-     tcg_temp_free_i32(tmp);
-@@ -XXX,XX +XXX,XX @@ static bool op_ldrd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
-     addr = op_addr_ri_pre(s, a);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-     store_reg(s, a->rt, tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-     store_reg(s, rt2, tmp);
-     /* LDRD w/ base writeback is undefined if the registers overlap.  */
-@@ -XXX,XX +XXX,XX @@ static bool op_strd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
-     addr = op_addr_ri_pre(s, a);
-     tmp = load_reg(s, a->rt);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-     tcg_temp_free_i32(tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = load_reg(s, rt2);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | s->be_data);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-     tcg_temp_free_i32(tmp);
-     op_addr_ri_post(s, a, addr, -4);
-@@ -XXX,XX +XXX,XX @@ static bool op_stl(DisasContext *s, arg_STL *a, MemOp mop)
-     addr = load_reg(s, a->rn);
-     tmp = load_reg(s, a->rt);
-     tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
--    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop | s->be_data);
-+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop);
-     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel | ISSIsWrite);
-     tcg_temp_free_i32(tmp);
-@@ -XXX,XX +XXX,XX @@ static bool op_lda(DisasContext *s, arg_LDA *a, MemOp mop)
-     addr = load_reg(s, a->rn);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop | s->be_data);
-+    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
-     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel);
-     tcg_temp_free_i32(addr);
-@@ -XXX,XX +XXX,XX @@ static bool op_tbranch(DisasContext *s, arg_tbranch *a, bool half)
-     addr = load_reg(s, a->rn);
-     tcg_gen_add_i32(addr, addr, tmp);
--    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
--                    half ? MO_UW | s->be_data : MO_UB);
-+    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), half ? MO_UW : MO_UB);
-     tcg_temp_free_i32(addr);
-     tcg_gen_add_i32(tmp, tmp, tmp);
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
-     addr = tcg_temp_new_i32();
-     load_reg_var(s, addr, a->rn);
-     for (reg = 0; reg < nregs; reg++) {
--        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
--                        s->be_data | size);
-+        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), size);
-         if ((vd & 1) && vec_size == 16) {
-             /*
-              * We cannot write 16 bytes at once because the
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
-      */
-     for (reg = 0; reg < nregs; reg++) {
-         if (a->l) {
--            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s),
--                            s->be_data | a->size);
-+            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), a->size);
-             neon_store_element(vd, a->reg_idx, a->size, tmp);
-         } else { /* Store */
-             neon_load_element(tmp, vd, a->reg_idx, a->size);
--            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s),
--                            s->be_data | a->size);
-+            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), a->size);
-         }
-         vd += a->stride;
-         tcg_gen_addi_i32(addr, addr, 1 << a->size);
 --
 .20.1

-[PULL 14/43] target/arm: Rename TBFLAG_ANY, PSTATE_SS
+[PULL 10/24] target/arm: Use asimd_imm_const for A64 decode
-From: Richard Henderson <richard.henderson@linaro.org>
+The A64 AdvSIMD modified-immediate grouping uses almost the same
 constant encoding that A32 Neon does; reuse asimd_imm_const() (to
 which we add the AArch64-specific case for cmode 15 op 1) instead of
 reimplementing it all.
-We're about to rearrange the macro expansion surrounding tbflags,
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-and this field name will be expanded using the bit definition of
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-the same name, resulting in a token pasting error.
+Message-id: 20210628135835.6690-5-peter.maydell@linaro.org
 ---
  target/arm/translate.h     |  3 +-
  target/arm/translate-a64.c | 86 ++++----------------------------------
  target/arm/translate.c     | 17 +++++++-
 files changed, 24 insertions(+), 82 deletions(-)
-So PSTATE_SS -> PSTATE__SS in the uses, and document it.
+diff --git a/target/arm/translate.h b/target/arm/translate.h
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/cpu.h           | 2 +-
  target/arm/helper.c        | 4 ++--
  target/arm/translate-a64.c | 2 +-
  target/arm/translate.c     | 2 +-
 files changed, 5 insertions(+), 5 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/translate.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
+@@ -XXX,XX +XXX,XX @@ static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
-  */
+  * VMVN and VBIC (when cmode < 14 && op == 1).
- FIELD(TBFLAG_ANY, AARCH64_STATE, 31, 1)
+  *
- FIELD(TBFLAG_ANY, SS_ACTIVE, 30, 1)
+  * The combination cmode == 15 op == 1 is a reserved encoding for AArch32;
--FIELD(TBFLAG_ANY, PSTATE_SS, 29, 1)     /* Not cached. */
+- * callers must catch this.
-+FIELD(TBFLAG_ANY, PSTATE__SS, 29, 1)    /* Not cached. */
++ * callers must catch this; we return the 64-bit constant value defined
- FIELD(TBFLAG_ANY, BE_DATA, 28, 1)
++ * for AArch64.
- FIELD(TBFLAG_ANY, MMUIDX, 24, 4)
+  *
- /* Target EL if we take a floating-point-disabled exception */
+  * cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 was UNPREDICTABLE in v7A but
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+  * is either not unpredictable or merely CONSTRAINED UNPREDICTABLE in v8A;
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
       *     0            x       Inactive (the TB flag for SS is always 0)
       *     1            0       Active-pending
       *     1            1       Active-not-pending
 -     * SS_ACTIVE is set in hflags; PSTATE_SS is computed every TB.
 +     * SS_ACTIVE is set in hflags; PSTATE__SS is computed every TB.
       */
      if (FIELD_EX32(flags, TBFLAG_ANY, SS_ACTIVE) &&
          (env->pstate & PSTATE_SS)) {
 -        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE_SS, 1);
 +        flags = FIELD_DP32(flags, TBFLAG_ANY, PSTATE__SS, 1);
      }
      *pflags = flags;
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-      *   end the TB
+ {
-      */
+     int rd = extract32(insn, 0, 5);
-     dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
+     int cmode = extract32(insn, 12, 4);
--    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE_SS);
+-    int cmode_3_1 = extract32(cmode, 1, 3);
-+    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
+-    int cmode_0 = extract32(cmode, 0, 1);
-     dc->is_ldex = false;
+     int o2 = extract32(insn, 11, 1);
-     dc->debug_target_el = FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
+     uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
+     bool is_neg = extract32(insn, 29, 1);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
          return;
      }
 -    /* See AdvSIMDExpandImm() in ARM ARM */
 -    switch (cmode_3_1) {
 -    case 0: /* Replicate(Zeros(24):imm8, 2) */
 -    case 1: /* Replicate(Zeros(16):imm8:Zeros(8), 2) */
 -    case 2: /* Replicate(Zeros(8):imm8:Zeros(16), 2) */
 -    case 3: /* Replicate(imm8:Zeros(24), 2) */
 -    {
 -        int shift = cmode_3_1 * 8;
 -        imm = bitfield_replicate(abcdefgh << shift, 32);
 -        break;
 -    }
 -    case 4: /* Replicate(Zeros(8):imm8, 4) */
 -    case 5: /* Replicate(imm8:Zeros(8), 4) */
 -    {
 -        int shift = (cmode_3_1 & 0x1) * 8;
 -        imm = bitfield_replicate(abcdefgh << shift, 16);
 -        break;
 -    }
 -    case 6:
 -        if (cmode_0) {
 -            /* Replicate(Zeros(8):imm8:Ones(16), 2) */
 -            imm = (abcdefgh << 16) | 0xffff;
 -        } else {
 -            /* Replicate(Zeros(16):imm8:Ones(8), 2) */
 -            imm = (abcdefgh << 8) | 0xff;
 -        }
 -        imm = bitfield_replicate(imm, 32);
 -        break;
 -    case 7:
 -        if (!cmode_0 && !is_neg) {
 -            imm = bitfield_replicate(abcdefgh, 8);
 -        } else if (!cmode_0 && is_neg) {
 -            int i;
 -            imm = 0;
 -            for (i = 0; i < 8; i++) {
 -                if ((abcdefgh) & (1 << i)) {
 -                    imm |= 0xffULL << (i * 8);
 -                }
 -            }
 -        } else if (cmode_0) {
 -            if (is_neg) {
 -                imm = (abcdefgh & 0x3f) << 48;
 -                if (abcdefgh & 0x80) {
 -                    imm |= 0x8000000000000000ULL;
 -                }
 -                if (abcdefgh & 0x40) {
 -                    imm |= 0x3fc0000000000000ULL;
 -                } else {
 -                    imm |= 0x4000000000000000ULL;
 -                }
 -            } else {
 -                if (o2) {
 -                    /* FMOV (vector, immediate) - half-precision */
 -                    imm = vfp_expand_imm(MO_16, abcdefgh);
 -                    /* now duplicate across the lanes */
 -                    imm = bitfield_replicate(imm, 16);
 -                } else {
 -                    imm = (abcdefgh & 0x3f) << 19;
 -                    if (abcdefgh & 0x80) {
 -                        imm |= 0x80000000;
 -                    }
 -                    if (abcdefgh & 0x40) {
 -                        imm |= 0x3e000000;
 -                    } else {
 -                        imm |= 0x40000000;
 -                    }
 -                    imm |= (imm << 32);
 -                }
 -            }
 -        }
 -        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -
 -    if (cmode_3_1 != 7 && is_neg) {
 -        imm = ~imm;
 +    if (cmode == 15 && o2 && !is_neg) {
 +        /* FMOV (vector, immediate) - half-precision */
 +        imm = vfp_expand_imm(MO_16, abcdefgh);
 +        /* now duplicate across the lanes */
 +        imm = bitfield_replicate(imm, 16);
 +    } else {
 +        imm = asimd_imm_const(abcdefgh, cmode, is_neg);
      }
      if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
-      *   end the TB
+     case 14:
-      */
+         if (op) {
-     dc->ss_active = FIELD_EX32(tb_flags, TBFLAG_ANY, SS_ACTIVE);
+             /*
--    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE_SS);
+-             * This is the only case where the top and bottom 32 bits
-+    dc->pstate_ss = FIELD_EX32(tb_flags, TBFLAG_ANY, PSTATE__SS);
+-             * of the encoded constant differ.
-     dc->is_ldex = false;
++             * This and cmode == 15 op == 1 are the only cases where
++             * the top and bottom 32 bits of the encoded constant differ.
-     dc->page_start = dc->base.pc_first & TARGET_PAGE_MASK;
+              */
              uint64_t imm64 = 0;
              int n;
@@ -XXX,XX +XXX,XX @@ uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
          imm |= (imm << 8) | (imm << 16) | (imm << 24);
          break;
      case 15:
 +        if (op) {
 +            /* Reserved encoding for AArch32; valid for AArch64 */
 +            uint64_t imm64 = (uint64_t)(imm & 0x3f) << 48;
 +            if (imm & 0x80) {
 +                imm64 |= 0x8000000000000000ULL;
 +            }
 +            if (imm & 0x40) {
 +                imm64 |= 0x3fc0000000000000ULL;
 +            } else {
 +                imm64 |= 0x4000000000000000ULL;
 +            }
 +            return imm64;
 +        }
          imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
              | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
          break;
 --
 .20.1

-[PULL 37/43] target/arm: Enforce alignment for aa64 load-acq/store-rel
+[PULL 11/24] target/arm: Use dup_const() instead of bitfield_replicate()
-From: Richard Henderson <richard.henderson@linaro.org>
+Use dup_const() instead of bitfield_replicate() in
 disas_simd_mod_imm().
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+(We can't replace the other use of bitfield_replicate() in this file,
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+in logic_imm_decode_wmask(), because that location needs to handle 2
-Message-id: 20210419202257.161730-28-richard.henderson@linaro.org
+and 4 bit elements, which dup_const() cannot.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-6-peter.maydell@linaro.org
 ---
- target/arm/translate-a64.c | 23 ++++++++++++++---------
+ target/arm/translate-a64.c | 2 +-
-file changed, 14 insertions(+), 9 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-         tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
+         /* FMOV (vector, immediate) - half-precision */
-         clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
+         imm = vfp_expand_imm(MO_16, abcdefgh);
-                                     true, rn != 31, size);
+         /* now duplicate across the lanes */
--        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size, true, rt,
+-        imm = bitfield_replicate(imm, 16);
-+        /* TODO: ARMv8.4-LSE SCTLR.nAA */
++        imm = dup_const(MO_16, imm);
 +        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, true, rt,
                    disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_excl(DisasContext *s, uint32_t insn)
          }
          clean_addr = gen_mte_check1(s, cpu_reg_sp(s, rn),
                                      false, rn != 31, size);
 -        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size, false, true, rt,
 -                  disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
 +        /* TODO: ARMv8.4-LSE SCTLR.nAA */
 +        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size | MO_ALIGN, false, true,
 +                  rt, disas_ldst_compute_iss_sf(size, false, 0), is_lasr);
          tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
      int size = extract32(insn, 30, 2);
      TCGv_i64 clean_addr, dirty_addr;
      bool is_store = false;
 -    bool is_signed = false;
      bool extend = false;
      bool iss_sf;
 +    MemOp mop;
      if (!dc_isar_feature(aa64_rcpc_8_4, s)) {
          unallocated_encoding(s);
          return;
      }
 +    /* TODO: ARMv8.4-LSE SCTLR.nAA */
 +    mop = size | MO_ALIGN;
 +
      switch (opc) {
      case 0: /* STLURB */
          is_store = true;
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
              unallocated_encoding(s);
              return;
          }
 -        is_signed = true;
 +        mop |= MO_SIGN;
          break;
      case 3: /* LDAPURS* 32-bit variant */
          if (size > 1) {
              unallocated_encoding(s);
              return;
          }
 -        is_signed = true;
 +        mop |= MO_SIGN;
          extend = true; /* zero-extend 32->64 after signed load */
          break;
      default:
          g_assert_not_reached();
      }
 -    iss_sf = disas_ldst_compute_iss_sf(size, is_signed, opc);
 +    iss_sf = disas_ldst_compute_iss_sf(size, (mop & MO_SIGN) != 0, opc);
      if (rn == 31) {
          gen_check_sp_alignment(s);
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_ldapr_stlr(DisasContext *s, uint32_t insn)
      if (is_store) {
          /* Store-Release semantics */
          tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
 -        do_gpr_st(s, cpu_reg(s, rt), clean_addr, size, true, rt, iss_sf, true);
 +        do_gpr_st(s, cpu_reg(s, rt), clean_addr, mop, true, rt, iss_sf, true);
      } else {
-         /*
+         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
           * Load-AcquirePC semantics; we implement as the slightly more
           * restrictive Load-Acquire.
           */
 -        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, size + is_signed * MO_SIGN,
 +        do_gpr_ld(s, cpu_reg(s, rt), clean_addr, mop,
                    extend, true, rt, iss_sf, true);
          tcg_gen_mb(TCG_MO_ALL | TCG_BAR_LDAQ);
      }
 --
 .20.1

-[PULL 34/43] target/arm: Enforce alignment for VLDn/VSTn (single)
+[PULL 12/24] target/arm: Implement MVE logical immediate insns
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE logical-immediate insns (VMOV, VMVN,
 VORR and VBIC). These have essentially the same encoding
 as their Neon equivalents, and we implement the decode
 in the same way.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-25-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-7-peter.maydell@linaro.org
 ---
- target/arm/translate-neon.c.inc | 48 ++++++++++++++++++++++++++++-----
+ target/arm/helper-mve.h    |  4 +++
-file changed, 42 insertions(+), 6 deletions(-)
+ target/arm/mve.decode      | 17 +++++++++++++
  target/arm/mve_helper.c    | 24 ++++++++++++++++++
  target/arm/translate-mve.c | 50 ++++++++++++++++++++++++++++++++++++++
 files changed, 95 insertions(+)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/translate-neon.c.inc
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvsh, TCG_CALL_NO_WG, i32, env, ptr, i32)
-     int nregs = a->n + 1;
+ DEF_HELPER_FLAGS_3(mve_vaddvuh, TCG_CALL_NO_WG, i32, env, ptr, i32)
-     int vd = a->vd;
+ DEF_HELPER_FLAGS_3(mve_vaddvsw, TCG_CALL_NO_WG, i32, env, ptr, i32)
-     TCGv_i32 addr, tmp;
+ DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +    MemOp mop;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
          return true;
      }
 +    /* Pick up SCTLR settings */
 +    mop = finalize_memop(s, a->size);
 +
-+    if (a->align) {
++DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
-+        MemOp align_op;
++DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
 +DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  # VQDMULL has size in bit 28: 0 for 16 bit, 1 for 32 bit
  %size_28 28:1 !function=plus_1
 +# 1imm format immediate
 +%imm_28_16_0 28:1 16:3 0:4
 +
-+        switch (nregs) {
+ &vldr_vstr rn qd imm p a w size l u
-+        case 1:
+ &1op qd qm size
-+            /* For VLD1, use natural alignment. */
+ &2op qd qm qn size
-+            align_op = MO_ALIGN;
+ &2scalar qd qn rm size
-+            break;
++&1imm qd imm cmode op
-+        case 2:
-+            /* For VLD2, use double alignment. */
+ @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
-+            align_op = pow2_align(a->size + 1);
+ # Note that both Rn and Qd are 3 bits only (no D bit)
-+            break;
+@@ -XXX,XX +XXX,XX @@
-+        case 4:
+ @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
-+            if (a->size == MO_32) {
+ @2op_sz28 .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn \
-+                /*
+      size=%size_28
-+                 * For VLD4.32, align = 1 is double alignment, align = 2 is
++@1imm .... .... .... .... .... cmode:4 .. op:1 . .... &1imm qd=%qd imm=%imm_28_16_0
-+                 * quad alignment; align = 3 is rejected above.
-+                 */
+ # The _rev suffix indicates that Vn and Vm are reversed. This is
-+                align_op = pow2_align(a->size + a->align);
+ # the case for shifts. In the Arm ARM these insns are documented
-+            } else {
+@@ -XXX,XX +XXX,XX @@ VADDV            111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rd
-+                /* For VLD4.8 and VLD.16, we want quad alignment. */
+ # Predicate operations
-+                align_op = pow2_align(a->size + 2);
+ %mask_22_13      22:1 13:3
-+            }
+ VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
 +            break;
 +        default:
 +            /* For VLD3, the alignment field is zero and rejected above. */
 +            g_assert_not_reached();
 +        }
 +
-+        mop = (mop & ~MO_AMASK) | align_op;
++# Logical immediate operations (1 reg and modified-immediate)
 +
 +# The cmode/op bits here decode VORR/VBIC/VMOV/VMVN, but
 +# not in a way we can conveniently represent in decodetree without
 +# a lot of repetition:
 +# VORR: op=0, (cmode & 1) && cmode < 12
 +# VBIC: op=1, (cmode & 1) && cmode < 12
 +# VMOV: everything else
 +# So we have a single decode line and check the cmode/op in the
 +# trans function.
 +Vimm_1r 111 . 1111 1 . 00 0 ... ... 0 .... 0 1 . 1 .... @1imm
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_1OP(vnegw, 4, int32_t, DO_NEG)
  DO_1OP(vfnegh, 8, uint64_t, DO_FNEGH)
  DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
 +/*
 + * 1 operand immediates: Vda is destination and possibly also one source.
 + * All these insns work at 64-bit widths.
 + */
 +#define DO_1OP_IMM(OP, FN)                                              \
 +    void HELPER(mve_##OP)(CPUARMState *env, void *vda, uint64_t imm)    \
 +    {                                                                   \
 +        uint64_t *da = vda;                                             \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        for (e = 0; e < 16 / 8; e++, mask >>= 8) {                      \
 +            mergemask(&da[H8(e)], FN(da[H8(e)], imm), mask);            \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-     tmp = tcg_temp_new_i32();
++#define DO_MOVI(N, I) (I)
-     addr = tcg_temp_new_i32();
++#define DO_ANDI(N, I) ((N) & (I))
-     load_reg_var(s, addr, a->rn);
++#define DO_ORRI(N, I) ((N) | (I))
 -    /*
 -     * TODO: if we implemented alignment exceptions, we should check
 -     * addr against the alignment encoded in a->align here.
 -     */
 +
-     for (reg = 0; reg < nregs; reg++) {
++DO_1OP_IMM(vmovi, DO_MOVI)
-         if (a->l) {
++DO_1OP_IMM(vandi, DO_ANDI)
--            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), a->size);
++DO_1OP_IMM(vorri, DO_ORRI)
 +            gen_aa32_ld_internal_i32(s, tmp, addr, get_mem_index(s), mop);
              neon_store_element(vd, a->reg_idx, a->size, tmp);
          } else { /* Store */
              neon_load_element(tmp, vd, a->reg_idx, a->size);
 -            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), a->size);
 +            gen_aa32_st_internal_i32(s, tmp, addr, get_mem_index(s), mop);
          }
          vd += a->stride;
          tcg_gen_addi_i32(addr, addr, 1 << a->size);
 +
-+        /* Subsequent memory operations inherit alignment */
+ #define DO_2OP(OP, ESIZE, TYPE, FN)                                     \
-+        mop &= ~MO_AMASK;
+     void HELPER(glue(mve_, OP))(CPUARMState *env,                       \
-     }
+                                 void *vd, void *vn, void *vm)           \
-     tcg_temp_free_i32(addr);
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-     tcg_temp_free_i32(tmp);
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  typedef void MVEGenVADDVFn(TCGv_i32, TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void MVEGenOneOpImmFn(TCGv_ptr, TCGv_ptr, TCGv_i64);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
  static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static bool trans_VADDV(DisasContext *s, arg_VADDV *a)
      mve_update_eci(s);
      return true;
  }
 +
 +static bool do_1imm(DisasContext *s, arg_1imm *a, MVEGenOneOpImmFn *fn)
 +{
 +    TCGv_ptr qd;
 +    uint64_t imm;
 +
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qd) ||
 +        !fn) {
 +        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    imm = asimd_imm_const(a->imm, a->cmode, a->op);
 +
 +    qd = mve_qreg_ptr(a->qd);
 +    fn(cpu_env, qd, tcg_constant_i64(imm));
 +    tcg_temp_free_ptr(qd);
 +    mve_update_eci(s);
 +    return true;
 +}
 +
 +static bool trans_Vimm_1r(DisasContext *s, arg_1imm *a)
 +{
 +    /* Handle decode of cmode/op here between VORR/VBIC/VMOV */
 +    MVEGenOneOpImmFn *fn;
 +
 +    if ((a->cmode & 1) && a->cmode < 12) {
 +        if (a->op) {
 +            /*
 +             * For op=1, the immediate will be inverted by asimd_imm_const(),
 +             * so the VBIC becomes a logical AND operation.
 +             */
 +            fn = gen_helper_mve_vandi;
 +        } else {
 +            fn = gen_helper_mve_vorri;
 +        }
 +    } else {
 +        /* There is one unallocated cmode/op combination in this space */
 +        if (a->cmode == 15 && a->op == 1) {
 +            return false;
 +        }
 +        /* asimd_imm_const() sorts out VMVNI vs VMOVI for us */
 +        fn = gen_helper_mve_vmovi;
 +    }
 +    return do_1imm(s, a, fn);
 +}
 --
 .20.1

-[PULL 38/43] target/arm: Use MemOp for size + endian in aa64 vector ld/st
+[PULL 13/24] target/arm: Implement MVE vector shift left by immediate insns
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shift-vector-left-by-immediate insns VSHL, VQSHL
+and VQSHLU.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+The size-and-immediate encoding here is the same as Neon, and we
-Message-id: 20210419202257.161730-29-richard.henderson@linaro.org
+handle it the same way neon-dp.decode does.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-8-peter.maydell@linaro.org
 ---
- target/arm/translate-a64.c | 20 ++++++++++----------
+ target/arm/helper-mve.h    | 16 +++++++++++
-file changed, 10 insertions(+), 10 deletions(-)
+ target/arm/mve.decode      | 23 +++++++++++++++
+ target/arm/mve_helper.c    | 57 ++++++++++++++++++++++++++++++++++++++
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+ target/arm/translate-mve.c | 51 ++++++++++++++++++++++++++++++++++
-index XXXXXXX..XXXXXXX 100644
+files changed, 147 insertions(+)
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void write_vec_element_i32(DisasContext *s, TCGv_i32 tcg_src,
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper-mve.h
- /* Store from vector register to memory */
++++ b/target/arm/helper-mve.h
- static void do_vec_st(DisasContext *s, int srcidx, int element,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
--                      TCGv_i64 tcg_addr, int size, MemOp endian)
+ DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
-+                      TCGv_i64 tcg_addr, MemOp mop)
+ DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
- {
+ DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
-     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
++
++DEF_HELPER_FLAGS_4(mve_vshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
--    read_vec_element(s, tcg_tmp, srcidx, element, size);
++DEF_HELPER_FLAGS_4(mve_vshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
--    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
++DEF_HELPER_FLAGS_4(mve_vshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    read_vec_element(s, tcg_tmp, srcidx, element, mop & MO_SIZE);
++
-+    tcg_gen_qemu_st_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
++DEF_HELPER_FLAGS_4(mve_vqshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vqshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     tcg_temp_free_i64(tcg_tmp);
++DEF_HELPER_FLAGS_4(mve_vqshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  &2op qd qm qn size
  &2scalar qd qn rm size
  &1imm qd imm cmode op
 +&2shift qd qm shift size
  @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
  # Note that both Rn and Qd are 3 bits only (no D bit)
@@ -XXX,XX +XXX,XX @@
  @2scalar .... .... .. size:2 .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
  @2scalar_nosz .... .... .... .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
 +@2_shl_b .... .... .. 001 shift:3 .... .... .... .... &2shift qd=%qd qm=%qm size=0
 +@2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
 +@2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
 +
  # Vector loads and stores
  # Widening loads and narrowing stores:
@@ -XXX,XX +XXX,XX @@ VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
  # So we have a single decode line and check the cmode/op in the
  # trans function.
  Vimm_1r 111 . 1111 1 . 00 0 ... ... 0 .... 0 1 . 1 .... @1imm
 +
 +# Shifts by immediate
 +
 +VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
 +VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
 +VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_b
 +VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_h
 +VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_b
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_h
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_b
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_h
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_w
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT(vqsubsw, 4, int32_t, DO_SQSUB_W)
      WRAP_QRSHL_HELPER(do_sqrshl_bhs, N, M, true, satp)
  #define DO_UQRSHL_OP(N, M, satp) \
      WRAP_QRSHL_HELPER(do_uqrshl_bhs, N, M, true, satp)
 +#define DO_SUQSHL_OP(N, M, satp) \
 +    WRAP_QRSHL_HELPER(do_suqrshl_bhs, N, M, false, satp)
  DO_2OP_SAT_S(vqshls, DO_SQSHL_OP)
  DO_2OP_SAT_U(vqshlu, DO_UQSHL_OP)
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvsw, 4, uint32_t)
  DO_VADDV(vaddvub, 1, uint8_t)
  DO_VADDV(vaddvuh, 2, uint16_t)
  DO_VADDV(vaddvuw, 4, uint32_t)
 +
 +/* Shifts by immediate */
 +#define DO_2SHIFT(OP, ESIZE, TYPE, FN)                          \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        TYPE *d = vd, *m = vm;                                  \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {      \
 +            mergemask(&d[H##ESIZE(e)],                          \
 +                      FN(m[H##ESIZE(e)], shift), mask);         \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +#define DO_2SHIFT_SAT(OP, ESIZE, TYPE, FN)                      \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        TYPE *d = vd, *m = vm;                                  \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        bool qc = false;                                        \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {      \
 +            bool sat = false;                                   \
 +            mergemask(&d[H##ESIZE(e)],                          \
 +                      FN(m[H##ESIZE(e)], shift, &sat), mask);   \
 +            qc |= sat & mask & 1;                               \
 +        }                                                       \
 +        if (qc) {                                               \
 +            env->vfp.qc[0] = qc;                                \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +/* provide unsigned 2-op shift helpers for all sizes */
 +#define DO_2SHIFT_U(OP, FN)                     \
 +    DO_2SHIFT(OP##b, 1, uint8_t, FN)            \
 +    DO_2SHIFT(OP##h, 2, uint16_t, FN)           \
 +    DO_2SHIFT(OP##w, 4, uint32_t, FN)
 +
 +#define DO_2SHIFT_SAT_U(OP, FN)                 \
 +    DO_2SHIFT_SAT(OP##b, 1, uint8_t, FN)        \
 +    DO_2SHIFT_SAT(OP##h, 2, uint16_t, FN)       \
 +    DO_2SHIFT_SAT(OP##w, 4, uint32_t, FN)
 +#define DO_2SHIFT_SAT_S(OP, FN)                 \
 +    DO_2SHIFT_SAT(OP##b, 1, int8_t, FN)         \
 +    DO_2SHIFT_SAT(OP##h, 2, int16_t, FN)        \
 +    DO_2SHIFT_SAT(OP##w, 4, int32_t, FN)
 +
 +DO_2SHIFT_U(vshli_u, DO_VSHLU)
 +DO_2SHIFT_SAT_U(vqshli_u, DO_UQSHL_OP)
 +DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
 +DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void MVEGenTwoOpShiftFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  typedef void MVEGenVADDVFn(TCGv_i32, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpImmFn(TCGv_ptr, TCGv_ptr, TCGv_i64);
@@ -XXX,XX +XXX,XX @@ static bool trans_Vimm_1r(DisasContext *s, arg_1imm *a)
      }
      return do_1imm(s, a, fn);
  }
++
- /* Load from memory to vector register */
++static bool do_2shift(DisasContext *s, arg_2shift *a, MVEGenTwoOpShiftFn fn,
- static void do_vec_ld(DisasContext *s, int destidx, int element,
++                      bool negateshift)
--                      TCGv_i64 tcg_addr, int size, MemOp endian)
++{
-+                      TCGv_i64 tcg_addr, MemOp mop)
++    TCGv_ptr qd, qm;
- {
++    int shift = a->shift;
-     TCGv_i64 tcg_tmp = tcg_temp_new_i64();
++
++    if (!dc_isar_feature(aa32_mve, s) ||
--    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), endian | size);
++        !mve_check_qreg_bank(s, a->qd | a->qm) ||
--    write_vec_element(s, tcg_tmp, destidx, element, size);
++        !fn) {
-+    tcg_gen_qemu_ld_i64(tcg_tmp, tcg_addr, get_mem_index(s), mop);
++        return false;
-+    write_vec_element(s, tcg_tmp, destidx, element, mop & MO_SIZE);
++    }
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
-     tcg_temp_free_i64(tcg_tmp);
++        return true;
- }
++    }
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
++
-             for (xs = 0; xs < selem; xs++) {
++    /*
-                 int tt = (rt + r + xs) % 32;
++     * When we handle a right shift insn using a left-shift helper
-                 if (is_store) {
++     * which permits a negative shift count to indicate a right-shift,
--                    do_vec_st(s, tt, e, clean_addr, size, endian);
++     * we must negate the shift count.
-+                    do_vec_st(s, tt, e, clean_addr, size | endian);
++     */
-                 } else {
++    if (negateshift) {
--                    do_vec_ld(s, tt, e, clean_addr, size, endian);
++        shift = -shift;
-+                    do_vec_ld(s, tt, e, clean_addr, size | endian);
++    }
-                 }
++
-                 tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
++    qd = mve_qreg_ptr(a->qd);
-             }
++    qm = mve_qreg_ptr(a->qm);
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
++    fn(cpu_env, qd, qm, tcg_constant_i32(shift));
-         } else {
++    tcg_temp_free_ptr(qd);
-             /* Load/store one element per register */
++    tcg_temp_free_ptr(qm);
-             if (is_load) {
++    mve_update_eci(s);
--                do_vec_ld(s, rt, index, clean_addr, scale, s->be_data);
++    return true;
-+                do_vec_ld(s, rt, index, clean_addr, scale | s->be_data);
++}
-             } else {
++
--                do_vec_st(s, rt, index, clean_addr, scale, s->be_data);
++#define DO_2SHIFT(INSN, FN, NEGATESHIFT)                         \
-+                do_vec_st(s, rt, index, clean_addr, scale | s->be_data);
++    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
-             }
++    {                                                           \
-         }
++        static MVEGenTwoOpShiftFn * const fns[] = {             \
-         tcg_gen_add_i64(clean_addr, clean_addr, tcg_ebytes);
++            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +            gen_helper_mve_##FN##w,                             \
 +            NULL,                                               \
 +        };                                                      \
 +        return do_2shift(s, a, fns[a->size], NEGATESHIFT);      \
 +    }
 +
 +DO_2SHIFT(VSHLI, vshli_u, false)
 +DO_2SHIFT(VQSHLI_S, vqshli_s, false)
 +DO_2SHIFT(VQSHLI_U, vqshli_u, false)
 +DO_2SHIFT(VQSHLUI, vqshlui_s, false)
 --
 .20.1

-[PULL 24/43] target/arm: Adjust gen_aa32_{ld, st}_i64 for align+endianness
+[PULL 14/24] target/arm: Implement MVE vector shift right by immediate insns
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE vector shift right by immediate insns VSHRI and
 VRSHRI.  As with Neon, we implement these by using helper functions
 which perform left shifts but allow negative shift counts to indicate
 right shifts.
-Adjust the interface to match what has been done to the
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-TCGv_i32 load/store functions.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-9-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h     | 12 ++++++++++++
  target/arm/translate.h      | 20 ++++++++++++++++++++
  target/arm/mve.decode       | 28 ++++++++++++++++++++++++++++
  target/arm/mve_helper.c     |  7 +++++++
  target/arm/translate-mve.c  |  5 +++++
  target/arm/translate-neon.c | 18 ------------------
 files changed, 72 insertions(+), 18 deletions(-)
-This is less obvious, because at present the only user of
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 these functions, trans_VLDST_multiple, also wants to manipulate
 the endianness to speed up loading multiple bytes.  Thus we
 retain an "internal" interface which is identical to the
 current gen_aa32_{ld,st}_i64 interface.
 The "new" interface will gain users as we remove the legacy
 interfaces, gen_aa32_ld64 and gen_aa32_st64.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-15-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/translate.c          | 78 +++++++++++++++++++--------------
  target/arm/translate-neon.c.inc |  6 ++-
 files changed, 49 insertions(+), 35 deletions(-)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/translate.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_internal_i32(DisasContext *s, TCGv_i32 val,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
-     tcg_temp_free(addr);
+ DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
 +DEF_HELPER_FLAGS_4(mve_vshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_4(mve_vshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vrshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vrshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int times_2_plus_1(DisasContext *s, int x)
      return x * 2 + 1;
  }
-+static void gen_aa32_ld_internal_i64(DisasContext *s, TCGv_i64 val,
++static inline int rsub_64(DisasContext *s, int x)
 +                                     TCGv_i32 a32, int index, MemOp opc)
 +{
-+    TCGv addr = gen_aa32_addr(s, a32, opc);
++    return 64 - x;
 +
 +    tcg_gen_qemu_ld_i64(val, addr, index, opc);
 +
 +    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 +    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 +        tcg_gen_rotri_i64(val, val, 32);
 +    }
 +    tcg_temp_free(addr);
 +}
 +
-+static void gen_aa32_st_internal_i64(DisasContext *s, TCGv_i64 val,
++static inline int rsub_32(DisasContext *s, int x)
 +                                     TCGv_i32 a32, int index, MemOp opc)
 +{
-+    TCGv addr = gen_aa32_addr(s, a32, opc);
++    return 32 - x;
 +
 +    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 +    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +        tcg_gen_rotri_i64(tmp, val, 32);
 +        tcg_gen_qemu_st_i64(tmp, addr, index, opc);
 +        tcg_temp_free_i64(tmp);
 +    } else {
 +        tcg_gen_qemu_st_i64(val, addr, index, opc);
 +    }
 +    tcg_temp_free(addr);
 +}
 +
- static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
++static inline int rsub_16(DisasContext *s, int x)
                              int index, MemOp opc)
  {
@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
      gen_aa32_st_internal_i32(s, val, a32, index, finalize_memop(s, opc));
  }
 +static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
 +                            int index, MemOp opc)
 +{
-+    gen_aa32_ld_internal_i64(s, val, a32, index, finalize_memop(s, opc));
++    return 16 - x;
 +}
 +
-+static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
++static inline int rsub_8(DisasContext *s, int x)
 +                            int index, MemOp opc)
 +{
-+    gen_aa32_st_internal_i64(s, val, a32, index, finalize_memop(s, opc));
++    return 8 - x;
 +}
 +
- #define DO_GEN_LD(SUFF, OPC)                                            \
+ static inline int arm_dc_feature(DisasContext *dc, int feature)
-     static inline void gen_aa32_ld##SUFF(DisasContext *s, TCGv_i32 val, \
+ {
-                                          TCGv_i32 a32, int index)       \
+     return (dc->features & (1ULL << feature)) != 0;
-@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-         gen_aa32_st_i32(s, val, a32, index, OPC);                       \
+index XXXXXXX..XXXXXXX 100644
-     }
+--- a/target/arm/mve.decode
++++ b/target/arm/mve.decode
--static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
+@@ -XXX,XX +XXX,XX @@
--                            int index, MemOp opc)
+ @2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
  @2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
 +# Right shifts are encoded as N - shift, where N is the element size in bits.
 +%rshift_i5  16:5 !function=rsub_32
 +%rshift_i4  16:4 !function=rsub_16
 +%rshift_i3  16:3 !function=rsub_8
 +
 +@2_shr_b .... .... .. 001 ... .... .... .... .... &2shift qd=%qd qm=%qm \
 +         size=0 shift=%rshift_i3
 +@2_shr_h .... .... .. 01 .... .... .... .... .... &2shift qd=%qd qm=%qm \
 +         size=1 shift=%rshift_i4
 +@2_shr_w .... .... .. 1 ..... .... .... .... .... &2shift qd=%qd qm=%qm \
 +         size=2 shift=%rshift_i5
 +
  # Vector loads and stores
  # Widening loads and narrowing stores:
@@ -XXX,XX +XXX,XX @@ VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
  VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_b
  VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_h
  VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_w
 +
 +VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_b
 +VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_h
 +VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_w
 +
 +VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_b
 +VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_h
 +VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_w
 +
 +VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
 +VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
 +VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
 +
 +VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
 +VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
 +VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvuw, 4, uint32_t)
      DO_2SHIFT(OP##b, 1, uint8_t, FN)            \
      DO_2SHIFT(OP##h, 2, uint16_t, FN)           \
      DO_2SHIFT(OP##w, 4, uint32_t, FN)
 +#define DO_2SHIFT_S(OP, FN)                     \
 +    DO_2SHIFT(OP##b, 1, int8_t, FN)             \
 +    DO_2SHIFT(OP##h, 2, int16_t, FN)            \
 +    DO_2SHIFT(OP##w, 4, int32_t, FN)
  #define DO_2SHIFT_SAT_U(OP, FN)                 \
      DO_2SHIFT_SAT(OP##b, 1, uint8_t, FN)        \
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvuw, 4, uint32_t)
      DO_2SHIFT_SAT(OP##w, 4, int32_t, FN)
  DO_2SHIFT_U(vshli_u, DO_VSHLU)
 +DO_2SHIFT_S(vshli_s, DO_VSHLS)
  DO_2SHIFT_SAT_U(vqshli_u, DO_UQSHL_OP)
  DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
  DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
 +DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
 +DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHLI, vshli_u, false)
  DO_2SHIFT(VQSHLI_S, vqshli_s, false)
  DO_2SHIFT(VQSHLI_U, vqshli_u, false)
  DO_2SHIFT(VQSHLUI, vqshlui_s, false)
 +/* These right shifts use a left-shift helper with negated shift count */
 +DO_2SHIFT(VSHRI_S, vshli_s, true)
 +DO_2SHIFT(VSHRI_U, vshli_u, true)
 +DO_2SHIFT(VRSHRI_S, vrshli_s, true)
 +DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 diff --git a/target/arm/translate-neon.c b/target/arm/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c
 +++ b/target/arm/translate-neon.c
@@ -XXX,XX +XXX,XX @@ static inline int plus1(DisasContext *s, int x)
      return x + 1;
  }
 -static inline int rsub_64(DisasContext *s, int x)
 -{
--    TCGv addr = gen_aa32_addr(s, a32, opc);
+-    return 64 - x;
 -    tcg_gen_qemu_ld_i64(val, addr, index, opc);
 -
 -    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 -    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 -        tcg_gen_rotri_i64(val, val, 32);
 -    }
 -
 -    tcg_temp_free(addr);
 -}
 -
- static inline void gen_aa32_ld64(DisasContext *s, TCGv_i64 val,
+-static inline int rsub_32(DisasContext *s, int x)
-                                  TCGv_i32 a32, int index)
+-{
- {
+-    return 32 - x;
--    gen_aa32_ld_i64(s, val, a32, index, MO_Q | s->be_data);
+-}
 -static inline int rsub_16(DisasContext *s, int x)
 -{
 -    return 16 - x;
 -}
 -static inline int rsub_8(DisasContext *s, int x)
 -{
 -    return 8 - x;
 -}
 -
--static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
+ static inline int neon_3same_fp_size(DisasContext *s, int x)
 -                            int index, MemOp opc)
 -{
 -    TCGv addr = gen_aa32_addr(s, a32, opc);
 -
 -    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 -    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
 -        TCGv_i64 tmp = tcg_temp_new_i64();
 -        tcg_gen_rotri_i64(tmp, val, 32);
 -        tcg_gen_qemu_st_i64(tmp, addr, index, opc);
 -        tcg_temp_free_i64(tmp);
 -    } else {
 -        tcg_gen_qemu_st_i64(val, addr, index, opc);
 -    }
 -    tcg_temp_free(addr);
 +    gen_aa32_ld_i64(s, val, a32, index, MO_Q);
  }
  static inline void gen_aa32_st64(DisasContext *s, TCGv_i64 val,
                                   TCGv_i32 a32, int index)
  {
--    gen_aa32_st_i64(s, val, a32, index, MO_Q | s->be_data);
+     /* Convert 0==fp32, 1==fp16 into a MO_* value */
 +    gen_aa32_st_i64(s, val, a32, index, MO_Q);
  }
  DO_GEN_LD(8u, MO_UB)
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
                  int tt = a->vd + reg + spacing * xs;
                  if (a->l) {
 -                    gen_aa32_ld_i64(s, tmp64, addr, mmu_idx, endian | size);
 +                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx,
 +                                             endian | size);
                      neon_store_element64(tt, n, size, tmp64);
                  } else {
                      neon_load_element64(tmp64, tt, n, size);
 -                    gen_aa32_st_i64(s, tmp64, addr, mmu_idx, endian | size);
 +                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx,
 +                                             endian | size);
                  }
                  tcg_gen_add_i32(addr, addr, tmp);
              }
 --
 .20.1

-[PULL 42/43] hw: add compat machines for 6.1
+[PULL 15/24] target/arm: Implement MVE VSHLL
-From: Cornelia Huck <cohuck@redhat.com>
+Implement the MVE VHLL (vector shift left long) insn.  This has two
 encodings: the T1 encoding is the usual shift-by-immediate format,
 and the T2 encoding is a special case where the shift count is always
 equal to the element size.
-Add 6.1 machine types for arm/i440fx/q35/s390x/spapr.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-10-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  9 +++++++
  target/arm/mve.decode      | 53 +++++++++++++++++++++++++++++++++++---
  target/arm/mve_helper.c    | 32 +++++++++++++++++++++++
  target/arm/translate-mve.c | 15 +++++++++++
 files changed, 105 insertions(+), 4 deletions(-)
-Signed-off-by: Cornelia Huck <cohuck@redhat.com>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Acked-by: Greg Kurz <groug@kaod.org>
 Message-id: 20210331111900.118274-1-cohuck@redhat.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/hw/boards.h        |  3 +++
  include/hw/i386/pc.h       |  3 +++
  hw/arm/virt.c              |  7 ++++++-
  hw/core/machine.c          |  3 +++
  hw/i386/pc.c               |  3 +++
  hw/i386/pc_piix.c          | 14 +++++++++++++-
  hw/i386/pc_q35.c           | 13 ++++++++++++-
  hw/ppc/spapr.c             | 17 ++++++++++++++---
  hw/s390x/s390-virtio-ccw.c | 14 +++++++++++++-
 files changed, 70 insertions(+), 7 deletions(-)
 diff --git a/include/hw/boards.h b/include/hw/boards.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/boards.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/boards.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ struct MachineState {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     } \
+ DEF_HELPER_FLAGS_4(mve_vrshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     type_init(machine_initfn##_register_types)
+ DEF_HELPER_FLAGS_4(mve_vrshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vrshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +extern GlobalProperty hw_compat_6_0[];
 +extern const size_t hw_compat_6_0_len;
 +
- extern GlobalProperty hw_compat_5_2[];
++DEF_HELPER_FLAGS_4(mve_vshllbsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- extern const size_t hw_compat_5_2_len;
++DEF_HELPER_FLAGS_4(mve_vshllbsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vshllbub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-diff --git a/include/hw/i386/pc.h b/include/hw/i386/pc.h
++DEF_HELPER_FLAGS_4(mve_vshllbuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/i386/pc.h
+--- a/target/arm/mve.decode
-+++ b/include/hw/i386/pc.h
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ bool pc_system_ovmf_table_find(const char *entry, uint8_t **data,
+@@ -XXX,XX +XXX,XX @@
- void pc_madt_cpu_entry(AcpiDeviceIf *adev, int uid,
+ @2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
-                        const CPUArchIdList *apic_ids, GArray *entry);
+ @2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
-+extern GlobalProperty pc_compat_6_0[];
++@2_shll_b .... .... ... 01 shift:3 .... .... .... .... &2shift qd=%qd qm=%qm size=0
-+extern const size_t pc_compat_6_0_len;
++@2_shll_h .... .... ... 1  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
 +# VSHLL encoding T2 where shift == esize
 +@2_shll_esize_b .... .... .... 00 .. .... .... .... .... &2shift \
 +                qd=%qd qm=%qm size=0 shift=8
 +@2_shll_esize_h .... .... .... 01 .. .... .... .... .... &2shift \
 +                qd=%qd qm=%qm size=1 shift=16
 +
- extern GlobalProperty pc_compat_5_2[];
+ # Right shifts are encoded as N - shift, where N is the element size in bits.
- extern const size_t pc_compat_5_2_len;
+ %rshift_i5  16:5 !function=rsub_32
+ %rshift_i4  16:4 !function=rsub_16
-diff --git a/hw/arm/virt.c b/hw/arm/virt.c
+@@ -XXX,XX +XXX,XX @@ VADD             1110 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
-index XXXXXXX..XXXXXXX 100644
+ VSUB             1111 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
---- a/hw/arm/virt.c
+ VMUL             1110 1111 0 . .. ... 0 ... 0 1001 . 1 . 1 ... 0 @2op
-+++ b/hw/arm/virt.c
-@@ -XXX,XX +XXX,XX @@ static void machvirt_machine_init(void)
+-VMULH_S          111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
- }
+-VMULH_U          111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
- type_init(machvirt_machine_init);
++# The VSHLL T2 encoding is not a @2op pattern, but is here because it
++# overlaps what would be size=0b11 VMULH/VRMULH
 +static void virt_machine_6_1_options(MachineClass *mc)
 +{
-+}
++  VSHLL_BS       111 0 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_b
-+DEFINE_VIRT_MACHINE_AS_LATEST(6, 1)
++  VSHLL_BS       111 0 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_h
-+
- static void virt_machine_6_0_options(MachineClass *mc)
+-VRMULH_S         111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
- {
+-VRMULH_U         111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
- }
++  VMULH_S        111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 -DEFINE_VIRT_MACHINE_AS_LATEST(6, 0)
 +DEFINE_VIRT_MACHINE(6, 0)
  static void virt_machine_5_2_options(MachineClass *mc)
  {
 diff --git a/hw/core/machine.c b/hw/core/machine.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/core/machine.c
 +++ b/hw/core/machine.c
@@ -XXX,XX +XXX,XX @@
  #include "hw/virtio/virtio.h"
  #include "hw/virtio/virtio-pci.h"
 +GlobalProperty hw_compat_6_0[] = {};
 +const size_t hw_compat_6_0_len = G_N_ELEMENTS(hw_compat_6_0);
 +
  GlobalProperty hw_compat_5_2[] = {
      { "ICH9-LPC", "smm-compat", "on"},
      { "PIIX4_PM", "smm-compat", "on"},
 diff --git a/hw/i386/pc.c b/hw/i386/pc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/i386/pc.c
 +++ b/hw/i386/pc.c
@@ -XXX,XX +XXX,XX @@
  #include "trace.h"
  #include CONFIG_DEVICES
 +GlobalProperty pc_compat_6_0[] = {};
 +const size_t pc_compat_6_0_len = G_N_ELEMENTS(pc_compat_6_0);
 +
  GlobalProperty pc_compat_5_2[] = {
      { "ICH9-LPC", "x-smi-cpu-hotunplug", "off" },
  };
 diff --git a/hw/i386/pc_piix.c b/hw/i386/pc_piix.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/i386/pc_piix.c
 +++ b/hw/i386/pc_piix.c
@@ -XXX,XX +XXX,XX @@ static void pc_i440fx_machine_options(MachineClass *m)
      machine_class_allow_dynamic_sysbus_dev(m, TYPE_VMBUS_BRIDGE);
  }
 -static void pc_i440fx_6_0_machine_options(MachineClass *m)
 +static void pc_i440fx_6_1_machine_options(MachineClass *m)
  {
      PCMachineClass *pcmc = PC_MACHINE_CLASS(m);
      pc_i440fx_machine_options(m);
@@ -XXX,XX +XXX,XX @@ static void pc_i440fx_6_0_machine_options(MachineClass *m)
      pcmc->default_cpu_version = 1;
  }
 +DEFINE_I440FX_MACHINE(v6_1, "pc-i440fx-6.1", NULL,
 +                      pc_i440fx_6_1_machine_options);
 +
 +static void pc_i440fx_6_0_machine_options(MachineClass *m)
 +{
 +    pc_i440fx_6_1_machine_options(m);
 +    m->alias = NULL;
 +    m->is_default = false;
 +    compat_props_add(m->compat_props, hw_compat_6_0, hw_compat_6_0_len);
 +    compat_props_add(m->compat_props, pc_compat_6_0, pc_compat_6_0_len);
 +}
 +
- DEFINE_I440FX_MACHINE(v6_0, "pc-i440fx-6.0", NULL,
++{
-                       pc_i440fx_6_0_machine_options);
++  VSHLL_BU       111 1 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_b
++  VSHLL_BU       111 1 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_h
 diff --git a/hw/i386/pc_q35.c b/hw/i386/pc_q35.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/i386/pc_q35.c
 +++ b/hw/i386/pc_q35.c
@@ -XXX,XX +XXX,XX @@ static void pc_q35_machine_options(MachineClass *m)
      m->max_cpus = 288;
  }
 -static void pc_q35_6_0_machine_options(MachineClass *m)
 +static void pc_q35_6_1_machine_options(MachineClass *m)
  {
      PCMachineClass *pcmc = PC_MACHINE_CLASS(m);
      pc_q35_machine_options(m);
@@ -XXX,XX +XXX,XX @@ static void pc_q35_6_0_machine_options(MachineClass *m)
      pcmc->default_cpu_version = 1;
  }
 +DEFINE_Q35_MACHINE(v6_1, "pc-q35-6.1", NULL,
 +                   pc_q35_6_1_machine_options);
 +
-+static void pc_q35_6_0_machine_options(MachineClass *m)
++  VMULH_U        111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +{
 +    pc_q35_6_1_machine_options(m);
 +    m->alias = NULL;
 +    compat_props_add(m->compat_props, hw_compat_6_0, hw_compat_6_0_len);
 +    compat_props_add(m->compat_props, pc_compat_6_0, pc_compat_6_0_len);
 +}
 +
- DEFINE_Q35_MACHINE(v6_0, "pc-q35-6.0", NULL,
++{
-                    pc_q35_6_0_machine_options);
++  VSHLL_TS       111 0 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_b
++  VSHLL_TS       111 0 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_h
-diff --git a/hw/ppc/spapr.c b/hw/ppc/spapr.c
++
 +  VRMULH_S       111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +}
 +
 +{
 +  VSHLL_TU       111 1 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_TU       111 1 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_h
 +
 +  VRMULH_U       111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +}
  VMAX_S           111 0 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
  VMAX_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
@@ -XXX,XX +XXX,XX @@ VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
 +
 +# VSHLL T1 encoding; the T2 VSHLL encoding is elsewhere in this file
 +VSHLL_BS          111 0 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_BS          111 0 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_BU          111 1 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_BU          111 1 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/ppc/spapr.c
+--- a/target/arm/mve_helper.c
-+++ b/hw/ppc/spapr.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void spapr_machine_latest_class_options(MachineClass *mc)
+@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
-     type_init(spapr_machine_register_##suffix)
+ DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
+ DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
- /*
+ DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 - * pseries-6.0
 + * pseries-6.1
   */
 -static void spapr_machine_6_0_class_options(MachineClass *mc)
 +static void spapr_machine_6_1_class_options(MachineClass *mc)
  {
      /* Defaults for the latest behaviour inherited from the base class */
  }
 -DEFINE_SPAPR_MACHINE(6_0, "6.0", true);
 +DEFINE_SPAPR_MACHINE(6_1, "6.1", true);
 +
 +/*
-+ * pseries-6.0
++ * Long shifts taking half-sized inputs from top or bottom of the input
 + * vector and producing a double-width result. ESIZE, TYPE are for
 + * the input, and LESIZE, LTYPE for the output.
 + * Unlike the normal shift helpers, we do not handle negative shift counts,
 + * because the long shift is strictly left-only.
 + */
-+static void spapr_machine_6_0_class_options(MachineClass *mc)
++#define DO_VSHLL(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE)                   \
-+{
++    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,             \
-+    spapr_machine_6_1_class_options(mc);
++                                void *vm, uint32_t shift)               \
-+    compat_props_add(mc->compat_props, hw_compat_6_0, hw_compat_6_0_len);
++    {                                                                   \
-+}
++        LTYPE *d = vd;                                                  \
 +        TYPE *m = vm;                                                   \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned le;                                                    \
 +        assert(shift <= 16);                                            \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) {         \
 +            LTYPE r = (LTYPE)m[H##ESIZE(le * 2 + TOP)] << shift;        \
 +            mergemask(&d[H##LESIZE(le)], r, mask);                      \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-+DEFINE_SPAPR_MACHINE(6_0, "6.0", false);
++#define DO_VSHLL_ALL(OP, TOP)                                \
++    DO_VSHLL(OP##sb, TOP, 1, int8_t, 2, int16_t)             \
- /*
++    DO_VSHLL(OP##ub, TOP, 1, uint8_t, 2, uint16_t)           \
-  * pseries-5.2
++    DO_VSHLL(OP##sh, TOP, 2, int16_t, 4, int32_t)            \
-diff --git a/hw/s390x/s390-virtio-ccw.c b/hw/s390x/s390-virtio-ccw.c
++    DO_VSHLL(OP##uh, TOP, 2, uint16_t, 4, uint32_t)          \
 +
 +DO_VSHLL_ALL(vshllb, false)
 +DO_VSHLL_ALL(vshllt, true)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/s390x/s390-virtio-ccw.c
+--- a/target/arm/translate-mve.c
-+++ b/hw/s390x/s390-virtio-ccw.c
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ bool css_migration_enabled(void)
+@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHRI_S, vshli_s, true)
-     }                                                                         \
+ DO_2SHIFT(VSHRI_U, vshli_u, true)
-     type_init(ccw_machine_register_##suffix)
+ DO_2SHIFT(VRSHRI_S, vrshli_s, true)
+ DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 +static void ccw_machine_6_1_instance_options(MachineState *machine)
 +{
 +}
 +
-+static void ccw_machine_6_1_class_options(MachineClass *mc)
++#define DO_VSHLL(INSN, FN)                                      \
-+{
++    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
-+}
++    {                                                           \
-+DEFINE_CCW_MACHINE(6_1, "6.1", true);
++        static MVEGenTwoOpShiftFn * const fns[] = {             \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +        };                                                      \
 +        return do_2shift(s, a, fns[a->size], false);            \
 +    }
 +
- static void ccw_machine_6_0_instance_options(MachineState *machine)
++DO_VSHLL(VSHLL_BS, vshllbs)
- {
++DO_VSHLL(VSHLL_BU, vshllbu)
-+    ccw_machine_6_1_instance_options(machine);
++DO_VSHLL(VSHLL_TS, vshllts)
- }
++DO_VSHLL(VSHLL_TU, vshlltu)
  static void ccw_machine_6_0_class_options(MachineClass *mc)
  {
 +    ccw_machine_6_1_class_options(mc);
 +    compat_props_add(mc->compat_props, hw_compat_6_0, hw_compat_6_0_len);
  }
 -DEFINE_CCW_MACHINE(6_0, "6.0", true);
 +DEFINE_CCW_MACHINE(6_0, "6.0", false);
  static void ccw_machine_5_2_instance_options(MachineState *machine)
  {
 --
 .20.1

-[PULL 33/43] target/arm: Enforce alignment for VLDn/VSTn (multiple)
+[PULL 16/24] target/arm: Implement MVE VSRI, VSLI
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VSRI and VSLI insns, which perform a
 shift-and-insert operation.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-24-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-11-peter.maydell@linaro.org
 ---
- target/arm/translate-neon.c.inc | 27 ++++++++++++++++++++++-----
+ target/arm/helper-mve.h    |  8 ++++++++
-file changed, 22 insertions(+), 5 deletions(-)
+ target/arm/mve.decode      |  9 ++++++++
  target/arm/mve_helper.c    | 42 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c |  3 +++
 files changed, 62 insertions(+)
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/translate-neon.c.inc
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vshlltsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- {
+ DEF_HELPER_FLAGS_4(mve_vshlltsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     /* Neon load/store multiple structures */
+ DEF_HELPER_FLAGS_4(mve_vshlltub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     int nregs, interleave, spacing, reg, n;
+ DEF_HELPER_FLAGS_4(mve_vshlltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 -    MemOp endian = s->be_data;
 +    MemOp mop, align, endian;
      int mmu_idx = get_mem_index(s);
      int size = a->size;
      TCGv_i64 tmp64;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
      }
      /* For our purposes, bytes are always little-endian.  */
 +    endian = s->be_data;
      if (size == 0) {
          endian = MO_LE;
      }
 +
-+    /* Enforce alignment requested by the instruction */
++DEF_HELPER_FLAGS_4(mve_vsrib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    if (a->align) {
++DEF_HELPER_FLAGS_4(mve_vsrih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+        align = pow2_align(a->align + 2); /* 4 ** a->align */
++DEF_HELPER_FLAGS_4(mve_vsriw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    } else {
++
-+        align = s->align_mem ? MO_ALIGN : 0;
++DEF_HELPER_FLAGS_4(mve_vslib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vslih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vsliw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
  VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
  VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +# Shift-and-insert
 +VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_b
 +VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_h
 +VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_w
 +
 +VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
 +VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
 +VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
  DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
  DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 +/* Shift-and-insert; we always work with 64 bits at a time */
 +#define DO_2SHIFT_INSERT(OP, ESIZE, SHIFTFN, MASKFN)                    \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,             \
 +                                void *vm, uint32_t shift)               \
 +    {                                                                   \
 +        uint64_t *d = vd, *m = vm;                                      \
 +        uint16_t mask;                                                  \
 +        uint64_t shiftmask;                                             \
 +        unsigned e;                                                     \
 +        if (shift == 0 || shift == ESIZE * 8) {                         \
 +            /*                                                          \
 +             * Only VSLI can shift by 0; only VSRI can shift by <dt>.   \
 +             * The generic logic would give the right answer for 0 but  \
 +             * fails for <dt>.                                          \
 +             */                                                         \
 +            goto done;                                                  \
 +        }                                                               \
 +        assert(shift < ESIZE * 8);                                      \
 +        mask = mve_element_mask(env);                                   \
 +        /* ESIZE / 2 gives the MO_* value if ESIZE is in [1,2,4] */     \
 +        shiftmask = dup_const(ESIZE / 2, MASKFN(ESIZE * 8, shift));     \
 +        for (e = 0; e < 16 / 8; e++, mask >>= 8) {                      \
 +            uint64_t r = (SHIFTFN(m[H8(e)], shift) & shiftmask) |       \
 +                (d[H8(e)] & ~shiftmask);                                \
 +            mergemask(&d[H8(e)], r, mask);                              \
 +        }                                                               \
 +done:                                                                   \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-     /*
++#define DO_SHL(N, SHIFT) ((N) << (SHIFT))
-      * Consecutive little-endian elements from a single register
++#define DO_SHR(N, SHIFT) ((N) >> (SHIFT))
-      * can be promoted to a larger little-endian operation.
++#define SHL_MASK(EBITS, SHIFT) MAKE_64BIT_MASK((SHIFT), (EBITS) - (SHIFT))
-      */
++#define SHR_MASK(EBITS, SHIFT) MAKE_64BIT_MASK(0, (EBITS) - (SHIFT))
      if (interleave == 1 && endian == MO_LE) {
 +        /* Retain any natural alignment. */
 +        if (align == MO_ALIGN) {
 +            align = pow2_align(size);
 +        }
          size = 3;
      }
 +
-     tmp64 = tcg_temp_new_i64();
++DO_2SHIFT_INSERT(vsrib, 1, DO_SHR, SHR_MASK)
-     addr = tcg_temp_new_i32();
++DO_2SHIFT_INSERT(vsrih, 2, DO_SHR, SHR_MASK)
-     tmp = tcg_const_i32(1 << size);
++DO_2SHIFT_INSERT(vsriw, 4, DO_SHR, SHR_MASK)
-     load_reg_var(s, addr, a->rn);
++DO_2SHIFT_INSERT(vslib, 1, DO_SHL, SHL_MASK)
 +DO_2SHIFT_INSERT(vslih, 2, DO_SHL, SHL_MASK)
 +DO_2SHIFT_INSERT(vsliw, 4, DO_SHL, SHL_MASK)
 +
-+    mop = endian | size | align;
+ /*
-     for (reg = 0; reg < nregs; reg++) {
+  * Long shifts taking half-sized inputs from top or bottom of the input
-         for (n = 0; n < 8 >> size; n++) {
+  * vector and producing a double-width result. ESIZE, TYPE are for
-             int xs;
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_multiple(DisasContext *s, arg_VLDST_multiple *a)
+index XXXXXXX..XXXXXXX 100644
-                 int tt = a->vd + reg + spacing * xs;
+--- a/target/arm/translate-mve.c
++++ b/target/arm/translate-mve.c
-                 if (a->l) {
+@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHRI_U, vshli_u, true)
--                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx,
+ DO_2SHIFT(VRSHRI_S, vrshli_s, true)
--                                             endian | size);
+ DO_2SHIFT(VRSHRI_U, vrshli_u, true)
-+                    gen_aa32_ld_internal_i64(s, tmp64, addr, mmu_idx, mop);
-                     neon_store_element64(tt, n, size, tmp64);
++DO_2SHIFT(VSRI, vsri, false)
-                 } else {
++DO_2SHIFT(VSLI, vsli, false)
                      neon_load_element64(tmp64, tt, n, size);
 -                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx,
 -                                             endian | size);
 +                    gen_aa32_st_internal_i64(s, tmp64, addr, mmu_idx, mop);
                  }
                  tcg_gen_add_i32(addr, addr, tmp);
 +
-+                /* Subsequent memory operations inherit alignment */
+ #define DO_VSHLL(INSN, FN)                                      \
-+                mop &= ~MO_AMASK;
+     static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
-             }
+     {                                                           \
          }
      }
 --
 .20.1

-[PULL 22/43] target/arm: Merge gen_aa32_frob64 into gen_aa32_ld_i64
+[PULL 17/24] target/arm: Implement MVE VSHRN, VRSHRN
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shift-right-and-narrow insn VSHRN and VRSHRN.
-This is the only caller.  Adjust some commentary to talk
+do_urshr() is borrowed from sve_helper.c.
 about SCTLR_B instead of the vanishing function.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-13-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-12-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 37 ++++++++++++++++---------------------
+ target/arm/helper-mve.h    | 10 ++++++++++
-file changed, 16 insertions(+), 21 deletions(-)
+ target/arm/mve.decode      | 11 +++++++++++
  target/arm/mve_helper.c    | 40 ++++++++++++++++++++++++++++++++++++++
  target/arm/translate-mve.c | 15 ++++++++++++++
 files changed, 76 insertions(+)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/translate.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vsriw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-         gen_aa32_st_i32(s, val, a32, index, OPC);                       \
+ DEF_HELPER_FLAGS_4(mve_vslib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     }
+ DEF_HELPER_FLAGS_4(mve_vslih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vsliw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 -static inline void gen_aa32_frob64(DisasContext *s, TCGv_i64 val)
 -{
 -    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
 -    if (!IS_USER_ONLY && s->sctlr_b) {
 -        tcg_gen_rotri_i64(val, val, 32);
 -    }
 -}
 -
  static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
                              int index, MemOp opc)
  {
      TCGv addr = gen_aa32_addr(s, a32, opc);
      tcg_gen_qemu_ld_i64(val, addr, index, opc);
 -    gen_aa32_frob64(s, val);
 +
-+    /* Not needed for user-mode BE32, where we use MO_BE instead.  */
++DEF_HELPER_FLAGS_4(mve_vshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+    if (!IS_USER_ONLY && s->sctlr_b) {
++DEF_HELPER_FLAGS_4(mve_vshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+        tcg_gen_rotri_i64(val, val, 32);
++DEF_HELPER_FLAGS_4(mve_vshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vrshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_w
  VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
  VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
  VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
 +
 +# Narrowing shifts (which only support b and h sizes)
 +VSHRNB            111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
 +VSHRNB            111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
 +VSHRNT            111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
 +VSHRNT            111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
 +
 +VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
 +VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
 +VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
 +VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_INSERT(vsliw, 4, DO_SHL, SHL_MASK)
  DO_VSHLL_ALL(vshllb, false)
  DO_VSHLL_ALL(vshllt, true)
 +
 +/*
 + * Narrowing right shifts, taking a double sized input, shifting it
 + * and putting the result in either the top or bottom half of the output.
 + * ESIZE, TYPE are the output, and LESIZE, LTYPE the input.
 + */
 +#define DO_VSHRN(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN)       \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        LTYPE *m = vm;                                          \
 +        TYPE *d = vd;                                           \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned le;                                            \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) { \
 +            TYPE r = FN(m[H##LESIZE(le)], shift);               \
 +            mergemask(&d[H##ESIZE(le * 2 + TOP)], r, mask);     \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
-     tcg_temp_free(addr);
++#define DO_VSHRN_ALL(OP, FN)                                    \
- }
++    DO_VSHRN(OP##bb, false, 1, uint8_t, 2, uint16_t, FN)        \
++    DO_VSHRN(OP##bh, false, 2, uint16_t, 4, uint32_t, FN)       \
-@@ -XXX,XX +XXX,XX @@ static void gen_load_exclusive(DisasContext *s, int rt, int rt2,
++    DO_VSHRN(OP##tb, true, 1, uint8_t, 2, uint16_t, FN)         \
-         TCGv_i32 tmp2 = tcg_temp_new_i32();
++    DO_VSHRN(OP##th, true, 2, uint16_t, 4, uint32_t, FN)
          TCGv_i64 t64 = tcg_temp_new_i64();
 -        /* For AArch32, architecturally the 32-bit word at the lowest
 +        /*
 +         * For AArch32, architecturally the 32-bit word at the lowest
           * address is always Rt and the one at addr+4 is Rt2, even if
           * the CPU is big-endian. That means we don't want to do a
 -         * gen_aa32_ld_i64(), which invokes gen_aa32_frob64() as if
 -         * for an architecturally 64-bit access, but instead do a
 -         * 64-bit access using MO_BE if appropriate and then split
 -         * the two halves.
 -         * This only makes a difference for BE32 user-mode, where
 -         * frob64() must not flip the two halves of the 64-bit data
 -         * but this code must treat BE32 user-mode like BE32 system.
 +         * gen_aa32_ld_i64(), which checks SCTLR_B as if for an
 +         * architecturally 64-bit access, but instead do a 64-bit access
 +         * using MO_BE if appropriate and then split the two halves.
           */
          TCGv taddr = gen_aa32_addr(s, addr, opc);
@@ -XXX,XX +XXX,XX @@ static void gen_store_exclusive(DisasContext *s, int rd, int rt, int rt2,
          TCGv_i64 n64 = tcg_temp_new_i64();
          t2 = load_reg(s, rt2);
 -        /* For AArch32, architecturally the 32-bit word at the lowest
 +
-+        /*
++static inline uint64_t do_urshr(uint64_t x, unsigned sh)
-+         * For AArch32, architecturally the 32-bit word at the lowest
++{
-          * address is always Rt and the one at addr+4 is Rt2, even if
++    if (likely(sh < 64)) {
-          * the CPU is big-endian. Since we're going to treat this as a
++        return (x >> sh) + ((x >> (sh - 1)) & 1);
-          * single 64-bit BE store, we need to put the two halves in the
++    } else if (sh == 64) {
-          * opposite order for BE to LE, so that they end up in the right
++        return x >> 63;
--         * places.
++    } else {
--         * We don't want gen_aa32_frob64() because that does the wrong
++        return 0;
--         * thing for BE32 usermode.
++    }
-+         * places.  We don't want gen_aa32_st_i64, because that checks
++}
-+         * SCTLR_B as if for an architectural 64-bit access.
++
-          */
++DO_VSHRN_ALL(vshrn, DO_SHR)
-         if (s->be_data == MO_BE) {
++DO_VSHRN_ALL(vrshrn, do_urshr)
-             tcg_gen_concat_i32_i64(n64, t2, t1);
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_VSHLL(VSHLL_BS, vshllbs)
  DO_VSHLL(VSHLL_BU, vshllbu)
  DO_VSHLL(VSHLL_TS, vshllts)
  DO_VSHLL(VSHLL_TU, vshlltu)
 +
 +#define DO_2SHIFT_N(INSN, FN)                                   \
 +    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
 +    {                                                           \
 +        static MVEGenTwoOpShiftFn * const fns[] = {             \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +        };                                                      \
 +        return do_2shift(s, a, fns[a->size], false);            \
 +    }
 +
 +DO_2SHIFT_N(VSHRNB, vshrnb)
 +DO_2SHIFT_N(VSHRNT, vshrnt)
 +DO_2SHIFT_N(VRSHRNB, vrshrnb)
 +DO_2SHIFT_N(VRSHRNT, vrshrnt)
 --
 .20.1

-[PULL 05/43] target/arm: Fix unaligned checks for mte_check1, mte_probe1
+[PULL 18/24] target/arm: Implement MVE saturating narrowing shifts
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE saturating shift-right-and-narrow insns
+VQSHRN, VQSHRUN, VQRSHRN and VQRSHRUN.
-We were incorrectly assuming that only the first byte of an MTE access
-is checked against the tags.  But per the ARM, unaligned accesses are
+do_srshr() is borrowed from sve_helper.c.
-pre-decomposed into single-byte accesses.  So by the time we reach the
 actual MTE check in the ARM pseudocode, all accesses are aligned.
 We cannot tell a priori whether or not a given scalar access is aligned,
 therefore we must at least check.  Use mte_probe_int, which is already
 set up for checking multiple granules.
 Buglink: https://bugs.launchpad.net/bugs/1921948
 Tested-by: Alex Bennée <alex.bennee@linaro.org>
 Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210416183106.1516563-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-13-peter.maydell@linaro.org
 ---
- target/arm/mte_helper.c | 109 +++++++++++++---------------------------
+ target/arm/helper-mve.h    |  30 +++++++++++
-file changed, 35 insertions(+), 74 deletions(-)
+ target/arm/mve.decode      |  28 ++++++++++
+ target/arm/mve_helper.c    | 104 +++++++++++++++++++++++++++++++++++++
-diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
+ target/arm/translate-mve.c |  12 +++++
-index XXXXXXX..XXXXXXX 100644
+files changed, 174 insertions(+)
---- a/target/arm/mte_helper.c
-+++ b/target/arm/mte_helper.c
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static void mte_check_fail(CPUARMState *env, uint32_t desc,
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vrshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vrshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vrshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnb_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrnt_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnb_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrnt_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqrshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
  VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
  VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
  VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
 +
 +VQSHRNB_S         111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNB_S         111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_h
 +VQSHRNT_S         111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNT_S         111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_h
 +VQSHRNB_U         111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNB_U         111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_h
 +VQSHRNT_U         111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_b
 +VQSHRNT_U         111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_h
 +
 +VQSHRUNB          111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
 +VQSHRUNB          111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
 +VQSHRUNT          111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
 +VQSHRUNT          111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
 +
 +VQRSHRNB_S        111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNB_S        111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNT_S        111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNT_S        111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNB_U        111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNB_U        111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNT_U        111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNT_U        111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_h
 +
 +VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
 +VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
 +VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
 +VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t do_urshr(uint64_t x, unsigned sh)
      }
  }
--/*
++static inline int64_t do_srshr(int64_t x, unsigned sh)
 - * Perform an MTE checked access for a single logical or atomic access.
 - */
 -static bool mte_probe1_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
 -                           uintptr_t ra, int bit55)
 -{
 -    int mem_tag, mmu_idx, ptr_tag, size;
 -    MMUAccessType type;
 -    uint8_t *mem;
 -
 -    ptr_tag = allocation_tag_from_addr(ptr);
 -
 -    if (tcma_check(desc, bit55, ptr_tag)) {
 -        return true;
 -    }
 -
 -    mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
 -    type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
 -    size = FIELD_EX32(desc, MTEDESC, ESIZE);
 -
 -    mem = allocation_tag_mem(env, mmu_idx, ptr, type, size,
 -                             MMU_DATA_LOAD, 1, ra);
 -    if (!mem) {
 -        return true;
 -    }
 -
 -    mem_tag = load_tag1(ptr, mem);
 -    return ptr_tag == mem_tag;
 -}
 -
 -/*
 - * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
 - * Returns false if the access is Checked and the check failed.  This
 - * is only intended to probe the tag -- the validity of the page must
 - * be checked beforehand.
 - */
 -bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
 -{
 -    int bit55 = extract64(ptr, 55, 1);
 -
 -    /* If TBI is disabled, the access is unchecked. */
 -    if (unlikely(!tbi_check(desc, bit55))) {
 -        return true;
 -    }
 -
 -    return mte_probe1_int(env, desc, ptr, 0, bit55);
 -}
 -
 -uint64_t mte_check1(CPUARMState *env, uint32_t desc,
 -                    uint64_t ptr, uintptr_t ra)
 -{
 -    int bit55 = extract64(ptr, 55, 1);
 -
 -    /* If TBI is disabled, the access is unchecked, and ptr is not dirty. */
 -    if (unlikely(!tbi_check(desc, bit55))) {
 -        return ptr;
 -    }
 -
 -    if (unlikely(!mte_probe1_int(env, desc, ptr, ra, bit55))) {
 -        mte_check_fail(env, desc, ptr, ra);
 -    }
 -
 -    return useronly_clean_ptr(ptr);
 -}
 -
 -uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
 -{
 -    return mte_check1(env, desc, ptr, GETPC());
 -}
 -
 -/*
 - * Perform an MTE checked access for multiple logical accesses.
 - */
 -
  /**
   * checkN:
   * @tag: tag memory to test
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_checkN)(CPUARMState *env, uint32_t desc, uint64_t ptr)
      return mte_checkN(env, desc, ptr, GETPC());
  }
 +uint64_t mte_check1(CPUARMState *env, uint32_t desc,
 +                    uint64_t ptr, uintptr_t ra)
 +{
-+    uint64_t fault;
++    if (likely(sh < 64)) {
-+    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
++        return (x >> sh) + ((x >> (sh - 1)) & 1);
-+    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
++    } else {
-+
++        /* Rounding the sign bit always produces 0. */
-+    if (unlikely(ret == 0)) {
++        return 0;
 +        mte_check_fail(env, desc, fault, ra);
 +    } else if (ret < 0) {
 +        return ptr;
 +    }
-+    return useronly_clean_ptr(ptr);
 +}
 +
-+uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
+ DO_VSHRN_ALL(vshrn, DO_SHR)
  DO_VSHRN_ALL(vrshrn, do_urshr)
 +
 +static inline int32_t do_sat_bhs(int64_t val, int64_t min, int64_t max,
 +                                 bool *satp)
 +{
-+    return mte_check1(env, desc, ptr, GETPC());
++    if (val > max) {
 +        *satp = true;
 +        return max;
 +    } else if (val < min) {
 +        *satp = true;
 +        return min;
 +    } else {
 +        return val;
 +    }
 +}
 +
-+/*
++/* Saturating narrowing right shifts */
-+ * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
++#define DO_VSHRN_SAT(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN)   \
-+ * Returns false if the access is Checked and the check failed.  This
++    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
-+ * is only intended to probe the tag -- the validity of the page must
++                                void *vm, uint32_t shift)       \
-+ * be checked beforehand.
++    {                                                           \
-+ */
++        LTYPE *m = vm;                                          \
-+bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
++        TYPE *d = vd;                                           \
-+{
++        uint16_t mask = mve_element_mask(env);                  \
-+    uint64_t fault;
++        bool qc = false;                                        \
-+    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
++        unsigned le;                                            \
-+    int ret = mte_probe_int(env, desc, ptr, 0, total, &fault);
++        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) { \
-+
++            bool sat = false;                                   \
-+    return ret != 0;
++            TYPE r = FN(m[H##LESIZE(le)], shift, &sat);         \
-+}
++            mergemask(&d[H##ESIZE(le * 2 + TOP)], r, mask);     \
-+
++            qc |= sat && (mask & 1 << (TOP * ESIZE));           \
- /*
++        }                                                       \
-  * Perform an MTE checked access for DC_ZVA.
++        if (qc) {                                               \
-  */
++            env->vfp.qc[0] = qc;                                \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +#define DO_VSHRN_SAT_UB(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 1, uint8_t, 2, uint16_t, FN)       \
 +    DO_VSHRN_SAT(TOP, true, 1, uint8_t, 2, uint16_t, FN)
 +
 +#define DO_VSHRN_SAT_UH(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 2, uint16_t, 4, uint32_t, FN)      \
 +    DO_VSHRN_SAT(TOP, true, 2, uint16_t, 4, uint32_t, FN)
 +
 +#define DO_VSHRN_SAT_SB(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 1, int8_t, 2, int16_t, FN)         \
 +    DO_VSHRN_SAT(TOP, true, 1, int8_t, 2, int16_t, FN)
 +
 +#define DO_VSHRN_SAT_SH(BOP, TOP, FN)                           \
 +    DO_VSHRN_SAT(BOP, false, 2, int16_t, 4, int32_t, FN)        \
 +    DO_VSHRN_SAT(TOP, true, 2, int16_t, 4, int32_t, FN)
 +
 +#define DO_SHRN_SB(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), INT8_MIN, INT8_MAX, SATP)
 +#define DO_SHRN_UB(N, M, SATP)                                  \
 +    do_sat_bhs((uint64_t)(N) >> (M), 0, UINT8_MAX, SATP)
 +#define DO_SHRUN_B(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), 0, UINT8_MAX, SATP)
 +
 +#define DO_SHRN_SH(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), INT16_MIN, INT16_MAX, SATP)
 +#define DO_SHRN_UH(N, M, SATP)                                  \
 +    do_sat_bhs((uint64_t)(N) >> (M), 0, UINT16_MAX, SATP)
 +#define DO_SHRUN_H(N, M, SATP)                                  \
 +    do_sat_bhs((int64_t)(N) >> (M), 0, UINT16_MAX, SATP)
 +
 +#define DO_RSHRN_SB(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), INT8_MIN, INT8_MAX, SATP)
 +#define DO_RSHRN_UB(N, M, SATP)                                 \
 +    do_sat_bhs(do_urshr(N, M), 0, UINT8_MAX, SATP)
 +#define DO_RSHRUN_B(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), 0, UINT8_MAX, SATP)
 +
 +#define DO_RSHRN_SH(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), INT16_MIN, INT16_MAX, SATP)
 +#define DO_RSHRN_UH(N, M, SATP)                                 \
 +    do_sat_bhs(do_urshr(N, M), 0, UINT16_MAX, SATP)
 +#define DO_RSHRUN_H(N, M, SATP)                                 \
 +    do_sat_bhs(do_srshr(N, M), 0, UINT16_MAX, SATP)
 +
 +DO_VSHRN_SAT_SB(vqshrnb_sb, vqshrnt_sb, DO_SHRN_SB)
 +DO_VSHRN_SAT_SH(vqshrnb_sh, vqshrnt_sh, DO_SHRN_SH)
 +DO_VSHRN_SAT_UB(vqshrnb_ub, vqshrnt_ub, DO_SHRN_UB)
 +DO_VSHRN_SAT_UH(vqshrnb_uh, vqshrnt_uh, DO_SHRN_UH)
 +DO_VSHRN_SAT_SB(vqshrunbb, vqshruntb, DO_SHRUN_B)
 +DO_VSHRN_SAT_SH(vqshrunbh, vqshrunth, DO_SHRUN_H)
 +
 +DO_VSHRN_SAT_SB(vqrshrnb_sb, vqrshrnt_sb, DO_RSHRN_SB)
 +DO_VSHRN_SAT_SH(vqrshrnb_sh, vqrshrnt_sh, DO_RSHRN_SH)
 +DO_VSHRN_SAT_UB(vqrshrnb_ub, vqrshrnt_ub, DO_RSHRN_UB)
 +DO_VSHRN_SAT_UH(vqrshrnb_uh, vqrshrnt_uh, DO_RSHRN_UH)
 +DO_VSHRN_SAT_SB(vqrshrunbb, vqrshruntb, DO_RSHRUN_B)
 +DO_VSHRN_SAT_SH(vqrshrunbh, vqrshrunth, DO_RSHRUN_H)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_N(VSHRNB, vshrnb)
  DO_2SHIFT_N(VSHRNT, vshrnt)
  DO_2SHIFT_N(VRSHRNB, vrshrnb)
  DO_2SHIFT_N(VRSHRNT, vrshrnt)
 +DO_2SHIFT_N(VQSHRNB_S, vqshrnb_s)
 +DO_2SHIFT_N(VQSHRNT_S, vqshrnt_s)
 +DO_2SHIFT_N(VQSHRNB_U, vqshrnb_u)
 +DO_2SHIFT_N(VQSHRNT_U, vqshrnt_u)
 +DO_2SHIFT_N(VQSHRUNB, vqshrunb)
 +DO_2SHIFT_N(VQSHRUNT, vqshrunt)
 +DO_2SHIFT_N(VQRSHRNB_S, vqrshrnb_s)
 +DO_2SHIFT_N(VQRSHRNT_S, vqrshrnt_s)
 +DO_2SHIFT_N(VQRSHRNB_U, vqrshrnb_u)
 +DO_2SHIFT_N(VQRSHRNT_U, vqrshrnt_u)
 +DO_2SHIFT_N(VQRSHRUNB, vqrshrunb)
 +DO_2SHIFT_N(VQRSHRUNT, vqrshrunt)
 --
 .20.1

-[PULL 43/43] hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
+[PULL 19/24] target/arm: Implement MVE VSHLC
-Currently the gpex PCI controller implements no special behaviour for
+Implement the MVE VSHLC insn, which performs a shift left of the
-guest accesses to areas of the PIO and MMIO where it has not mapped
+entire vector with carry in bits provided from a general purpose
-any PCI devices, which means that for Arm you end up with a CPU
+register and carry out bits written back to that register.
 exception due to a data abort.
-Most host OSes expect "like an x86 PC" behaviour, where bad accesses
-like this return -1 for reads and ignore writes.  In the interests of
-not being surprising, make host CPU accesses to these windows behave
-as -1/discard where there's no mapped PCI device.
-The old behaviour generally didn't cause any problems, because
-almost always the guest OS will map the PCI devices and then only
-access where it has mapped them. One corner case where you will see
-this kind of access is if Linux attempts to probe legacy ISA
-devices via a PIO window access. So far the only case where we've
-seen this has been via the syzkaller fuzzer.
-Reported-by: Dmitry Vyukov <dvyukov@google.com>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Acked-by: Michael S. Tsirkin <mst@redhat.com>
+Message-id: 20210628135835.6690-14-peter.maydell@linaro.org
 Message-id: 20210325163315.27724-1-peter.maydell@linaro.org
 Fixes: https://bugs.launchpad.net/qemu/+bug/1918917
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/pci-host/gpex.h |  4 +++
+ target/arm/helper-mve.h    |  2 ++
- hw/core/machine.c          |  4 ++-
+ target/arm/mve.decode      |  2 ++
- hw/pci-host/gpex.c         | 56 ++++++++++++++++++++++++++++++++++++--
+ target/arm/mve_helper.c    | 38 ++++++++++++++++++++++++++++++++++++++
-files changed, 60 insertions(+), 4 deletions(-)
+ target/arm/translate-mve.c | 30 ++++++++++++++++++++++++++++++
 files changed, 72 insertions(+)
-diff --git a/include/hw/pci-host/gpex.h b/include/hw/pci-host/gpex.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/pci-host/gpex.h
+--- a/target/arm/helper-mve.h
-+++ b/include/hw/pci-host/gpex.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ struct GPEXHost {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vqrshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     MemoryRegion io_ioport;
+ DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-     MemoryRegion io_mmio;
+ DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +    MemoryRegion io_ioport_window;
 +    MemoryRegion io_mmio_window;
      qemu_irq irq[GPEX_NUM_IRQS];
      int irq_num[GPEX_NUM_IRQS];
 +
-+    bool allow_unmapped_accesses;
++DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
- };
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
  struct GPEXConfig {
 diff --git a/hw/core/machine.c b/hw/core/machine.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/core/machine.c
+--- a/target/arm/mve.decode
-+++ b/hw/core/machine.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
- #include "hw/virtio/virtio.h"
+ VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
- #include "hw/virtio/virtio-pci.h"
+ VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
+ VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
--GlobalProperty hw_compat_6_0[] = {};
++
-+GlobalProperty hw_compat_6_0[] = {
++VSHLC             111 0 1110 1 . 1 imm:5 ... 0 1111 1100 rdm:4 qd=%qd
-+    { "gpex-pcihost", "allow-unmapped-accesses", "false" },
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 +};
  const size_t hw_compat_6_0_len = G_N_ELEMENTS(hw_compat_6_0);
  GlobalProperty hw_compat_5_2[] = {
 diff --git a/hw/pci-host/gpex.c b/hw/pci-host/gpex.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/pci-host/gpex.c
+--- a/target/arm/mve_helper.c
-+++ b/hw/pci-host/gpex.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void gpex_host_realize(DeviceState *dev, Error **errp)
+@@ -XXX,XX +XXX,XX @@ DO_VSHRN_SAT_UB(vqrshrnb_ub, vqrshrnt_ub, DO_RSHRN_UB)
-     int i;
+ DO_VSHRN_SAT_UH(vqrshrnb_uh, vqrshrnt_uh, DO_RSHRN_UH)
+ DO_VSHRN_SAT_SB(vqrshrunbb, vqrshruntb, DO_RSHRUN_B)
-     pcie_host_mmcfg_init(pex, PCIE_MMCFG_SIZE_MAX);
+ DO_VSHRN_SAT_SH(vqrshrunbh, vqrshrunth, DO_RSHRUN_H)
-+    sysbus_init_mmio(sbd, &pex->mmio);
++
 +uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
 +                           uint32_t shift)
 +{
 +    uint32_t *d = vd;
 +    uint16_t mask = mve_element_mask(env);
 +    unsigned e;
 +    uint32_t r;
 +
 +    /*
-+     * Note that the MemoryRegions io_mmio and io_ioport that we pass
++     * For each 32-bit element, we shift it left, bringing in the
-+     * to pci_register_root_bus() are not the same as the
++     * low 'shift' bits of rdm at the bottom. Bits shifted out at
-+     * MemoryRegions io_mmio_window and io_ioport_window that we
++     * the top become the new rdm, if the predicate mask permits.
-+     * expose as SysBus MRs. The difference is in the behaviour of
++     * The final rdm value is returned to update the register.
-+     * accesses to addresses where no PCI device has been mapped.
++     * shift == 0 here means "shift by 32 bits".
 +     *
 +     * io_mmio and io_ioport are the underlying PCI view of the PCI
 +     * address space, and when a PCI device does a bus master access
 +     * to a bad address this is reported back to it as a transaction
 +     * failure.
 +     *
 +     * io_mmio_window and io_ioport_window implement "unmapped
 +     * addresses read as -1 and ignore writes"; this is traditional
 +     * x86 PC behaviour, which is not mandated by the PCI spec proper
 +     * but expected by much PCI-using guest software, including Linux.
 +     *
 +     * In the interests of not being unnecessarily surprising, we
 +     * implement it in the gpex PCI host controller, by providing the
 +     * _window MRs, which are containers with io ops that implement
 +     * the 'background' behaviour and which hold the real PCI MRs as
 +     * subregions.
 +     */
-     memory_region_init(&s->io_mmio, OBJECT(s), "gpex_mmio", UINT64_MAX);
++    if (shift == 0) {
-     memory_region_init(&s->io_ioport, OBJECT(s), "gpex_ioport", 64 * 1024);
++        for (e = 0; e < 16 / 4; e++, mask >>= 4) {
++            r = rdm;
--    sysbus_init_mmio(sbd, &pex->mmio);
++            if (mask & 1) {
--    sysbus_init_mmio(sbd, &s->io_mmio);
++                rdm = d[H4(e)];
--    sysbus_init_mmio(sbd, &s->io_ioport);
++            }
-+    if (s->allow_unmapped_accesses) {
++            mergemask(&d[H4(e)], r, mask);
-+        memory_region_init_io(&s->io_mmio_window, OBJECT(s),
++        }
-+                              &unassigned_io_ops, OBJECT(s),
++    } else {
-+                              "gpex_mmio_window", UINT64_MAX);
++        uint32_t shiftmask = MAKE_64BIT_MASK(0, shift);
 +        memory_region_init_io(&s->io_ioport_window, OBJECT(s),
 +                              &unassigned_io_ops, OBJECT(s),
 +                              "gpex_ioport_window", 64 * 1024);
 +
-+        memory_region_add_subregion(&s->io_mmio_window, 0, &s->io_mmio);
++        for (e = 0; e < 16 / 4; e++, mask >>= 4) {
-+        memory_region_add_subregion(&s->io_ioport_window, 0, &s->io_ioport);
++            r = (d[H4(e)] << shift) | (rdm & shiftmask);
-+        sysbus_init_mmio(sbd, &s->io_mmio_window);
++            if (mask & 1) {
-+        sysbus_init_mmio(sbd, &s->io_ioport_window);
++                rdm = d[H4(e)] >> (32 - shift);
-+    } else {
++            }
-+        sysbus_init_mmio(sbd, &s->io_mmio);
++            mergemask(&d[H4(e)], r, mask);
-+        sysbus_init_mmio(sbd, &s->io_ioport);
++        }
 +    }
 +    mve_advance_vpt(env);
 +    return rdm;
 +}
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_N(VQRSHRNB_U, vqrshrnb_u)
  DO_2SHIFT_N(VQRSHRNT_U, vqrshrnt_u)
  DO_2SHIFT_N(VQRSHRUNB, vqrshrunb)
  DO_2SHIFT_N(VQRSHRUNT, vqrshrunt)
 +
 +static bool trans_VSHLC(DisasContext *s, arg_VSHLC *a)
 +{
 +    /*
 +     * Whole Vector Left Shift with Carry. The carry is taken
 +     * from a general purpose register and written back there.
 +     * An imm of 0 means "shift by 32".
 +     */
 +    TCGv_ptr qd;
 +    TCGv_i32 rdm;
 +
 +    if (!dc_isar_feature(aa32_mve, s) || !mve_check_qreg_bank(s, a->qd)) {
 +        return false;
 +    }
 +    if (a->rdm == 13 || a->rdm == 15) {
 +        /* CONSTRAINED UNPREDICTABLE: we UNDEF */
 +        return false;
 +    }
 +    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +        return true;
 +    }
 +
-     for (i = 0; i < GPEX_NUM_IRQS; i++) {
++    qd = mve_qreg_ptr(a->qd);
-         sysbus_init_irq(sbd, &s->irq[i]);
++    rdm = load_reg(s, a->rdm);
-         s->irq_num[i] = -1;
++    gen_helper_mve_vshlc(rdm, cpu_env, qd, rdm, tcg_constant_i32(a->imm));
-@@ -XXX,XX +XXX,XX @@ static const char *gpex_host_root_bus_path(PCIHostState *host_bridge,
++    store_reg(s, a->rdm, rdm);
-     return "0000:00";
++    tcg_temp_free_ptr(qd);
- }
++    mve_update_eci(s);
++    return true;
-+static Property gpex_host_properties[] = {
++}
 +    /*
 +     * Permit CPU accesses to unmapped areas of the PIO and MMIO windows
 +     * (discarding writes and returning -1 for reads) rather than aborting.
 +     */
 +    DEFINE_PROP_BOOL("allow-unmapped-accesses", GPEXHost,
 +                     allow_unmapped_accesses, true),
 +    DEFINE_PROP_END_OF_LIST(),
 +};
 +
  static void gpex_host_class_init(ObjectClass *klass, void *data)
  {
      DeviceClass *dc = DEVICE_CLASS(klass);
@@ -XXX,XX +XXX,XX @@ static void gpex_host_class_init(ObjectClass *klass, void *data)
      dc->realize = gpex_host_realize;
      set_bit(DEVICE_CATEGORY_BRIDGE, dc->categories);
      dc->fw_name = "pci";
 +    device_class_set_props(dc, gpex_host_properties);
  }
  static void gpex_host_initfn(Object *obj)
 --
 .20.1

-[PULL 04/43] target/arm: Split out mte_probe_int
+[PULL 20/24] target/arm: Implement MVE VADDLV
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE VADDLV insn; this is similar to VADDV, except
 that it accumulates 32-bit elements into a 64-bit accumulator
 stored in a pair of general-purpose registers.
-Split out a helper function from mte_checkN to perform
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-all of the checking and address manpulation.  So far,
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-just use this in mte_checkN itself.
+Message-id: 20210628135835.6690-15-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h    |  3 ++
  target/arm/mve.decode      |  6 +++-
  target/arm/mve_helper.c    | 19 ++++++++++++
  target/arm/translate-mve.c | 63 ++++++++++++++++++++++++++++++++++++++
 files changed, 90 insertions(+), 1 deletion(-)
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210416183106.1516563-3-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/mte_helper.c | 52 +++++++++++++++++++++++++++++++----------
 file changed, 40 insertions(+), 12 deletions(-)
 diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/mte_helper.c
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/mte_helper.c
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ static int checkN(uint8_t *mem, int odd, int cmp, int count)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvuh, TCG_CALL_NO_WG, i32, env, ptr, i32)
-     return n;
+ DEF_HELPER_FLAGS_3(mve_vaddvsw, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +DEF_HELPER_FLAGS_3(mve_vaddlv_s, TCG_CALL_NO_WG, i64, env, ptr, i64)
 +DEF_HELPER_FLAGS_3(mve_vaddlv_u, TCG_CALL_NO_WG, i64, env, ptr, i64)
 +
  DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@ VQDMULH_scalar   1110 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  VQRDMULH_scalar  1111 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  # Vector add across vector
 -VADDV            111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rdalo
 +{
 +  VADDV          111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rdalo
 +  VADDLV         111 u:1 1110 1 ... 1001 ... 0 1111 00 a:1 0 qm:3 0 \
 +                 rdahi=%rdahi rdalo=%rdalo
 +}
  # Predicate operations
  %mask_22_13      22:1 13:3
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvub, 1, uint8_t)
  DO_VADDV(vaddvuh, 2, uint16_t)
  DO_VADDV(vaddvuw, 4, uint32_t)
 +#define DO_VADDLV(OP, TYPE, LTYPE)                              \
 +    uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vm, \
 +                                    uint64_t ra)                \
 +    {                                                           \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        TYPE *m = vm;                                           \
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {              \
 +            if (mask & 1) {                                     \
 +                ra += (LTYPE)m[H4(e)];                          \
 +            }                                                   \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +        return ra;                                              \
 +    }                                                           \
 +
 +DO_VADDLV(vaddlv_s, int32_t, int64_t)
 +DO_VADDLV(vaddlv_u, uint32_t, uint64_t)
 +
  /* Shifts by immediate */
  #define DO_2SHIFT(OP, ESIZE, TYPE, FN)                          \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VADDV(DisasContext *s, arg_VADDV *a)
      return true;
  }
--uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
++static bool trans_VADDLV(DisasContext *s, arg_VADDLV *a)
--                    uint64_t ptr, uintptr_t ra)
++{
-+/**
++    /*
-+ * mte_probe_int() - helper for mte_probe and mte_check
++     * Vector Add Long Across Vector: accumulate the 32-bit
-+ * @env: CPU environment
++     * elements of the vector into a 64-bit result stored in
-+ * @desc: MTEDESC descriptor
++     * a pair of general-purpose registers.
-+ * @ptr: virtual address of the base of the access
++     * No need to check Qm's bank: it is only 3 bits in decode.
-+ * @fault: return virtual address of the first check failure
++     */
-+ *
++    TCGv_ptr qm;
-+ * Internal routine for both mte_probe and mte_check.
++    TCGv_i64 rda;
-+ * Return zero on failure, filling in *fault.
++    TCGv_i32 rdalo, rdahi;
-+ * Return negative on trivial success for tbi disabled.
++
-+ * Return positive on success with tbi enabled.
++    if (!dc_isar_feature(aa32_mve, s)) {
-+ */
++        return false;
-+static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
++    }
-+                         uintptr_t ra, uint32_t total, uint64_t *fault)
++    /*
- {
++     * rdahi == 13 is UNPREDICTABLE; rdahi == 15 is a related
-     int mmu_idx, ptr_tag, bit55;
++     * encoding; rdalo always has bit 0 clear so cannot be 13 or 15.
-     uint64_t ptr_last, prev_page, next_page;
++     */
-     uint64_t tag_first, tag_last;
++    if (a->rdahi == 13 || a->rdahi == 15) {
-     uint64_t tag_byte_first, tag_byte_last;
++        return false;
--    uint32_t total, tag_count, tag_size, n, c;
++    }
-+    uint32_t tag_count, tag_size, n, c;
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
-     uint8_t *mem1, *mem2;
++        return true;
      MMUAccessType type;
      bit55 = extract64(ptr, 55, 1);
 +    *fault = ptr;
      /* If TBI is disabled, the access is unchecked, and ptr is not dirty. */
      if (unlikely(!tbi_check(desc, bit55))) {
 -        return ptr;
 +        return -1;
      }
      ptr_tag = allocation_tag_from_addr(ptr);
      if (tcma_check(desc, bit55, ptr_tag)) {
 -        goto done;
 +        return 1;
      }
      mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
      type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
 -    total = FIELD_EX32(desc, MTEDESC, TSIZE);
      /* Find the addr of the end of the access */
      ptr_last = ptr + total - 1;
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
          mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
                                    MMU_DATA_LOAD, tag_size, ra);
          if (!mem1) {
 -            goto done;
 +            return 1;
          }
          /* Perform all of the comparisons. */
          n = checkN(mem1, ptr & TAG_GRANULE, ptr_tag, tag_count);
@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
          }
          if (n == c) {
              if (!mem2) {
 -                goto done;
 +                return 1;
              }
              n += checkN(mem2, 0, ptr_tag, tag_count - c);
          }
      }
 +    if (likely(n == tag_count)) {
 +        return 1;
 +    }
 +
-     /*
++    /*
-      * If we failed, we know which granule.  For the first granule, the
++     * This insn is subject to beat-wise execution. Partial execution
-      * failure address is @ptr, the first byte accessed.  Otherwise the
++     * of an A=0 (no-accumulate) insn which does not execute the first
-      * failure address is the first byte of the nth granule.
++     * beat must start with the current value of RdaHi:RdaLo, not zero.
-      */
++     */
--    if (unlikely(n < tag_count)) {
++    if (a->a || mve_skip_first_beat(s)) {
--        uint64_t fault = (n == 0 ? ptr : tag_first + n * TAG_GRANULE);
++        /* Accumulate input from RdaHi:RdaLo */
--        mte_check_fail(env, desc, fault, ra);
++        rda = tcg_temp_new_i64();
-+    if (n > 0) {
++        rdalo = load_reg(s, a->rdalo);
-+        *fault = tag_first + n * TAG_GRANULE;
++        rdahi = load_reg(s, a->rdahi);
-     }
++        tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
-+    return 0;
++        tcg_temp_free_i32(rdalo);
 +        tcg_temp_free_i32(rdahi);
 +    } else {
 +        /* Accumulate starting at zero */
 +        rda = tcg_const_i64(0);
 +    }
 +
 +    qm = mve_qreg_ptr(a->qm);
 +    if (a->u) {
 +        gen_helper_mve_vaddlv_u(rda, cpu_env, qm, rda);
 +    } else {
 +        gen_helper_mve_vaddlv_s(rda, cpu_env, qm, rda);
 +    }
 +    tcg_temp_free_ptr(qm);
 +
 +    rdalo = tcg_temp_new_i32();
 +    rdahi = tcg_temp_new_i32();
 +    tcg_gen_extrl_i64_i32(rdalo, rda);
 +    tcg_gen_extrh_i64_i32(rdahi, rda);
 +    store_reg(s, a->rdalo, rdalo);
 +    store_reg(s, a->rdahi, rdahi);
 +    tcg_temp_free_i64(rda);
 +    mve_update_eci(s);
 +    return true;
 +}
-- done:
-+uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-+                    uint64_t ptr, uintptr_t ra)
-+{
-+    uint64_t fault;
-+    uint32_t total = FIELD_EX32(desc, MTEDESC, TSIZE);
-+    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
 +
-+    if (unlikely(ret == 0)) {
+ static bool do_1imm(DisasContext *s, arg_1imm *a, MVEGenOneOpImmFn *fn)
-+        mte_check_fail(env, desc, fault, ra);
+ {
-+    } else if (ret < 0) {
+     TCGv_ptr qd;
 +        return ptr;
 +    }
      return useronly_clean_ptr(ptr);
  }
 --
 .20.1

-[PULL 02/43] target/arm: Make Thumb store insns UNDEF for Rn==1111
+[PULL 21/24] target/arm: Implement MVE long shifts by immediate
-The Arm ARM specifies that for Thumb encodings of the various plain
+The MVE extension to v8.1M includes some new shift instructions which
-store insns, if the Rn field is 1111 then we must UNDEF.  This is
+sit entirely within the non-coprocessor part of the encoding space
-different from the Arm encodings, where this case is either
+and which operate only on general-purpose registers.  They take up
-UNPREDICTABLE or has well-defined behaviour.  The exclusive stores,
+the space which was previously UNPREDICTABLE MOVS and ORRS encodings
-store-release and STRD do not have this UNDEF case for any encoding.
+with Rm == 13 or 15.
-Enforce the UNDEF for this case in the Thumb plain store insns.
+Implement the long shifts by immediate, which perform shifts on a
+pair of general-purpose registers treated as a 64-bit quantity, with
-Fixes: https://bugs.launchpad.net/qemu/+bug/1922887
+an immediate shift count between 1 and 32.
 Awkwardly, because the MOVS and ORRS trans functions do not UNDEF for
 the Rm==13,15 case, we need to explicitly emit code to UNDEF for the
 cases where v8.1M now requires that.  (Trying to change MOVS and ORRS
 is too difficult, because the functions that generate the code are
 shared between a dozen different kinds of arithmetic or logical
 instruction for all A32, T16 and T32 encodings, and for some insns
 and some encodings Rm==13,15 are valid.)
 We make the helper functions we need for UQSHLL and SQSHLL take
 a 32-bit value which the helper casts to int8_t because we'll need
 these helpers also for the shift-by-register insns, where the shift
 count might be < 0 or > 32.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210408162402.5822-1-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-16-peter.maydell@linaro.org
 ---
- target/arm/translate.c | 16 ++++++++++++++++
+ target/arm/helper-mve.h |  3 ++
-file changed, 16 insertions(+)
+ target/arm/translate.h  |  1 +
+ target/arm/t32.decode   | 28 +++++++++++++
  target/arm/mve_helper.c | 10 +++++
  target/arm/translate.c  | 90 +++++++++++++++++++++++++++++++++++++++++
 files changed, 132 insertions(+)
 diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
 +
 +DEF_HELPER_FLAGS_3(mve_sqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
 +DEF_HELPER_FLAGS_3(mve_uqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
  typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
 +typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
  /**
   * arm_tbflags_from_tb:
 diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/t32.decode
 +++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@
  &mcr             !extern cp opc1 crn crm opc2 rt
  &mcrr            !extern cp opc1 crm rt rt2
 +&mve_shl_ri      rdalo rdahi shim
 +
 +# rdahi: bits [3:1] from insn, bit 0 is 1
 +# rdalo: bits [3:1] from insn, bit 0 is 0
 +%rdahi_9 9:3 !function=times_2_plus_1
 +%rdalo_17 17:3 !function=times_2
 +
  # Data-processing (register)
  %imm5_12_6       12:3 6:2
@@ -XXX,XX +XXX,XX @@
  @S_xrr_shi       ....... .... .   rn:4 .... .... .. shty:2 rm:4 \
                   &s_rrr_shi shim=%imm5_12_6 s=1 rd=0
 +@mve_shl_ri      ....... .... . ... . . ... ... . .. .. .... \
 +                 &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
 +
  {
    TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
    AND_rrri       1110101 0000 . .... 0 ... .... .... ....     @s_rrr_shi
  }
  BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
  {
 +  # The v8.1M MVE shift insns overlap in encoding with MOVS/ORRS
 +  # and are distinguished by having Rm==13 or 15. Those are UNPREDICTABLE
 +  # cases for MOVS/ORRS. We decode the MVE cases first, ensuring that
 +  # they explicitly call unallocated_encoding() for cases that must UNDEF
 +  # (eg "using a new shift insn on a v8.1M CPU without MVE"), and letting
 +  # the rest fall through (where ORR_rrri and MOV_rxri will end up
 +  # handling them as r13 and r15 accesses with the same semantics as A32).
 +  [
 +    LSLL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +    LSRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    ASRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +
 +    UQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +    URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +    SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +  ]
 +
    MOV_rxri       1110101 0010 . 1111 0 ... .... .... ....     @s_rxr_shi
    ORR_rrri       1110101 0010 . .... 0 ... .... .... ....     @s_rrr_shi
  }
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
      mve_advance_vpt(env);
      return rdm;
  }
 +
 +uint64_t HELPER(mve_sqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_sqrshl_d(n, (int8_t)shift, false, &env->QF);
 +}
 +
 +uint64_t HELPER(mve_uqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl_d(n, (int8_t)shift, false, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool op_store_rr(DisasContext *s, arg_ldst_rr *a,
+@@ -XXX,XX +XXX,XX @@ static bool trans_MOVT(DisasContext *s, arg_MOVW *a)
-     ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
+     return true;
-     TCGv_i32 addr, tmp;
+ }
-+    /*
++/*
-+     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
++ * v8.1M MVE wide-shifts
-+     * is either UNPREDICTABLE or has defined behaviour
++ */
-+     */
++static bool do_mve_shl_ri(DisasContext *s, arg_mve_shl_ri *a,
-+    if (s->thumb && a->rn == 15) {
++                          WideShiftImmFn *fn)
 +{
 +    TCGv_i64 rda;
 +    TCGv_i32 rdalo, rdahi;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
 +        return false;
 +    }
-+
++    if (a->rdahi == 15) {
-     addr = op_addr_rr_pre(s, a);
++        /* These are a different encoding (SQSHL/SRSHR/UQSHL/URSHR) */
      tmp = load_reg(s, a->rt);
@@ -XXX,XX +XXX,XX @@ static bool op_store_ri(DisasContext *s, arg_ldst_ri *a,
      ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
      TCGv_i32 addr, tmp;
 +    /*
 +     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
 +     * is either UNPREDICTABLE or has defined behaviour
 +     */
 +    if (s->thumb && a->rn == 15) {
 +        return false;
 +    }
-+
++    if (!dc_isar_feature(aa32_mve, s) ||
-     addr = op_addr_ri_pre(s, a);
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
++        a->rdahi == 13) {
-     tmp = load_reg(s, a->rt);
++        /* RdaHi == 13 is UNPREDICTABLE; we choose to UNDEF */
 +        unallocated_encoding(s);
 +        return true;
 +    }
 +
 +    if (a->shim == 0) {
 +        a->shim = 32;
 +    }
 +
 +    rda = tcg_temp_new_i64();
 +    rdalo = load_reg(s, a->rdalo);
 +    rdahi = load_reg(s, a->rdahi);
 +    tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
 +
 +    fn(rda, rda, a->shim);
 +
 +    tcg_gen_extrl_i64_i32(rdalo, rda);
 +    tcg_gen_extrh_i64_i32(rdahi, rda);
 +    store_reg(s, a->rdalo, rdalo);
 +    store_reg(s, a->rdahi, rdahi);
 +    tcg_temp_free_i64(rda);
 +
 +    return true;
 +}
 +
 +static bool trans_ASRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, tcg_gen_sari_i64);
 +}
 +
 +static bool trans_LSLL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, tcg_gen_shli_i64);
 +}
 +
 +static bool trans_LSRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, tcg_gen_shri_i64);
 +}
 +
 +static void gen_mve_sqshll(TCGv_i64 r, TCGv_i64 n, int64_t shift)
 +{
 +    gen_helper_mve_sqshll(r, cpu_env, n, tcg_constant_i32(shift));
 +}
 +
 +static bool trans_SQSHLL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_mve_sqshll);
 +}
 +
 +static void gen_mve_uqshll(TCGv_i64 r, TCGv_i64 n, int64_t shift)
 +{
 +    gen_helper_mve_uqshll(r, cpu_env, n, tcg_constant_i32(shift));
 +}
 +
 +static bool trans_UQSHLL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_mve_uqshll);
 +}
 +
 +static bool trans_SRSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_srshr64_i64);
 +}
 +
 +static bool trans_URSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
 +    return do_mve_shl_ri(s, a, gen_urshr64_i64);
 +}
 +
  /*
   * Multiply and multiply accumulate
   */
 --
 .20.1

-[PULL 03/43] target/arm: Fix mte_checkN
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-We were incorrectly assuming that only the first byte of an MTE access
-is checked against the tags.  But per the ARM, unaligned accesses are
-pre-decomposed into single-byte accesses.  So by the time we reach the
-actual MTE check in the ARM pseudocode, all accesses are aligned.
-Therefore, the first failure is always either the first byte of the
-access, or the first byte of the granule.
-In addition, some of the arithmetic is off for last-first -> count.
-This does not become directly visible until a later patch that passes
-single bytes into this function, so ptr == ptr_last.
-Buglink: https://bugs.launchpad.net/bugs/1921948
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210416183106.1516563-2-richard.henderson@linaro.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-[PMM: tweaked a comment]
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/mte_helper.c | 40 ++++++++++++++++++----------------------
-file changed, 18 insertions(+), 22 deletions(-)
-diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/mte_helper.c
-+++ b/target/arm/mte_helper.c
-@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-                     uint64_t ptr, uintptr_t ra)
- {
-     int mmu_idx, ptr_tag, bit55;
--    uint64_t ptr_last, ptr_end, prev_page, next_page;
--    uint64_t tag_first, tag_end;
--    uint64_t tag_byte_first, tag_byte_end;
--    uint32_t esize, total, tag_count, tag_size, n, c;
-+    uint64_t ptr_last, prev_page, next_page;
-+    uint64_t tag_first, tag_last;
-+    uint64_t tag_byte_first, tag_byte_last;
-+    uint32_t total, tag_count, tag_size, n, c;
-     uint8_t *mem1, *mem2;
-     MMUAccessType type;
-@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
-     type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
--    esize = FIELD_EX32(desc, MTEDESC, ESIZE);
-     total = FIELD_EX32(desc, MTEDESC, TSIZE);
--    /* Find the addr of the end of the access, and of the last element. */
--    ptr_end = ptr + total;
--    ptr_last = ptr_end - esize;
-+    /* Find the addr of the end of the access */
-+    ptr_last = ptr + total - 1;
-     /* Round the bounds to the tag granule, and compute the number of tags. */
-     tag_first = QEMU_ALIGN_DOWN(ptr, TAG_GRANULE);
--    tag_end = QEMU_ALIGN_UP(ptr_last, TAG_GRANULE);
--    tag_count = (tag_end - tag_first) / TAG_GRANULE;
-+    tag_last = QEMU_ALIGN_DOWN(ptr_last, TAG_GRANULE);
-+    tag_count = ((tag_last - tag_first) / TAG_GRANULE) + 1;
-     /* Round the bounds to twice the tag granule, and compute the bytes. */
-     tag_byte_first = QEMU_ALIGN_DOWN(ptr, 2 * TAG_GRANULE);
--    tag_byte_end = QEMU_ALIGN_UP(ptr_last, 2 * TAG_GRANULE);
-+    tag_byte_last = QEMU_ALIGN_DOWN(ptr_last, 2 * TAG_GRANULE);
-     /* Locate the page boundaries. */
-     prev_page = ptr & TARGET_PAGE_MASK;
-     next_page = prev_page + TARGET_PAGE_SIZE;
--    if (likely(tag_end - prev_page <= TARGET_PAGE_SIZE)) {
-+    if (likely(tag_last - prev_page <= TARGET_PAGE_SIZE)) {
-         /* Memory access stays on one page. */
--        tag_size = (tag_byte_end - tag_byte_first) / (2 * TAG_GRANULE);
-+        tag_size = ((tag_byte_last - tag_byte_first) / (2 * TAG_GRANULE)) + 1;
-         mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
-                                   MMU_DATA_LOAD, tag_size, ra);
-         if (!mem1) {
-@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-         mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, next_page - ptr,
-                                   MMU_DATA_LOAD, tag_size, ra);
--        tag_size = (tag_byte_end - next_page) / (2 * TAG_GRANULE);
-+        tag_size = ((tag_byte_last - next_page) / (2 * TAG_GRANULE)) + 1;
-         mem2 = allocation_tag_mem(env, mmu_idx, next_page, type,
--                                  ptr_end - next_page,
-+                                  ptr_last - next_page + 1,
-                                   MMU_DATA_LOAD, tag_size, ra);
-         /*
-@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-     }
-     /*
--     * If we failed, we know which granule.  Compute the element that
--     * is first in that granule, and signal failure on that element.
-+     * If we failed, we know which granule.  For the first granule, the
-+     * failure address is @ptr, the first byte accessed.  Otherwise the
-+     * failure address is the first byte of the nth granule.
-      */
-     if (unlikely(n < tag_count)) {
--        uint64_t fail_ofs;
--
--        fail_ofs = tag_first + n * TAG_GRANULE - ptr;
--        fail_ofs = ROUND_UP(fail_ofs, esize);
--        mte_check_fail(env, desc, ptr + fail_ofs, ra);
-+        uint64_t fault = (n == 0 ? ptr : tag_first + n * TAG_GRANULE);
-+        mte_check_fail(env, desc, fault, ra);
-     }
-  done:
---
-.20.1

-[PULL 07/43] target/arm: Replace MTEDESC ESIZE+TSIZE with SIZEM1
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-After recent changes, mte_checkN does not use ESIZE,
-and mte_check1 never used TSIZE.  We can combine the
-two into a single field: SIZEM1.
-Choose to pass size - 1 because size == 0 is never used,
-our immediate need in mte_probe_int is for the address
-of the last byte (ptr + size - 1), and since almost all
-operations are powers of 2, this makes the immediate
-constant one bit smaller.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210416183106.1516563-6-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/internals.h     |  4 ++--
- target/arm/mte_helper.c    | 18 ++++++++----------
- target/arm/translate-a64.c |  5 ++---
- target/arm/translate-sve.c |  5 ++---
-files changed, 14 insertions(+), 18 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
-+++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@
- #define TARGET_ARM_INTERNALS_H
- #include "hw/registerfields.h"
-+#include "tcg/tcg-gvec-desc.h"
- #include "syndrome.h"
- /* register banks for CPU modes */
-@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, MIDX,  0, 4)
- FIELD(MTEDESC, TBI,   4, 2)
- FIELD(MTEDESC, TCMA,  6, 2)
- FIELD(MTEDESC, WRITE, 8, 1)
--FIELD(MTEDESC, ESIZE, 9, 5)
--FIELD(MTEDESC, TSIZE, 14, 10)  /* mte_checkN only */
-+FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
- bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
- uint64_t mte_check1(CPUARMState *env, uint32_t desc,
-diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/mte_helper.c
-+++ b/target/arm/mte_helper.c
-@@ -XXX,XX +XXX,XX @@ static int checkN(uint8_t *mem, int odd, int cmp, int count)
-  * Return positive on success with tbi enabled.
-  */
- static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
--                         uintptr_t ra, uint32_t total, uint64_t *fault)
-+                         uintptr_t ra, uint64_t *fault)
- {
-     int mmu_idx, ptr_tag, bit55;
-     uint64_t ptr_last, prev_page, next_page;
-     uint64_t tag_first, tag_last;
-     uint64_t tag_byte_first, tag_byte_last;
--    uint32_t tag_count, tag_size, n, c;
-+    uint32_t sizem1, tag_count, tag_size, n, c;
-     uint8_t *mem1, *mem2;
-     MMUAccessType type;
-@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
-     mmu_idx = FIELD_EX32(desc, MTEDESC, MIDX);
-     type = FIELD_EX32(desc, MTEDESC, WRITE) ? MMU_DATA_STORE : MMU_DATA_LOAD;
-+    sizem1 = FIELD_EX32(desc, MTEDESC, SIZEM1);
-     /* Find the addr of the end of the access */
--    ptr_last = ptr + total - 1;
-+    ptr_last = ptr + sizem1;
-     /* Round the bounds to the tag granule, and compute the number of tags. */
-     tag_first = QEMU_ALIGN_DOWN(ptr, TAG_GRANULE);
-@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
-     if (likely(tag_last - prev_page <= TARGET_PAGE_SIZE)) {
-         /* Memory access stays on one page. */
-         tag_size = ((tag_byte_last - tag_byte_first) / (2 * TAG_GRANULE)) + 1;
--        mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, total,
-+        mem1 = allocation_tag_mem(env, mmu_idx, ptr, type, sizem1 + 1,
-                                   MMU_DATA_LOAD, tag_size, ra);
-         if (!mem1) {
-             return 1;
-@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-                     uint64_t ptr, uintptr_t ra)
- {
-     uint64_t fault;
--    uint32_t total = FIELD_EX32(desc, MTEDESC, TSIZE);
--    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
-+    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
-     if (unlikely(ret == 0)) {
-         mte_check_fail(env, desc, fault, ra);
-@@ -XXX,XX +XXX,XX @@ uint64_t mte_check1(CPUARMState *env, uint32_t desc,
-                     uint64_t ptr, uintptr_t ra)
- {
-     uint64_t fault;
--    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
--    int ret = mte_probe_int(env, desc, ptr, ra, total, &fault);
-+    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
-     if (unlikely(ret == 0)) {
-         mte_check_fail(env, desc, fault, ra);
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
- bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
- {
-     uint64_t fault;
--    uint32_t total = FIELD_EX32(desc, MTEDESC, ESIZE);
--    int ret = mte_probe_int(env, desc, ptr, 0, total, &fault);
-+    int ret = mte_probe_int(env, desc, ptr, 0, &fault);
-     return ret != 0;
- }
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
-         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
-         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
-         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
--        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << log2_size);
-+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << log2_size) - 1);
-         tcg_desc = tcg_const_i32(desc);
-         ret = new_tmp_a64(s);
-@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
-         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
-         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
-         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
--        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << log2_esize);
--        desc = FIELD_DP32(desc, MTEDESC, TSIZE, total_size);
-+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, total_size - 1);
-         tcg_desc = tcg_const_i32(desc);
-         ret = new_tmp_a64(s);
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static void do_mem_zpa(DisasContext *s, int zt, int pg, TCGv_i64 addr,
-         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
-         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
-         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
--        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << msz);
--        desc = FIELD_DP32(desc, MTEDESC, TSIZE, mte_n << msz);
-+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (mte_n << msz) - 1);
-         desc <<= SVE_MTEDESC_SHIFT;
-     } else {
-         addr = clean_data_tbi(s, addr);
-@@ -XXX,XX +XXX,XX @@ static void do_mem_zpz(DisasContext *s, int zt, int pg, int zm,
-         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
-         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
-         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
--        desc = FIELD_DP32(desc, MTEDESC, ESIZE, 1 << msz);
-+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, (1 << msz) - 1);
-         desc <<= SVE_MTEDESC_SHIFT;
-     }
-     desc = simd_desc(vsz, vsz, desc | scale);
---
-.20.1

-[PULL 08/43] target/arm: Merge mte_check1, mte_checkN
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-The mte_check1 and mte_checkN functions are now identical.
-Drop mte_check1 and rename mte_checkN to mte_check.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210416183106.1516563-7-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper-a64.h    |  3 +--
- target/arm/internals.h     |  5 +----
- target/arm/mte_helper.c    | 26 +++-----------------------
- target/arm/sve_helper.c    | 14 +++++++-------
- target/arm/translate-a64.c |  4 ++--
-files changed, 14 insertions(+), 38 deletions(-)
-diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.h
-+++ b/target/arm/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(autdb, TCG_CALL_NO_WG, i64, env, i64, i64)
- DEF_HELPER_FLAGS_2(xpaci, TCG_CALL_NO_RWG_SE, i64, env, i64)
- DEF_HELPER_FLAGS_2(xpacd, TCG_CALL_NO_RWG_SE, i64, env, i64)
--DEF_HELPER_FLAGS_3(mte_check1, TCG_CALL_NO_WG, i64, env, i32, i64)
--DEF_HELPER_FLAGS_3(mte_checkN, TCG_CALL_NO_WG, i64, env, i32, i64)
-+DEF_HELPER_FLAGS_3(mte_check, TCG_CALL_NO_WG, i64, env, i32, i64)
- DEF_HELPER_FLAGS_3(mte_check_zva, TCG_CALL_NO_WG, i64, env, i32, i64)
- DEF_HELPER_FLAGS_3(irg, TCG_CALL_NO_RWG, i64, env, i64, i64)
- DEF_HELPER_FLAGS_4(addsubg, TCG_CALL_NO_RWG_SE, i64, env, i64, s32, i32)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
-+++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, WRITE, 8, 1)
- FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
- bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
--uint64_t mte_check1(CPUARMState *env, uint32_t desc,
--                    uint64_t ptr, uintptr_t ra);
--uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
--                    uint64_t ptr, uintptr_t ra);
-+uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra);
- static inline int allocation_tag_from_addr(uint64_t ptr)
- {
-diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/mte_helper.c
-+++ b/target/arm/mte_helper.c
-@@ -XXX,XX +XXX,XX @@ static int mte_probe_int(CPUARMState *env, uint32_t desc, uint64_t ptr,
-     return 0;
- }
--uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
--                    uint64_t ptr, uintptr_t ra)
-+uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra)
- {
-     uint64_t fault;
-     int ret = mte_probe_int(env, desc, ptr, ra, &fault);
-@@ -XXX,XX +XXX,XX @@ uint64_t mte_checkN(CPUARMState *env, uint32_t desc,
-     return useronly_clean_ptr(ptr);
- }
--uint64_t HELPER(mte_checkN)(CPUARMState *env, uint32_t desc, uint64_t ptr)
-+uint64_t HELPER(mte_check)(CPUARMState *env, uint32_t desc, uint64_t ptr)
- {
--    return mte_checkN(env, desc, ptr, GETPC());
--}
--
--uint64_t mte_check1(CPUARMState *env, uint32_t desc,
--                    uint64_t ptr, uintptr_t ra)
--{
--    uint64_t fault;
--    int ret = mte_probe_int(env, desc, ptr, ra, &fault);
--
--    if (unlikely(ret == 0)) {
--        mte_check_fail(env, desc, fault, ra);
--    } else if (ret < 0) {
--        return ptr;
--    }
--    return useronly_clean_ptr(ptr);
--}
--
--uint64_t HELPER(mte_check1)(CPUARMState *env, uint32_t desc, uint64_t ptr)
--{
--    return mte_check1(env, desc, ptr, GETPC());
-+    return mte_check(env, desc, ptr, GETPC());
- }
- /*
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
-+++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_mte_check1(SVEContLdSt *info, CPUARMState *env,
-                                      uintptr_t ra)
- {
-     sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
--                                mtedesc, ra, mte_check1);
-+                                mtedesc, ra, mte_check);
- }
- static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
-@@ -XXX,XX +XXX,XX @@ static void sve_cont_ldst_mte_checkN(SVEContLdSt *info, CPUARMState *env,
-                                      uintptr_t ra)
- {
-     sve_cont_ldst_mte_check_int(info, env, vg, addr, esize, msize,
--                                mtedesc, ra, mte_checkN);
-+                                mtedesc, ra, mte_check);
- }
-@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
-     if (fault == FAULT_FIRST) {
-         /* Trapping mte check for the first-fault element.  */
-         if (mtedesc) {
--            mte_check1(env, mtedesc, addr + mem_off, retaddr);
-+            mte_check(env, mtedesc, addr + mem_off, retaddr);
-         }
-         /*
-@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
-                                              info.attrs, BP_MEM_READ, retaddr);
-                     }
-                     if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
--                        mte_check1(env, mtedesc, addr, retaddr);
-+                        mte_check(env, mtedesc, addr, retaddr);
-                     }
-                     host_fn(&scratch, reg_off, info.host);
-                 } else {
-@@ -XXX,XX +XXX,XX @@ void sve_ld1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
-                                              BP_MEM_READ, retaddr);
-                     }
-                     if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
--                        mte_check1(env, mtedesc, addr, retaddr);
-+                        mte_check(env, mtedesc, addr, retaddr);
-                     }
-                     tlb_fn(env, &scratch, reg_off, addr, retaddr);
-                 }
-@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
-      */
-     addr = base + (off_fn(vm, reg_off) << scale);
-     if (mtedesc) {
--        mte_check1(env, mtedesc, addr, retaddr);
-+        mte_check(env, mtedesc, addr, retaddr);
-     }
-     tlb_fn(env, vd, reg_off, addr, retaddr);
-@@ -XXX,XX +XXX,XX @@ void sve_st1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
-                 }
-                 if (mtedesc && arm_tlb_mte_tagged(&info.attrs)) {
--                    mte_check1(env, mtedesc, addr, retaddr);
-+                    mte_check(env, mtedesc, addr, retaddr);
-                 }
-             }
-             i += 1;
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static TCGv_i64 gen_mte_check1_mmuidx(DisasContext *s, TCGv_i64 addr,
-         tcg_desc = tcg_const_i32(desc);
-         ret = new_tmp_a64(s);
--        gen_helper_mte_check1(ret, cpu_env, tcg_desc, addr);
-+        gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
-         tcg_temp_free_i32(tcg_desc);
-         return ret;
-@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
-         tcg_desc = tcg_const_i32(desc);
-         ret = new_tmp_a64(s);
--        gen_helper_mte_checkN(ret, cpu_env, tcg_desc, addr);
-+        gen_helper_mte_check(ret, cpu_env, tcg_desc, addr);
-         tcg_temp_free_i32(tcg_desc);
-         return ret;
---
-.20.1

-[PULL 09/43] target/arm: Rename mte_probe1 to mte_probe
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-For consistency with the mte_check1 + mte_checkN merge
-to mte_check, rename the probe function as well.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210416183106.1516563-8-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/internals.h  | 2 +-
- target/arm/mte_helper.c | 6 +++---
- target/arm/sve_helper.c | 6 +++---
-files changed, 7 insertions(+), 7 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
-+++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ FIELD(MTEDESC, TCMA,  6, 2)
- FIELD(MTEDESC, WRITE, 8, 1)
- FIELD(MTEDESC, SIZEM1, 9, SIMD_DATA_BITS - 9)  /* size - 1 */
--bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr);
-+bool mte_probe(CPUARMState *env, uint32_t desc, uint64_t ptr);
- uint64_t mte_check(CPUARMState *env, uint32_t desc, uint64_t ptr, uintptr_t ra);
- static inline int allocation_tag_from_addr(uint64_t ptr)
-diff --git a/target/arm/mte_helper.c b/target/arm/mte_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/mte_helper.c
-+++ b/target/arm/mte_helper.c
-@@ -XXX,XX +XXX,XX @@ static uint8_t *allocation_tag_mem(CPUARMState *env, int ptr_mmu_idx,
-      * exception for inaccessible pages, and resolves the virtual address
-      * into the softmmu tlb.
-      *
--     * When RA == 0, this is for mte_probe1.  The page is expected to be
-+     * When RA == 0, this is for mte_probe.  The page is expected to be
-      * valid.  Indicate to probe_access_flags no-fault, then assert that
-      * we received a valid page.
-      */
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mte_check)(CPUARMState *env, uint32_t desc, uint64_t ptr)
- }
- /*
-- * No-fault version of mte_check1, to be used by SVE for MemSingleNF.
-+ * No-fault version of mte_check, to be used by SVE for MemSingleNF.
-  * Returns false if the access is Checked and the check failed.  This
-  * is only intended to probe the tag -- the validity of the page must
-  * be checked beforehand.
-  */
--bool mte_probe1(CPUARMState *env, uint32_t desc, uint64_t ptr)
-+bool mte_probe(CPUARMState *env, uint32_t desc, uint64_t ptr)
- {
-     uint64_t fault;
-     int ret = mte_probe_int(env, desc, ptr, 0, &fault);
-diff --git a/target/arm/sve_helper.c b/target/arm/sve_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/sve_helper.c
-+++ b/target/arm/sve_helper.c
-@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
-                 /* Watchpoint hit, see below. */
-                 goto do_fault;
-             }
--            if (mtedesc && !mte_probe1(env, mtedesc, addr + mem_off)) {
-+            if (mtedesc && !mte_probe(env, mtedesc, addr + mem_off)) {
-                 goto do_fault;
-             }
-             /*
-@@ -XXX,XX +XXX,XX @@ void sve_ldnfff1_r(CPUARMState *env, void *vg, const target_ulong addr,
-                      & BP_MEM_READ)) {
-                     goto do_fault;
-                 }
--                if (mtedesc && !mte_probe1(env, mtedesc, addr + mem_off)) {
-+                if (mtedesc && !mte_probe(env, mtedesc, addr + mem_off)) {
-                     goto do_fault;
-                 }
-                 host_fn(vd, reg_off, host + mem_off);
-@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
-                 }
-                 if (mtedesc &&
-                     arm_tlb_mte_tagged(&info.attrs) &&
--                    !mte_probe1(env, mtedesc, addr)) {
-+                    !mte_probe(env, mtedesc, addr)) {
-                     goto fault;
-                 }
---
-.20.1

-[PULL 11/43] target/arm: Remove log2_esize parameter to gen_mte_checkN
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-The log2_esize parameter is not used except trivially.
-Drop the parameter and the deferral to gen_mte_check1.
-This fixes a bug in that the parameters as documented
-in the header file were the reverse from those in the
-implementation.  Which meant that translate-sve.c was
-passing the parameters in the wrong order.
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210416183106.1516563-10-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate-a64.h |  2 +-
- target/arm/translate-a64.c | 15 +++++++--------
- target/arm/translate-sve.c |  4 ++--
-files changed, 10 insertions(+), 11 deletions(-)
-diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.h
-+++ b/target/arm/translate-a64.h
-@@ -XXX,XX +XXX,XX @@ TCGv_i64 clean_data_tbi(DisasContext *s, TCGv_i64 addr);
- TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
-                         bool tag_checked, int log2_size);
- TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
--                        bool tag_checked, int count, int log2_esize);
-+                        bool tag_checked, int size);
- /* We should have at some point before trying to access an FP register
-  * done the necessary access check, so assert that
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_check1(DisasContext *s, TCGv_i64 addr, bool is_write,
-  * For MTE, check multiple logical sequential accesses.
-  */
- TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
--                        bool tag_checked, int log2_esize, int total_size)
-+                        bool tag_checked, int size)
- {
--    if (tag_checked && s->mte_active[0] && total_size != (1 << log2_esize)) {
-+    if (tag_checked && s->mte_active[0]) {
-         TCGv_i32 tcg_desc;
-         TCGv_i64 ret;
-         int desc = 0;
-@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
-         desc = FIELD_DP32(desc, MTEDESC, TBI, s->tbid);
-         desc = FIELD_DP32(desc, MTEDESC, TCMA, s->tcma);
-         desc = FIELD_DP32(desc, MTEDESC, WRITE, is_write);
--        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, total_size - 1);
-+        desc = FIELD_DP32(desc, MTEDESC, SIZEM1, size - 1);
-         tcg_desc = tcg_const_i32(desc);
-         ret = new_tmp_a64(s);
-@@ -XXX,XX +XXX,XX @@ TCGv_i64 gen_mte_checkN(DisasContext *s, TCGv_i64 addr, bool is_write,
-         return ret;
-     }
--    return gen_mte_check1(s, addr, is_write, tag_checked, log2_esize);
-+    return clean_data_tbi(s, addr);
- }
- typedef struct DisasCompare64 {
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_pair(DisasContext *s, uint32_t insn)
-     }
-     clean_addr = gen_mte_checkN(s, dirty_addr, !is_load,
--                                (wback || rn != 31) && !set_tag,
--                                size, 2 << size);
-+                                (wback || rn != 31) && !set_tag, 2 << size);
-     if (is_vector) {
-         if (is_load) {
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_multiple_struct(DisasContext *s, uint32_t insn)
-      * promote consecutive little-endian elements below.
-      */
-     clean_addr = gen_mte_checkN(s, tcg_rn, is_store, is_postidx || rn != 31,
--                                size, total);
-+                                total);
-     /*
-      * Consecutive little-endian elements from a single register
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_single_struct(DisasContext *s, uint32_t insn)
-     tcg_rn = cpu_reg_sp(s, rn);
-     clean_addr = gen_mte_checkN(s, tcg_rn, !is_load, is_postidx || rn != 31,
--                                scale, total);
-+                                total);
-     tcg_ebytes = tcg_const_i64(1 << scale);
-     for (xs = 0; xs < selem; xs++) {
-diff --git a/target/arm/translate-sve.c b/target/arm/translate-sve.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-sve.c
-+++ b/target/arm/translate-sve.c
-@@ -XXX,XX +XXX,XX @@ static void do_ldr(DisasContext *s, uint32_t vofs, int len, int rn, int imm)
-     dirty_addr = tcg_temp_new_i64();
-     tcg_gen_addi_i64(dirty_addr, cpu_reg_sp(s, rn), imm);
--    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len, MO_8);
-+    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len);
-     tcg_temp_free_i64(dirty_addr);
-     /*
-@@ -XXX,XX +XXX,XX @@ static void do_str(DisasContext *s, uint32_t vofs, int len, int rn, int imm)
-     dirty_addr = tcg_temp_new_i64();
-     tcg_gen_addi_i64(dirty_addr, cpu_reg_sp(s, rn), imm);
--    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len, MO_8);
-+    clean_addr = gen_mte_checkN(s, dirty_addr, false, rn != 31, len);
-     tcg_temp_free_i64(dirty_addr);
-     /* Note that unpredicated load/store of vector/predicate registers
---
-.20.1

-[PULL 12/43] target/arm: Fix decode of align in VLDST_single
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-The encoding of size = 2 and size = 3 had the incorrect decode
-for align, overlapping the stride field.  This error was hidden
-by what should have been unnecessary masking in translate.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-2-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/neon-ls.decode       | 4 ++--
- target/arm/translate-neon.c.inc | 4 ++--
-files changed, 4 insertions(+), 4 deletions(-)
-diff --git a/target/arm/neon-ls.decode b/target/arm/neon-ls.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-ls.decode
-+++ b/target/arm/neon-ls.decode
-@@ -XXX,XX +XXX,XX @@ VLD_all_lanes  1111 0100 1 . 1 0 rn:4 .... 11 n:2 size:2 t:1 a:1 rm:4 \
- VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 00 n:2 reg_idx:3 align:1 rm:4 \
-                vd=%vd_dp size=0 stride=1
--VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 align:2 rm:4 \
-+VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 01 n:2 reg_idx:2 . align:1 rm:4 \
-                vd=%vd_dp size=1 stride=%imm1_5_p1
--VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 align:3 rm:4 \
-+VLDST_single   1111 0100 1 . l:1 0 rn:4 .... 10 n:2 reg_idx:1 . align:2 rm:4 \
-                vd=%vd_dp size=2 stride=%imm1_6_p1
-diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.c.inc
-+++ b/target/arm/translate-neon.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
-     switch (nregs) {
-     case 1:
-         if (((a->align & (1 << a->size)) != 0) ||
--            (a->size == 2 && ((a->align & 3) == 1 || (a->align & 3) == 2))) {
-+            (a->size == 2 && (a->align == 1 || a->align == 2))) {
-             return false;
-         }
-         break;
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDST_single(DisasContext *s, arg_VLDST_single *a)
-         }
-         break;
-     case 4:
--        if ((a->size == 2) && ((a->align & 3) == 3)) {
-+        if (a->size == 2 && a->align == 3) {
-             return false;
-         }
-         break;
---
-.20.1

-[PULL 13/43] target/arm: Rename TBFLAG_A32, SCTLR_B
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-We're about to rearrange the macro expansion surrounding tbflags,
-and this field name will be expanded using the bit definition of
-the same name, resulting in a token pasting error.
-So SCTLR_B -> SCTLR__B in the 3 uses, and document it.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-3-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h       | 2 +-
- target/arm/helper.c    | 2 +-
- target/arm/translate.c | 2 +-
-files changed, 3 insertions(+), 3 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A32, VECSTRIDE, 12, 2)     /* Not cached. */
-  */
- FIELD(TBFLAG_A32, XSCALE_CPAR, 12, 2)
- FIELD(TBFLAG_A32, VFPEN, 14, 1)         /* Partially cached, minus FPEXC. */
--FIELD(TBFLAG_A32, SCTLR_B, 15, 1)
-+FIELD(TBFLAG_A32, SCTLR__B, 15, 1)      /* Cannot overlap with SCTLR_B */
- FIELD(TBFLAG_A32, HSTR_ACTIVE, 16, 1)
- /*
-  * Indicates whether cp register reads and writes by guest code should access
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
-     bool sctlr_b = arm_sctlr_b(env);
-     if (sctlr_b) {
--        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR_B, 1);
-+        flags = FIELD_DP32(flags, TBFLAG_A32, SCTLR__B, 1);
-     }
-     if (arm_cpu_data_is_big_endian_a32(env, sctlr_b)) {
-         flags = FIELD_DP32(flags, TBFLAG_ANY, BE_DATA, 1);
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
-             FIELD_EX32(tb_flags, TBFLAG_ANY, BE_DATA) ? MO_BE : MO_LE;
-         dc->debug_target_el =
-             FIELD_EX32(tb_flags, TBFLAG_ANY, DEBUG_TARGET_EL);
--        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR_B);
-+        dc->sctlr_b = FIELD_EX32(tb_flags, TBFLAG_A32, SCTLR__B);
-         dc->hstr_active = FIELD_EX32(tb_flags, TBFLAG_A32, HSTR_ACTIVE);
-         dc->ns = FIELD_EX32(tb_flags, TBFLAG_A32, NS);
-         dc->vfp_enabled = FIELD_EX32(tb_flags, TBFLAG_A32, VFPEN);
---
-.20.1

-[PULL 16/43] target/arm: Introduce CPUARMTBFlags
+[PULL 22/24] target/arm: Implement MVE long shifts by register
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE long shifts by register, which perform shifts on a
+pair of general-purpose registers treated as a 64-bit quantity, with
-In preparation for splitting tb->flags across multiple
+the shift count in another general-purpose register, which might be
-fields, introduce a structure to hold the value(s).
+either positive or negative.
-So far this only migrates the one uint32_t and fixes
-all of the places that require adjustment to match.
+Like the long-shifts-by-immediate, these encodings sit in the space
+that was previously the UNPREDICTABLE MOVS/ORRS with Rm==13,15.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Because LSLL_rr and ASRL_rr overlap with both MOV_rxri/ORR_rrri and
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+also with CSEL (as one of the previously-UNPREDICTABLE Rm==13 cases),
-Message-id: 20210419202257.161730-6-richard.henderson@linaro.org
+we have to move the CSEL pattern into the same decodetree group.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-17-peter.maydell@linaro.org
 ---
- target/arm/cpu.h           | 26 ++++++++++++---------
+ target/arm/helper-mve.h |  6 +++
- target/arm/translate.h     | 11 +++++++++
+ target/arm/translate.h  |  1 +
- target/arm/helper.c        | 48 +++++++++++++++++++++-----------------
+ target/arm/t32.decode   | 16 +++++--
- target/arm/translate-a64.c |  2 +-
+ target/arm/mve_helper.c | 93 +++++++++++++++++++++++++++++++++++++++++
- target/arm/translate.c     |  7 +++---
+ target/arm/translate.c  | 69 ++++++++++++++++++++++++++++++
-files changed, 57 insertions(+), 37 deletions(-)
+files changed, 182 insertions(+), 3 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ typedef struct ARMPACKey {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- } ARMPACKey;
- #endif
+ DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
-+/* See the commentary above the TBFLAG field definitions.  */
++DEF_HELPER_FLAGS_3(mve_sshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+typedef struct CPUARMTBFlags {
++DEF_HELPER_FLAGS_3(mve_ushll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+    uint32_t flags;
+ DEF_HELPER_FLAGS_3(mve_sqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+} CPUARMTBFlags;
+ DEF_HELPER_FLAGS_3(mve_uqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
++DEF_HELPER_FLAGS_3(mve_sqrshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
- typedef struct CPUARMState {
++DEF_HELPER_FLAGS_3(mve_uqrshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-     /* Regs for current mode.  */
++DEF_HELPER_FLAGS_3(mve_sqrshrl48, TCG_CALL_NO_RWG, i64, env, i64, i32)
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
++DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
      uint32_t aarch64; /* 1 if CPU is in aarch64 state; inverse of PSTATE.nRW */
      /* Cached TBFLAGS state.  See below for which bits are included.  */
 -    uint32_t hflags;
 +    CPUARMTBFlags hflags;
      /* Frequently accessed CPSR bits are stored separately for efficiency.
         This contains all the other bits.  Use cpsr_{read,write} to access
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
   * Helpers for using the above.
   */
  #define DP_TBFLAG_ANY(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_ANY, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_ANY, WHICH, VAL))
  #define DP_TBFLAG_A64(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_A64, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A64, WHICH, VAL))
  #define DP_TBFLAG_A32(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_A32, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A32, WHICH, VAL))
  #define DP_TBFLAG_M32(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_M32, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_M32, WHICH, VAL))
  #define DP_TBFLAG_AM32(DST, WHICH, VAL) \
 -    (DST = FIELD_DP32(DST, TBFLAG_AM32, WHICH, VAL))
 +    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_AM32, WHICH, VAL))
 -#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN, TBFLAG_ANY, WHICH)
 -#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A64, WHICH)
 -#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_A32, WHICH)
 -#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN, TBFLAG_M32, WHICH)
 -#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN, TBFLAG_AM32, WHICH)
 +#define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_ANY, WHICH)
 +#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A64, WHICH)
 +#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A32, WHICH)
 +#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_M32, WHICH)
 +#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags, TBFLAG_AM32, WHICH)
  /**
   * cpu_mmu_index:
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
 @@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
-+/**
++typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
-+ * arm_tbflags_from_tb:
-+ * @tb: the TranslationBlock
+ /**
-+ *
+  * arm_tbflags_from_tb:
-+ * Extract the flag values from @tb.
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
-+ */
+index XXXXXXX..XXXXXXX 100644
-+static inline CPUARMTBFlags arm_tbflags_from_tb(const TranslationBlock *tb)
+--- a/target/arm/t32.decode
-+{
++++ b/target/arm/t32.decode
-+    return (CPUARMTBFlags){ tb->flags };
+@@ -XXX,XX +XXX,XX @@
-+}
+ &mcrr            !extern cp opc1 crm rt rt2
-+
- /*
+ &mve_shl_ri      rdalo rdahi shim
-  * Enum for argument to fpstatus_ptr().
++&mve_shl_rr      rdalo rdahi rm
-  */
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+ # rdahi: bits [3:1] from insn, bit 0 is 1
-index XXXXXXX..XXXXXXX 100644
+ # rdalo: bits [3:1] from insn, bit 0 is 0
---- a/target/arm/helper.c
+@@ -XXX,XX +XXX,XX @@
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
+ @mve_shl_ri      ....... .... . ... . . ... ... . .. .. .... \
- }
+                  &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
- #endif
++@mve_shl_rr      ....... .... . ... . rm:4  ... . .. .. .... \
++                 &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
--static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
--                                      ARMMMUIdx mmu_idx, uint32_t flags)
+ {
-+static CPUARMTBFlags rebuild_hflags_common(CPUARMState *env, int fp_el,
+   TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
-+                                           ARMMMUIdx mmu_idx,
+@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
-+                                           CPUARMTBFlags flags)
+     URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
- {
+     SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
-     DP_TBFLAG_ANY(flags, FPEXC_EL, fp_el);
+     SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
-     DP_TBFLAG_ANY(flags, MMUIDX, arm_to_core_mmu_idx(mmu_idx));
++
-@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common(CPUARMState *env, int fp_el,
++    LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
-     return flags;
++    ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
- }
++    UQRSHLL64_rr 1110101 0010 1 ... 1 ....  ... 1  0000 1101  @mve_shl_rr
++    SQRSHRL64_rr 1110101 0010 1 ... 1 ....  ... 1  0010 1101  @mve_shl_rr
--static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
++    UQRSHLL48_rr 1110101 0010 1 ... 1 ....  ... 1  1000 1101  @mve_shl_rr
--                                         ARMMMUIdx mmu_idx, uint32_t flags)
++    SQRSHRL48_rr 1110101 0010 1 ... 1 ....  ... 1  1010 1101  @mve_shl_rr
-+static CPUARMTBFlags rebuild_hflags_common_32(CPUARMState *env, int fp_el,
+   ]
-+                                              ARMMMUIdx mmu_idx,
-+                                              CPUARMTBFlags flags)
+   MOV_rxri       1110101 0010 . 1111 0 ... .... .... ....     @s_rxr_shi
- {
+   ORR_rrri       1110101 0010 . .... 0 ... .... .... ....     @s_rrr_shi
-     bool sctlr_b = arm_sctlr_b(env);
++
++  # v8.1M CSEL and friends
-@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_common_32(CPUARMState *env, int fp_el,
++  CSEL           1110101 0010 1 rn:4 10 op:2 rd:4 fcond:4 rm:4
-     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
+ }
- }
+ {
+   MVN_rxri       1110101 0011 . 1111 0 ... .... .... ....     @s_rxr_shi
--static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
+@@ -XXX,XX +XXX,XX @@ SBC_rrri         1110101 1011 . .... 0 ... .... .... ....     @s_rrr_shi
--                                   ARMMMUIdx mmu_idx)
+ }
-+static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
+ RSB_rrri         1110101 1110 . .... 0 ... .... .... ....     @s_rrr_shi
-+                                        ARMMMUIdx mmu_idx)
- {
+-# v8.1M CSEL and friends
--    uint32_t flags = 0;
+-CSEL             1110101 0010 1 rn:4 10 op:2 rd:4 fcond:4 rm:4
-+    CPUARMTBFlags flags = {};
+-
+ # Data-processing (register-shifted register)
-     if (arm_v7m_is_handler_mode(env)) {
-         DP_TBFLAG_M32(flags, HANDLER, 1);
+ MOV_rxrr         1111 1010 0 shty:2 s:1 rm:4 1111 rd:4 0000 rs:4 \
-@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_m32(CPUARMState *env, int fp_el,
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
-     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
+index XXXXXXX..XXXXXXX 100644
- }
+--- a/target/arm/mve_helper.c
++++ b/target/arm/mve_helper.c
--static uint32_t rebuild_hflags_aprofile(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
-+static CPUARMTBFlags rebuild_hflags_aprofile(CPUARMState *env)
+     return rdm;
- {
+ }
--    int flags = 0;
-+    CPUARMTBFlags flags = {};
++uint64_t HELPER(mve_sshrl)(CPUARMState *env, uint64_t n, uint32_t shift)
++{
-     DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
++    return do_sqrshl_d(n, -(int8_t)shift, false, NULL);
-     return flags;
++}
- }
++
++uint64_t HELPER(mve_ushll)(CPUARMState *env, uint64_t n, uint32_t shift)
--static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
++{
--                                   ARMMMUIdx mmu_idx)
++    return do_uqrshl_d(n, (int8_t)shift, false, NULL);
-+static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
++}
-+                                        ARMMMUIdx mmu_idx)
++
- {
+ uint64_t HELPER(mve_sqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
--    uint32_t flags = rebuild_hflags_aprofile(env);
+ {
-+    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
+     return do_sqrshl_d(n, (int8_t)shift, false, &env->QF);
+@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mve_uqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
-     if (arm_el_is_aa64(env, 1)) {
+ {
-         DP_TBFLAG_A32(flags, VFPEN, 1);
+     return do_uqrshl_d(n, (int8_t)shift, false, &env->QF);
-@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a32(CPUARMState *env, int fp_el,
+ }
-     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
++
- }
++uint64_t HELPER(mve_sqrshrl)(CPUARMState *env, uint64_t n, uint32_t shift)
++{
--static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
++    return do_sqrshl_d(n, -(int8_t)shift, true, &env->QF);
--                                   ARMMMUIdx mmu_idx)
++}
-+static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
++
-+                                        ARMMMUIdx mmu_idx)
++uint64_t HELPER(mve_uqrshll)(CPUARMState *env, uint64_t n, uint32_t shift)
- {
++{
--    uint32_t flags = rebuild_hflags_aprofile(env);
++    return do_uqrshl_d(n, (int8_t)shift, true, &env->QF);
-+    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
++}
-     ARMMMUIdx stage1 = stage_1_mmu_idx(mmu_idx);
++
-     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
++/* Operate on 64-bit values, but saturate at 48 bits */
-     uint64_t sctlr;
++static inline int64_t do_sqrshl48_d(int64_t src, int64_t shift,
-@@ -XXX,XX +XXX,XX @@ static uint32_t rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
++                                    bool round, uint32_t *sat)
-     return rebuild_hflags_common(env, fp_el, mmu_idx, flags);
++{
- }
++    if (shift <= -48) {
++        /* Rounding the sign bit always produces 0. */
--static uint32_t rebuild_hflags_internal(CPUARMState *env)
++        if (round) {
-+static CPUARMTBFlags rebuild_hflags_internal(CPUARMState *env)
++            return 0;
- {
++        }
-     int el = arm_current_el(env);
++        return src >> 63;
-     int fp_el = fp_exception_el(env, el);
++    } else if (shift < 0) {
-@@ -XXX,XX +XXX,XX @@ void HELPER(rebuild_hflags_m32_newel)(CPUARMState *env)
++        if (round) {
-     int el = arm_current_el(env);
++            src >>= -shift - 1;
-     int fp_el = fp_exception_el(env, el);
++            return (src >> 1) + (src & 1);
-     ARMMMUIdx mmu_idx = arm_mmu_idx_el(env, el);
++        }
-+
++        return src >> -shift;
-     env->hflags = rebuild_hflags_m32(env, fp_el, mmu_idx);
++    } else if (shift < 48) {
- }
++        int64_t val = src << shift;
++        int64_t extval = sextract64(val, 0, 48);
-@@ -XXX,XX +XXX,XX @@ void HELPER(rebuild_hflags_a64)(CPUARMState *env, int el)
++        if (!sat || val == extval) {
- static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
++            return extval;
- {
++        }
- #ifdef CONFIG_DEBUG_TCG
++    } else if (!sat || src == 0) {
--    uint32_t env_flags_current = env->hflags;
++        return 0;
--    uint32_t env_flags_rebuilt = rebuild_hflags_internal(env);
++    }
-+    CPUARMTBFlags c = env->hflags;
++
-+    CPUARMTBFlags r = rebuild_hflags_internal(env);
++    *sat = 1;
++    return (1ULL << 47) - (src >= 0);
--    if (unlikely(env_flags_current != env_flags_rebuilt)) {
++}
-+    if (unlikely(c.flags != r.flags)) {
++
-         fprintf(stderr, "TCG hflags mismatch (current:0x%08x rebuilt:0x%08x)\n",
++/* Operate on 64-bit values, but saturate at 48 bits */
--                env_flags_current, env_flags_rebuilt);
++static inline uint64_t do_uqrshl48_d(uint64_t src, int64_t shift,
-+                c.flags, r.flags);
++                                     bool round, uint32_t *sat)
-         abort();
++{
-     }
++    uint64_t val, extval;
- #endif
++
-@@ -XXX,XX +XXX,XX @@ static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
++    if (shift <= -(48 + round)) {
- void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
++        return 0;
-                           target_ulong *cs_base, uint32_t *pflags)
++    } else if (shift < 0) {
- {
++        if (round) {
--    uint32_t flags = env->hflags;
++            val = src >> (-shift - 1);
-+    CPUARMTBFlags flags;
++            val = (val >> 1) + (val & 1);
++        } else {
-     *cs_base = 0;
++            val = src >> -shift;
-     assert_hflags_rebuild_correctly(env);
++        }
-+    flags = env->hflags;
++        extval = extract64(val, 0, 48);
++        if (!sat || val == extval) {
-     if (EX_TBFLAG_ANY(flags, AARCH64_STATE)) {
++            return extval;
-         *pc = env->pc;
++        }
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
++    } else if (shift < 48) {
-         DP_TBFLAG_ANY(flags, PSTATE__SS, 1);
++        uint64_t val = src << shift;
-     }
++        uint64_t extval = extract64(val, 0, 48);
++        if (!sat || val == extval) {
--    *pflags = flags;
++            return extval;
-+    *pflags = flags.flags;
++        }
- }
++    } else if (!sat || src == 0) {
++        return 0;
- #ifdef TARGET_AARCH64
++    }
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
++
-index XXXXXXX..XXXXXXX 100644
++    *sat = 1;
---- a/target/arm/translate-a64.c
++    return MAKE_64BIT_MASK(0, 48);
-+++ b/target/arm/translate-a64.c
++}
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
++
-     DisasContext *dc = container_of(dcbase, DisasContext, base);
++uint64_t HELPER(mve_sqrshrl48)(CPUARMState *env, uint64_t n, uint32_t shift)
-     CPUARMState *env = cpu->env_ptr;
++{
-     ARMCPU *arm_cpu = env_archcpu(env);
++    return do_sqrshl48_d(n, -(int8_t)shift, true, &env->QF);
--    uint32_t tb_flags = dc->base.tb->flags;
++}
-+    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
++
-     int bound, core_mmu_idx;
++uint64_t HELPER(mve_uqrshll48)(CPUARMState *env, uint64_t n, uint32_t shift)
++{
-     dc->isar = &arm_cpu->isar;
++    return do_uqrshl48_d(n, (int8_t)shift, true, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool trans_URSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
-     DisasContext *dc = container_of(dcbase, DisasContext, base);
+     return do_mve_shl_ri(s, a, gen_urshr64_i64);
-     CPUARMState *env = cs->env_ptr;
+ }
-     ARMCPU *cpu = env_archcpu(env);
--    uint32_t tb_flags = dc->base.tb->flags;
++static bool do_mve_shl_rr(DisasContext *s, arg_mve_shl_rr *a, WideShiftFn *fn)
-+    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(dc->base.tb);
++{
-     uint32_t condexec, core_mmu_idx;
++    TCGv_i64 rda;
++    TCGv_i32 rdalo, rdahi;
-     dc->isar = &cpu->isar;
++
-@@ -XXX,XX +XXX,XX @@ void gen_intermediate_code(CPUState *cpu, TranslationBlock *tb, int max_insns)
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
- {
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
-     DisasContext dc = { };
++        return false;
-     const TranslatorOps *ops = &arm_translator_ops;
++    }
-+    CPUARMTBFlags tb_flags = arm_tbflags_from_tb(tb);
++    if (a->rdahi == 15) {
++        /* These are a different encoding (SQSHL/SRSHR/UQSHL/URSHR) */
--    if (EX_TBFLAG_AM32(tb->flags, THUMB)) {
++        return false;
-+    if (EX_TBFLAG_AM32(tb_flags, THUMB)) {
++    }
-         ops = &thumb_translator_ops;
++    if (!dc_isar_feature(aa32_mve, s) ||
-     }
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
- #ifdef TARGET_AARCH64
++        a->rdahi == 13 || a->rm == 13 || a->rm == 15 ||
--    if (EX_TBFLAG_ANY(tb->flags, AARCH64_STATE)) {
++        a->rm == a->rdahi || a->rm == a->rdalo) {
-+    if (EX_TBFLAG_ANY(tb_flags, AARCH64_STATE)) {
++        /* These rdahi/rdalo/rm cases are UNPREDICTABLE; we choose to UNDEF */
-         ops = &aarch64_translator_ops;
++        unallocated_encoding(s);
-     }
++        return true;
- #endif
++    }
 +
 +    rda = tcg_temp_new_i64();
 +    rdalo = load_reg(s, a->rdalo);
 +    rdahi = load_reg(s, a->rdahi);
 +    tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
 +
 +    /* The helper takes care of the sign-extension of the low 8 bits of Rm */
 +    fn(rda, cpu_env, rda, cpu_R[a->rm]);
 +
 +    tcg_gen_extrl_i64_i32(rdalo, rda);
 +    tcg_gen_extrh_i64_i32(rdahi, rda);
 +    store_reg(s, a->rdalo, rdalo);
 +    store_reg(s, a->rdahi, rdahi);
 +    tcg_temp_free_i64(rda);
 +
 +    return true;
 +}
 +
 +static bool trans_LSLL_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_ushll);
 +}
 +
 +static bool trans_ASRL_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_sshrl);
 +}
 +
 +static bool trans_UQRSHLL64_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_uqrshll);
 +}
 +
 +static bool trans_SQRSHRL64_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl);
 +}
 +
 +static bool trans_UQRSHLL48_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_uqrshll48);
 +}
 +
 +static bool trans_SQRSHRL48_rr(DisasContext *s, arg_mve_shl_rr *a)
 +{
 +    return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl48);
 +}
 +
  /*
   * Multiply and multiply accumulate
   */
 --
 .20.1

-[PULL 17/43] target/arm: Move mode specific TB flags to tb->cs_base
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Now that we have all of the proper macros defined, expanding
-the CPUARMTBFlags structure and populating the two TB fields
-is relatively simple.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-7-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h       | 49 ++++++++++++++++++++++++------------------
- target/arm/translate.h |  2 +-
- target/arm/helper.c    | 10 +++++----
-files changed, 35 insertions(+), 26 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ typedef struct ARMPACKey {
- /* See the commentary above the TBFLAG field definitions.  */
- typedef struct CPUARMTBFlags {
-     uint32_t flags;
-+    target_ulong flags2;
- } CPUARMTBFlags;
- typedef struct CPUARMState {
-@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
- #include "exec/cpu-all.h"
- /*
-- * Bit usage in the TB flags field: bit 31 indicates whether we are
-- * in 32 or 64 bit mode. The meaning of the other bits depends on that.
-- * We put flags which are shared between 32 and 64 bit mode at the top
-- * of the word, and flags which apply to only one mode at the bottom.
-+ * We have more than 32-bits worth of state per TB, so we split the data
-+ * between tb->flags and tb->cs_base, which is otherwise unused for ARM.
-+ * We collect these two parts in CPUARMTBFlags where they are named
-+ * flags and flags2 respectively.
-  *
-- *  31          20    18    14          9              0
-- * +--------------+-----+-----+----------+--------------+
-- * |              |     |   TBFLAG_A32   |              |
-- * |              |     +-----+----------+  TBFLAG_AM32 |
-- * |  TBFLAG_ANY  |           |TBFLAG_M32|              |
-- * |              +-----------+----------+--------------|
-- * |              |            TBFLAG_A64               |
-- * +--------------+-------------------------------------+
-- *  31          20                                     0
-+ * The flags that are shared between all execution modes, TBFLAG_ANY,
-+ * are stored in flags.  The flags that are specific to a given mode
-+ * are stores in flags2.  Since cs_base is sized on the configured
-+ * address size, flags2 always has 64-bits for A64, and a minimum of
-+ * 32-bits for A32 and M32.
-+ *
-+ * The bits for 32-bit A-profile and M-profile partially overlap:
-+ *
-+ *  18             9              0
-+ * +----------------+--------------+
-+ * |   TBFLAG_A32   |              |
-+ * +-----+----------+  TBFLAG_AM32 |
-+ * |     |TBFLAG_M32|              |
-+ * +-----+----------+--------------+
-+ *     14          9              0
-  *
-  * Unless otherwise noted, these bits are cached in env->hflags.
-  */
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, MTE0_ACTIVE, 19, 1)
- #define DP_TBFLAG_ANY(DST, WHICH, VAL) \
-     (DST.flags = FIELD_DP32(DST.flags, TBFLAG_ANY, WHICH, VAL))
- #define DP_TBFLAG_A64(DST, WHICH, VAL) \
--    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A64, WHICH, VAL))
-+    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_A64, WHICH, VAL))
- #define DP_TBFLAG_A32(DST, WHICH, VAL) \
--    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_A32, WHICH, VAL))
-+    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_A32, WHICH, VAL))
- #define DP_TBFLAG_M32(DST, WHICH, VAL) \
--    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_M32, WHICH, VAL))
-+    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_M32, WHICH, VAL))
- #define DP_TBFLAG_AM32(DST, WHICH, VAL) \
--    (DST.flags = FIELD_DP32(DST.flags, TBFLAG_AM32, WHICH, VAL))
-+    (DST.flags2 = FIELD_DP32(DST.flags2, TBFLAG_AM32, WHICH, VAL))
- #define EX_TBFLAG_ANY(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_ANY, WHICH)
--#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A64, WHICH)
--#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_A32, WHICH)
--#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags, TBFLAG_M32, WHICH)
--#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags, TBFLAG_AM32, WHICH)
-+#define EX_TBFLAG_A64(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_A64, WHICH)
-+#define EX_TBFLAG_A32(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_A32, WHICH)
-+#define EX_TBFLAG_M32(IN, WHICH)   FIELD_EX32(IN.flags2, TBFLAG_M32, WHICH)
-+#define EX_TBFLAG_AM32(IN, WHICH)  FIELD_EX32(IN.flags2, TBFLAG_AM32, WHICH)
- /**
-  * cpu_mmu_index:
-diff --git a/target/arm/translate.h b/target/arm/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
-  */
- static inline CPUARMTBFlags arm_tbflags_from_tb(const TranslationBlock *tb)
- {
--    return (CPUARMTBFlags){ tb->flags };
-+    return (CPUARMTBFlags){ tb->flags, tb->cs_base };
- }
- /*
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static inline void assert_hflags_rebuild_correctly(CPUARMState *env)
-     CPUARMTBFlags c = env->hflags;
-     CPUARMTBFlags r = rebuild_hflags_internal(env);
--    if (unlikely(c.flags != r.flags)) {
--        fprintf(stderr, "TCG hflags mismatch (current:0x%08x rebuilt:0x%08x)\n",
--                c.flags, r.flags);
-+    if (unlikely(c.flags != r.flags || c.flags2 != r.flags2)) {
-+        fprintf(stderr, "TCG hflags mismatch "
-+                        "(current:(0x%08x,0x" TARGET_FMT_lx ")"
-+                        " rebuilt:(0x%08x,0x" TARGET_FMT_lx ")\n",
-+                c.flags, c.flags2, r.flags, r.flags2);
-         abort();
-     }
- #endif
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
- {
-     CPUARMTBFlags flags;
--    *cs_base = 0;
-     assert_hflags_rebuild_correctly(env);
-     flags = env->hflags;
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
-     }
-     *pflags = flags.flags;
-+    *cs_base = flags.flags2;
- }
- #ifdef TARGET_AARCH64
---
-.20.1

-[PULL 18/43] target/arm: Move TBFLAG_AM32 bits to the top
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Now that these bits have been moved out of tb->flags,
-where TBFLAG_ANY was filling from the top, move AM32
-to fill from the top, and A32 and M32 to fill from the
-bottom.  This means fewer changes when adding new bits.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-9-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h | 42 +++++++++++++++++++++---------------------
-file changed, 21 insertions(+), 21 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
-  *
-  * The bits for 32-bit A-profile and M-profile partially overlap:
-  *
-- *  18             9              0
-- * +----------------+--------------+
-- * |   TBFLAG_A32   |              |
-- * +-----+----------+  TBFLAG_AM32 |
-- * |     |TBFLAG_M32|              |
-- * +-----+----------+--------------+
-- *     14          9              0
-+ *  31         23         11 10             0
-+ * +-------------+----------+----------------+
-+ * |             |          |   TBFLAG_A32   |
-+ * | TBFLAG_AM32 |          +-----+----------+
-+ * |             |                |TBFLAG_M32|
-+ * +-------------+----------------+----------+
-+ *  31         23                5 4        0
-  *
-  * Unless otherwise noted, these bits are cached in env->hflags.
-  */
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 20, 2)
- /*
-  * Bit usage when in AArch32 state, both A- and M-profile.
-  */
--FIELD(TBFLAG_AM32, CONDEXEC, 0, 8)      /* Not cached. */
--FIELD(TBFLAG_AM32, THUMB, 8, 1)         /* Not cached. */
-+FIELD(TBFLAG_AM32, CONDEXEC, 24, 8)      /* Not cached. */
-+FIELD(TBFLAG_AM32, THUMB, 23, 1)         /* Not cached. */
- /*
-  * Bit usage when in AArch32 state, for A-profile only.
-  */
--FIELD(TBFLAG_A32, VECLEN, 9, 3)         /* Not cached. */
--FIELD(TBFLAG_A32, VECSTRIDE, 12, 2)     /* Not cached. */
-+FIELD(TBFLAG_A32, VECLEN, 0, 3)         /* Not cached. */
-+FIELD(TBFLAG_A32, VECSTRIDE, 3, 2)     /* Not cached. */
- /*
-  * We store the bottom two bits of the CPAR as TB flags and handle
-  * checks on the other bits at runtime. This shares the same bits as
-  * VECSTRIDE, which is OK as no XScale CPU has VFP.
-  * Not cached, because VECLEN+VECSTRIDE are not cached.
-  */
--FIELD(TBFLAG_A32, XSCALE_CPAR, 12, 2)
--FIELD(TBFLAG_A32, VFPEN, 14, 1)         /* Partially cached, minus FPEXC. */
--FIELD(TBFLAG_A32, SCTLR__B, 15, 1)      /* Cannot overlap with SCTLR_B */
--FIELD(TBFLAG_A32, HSTR_ACTIVE, 16, 1)
-+FIELD(TBFLAG_A32, XSCALE_CPAR, 5, 2)
-+FIELD(TBFLAG_A32, VFPEN, 7, 1)         /* Partially cached, minus FPEXC. */
-+FIELD(TBFLAG_A32, SCTLR__B, 8, 1)      /* Cannot overlap with SCTLR_B */
-+FIELD(TBFLAG_A32, HSTR_ACTIVE, 9, 1)
- /*
-  * Indicates whether cp register reads and writes by guest code should access
-  * the secure or nonsecure bank of banked registers; note that this is not
-  * the same thing as the current security state of the processor!
-  */
--FIELD(TBFLAG_A32, NS, 17, 1)
-+FIELD(TBFLAG_A32, NS, 10, 1)
- /*
-  * Bit usage when in AArch32 state, for M-profile only.
-  */
- /* Handler (ie not Thread) mode */
--FIELD(TBFLAG_M32, HANDLER, 9, 1)
-+FIELD(TBFLAG_M32, HANDLER, 0, 1)
- /* Whether we should generate stack-limit checks */
--FIELD(TBFLAG_M32, STACKCHECK, 10, 1)
-+FIELD(TBFLAG_M32, STACKCHECK, 1, 1)
- /* Set if FPCCR.LSPACT is set */
--FIELD(TBFLAG_M32, LSPACT, 11, 1)                 /* Not cached. */
-+FIELD(TBFLAG_M32, LSPACT, 2, 1)                 /* Not cached. */
- /* Set if we must create a new FP context */
--FIELD(TBFLAG_M32, NEW_FP_CTXT_NEEDED, 12, 1)     /* Not cached. */
-+FIELD(TBFLAG_M32, NEW_FP_CTXT_NEEDED, 3, 1)     /* Not cached. */
- /* Set if FPCCR.S does not match current security state */
--FIELD(TBFLAG_M32, FPCCR_S_WRONG, 13, 1)          /* Not cached. */
-+FIELD(TBFLAG_M32, FPCCR_S_WRONG, 4, 1)          /* Not cached. */
- /*
-  * Bit usage when in AArch64 state
---
-.20.1

-[PULL 19/43] target/arm: Move TBFLAG_ANY bits to the bottom
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Now that other bits have been moved out of tb->flags,
-there's no point in filling from the top.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-10-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h | 14 +++++++-------
-file changed, 7 insertions(+), 7 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ typedef ARMCPU ArchCPU;
-  *
-  * Unless otherwise noted, these bits are cached in env->hflags.
-  */
--FIELD(TBFLAG_ANY, AARCH64_STATE, 31, 1)
--FIELD(TBFLAG_ANY, SS_ACTIVE, 30, 1)
--FIELD(TBFLAG_ANY, PSTATE__SS, 29, 1)    /* Not cached. */
--FIELD(TBFLAG_ANY, BE_DATA, 28, 1)
--FIELD(TBFLAG_ANY, MMUIDX, 24, 4)
-+FIELD(TBFLAG_ANY, AARCH64_STATE, 0, 1)
-+FIELD(TBFLAG_ANY, SS_ACTIVE, 1, 1)
-+FIELD(TBFLAG_ANY, PSTATE__SS, 2, 1)      /* Not cached. */
-+FIELD(TBFLAG_ANY, BE_DATA, 3, 1)
-+FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
- /* Target EL if we take a floating-point-disabled exception */
--FIELD(TBFLAG_ANY, FPEXC_EL, 22, 2)
-+FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
- /* For A-profile only, target EL for debug exceptions.  */
--FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 20, 2)
-+FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
- /*
-  * Bit usage when in AArch32 state, both A- and M-profile.
---
-.20.1

-[PULL 32/43] target/arm: Enforce alignment for VLDn (all lanes)
+[PULL 23/24] target/arm: Implement MVE shifts by immediate
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shifts by immediate, which perform shifts
+on a single general-purpose register.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+These patterns overlap with the long-shift-by-immediates,
-Message-id: 20210419202257.161730-23-richard.henderson@linaro.org
+so we have to rearrange the grouping a little here.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-18-peter.maydell@linaro.org
 ---
- target/arm/translate.h          |  1 +
+ target/arm/helper-mve.h |  3 ++
- target/arm/translate.c          | 15 +++++++++++++
+ target/arm/translate.h  |  1 +
- target/arm/translate-neon.c.inc | 37 +++++++++++++++++++++++++--------
+ target/arm/t32.decode   | 31 ++++++++++++++-----
-files changed, 44 insertions(+), 9 deletions(-)
+ target/arm/mve_helper.c | 10 ++++++
+ target/arm/translate.c  | 68 +++++++++++++++++++++++++++++++++++++++--
 files changed, 104 insertions(+), 9 deletions(-)
 diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_sqrshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
  DEF_HELPER_FLAGS_3(mve_uqrshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
  DEF_HELPER_FLAGS_3(mve_sqrshrl48, TCG_CALL_NO_RWG, i64, env, i64, i32)
  DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
 +
 +DEF_HELPER_FLAGS_3(mve_uqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
 +DEF_HELPER_FLAGS_3(mve_sqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void arm_test_cc(DisasCompare *cmp, int cc);
+@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
- void arm_free_cc(DisasCompare *cmp);
+ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
- void arm_jump_cc(DisasCompare *cmp, TCGLabel *label);
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
- void arm_gen_test_cc(int cc, TCGLabel *label);
+ typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
-+MemOp pow2_align(unsigned i);
++typedef void ShiftImmFn(TCGv_i32, TCGv_i32, int32_t shift);
- /* Return state of Alternate Half-precision flag, caller frees result */
+ /**
- static inline TCGv_i32 get_ahp_flag(void)
+  * arm_tbflags_from_tb:
 diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/t32.decode
 +++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@
  &mve_shl_ri      rdalo rdahi shim
  &mve_shl_rr      rdalo rdahi rm
 +&mve_sh_ri       rda shim
  # rdahi: bits [3:1] from insn, bit 0 is 1
  # rdalo: bits [3:1] from insn, bit 0 is 0
@@ -XXX,XX +XXX,XX @@
                   &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
  @mve_shl_rr      ....... .... . ... . rm:4  ... . .. .. .... \
                   &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
 +@mve_sh_ri       ....... .... . rda:4 . ... ... . .. .. .... \
 +                 &mve_sh_ri shim=%imm5_12_6
  {
    TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
    # the rest fall through (where ORR_rrri and MOV_rxri will end up
    # handling them as r13 and r15 accesses with the same semantics as A32).
    [
 -    LSLL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
 -    LSRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
 -    ASRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +    {
 +      UQSHL_ri   1110101 0010 1 ....  0 ...  1111 .. 00 1111  @mve_sh_ri
 +      LSLL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +      UQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +    }
 -    UQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
 -    URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
 -    SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
 -    SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +    {
 +      URSHR_ri   1110101 0010 1 ....  0 ...  1111 .. 01 1111  @mve_sh_ri
 +      LSRL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +      URSHRL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    }
 +
 +    {
 +      SRSHR_ri   1110101 0010 1 ....  0 ...  1111 .. 10 1111  @mve_sh_ri
 +      ASRL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +      SRSHRL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +    }
 +
 +    {
 +      SQSHL_ri   1110101 0010 1 ....  0 ...  1111 .. 11 1111  @mve_sh_ri
 +      SQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +    }
      LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
      ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mve_uqrshll48)(CPUARMState *env, uint64_t n, uint32_t shift)
  {
      return do_uqrshl48_d(n, (int8_t)shift, true, &env->QF);
  }
 +
 +uint32_t HELPER(mve_uqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
 +{
 +    return do_uqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
 +}
 +
 +uint32_t HELPER(mve_sqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
 +{
 +    return do_sqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static inline void store_reg_from_load(DisasContext *s, int reg, TCGv_i32 var)
+@@ -XXX,XX +XXX,XX @@ static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
- #define IS_USER_ONLY 0
- #endif
+ static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+ {
-+MemOp pow2_align(unsigned i)
+-    TCGv_i32 t = tcg_temp_new_i32();
-+{
++    TCGv_i32 t;
-+    static const MemOp mop_align[] = {
-+        0, MO_ALIGN_2, MO_ALIGN_4, MO_ALIGN_8, MO_ALIGN_16,
++    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
-+        /*
++    if (sh == 32) {
-+         * FIXME: TARGET_PAGE_BITS_MIN affects TLB_FLAGS_MASK such
++        tcg_gen_movi_i32(d, 0);
-+         * that 256-bit alignment (MO_ALIGN_32) cannot be supported:
++        return;
-+         * see get_alignment_bits(). Enforce only 128-bit alignment for now.
++    }
-+         */
++    t = tcg_temp_new_i32();
-+        MO_ALIGN_16
+     tcg_gen_extract_i32(t, a, sh - 1, 1);
-+    };
+     tcg_gen_sari_i32(d, a, sh);
-+    g_assert(i < ARRAY_SIZE(mop_align));
+     tcg_gen_add_i32(d, d, t);
-+    return mop_align[i];
+@@ -XXX,XX +XXX,XX @@ static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
  static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t;
 +    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
 +    if (sh == 32) {
 +        tcg_gen_extract_i32(d, a, sh - 1, 1);
 +        return;
 +    }
 +    t = tcg_temp_new_i32();
      tcg_gen_extract_i32(t, a, sh - 1, 1);
      tcg_gen_shri_i32(d, a, sh);
      tcg_gen_add_i32(d, d, t);
@@ -XXX,XX +XXX,XX @@ static bool trans_SQRSHRL48_rr(DisasContext *s, arg_mve_shl_rr *a)
      return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl48);
  }
 +static bool do_mve_sh_ri(DisasContext *s, arg_mve_sh_ri *a, ShiftImmFn *fn)
 +{
 +    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
 +        return false;
 +    }
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
 +        a->rda == 13 || a->rda == 15) {
 +        /* These rda cases are UNPREDICTABLE; we choose to UNDEF */
 +        unallocated_encoding(s);
 +        return true;
 +    }
 +
 +    if (a->shim == 0) {
 +        a->shim = 32;
 +    }
 +    fn(cpu_R[a->rda], cpu_R[a->rda], a->shim);
 +
 +    return true;
 +}
 +
 +static bool trans_URSHR_ri(DisasContext *s, arg_mve_sh_ri *a)
 +{
 +    return do_mve_sh_ri(s, a, gen_urshr32_i32);
 +}
 +
 +static bool trans_SRSHR_ri(DisasContext *s, arg_mve_sh_ri *a)
 +{
 +    return do_mve_sh_ri(s, a, gen_srshr32_i32);
 +}
 +
 +static void gen_mve_sqshl(TCGv_i32 r, TCGv_i32 n, int32_t shift)
 +{
 +    gen_helper_mve_sqshl(r, cpu_env, n, tcg_constant_i32(shift));
 +}
 +
 +static bool trans_SQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
 +{
 +    return do_mve_sh_ri(s, a, gen_mve_sqshl);
 +}
 +
 +static void gen_mve_uqshl(TCGv_i32 r, TCGv_i32 n, int32_t shift)
 +{
 +    gen_helper_mve_uqshl(r, cpu_env, n, tcg_constant_i32(shift));
 +}
 +
 +static bool trans_UQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
 +{
 +    return do_mve_sh_ri(s, a, gen_mve_uqshl);
 +}
 +
  /*
-  * Abstractions of "generate code to do a guest load/store for
+  * Multiply and multiply accumulate
-  * AArch32", where a vaddr is always 32 bits (and is zero
+  */
 diff --git a/target/arm/translate-neon.c.inc b/target/arm/translate-neon.c.inc
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c.inc
 +++ b/target/arm/translate-neon.c.inc
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
      int size = a->size;
      int nregs = a->n + 1;
      TCGv_i32 addr, tmp;
 +    MemOp mop, align;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
          return false;
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
          return false;
      }
 +    align = 0;
      if (size == 3) {
          if (nregs != 4 || a->a == 0) {
              return false;
          }
          /* For VLD4 size == 3 a == 1 means 32 bits at 16 byte alignment */
 -        size = 2;
 -    }
 -    if (nregs == 1 && a->a == 1 && size == 0) {
 -        return false;
 -    }
 -    if (nregs == 3 && a->a == 1) {
 -        return false;
 +        size = MO_32;
 +        align = MO_ALIGN_16;
 +    } else if (a->a) {
 +        switch (nregs) {
 +        case 1:
 +            if (size == 0) {
 +                return false;
 +            }
 +            align = MO_ALIGN;
 +            break;
 +        case 2:
 +            align = pow2_align(size + 1);
 +            break;
 +        case 3:
 +            return false;
 +        case 4:
 +            align = pow2_align(size + 2);
 +            break;
 +        default:
 +            g_assert_not_reached();
 +        }
      }
      if (!vfp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
       */
      stride = a->t ? 2 : 1;
      vec_size = nregs == 1 ? stride * 8 : 8;
 -
 +    mop = size | align;
      tmp = tcg_temp_new_i32();
      addr = tcg_temp_new_i32();
      load_reg_var(s, addr, a->rn);
      for (reg = 0; reg < nregs; reg++) {
 -        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), size);
 +        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
          if ((vd & 1) && vec_size == 16) {
              /*
               * We cannot write 16 bytes at once because the
@@ -XXX,XX +XXX,XX @@ static bool trans_VLD_all_lanes(DisasContext *s, arg_VLD_all_lanes *a)
          }
          tcg_gen_addi_i32(addr, addr, 1 << size);
          vd += stride;
 +
 +        /* Subsequent memory operations inherit alignment */
 +        mop &= ~MO_AMASK;
      }
      tcg_temp_free_i32(tmp);
      tcg_temp_free_i32(addr);
 --
 .20.1

-[PULL 20/43] target/arm: Add ALIGN_MEM to TBFLAG_ANY
+[PULL 24/24] target/arm: Implement MVE shifts by register
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shifts by register, which perform
 shifts on a single general-purpose register.
-Use this to signal when memory access alignment is required.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-This value comes from the CCR register for M-profile, and
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-from the SCTLR register for A-profile.
+Message-id: 20210628135835.6690-19-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h |  2 ++
  target/arm/translate.h  |  1 +
  target/arm/t32.decode   | 18 ++++++++++++++----
  target/arm/mve_helper.c | 10 ++++++++++
  target/arm/translate.c  | 30 ++++++++++++++++++++++++++++++
 files changed, 57 insertions(+), 4 deletions(-)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210419202257.161730-11-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/cpu.h           |  2 ++
  target/arm/translate.h     |  2 ++
  target/arm/helper.c        | 19 +++++++++++++++++--
  target/arm/translate-a64.c |  1 +
  target/arm/translate.c     |  7 +++----
 files changed, 25 insertions(+), 6 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
- FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
- /* For A-profile only, target EL for debug exceptions.  */
+ DEF_HELPER_FLAGS_3(mve_uqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
- FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
+ DEF_HELPER_FLAGS_3(mve_sqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
-+/* Memory operations require alignment: SCTLR_ELx.A or CCR.UNALIGN_TRP */
++DEF_HELPER_FLAGS_3(mve_uqrshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
-+FIELD(TBFLAG_ANY, ALIGN_MEM, 12, 1)
++DEF_HELPER_FLAGS_3(mve_sqrshr, TCG_CALL_NO_RWG, i32, env, i32, i32)
  /*
   * Bit usage when in AArch32 state, both A- and M-profile.
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
-     bool bt;
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
-     /* True if any CP15 access is trapped by HSTR_EL2 */
+ typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
-     bool hstr_active;
+ typedef void ShiftImmFn(TCGv_i32, TCGv_i32, int32_t shift);
-+    /* True if memory operations require alignment */
++typedef void ShiftFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
-+    bool align_mem;
-     /*
+ /**
-      * >= 0, a copy of PSTATE.BTYPE, which will be 0 without v8.5-BTI.
+  * arm_tbflags_from_tb:
-      *  < 0, set by the current instruction.
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/t32.decode
-+++ b/target/arm/helper.c
++++ b/target/arm/t32.decode
-@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
+@@ -XXX,XX +XXX,XX @@
-                                         ARMMMUIdx mmu_idx)
+ &mve_shl_ri      rdalo rdahi shim
  &mve_shl_rr      rdalo rdahi rm
  &mve_sh_ri       rda shim
 +&mve_sh_rr       rda rm
  # rdahi: bits [3:1] from insn, bit 0 is 1
  # rdalo: bits [3:1] from insn, bit 0 is 0
@@ -XXX,XX +XXX,XX @@
                   &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
  @mve_sh_ri       ....... .... . rda:4 . ... ... . .. .. .... \
                   &mve_sh_ri shim=%imm5_12_6
 +@mve_sh_rr       ....... .... . rda:4 rm:4 .... .... .... &mve_sh_rr
  {
-     CPUARMTBFlags flags = {};
+   TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
-+    uint32_t ccr = env->v7m.ccr[env->v7m.secure];
+@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
-+
+       SQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +    /* Without HaveMainExt, CCR.UNALIGN_TRP is RES1. */
 +    if (ccr & R_V7M_CCR_UNALIGN_TRP_MASK) {
 +        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
 +    }
      if (arm_v7m_is_handler_mode(env)) {
          DP_TBFLAG_M32(flags, HANDLER, 1);
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
       */
      if (arm_feature(env, ARM_FEATURE_V8) &&
          !((mmu_idx & ARM_MMU_IDX_M_NEGPRI) &&
 -          (env->v7m.ccr[env->v7m.secure] & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
 +          (ccr & R_V7M_CCR_STKOFHFNMIGN_MASK))) {
          DP_TBFLAG_M32(flags, STACKCHECK, 1);
      }
-@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
+-    LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
-                                         ARMMMUIdx mmu_idx)
+-    ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
- {
+-    UQRSHLL64_rr 1110101 0010 1 ... 1 ....  ... 1  0000 1101  @mve_shl_rr
-     CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
+-    SQRSHRL64_rr 1110101 0010 1 ... 1 ....  ... 1  0010 1101  @mve_shl_rr
-+    int el = arm_current_el(env);
++    {
-+
++      UQRSHL_rr    1110101 0010 1 ....  ....  1111 0000 1101  @mve_sh_rr
-+    if (arm_sctlr(env, el) & SCTLR_A) {
++      LSLL_rr      1110101 0010 1 ... 0 .... ... 1 0000 1101  @mve_shl_rr
-+        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
++      UQRSHLL64_rr 1110101 0010 1 ... 1 .... ... 1 0000 1101  @mve_shl_rr
 +    }
      if (arm_el_is_aa64(env, 1)) {
          DP_TBFLAG_A32(flags, VFPEN, 1);
      }
 -    if (arm_current_el(env) < 2 && env->cp15.hstr_el2 &&
 +    if (el < 2 && env->cp15.hstr_el2 &&
          (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
          DP_TBFLAG_A32(flags, HSTR_ACTIVE, 1);
      }
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
      sctlr = regime_sctlr(env, stage1);
 +    if (sctlr & SCTLR_A) {
 +        DP_TBFLAG_ANY(flags, ALIGN_MEM, 1);
 +    }
 +
-     if (arm_cpu_data_is_big_endian_a64(el, sctlr)) {
++    {
-         DP_TBFLAG_ANY(flags, BE_DATA, 1);
++      SQRSHR_rr    1110101 0010 1 ....  ....  1111 0010 1101  @mve_sh_rr
-     }
++      ASRL_rr      1110101 0010 1 ... 0 .... ... 1 0010 1101  @mve_shl_rr
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
++      SQRSHRL64_rr 1110101 0010 1 ... 1 .... ... 1 0010 1101  @mve_shl_rr
 +    }
 +
      UQRSHLL48_rr 1110101 0010 1 ... 1 ....  ... 1  1000 1101  @mve_shl_rr
      SQRSHRL48_rr 1110101 0010 1 ... 1 ....  ... 1  1010 1101  @mve_shl_rr
    ]
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/mve_helper.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_sqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
-     dc->user = (dc->current_el == 0);
+ {
- #endif
+     return do_sqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
-     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
+ }
-+    dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
++
-     dc->sve_excp_el = EX_TBFLAG_A64(tb_flags, SVEEXC_EL);
++uint32_t HELPER(mve_uqrshl)(CPUARMState *env, uint32_t n, uint32_t shift)
-     dc->sve_len = (EX_TBFLAG_A64(tb_flags, ZCR_LEN) + 1) * 16;
++{
-     dc->pauth_active = EX_TBFLAG_A64(tb_flags, PAUTH_ACTIVE);
++    return do_uqrshl_bhs(n, (int8_t)shift, 32, true, &env->QF);
 +}
 +
 +uint32_t HELPER(mve_sqrshr)(CPUARMState *env, uint32_t n, uint32_t shift)
 +{
 +    return do_sqrshl_bhs(n, -(int8_t)shift, 32, true, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_aa32_ld_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
+@@ -XXX,XX +XXX,XX @@ static bool trans_UQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
- {
+     return do_mve_sh_ri(s, a, gen_mve_uqshl);
-     TCGv addr;
+ }
--    if (arm_dc_feature(s, ARM_FEATURE_M) &&
++static bool do_mve_sh_rr(DisasContext *s, arg_mve_sh_rr *a, ShiftFn *fn)
--        !arm_dc_feature(s, ARM_FEATURE_M_MAIN)) {
++{
-+    if (s->align_mem) {
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-         opc |= MO_ALIGN;
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
-     }
++        return false;
++    }
-@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i32(DisasContext *s, TCGv_i32 val, TCGv_i32 a32,
++    if (!dc_isar_feature(aa32_mve, s) ||
- {
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
-     TCGv addr;
++        a->rda == 13 || a->rda == 15 || a->rm == 13 || a->rm == 15 ||
++        a->rm == a->rda) {
--    if (arm_dc_feature(s, ARM_FEATURE_M) &&
++        /* These rda/rm cases are UNPREDICTABLE; we choose to UNDEF */
--        !arm_dc_feature(s, ARM_FEATURE_M_MAIN)) {
++        unallocated_encoding(s);
-+    if (s->align_mem) {
++        return true;
-         opc |= MO_ALIGN;
++    }
-     }
++
++    /* The helper takes care of the sign-extension of the low 8 bits of Rm */
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
++    fn(cpu_R[a->rda], cpu_env, cpu_R[a->rda], cpu_R[a->rm]);
-     dc->user = (dc->current_el == 0);
++    return true;
- #endif
++}
-     dc->fp_excp_el = EX_TBFLAG_ANY(tb_flags, FPEXC_EL);
++
-+    dc->align_mem = EX_TBFLAG_ANY(tb_flags, ALIGN_MEM);
++static bool trans_SQRSHR_rr(DisasContext *s, arg_mve_sh_rr *a)
++{
-     if (arm_feature(env, ARM_FEATURE_M)) {
++    return do_mve_sh_rr(s, a, gen_helper_mve_sqrshr);
-         dc->vfp_enabled = 1;
++}
 +
 +static bool trans_UQRSHL_rr(DisasContext *s, arg_mve_sh_rr *a)
 +{
 +    return do_mve_sh_rr(s, a, gen_helper_mve_uqrshl);
 +}
 +
  /*
   * Multiply and multiply accumulate
   */
 --
 .20.1

-[PULL 23/43] target/arm: Fix SCTLR_B test for TCGv_i64 load/store
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Just because operating on a TCGv_i64 temporary does not
-mean that we're performing a 64-bit operation.  Restrict
-the frobbing to actual 64-bit operations.
-This bug is not currently visible because all current
-users of these two functions always pass MO_64.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-14-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_aa32_ld_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
-     tcg_gen_qemu_ld_i64(val, addr, index, opc);
-     /* Not needed for user-mode BE32, where we use MO_BE instead.  */
--    if (!IS_USER_ONLY && s->sctlr_b) {
-+    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
-         tcg_gen_rotri_i64(val, val, 32);
-     }
-@@ -XXX,XX +XXX,XX @@ static void gen_aa32_st_i64(DisasContext *s, TCGv_i64 val, TCGv_i32 a32,
-     TCGv addr = gen_aa32_addr(s, a32, opc);
-     /* Not needed for user-mode BE32, where we use MO_BE instead.  */
--    if (!IS_USER_ONLY && s->sctlr_b) {
-+    if (!IS_USER_ONLY && s->sctlr_b && (opc & MO_SIZE) == MO_64) {
-         TCGv_i64 tmp = tcg_temp_new_i64();
-         tcg_gen_rotri_i64(tmp, val, 32);
-         tcg_gen_qemu_st_i64(tmp, addr, index, opc);
---
-.20.1

-[PULL 25/43] target/arm: Enforce word alignment for LDRD/STRD
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Buglink: https://bugs.launchpad.net/qemu/+bug/1905356
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-16-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 16 ++++++++--------
-file changed, 8 insertions(+), 8 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_LDRD_rr(DisasContext *s, arg_ldst_rr *a)
-     addr = op_addr_rr_pre(s, a);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     store_reg(s, a->rt, tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     store_reg(s, a->rt + 1, tmp);
-     /* LDRD w/ base writeback is undefined if the registers overlap.  */
-@@ -XXX,XX +XXX,XX @@ static bool trans_STRD_rr(DisasContext *s, arg_ldst_rr *a)
-     addr = op_addr_rr_pre(s, a);
-     tmp = load_reg(s, a->rt);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     tcg_temp_free_i32(tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = load_reg(s, a->rt + 1);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     tcg_temp_free_i32(tmp);
-     op_addr_rr_post(s, a, addr, -4);
-@@ -XXX,XX +XXX,XX @@ static bool op_ldrd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
-     addr = op_addr_ri_pre(s, a);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     store_reg(s, a->rt, tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     store_reg(s, rt2, tmp);
-     /* LDRD w/ base writeback is undefined if the registers overlap.  */
-@@ -XXX,XX +XXX,XX @@ static bool op_strd_ri(DisasContext *s, arg_ldst_ri *a, int rt2)
-     addr = op_addr_ri_pre(s, a);
-     tmp = load_reg(s, a->rt);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     tcg_temp_free_i32(tmp);
-     tcg_gen_addi_i32(addr, addr, 4);
-     tmp = load_reg(s, rt2);
--    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL);
-+    gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-     tcg_temp_free_i32(tmp);
-     op_addr_ri_post(s, a, addr, -4);
---
-.20.1

-[PULL 26/43] target/arm: Enforce alignment for LDA/LDAH/STL/STLH
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-17-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool op_stl(DisasContext *s, arg_STL *a, MemOp mop)
-     addr = load_reg(s, a->rn);
-     tmp = load_reg(s, a->rt);
-     tcg_gen_mb(TCG_MO_ALL | TCG_BAR_STRL);
--    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop);
-+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), mop | MO_ALIGN);
-     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel | ISSIsWrite);
-     tcg_temp_free_i32(tmp);
-@@ -XXX,XX +XXX,XX @@ static bool op_lda(DisasContext *s, arg_LDA *a, MemOp mop)
-     addr = load_reg(s, a->rn);
-     tmp = tcg_temp_new_i32();
--    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop);
-+    gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), mop | MO_ALIGN);
-     disas_set_da_iss(s, mop, a->rt | ISSIsAcqRel);
-     tcg_temp_free_i32(addr);
---
-.20.1

-[PULL 27/43] target/arm: Enforce alignment for LDM/STM
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-18-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool op_stm(DisasContext *s, arg_ldst_block *a, int min_n)
-         } else {
-             tmp = load_reg(s, i);
-         }
--        gen_aa32_st32(s, tmp, addr, mem_idx);
-+        gen_aa32_st_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-         tcg_temp_free_i32(tmp);
-         /* No need to add after the last transfer.  */
-@@ -XXX,XX +XXX,XX @@ static bool do_ldm(DisasContext *s, arg_ldst_block *a, int min_n)
-         }
-         tmp = tcg_temp_new_i32();
--        gen_aa32_ld32u(s, tmp, addr, mem_idx);
-+        gen_aa32_ld_i32(s, tmp, addr, mem_idx, MO_UL | MO_ALIGN);
-         if (user) {
-             tmp2 = tcg_const_i32(i);
-             gen_helper_set_user_reg(cpu_env, tmp2, tmp);
---
-.20.1

-[PULL 28/43] target/arm: Enforce alignment for RFE
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-19-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_RFE(DisasContext *s, arg_RFE *a)
-     /* Load PC into tmp and CPSR into tmp2.  */
-     t1 = tcg_temp_new_i32();
--    gen_aa32_ld32u(s, t1, addr, get_mem_index(s));
-+    gen_aa32_ld_i32(s, t1, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-     tcg_gen_addi_i32(addr, addr, 4);
-     t2 = tcg_temp_new_i32();
--    gen_aa32_ld32u(s, t2, addr, get_mem_index(s));
-+    gen_aa32_ld_i32(s, t2, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-     if (a->w) {
-         /* Base writeback.  */
---
-.20.1

-[PULL 29/43] target/arm: Enforce alignment for SRS
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-20-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 4 ++--
-file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_srs(DisasContext *s,
-     }
-     tcg_gen_addi_i32(addr, addr, offset);
-     tmp = load_reg(s, 14);
--    gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-     tcg_temp_free_i32(tmp);
-     tmp = load_cpu_field(spsr);
-     tcg_gen_addi_i32(addr, addr, 4);
--    gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-+    gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-     tcg_temp_free_i32(tmp);
-     if (writeback) {
-         switch (amode) {
---
-.20.1

-[PULL 30/43] target/arm: Enforce alignment for VLDM/VSTM
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-21-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate-vfp.c.inc | 8 ++++----
-file changed, 4 insertions(+), 4 deletions(-)
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-vfp.c.inc
-+++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_sp(DisasContext *s, arg_VLDM_VSTM_sp *a)
-     for (i = 0; i < n; i++) {
-         if (a->l) {
-             /* load */
--            gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
-+            gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-             vfp_store_reg32(tmp, a->vd + i);
-         } else {
-             /* store */
-             vfp_load_reg32(tmp, a->vd + i);
--            gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-+            gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-         }
-         tcg_gen_addi_i32(addr, addr, offset);
-     }
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDM_VSTM_dp(DisasContext *s, arg_VLDM_VSTM_dp *a)
-     for (i = 0; i < n; i++) {
-         if (a->l) {
-             /* load */
--            gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
-+            gen_aa32_ld_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-             vfp_store_reg64(tmp, a->vd + i);
-         } else {
-             /* store */
-             vfp_load_reg64(tmp, a->vd + i);
--            gen_aa32_st64(s, tmp, addr, get_mem_index(s));
-+            gen_aa32_st_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-         }
-         tcg_gen_addi_i32(addr, addr, offset);
-     }
---
-.20.1

-[PULL 31/43] target/arm: Enforce alignment for VLDR/VSTR
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20210419202257.161730-22-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate-vfp.c.inc | 12 ++++++------
-file changed, 6 insertions(+), 6 deletions(-)
-diff --git a/target/arm/translate-vfp.c.inc b/target/arm/translate-vfp.c.inc
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-vfp.c.inc
-+++ b/target/arm/translate-vfp.c.inc
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_hp(DisasContext *s, arg_VLDR_VSTR_sp *a)
-     addr = add_reg_for_lit(s, a->rn, offset);
-     tmp = tcg_temp_new_i32();
-     if (a->l) {
--        gen_aa32_ld16u(s, tmp, addr, get_mem_index(s));
-+        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UW | MO_ALIGN);
-         vfp_store_reg32(tmp, a->vd);
-     } else {
-         vfp_load_reg32(tmp, a->vd);
--        gen_aa32_st16(s, tmp, addr, get_mem_index(s));
-+        gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UW | MO_ALIGN);
-     }
-     tcg_temp_free_i32(tmp);
-     tcg_temp_free_i32(addr);
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_sp(DisasContext *s, arg_VLDR_VSTR_sp *a)
-     addr = add_reg_for_lit(s, a->rn, offset);
-     tmp = tcg_temp_new_i32();
-     if (a->l) {
--        gen_aa32_ld32u(s, tmp, addr, get_mem_index(s));
-+        gen_aa32_ld_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-         vfp_store_reg32(tmp, a->vd);
-     } else {
-         vfp_load_reg32(tmp, a->vd);
--        gen_aa32_st32(s, tmp, addr, get_mem_index(s));
-+        gen_aa32_st_i32(s, tmp, addr, get_mem_index(s), MO_UL | MO_ALIGN);
-     }
-     tcg_temp_free_i32(tmp);
-     tcg_temp_free_i32(addr);
-@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR_dp(DisasContext *s, arg_VLDR_VSTR_dp *a)
-     addr = add_reg_for_lit(s, a->rn, offset);
-     tmp = tcg_temp_new_i64();
-     if (a->l) {
--        gen_aa32_ld64(s, tmp, addr, get_mem_index(s));
-+        gen_aa32_ld_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-         vfp_store_reg64(tmp, a->vd);
-     } else {
-         vfp_load_reg64(tmp, a->vd);
--        gen_aa32_st64(s, tmp, addr, get_mem_index(s));
-+        gen_aa32_st_i64(s, tmp, addr, get_mem_index(s), MO_Q | MO_ALIGN_4);
-     }
-     tcg_temp_free_i64(tmp);
-     tcg_temp_free_i32(addr);
---
-.20.1

First arm pullreq for 6.1 cycle. The big stuff here is RTH's alignment series.

thanks
-- PMM

The following changes since commit ccdf06c1db192152ac70a1dd974c624f566cb7d4:

Open 6.1 development tree (2021-04-30 11:15:40 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210430

for you to fetch changes up to a6091108aa44e9017af4ca13c43f55a629e3744c:

hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows (2021-04-30 11:16:52 +0100)

----------------------------------------------------------------
target-arm queue:
 * hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows
 * hw: add compat machines for 6.1
 * Fault misaligned accesses where the architecture requires it
 * Fix some corner cases of MTE faults (notably with misaligned accesses)
 * Make Thumb store insns UNDEF for Rn==1111
 * hw/arm/smmuv3: Support 16K translation granule

----------------------------------------------------------------
Cornelia Huck (1):
      hw: add compat machines for 6.1

Kunkun Jiang (1):
      hw/arm/smmuv3: Support 16K translation granule

Peter Maydell (2):
      target/arm: Make Thumb store insns UNDEF for Rn==1111
      hw/pci-host/gpex: Don't fault for unmapped parts of MMIO and PIO windows

Richard Henderson (39):
      target/arm: Fix mte_checkN
      target/arm: Split out mte_probe_int
      target/arm: Fix unaligned checks for mte_check1, mte_probe1
      test/tcg/aarch64: Add mte-5
      target/arm: Replace MTEDESC ESIZE+TSIZE with SIZEM1
      target/arm: Merge mte_check1, mte_checkN
      target/arm: Rename mte_probe1 to mte_probe
      target/arm: Simplify sve mte checking
      target/arm: Remove log2_esize parameter to gen_mte_checkN
      target/arm: Fix decode of align in VLDST_single
      target/arm: Rename TBFLAG_A32, SCTLR_B
      target/arm: Rename TBFLAG_ANY, PSTATE_SS
      target/arm: Add wrapper macros for accessing tbflags
      target/arm: Introduce CPUARMTBFlags
      target/arm: Move mode specific TB flags to tb->cs_base
      target/arm: Move TBFLAG_AM32 bits to the top
      target/arm: Move TBFLAG_ANY bits to the bottom
      target/arm: Add ALIGN_MEM to TBFLAG_ANY
      target/arm: Adjust gen_aa32_{ld, st}_i32 for align+endianness
      target/arm: Merge gen_aa32_frob64 into gen_aa32_ld_i64
      target/arm: Fix SCTLR_B test for TCGv_i64 load/store
      target/arm: Adjust gen_aa32_{ld, st}_i64 for align+endianness
      target/arm: Enforce word alignment for LDRD/STRD
      target/arm: Enforce alignment for LDA/LDAH/STL/STLH
      target/arm: Enforce alignment for LDM/STM
      target/arm: Enforce alignment for RFE
      target/arm: Enforce alignment for SRS
      target/arm: Enforce alignment for VLDM/VSTM
      target/arm: Enforce alignment for VLDR/VSTR
      target/arm: Enforce alignment for VLDn (all lanes)
      target/arm: Enforce alignment for VLDn/VSTn (multiple)
      target/arm: Enforce alignment for VLDn/VSTn (single)
      target/arm: Use finalize_memop for aa64 gpr load/store
      target/arm: Use finalize_memop for aa64 fpr load/store
      target/arm: Enforce alignment for aa64 load-acq/store-rel
      target/arm: Use MemOp for size + endian in aa64 vector ld/st
      target/arm: Enforce alignment for aa64 vector LDn/STn (multiple)
      target/arm: Enforce alignment for aa64 vector LDn/STn (single)
      target/arm: Enforce alignment for sve LD1R

From: Kunkun Jiang <jiangkunkun@huawei.com>

The driver can query some bits in SMMUv3 IDR5 to learn which
translation granules are supported. Arm recommends that SMMUv3
implementations support at least 4K and 64K granules. But in
the vSMMUv3, there seems to be no reason not to support 16K
translation granule. In addition, if 16K is not supported,
vSVA will failed to be enabled in the future for 16K guest
kernel. So it'd better to support it.

Signed-off-by: Kunkun Jiang <jiangkunkun@huawei.com>
Reviewed-by: Eric Auger <eric.auger@redhat.com>
Tested-by: Eric Auger <eric.auger@redhat.com>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmuv3.c | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmuv3.c
+++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@ static void smmuv3_init_regs(SMMUv3State *s)
     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, RIL, 1);
     s->idr[3] = FIELD_DP32(s->idr[3], IDR3, HAD, 1);
 
-   /* 4K and 64K granule support */
+    /* 4K, 16K and 64K granule support */
     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN4K, 1);
+    s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN16K, 1);
     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, GRAN64K, 1);
     s->idr[5] = FIELD_DP32(s->idr[5], IDR5, OAS, SMMU_IDR5_OAS); /* 44 bits */
 
@@ -XXX,XX +XXX,XX @@ static int decode_cd(SMMUTransCfg *cfg, CD *cd, SMMUEventInfo *event)
 
         tg = CD_TG(cd, i);
         tt->granule_sz = tg2granule(tg, i);
-        if ((tt->granule_sz != 12 && tt->granule_sz != 16) || CD_ENDI(cd)) {
+        if ((tt->granule_sz != 12 && tt->granule_sz != 14 &&
+             tt->granule_sz != 16) || CD_ENDI(cd)) {
             goto bad_cd;
         }
 
-- 
2.20.1

The Arm ARM specifies that for Thumb encodings of the various plain
store insns, if the Rn field is 1111 then we must UNDEF.  This is
different from the Arm encodings, where this case is either
UNPREDICTABLE or has well-defined behaviour.  The exclusive stores,
store-release and STRD do not have this UNDEF case for any encoding.

Enforce the UNDEF for this case in the Thumb plain store insns.

Fixes: https://bugs.launchpad.net/qemu/+bug/1922887
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20210408162402.5822-1-peter.maydell@linaro.org
---
 target/arm/translate.c | 16 ++++++++++++++++
 1 file changed, 16 insertions(+)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static bool op_store_rr(DisasContext *s, arg_ldst_rr *a,
     ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
     TCGv_i32 addr, tmp;
 
+    /*
+     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
+     * is either UNPREDICTABLE or has defined behaviour
+     */
+    if (s->thumb && a->rn == 15) {
+        return false;
+    }
+
     addr = op_addr_rr_pre(s, a);
 
     tmp = load_reg(s, a->rt);
@@ -XXX,XX +XXX,XX @@ static bool op_store_ri(DisasContext *s, arg_ldst_ri *a,
     ISSInfo issinfo = make_issinfo(s, a->rt, a->p, a->w) | ISSIsWrite;
     TCGv_i32 addr, tmp;
 
+    /*
+     * In Thumb encodings of stores Rn=1111 is UNDEF; for Arm it
+     * is either UNPREDICTABLE or has defined behaviour
+     */
+    if (s->thumb && a->rn == 15) {
+        return false;
+    }
+
     addr = op_addr_ri_pre(s, a);
 
     tmp = load_reg(s, a->rt);
-- 
2.20.1