Series comparison

-[Qemu-devel] [PULL 00/49] target-arm queue
+[PULL v2 00/42] target-arm queue
-A largish pull request: the big things are Richard's PAuth work
+Hi; most of this is the first half of the A64 simd decodetree
-and Aaron's PMU emulation improvements.
+conversion; the rest is a mix of fixes from the last couple of weeks.
 v2 uses patches from the v2 decodetree series to avoid a few
 regressions in some A32 insns.
 (Richard: I'm still planning to review the second half of the
 v2 decodetree series; I just wanted to get the respin of this
 pullreq out today...)
 thanks
 -- PMM
+The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:
-The following changes since commit 681d61362d3f766a00806b89d6581869041f73cb:
+  Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)
   Merge remote-tracking branch 'remotes/jnsnow/tags/bitmaps-pull-request' into staging (2019-01-17 12:48:42 +0000)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20190118
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528
-for you to fetch changes up to 2a0ed2804e2c77a1c4e255f05ab739618e05c85d:
+for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:
-  tests/libqtest: Introduce qtest_init_with_serial() (2019-01-18 14:17:38 +0000)
+  target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * hw/char/stm32f2xx_usart: Do not update data register when device is disabled
+ * xlnx_dpdma: fix descriptor endianness bug
- * hw/arm/virt-acpi-build: Set COHACC override flag in IORT SMMUv3 node
+ * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
- * target/arm: Allow Aarch32 exception return to switch from Mon->Hyp
+ * hw/arm/npcm7xx: remove setting of mp-affinity
- * ftgmac100: implement the new MDIO interface on Aspeed SoC
+ * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
- * implement the ARMv8.3-PAuth extension
+ * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
- * improve emulation of the ARM PMU
+ * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
  * hw: arm: Remove use of tabs in some source files
  * docs/system: Remove ADC from raspi documentation
  * target/arm: Start of the conversion of A64 SIMD to decodetree
 ----------------------------------------------------------------
-Aaron Lindsay (13):
+Alexandra Diupina (1):
-      migration: Add post_save function to VMStateDescription
+      xlnx_dpdma: fix descriptor endianness bug
       target/arm: Reorganize PMCCNTR accesses
       target/arm: Swap PMU values before/after migrations
       target/arm: Filter cycle counter based on PMCCFILTR_EL0
       target/arm: Allow AArch32 access for PMCCFILTR
       target/arm: Implement PMOVSSET
       target/arm: Define FIELDs for ID_DFR0
       target/arm: Make PMCEID[01]_EL0 64 bit registers, add PMCEID[23]
       target/arm: Add array for supported PMU events, generate PMCEID[01]_EL0
       target/arm: Finish implementation of PM[X]EVCNTR and PM[X]EVTYPER
       target/arm: PMU: Add instruction and cycle events
       target/arm: PMU: Set PMCR.N to 4
       target/arm: Implement PMSWINC
-Alexander Graf (1):
+Andrey Shumilin (1):
-      target/arm: Allow Aarch32 exception return to switch from Mon->Hyp
+      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
-Cédric Le Goater (1):
+Dorjoy Chowdhury (1):
-      ftgmac100: implement the new MDIO interface on Aspeed SoC
+      hw/arm/npcm7xx: remove setting of mp-affinity
-Eric Auger (1):
+Inès Varhol (1):
-      hw/arm/virt-acpi-build: Set COHACC override flag in IORT SMMUv3 node
+      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
 Julia Suvorova (1):
       tests/libqtest: Introduce qtest_init_with_serial()
 Philippe Mathieu-Daudé (1):
-      hw/char/stm32f2xx_usart: Do not update data register when device is disabled
+      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
-Richard Henderson (31):
+Rayhan Faizel (1):
-      target/arm: Add state for the ARMv8.3-PAuth extension
+      docs/system: Remove ADC from raspi documentation
       target/arm: Add SCTLR bits through ARMv8.5
       target/arm: Add PAuth active bit to tbflags
       target/arm: Introduce raise_exception_ra
       target/arm: Add PAuth helpers
       target/arm: Decode PAuth within system hint space
       target/arm: Rearrange decode in disas_data_proc_1src
       target/arm: Decode PAuth within disas_data_proc_1src
       target/arm: Decode PAuth within disas_data_proc_2src
       target/arm: Move helper_exception_return to helper-a64.c
       target/arm: Add new_pc argument to helper_exception_return
       target/arm: Rearrange decode in disas_uncond_b_reg
       target/arm: Decode PAuth within disas_uncond_b_reg
       target/arm: Decode Load/store register (pac)
       target/arm: Move cpu_mmu_index out of line
       target/arm: Introduce arm_mmu_idx
       target/arm: Introduce arm_stage1_mmu_idx
       target/arm: Create ARMVAParameters and helpers
       target/arm: Merge TBFLAG_AA_TB{0, 1} to TBII
       target/arm: Export aa64_va_parameters to internals.h
       target/arm: Add aa64_va_parameters_both
       target/arm: Decode TBID from TCR
       target/arm: Reuse aa64_va_parameters for setting tbflags
       target/arm: Implement pauth_strip
       target/arm: Implement pauth_auth
       target/arm: Implement pauth_addpac
       target/arm: Implement pauth_computepac
       target/arm: Add PAuth system registers
       target/arm: Enable PAuth for -cpu max
       target/arm: Enable PAuth for user-only
       target/arm: Tidy TBI handling in gen_a64_set_pc
- target/arm/Makefile.objs    |    1 +
+Richard Henderson (34):
- include/hw/acpi/acpi-defs.h |    2 +
+      target/arm: Use PLD, PLDW, PLI not NOP for t32
- include/migration/vmstate.h |    1 +
+      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
- target/arm/cpu.h            |  244 +++++----
+      target/arm: Fix decode of FMOV (hp) vs MOVI
- target/arm/helper-a64.h     |   14 +
+      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
- target/arm/helper.h         |    1 -
+      target/arm: Split out gengvec.c
- target/arm/internals.h      |   77 +++
+      target/arm: Split out gengvec64.c
- target/arm/translate.h      |    5 +-
+      target/arm: Convert Cryptographic AES to decodetree
- tests/libqtest.h            |   11 +
+      target/arm: Convert Cryptographic 3-register SHA to decodetree
- hw/arm/virt-acpi-build.c    |    1 +
+      target/arm: Convert Cryptographic 2-register SHA to decodetree
- hw/char/stm32f2xx_usart.c   |    3 +-
+      target/arm: Convert Cryptographic 3-register SHA512 to decodetree
- hw/net/ftgmac100.c          |   80 ++-
+      target/arm: Convert Cryptographic 2-register SHA512 to decodetree
- migration/vmstate.c         |   13 +-
+      target/arm: Convert Cryptographic 4-register to decodetree
- target/arm/cpu.c            |   19 +-
+      target/arm: Convert Cryptographic 3-register, imm2 to decodetree
- target/arm/cpu64.c          |   68 ++-
+      target/arm: Convert XAR to decodetree
- target/arm/helper-a64.c     |  155 ++++++
+      target/arm: Convert Advanced SIMD copy to decodetree
- target/arm/helper.c         | 1222 +++++++++++++++++++++++++++++++++----------
+      target/arm: Convert FMULX to decodetree
- target/arm/machine.c        |   24 +
+      target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
- target/arm/op_helper.c      |  174 +-----
+      target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
- target/arm/pauth_helper.c   |  497 ++++++++++++++++++
+      target/arm: Introduce vfp_load_reg16
- target/arm/translate-a64.c  |  537 ++++++++++++++++---
+      target/arm: Expand vfp neg and abs inline
- tests/libqtest.c            |   26 +
+      target/arm: Convert FNMUL to decodetree
- docs/devel/migration.rst    |    9 +-
+      target/arm: Convert FMLA, FMLS to decodetree
-files changed, 2552 insertions(+), 632 deletions(-)
+      target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
- create mode 100644 target/arm/pauth_helper.c
+      target/arm: Convert FABD to decodetree
       target/arm: Convert FRECPS, FRSQRTS to decodetree
       target/arm: Convert FADDP to decodetree
       target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
       target/arm: Use gvec for neon faddp, fmaxp, fminp
       target/arm: Convert ADDP to decodetree
       target/arm: Use gvec for neon padd
       target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
       target/arm: Use gvec for neon pmax, pmin
       target/arm: Convert FMLAL, FMLSL to decodetree
       target/arm: Convert disas_simd_3same_logic to decodetree
+Tanmay Patil (1):
+      hw: arm: Remove use of tabs in some source files
+Zenghui Yu (1):
+      hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
+ docs/system/arm/raspi.rst       |    1 -
+ target/arm/helper.h             |   68 +-
+ target/arm/tcg/helper-a64.h     |   12 +
+ target/arm/tcg/translate-a64.h  |    4 +
+ target/arm/tcg/translate.h      |   51 +
+ target/arm/tcg/a64.decode       |  315 +++-
+ target/arm/tcg/t32.decode       |   25 +-
+ hw/arm/boot.c                   |    8 +-
+ hw/arm/npcm7xx.c                |    3 -
+ hw/char/omap_uart.c             |   49 +-
+ hw/char/stm32l4x5_usart.c       |    2 +-
+ hw/dma/xlnx_dpdma.c             |   68 +-
+ hw/gpio/zaurus.c                |   59 +-
+ hw/input/tsc2005.c              |  135 +-
+ hw/intc/arm_gic.c               |    4 +-
+ target/arm/hvf/hvf.c            |  130 +-
+ target/arm/tcg/gengvec.c        | 1672 +++++++++++++++++++++
+ target/arm/tcg/gengvec64.c      |  190 +++
+ target/arm/tcg/neon_helper.c    |    5 -
+ target/arm/tcg/translate-a64.c  | 3137 +++++++++++++--------------------------
+ target/arm/tcg/translate-neon.c |  136 +-
+ target/arm/tcg/translate-sve.c  |  145 +-
+ target/arm/tcg/translate-vfp.c  |   93 +-
+ target/arm/tcg/translate.c      | 1592 +-------------------
+ target/arm/tcg/vec_helper.c     |  221 ++-
+ target/arm/vfp_helper.c         |   30 -
+ target/arm/tcg/meson.build      |    2 +
+files changed, 3860 insertions(+), 4297 deletions(-)
+ create mode 100644 target/arm/tcg/gengvec.c
+ create mode 100644 target/arm/tcg/gengvec64.c

-[Qemu-devel] [PULL 01/49] hw/char/stm32f2xx_usart: Do not update data register when device is disabled
+Deleted patch
-From: Philippe Mathieu-Daudé <philmd@redhat.com>
-When the device is disabled, the internal circuitry keeps the data
-register loaded and doesn't update it.
-Signed-off-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
-Message-id: 20190104182057.8778-1-philmd@redhat.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- hw/char/stm32f2xx_usart.c | 3 +--
-file changed, 1 insertion(+), 2 deletions(-)
-diff --git a/hw/char/stm32f2xx_usart.c b/hw/char/stm32f2xx_usart.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/char/stm32f2xx_usart.c
-+++ b/hw/char/stm32f2xx_usart.c
-@@ -XXX,XX +XXX,XX @@ static void stm32f2xx_usart_receive(void *opaque, const uint8_t *buf, int size)
- {
-     STM32F2XXUsartState *s = opaque;
--    s->usart_dr = *buf;
--
-     if (!(s->usart_cr1 & USART_CR1_UE && s->usart_cr1 & USART_CR1_RE)) {
-         /* USART not enabled - drop the chars */
-         DB_PRINT("Dropping the chars\n");
-         return;
-     }
-+    s->usart_dr = *buf;
-     s->usart_sr |= USART_SR_RXNE;
-     if (s->usart_cr1 & USART_CR1_RXNEIE) {
---
-.20.1

-[Qemu-devel] [PULL 02/49] hw/arm/virt-acpi-build: Set COHACC override flag in IORT SMMUv3 node
+Deleted patch
-From: Eric Auger <eric.auger@redhat.com>
-Let's report IO-coherent access is supported for translation
-table walks, descriptor fetches and queues by setting the COHACC
-override flag. Without that, we observe wrong command opcodes.
-The DT description also advertises the dma coherency.
-Fixes a703b4f6c1ee ("hw/arm/virt-acpi-build: Add smmuv3 node in IORT table")
-Signed-off-by: Eric Auger <eric.auger@redhat.com>
-Reported-by: Shameerali Kolothum Thodi <shameerali.kolothum.thodi@huawei.com>
-Tested-by: Shameer Kolothum <shameerali.kolothum.thodi@huawei.com>
-Reviewed-by: Andrew Jones <drjones@redhat.com>
-Message-id: 20190107101041.765-1-eric.auger@redhat.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- include/hw/acpi/acpi-defs.h | 2 ++
- hw/arm/virt-acpi-build.c    | 1 +
-files changed, 3 insertions(+)
-diff --git a/include/hw/acpi/acpi-defs.h b/include/hw/acpi/acpi-defs.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/acpi-defs.h
-+++ b/include/hw/acpi/acpi-defs.h
-@@ -XXX,XX +XXX,XX @@ struct AcpiIortItsGroup {
- } QEMU_PACKED;
- typedef struct AcpiIortItsGroup AcpiIortItsGroup;
-+#define ACPI_IORT_SMMU_V3_COHACC_OVERRIDE 1
-+
- struct AcpiIortSmmu3 {
-     ACPI_IORT_NODE_HEADER_DEF
-     uint64_t base_address;
-diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt-acpi-build.c
-+++ b/hw/arm/virt-acpi-build.c
-@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
-         smmu->mapping_count = cpu_to_le32(1);
-         smmu->mapping_offset = cpu_to_le32(sizeof(*smmu));
-         smmu->base_address = cpu_to_le64(vms->memmap[VIRT_SMMU].base);
-+        smmu->flags = cpu_to_le32(ACPI_IORT_SMMU_V3_COHACC_OVERRIDE);
-         smmu->event_gsiv = cpu_to_le32(irq);
-         smmu->pri_gsiv = cpu_to_le32(irq + 1);
-         smmu->gerr_gsiv = cpu_to_le32(irq + 2);
---
-.20.1

-[Qemu-devel] [PULL 39/49] target/arm: Filter cycle counter based on PMCCFILTR_EL0
+[PULL 01/42] xlnx_dpdma: fix descriptor endianness bug
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Alexandra Diupina <adiupina@astralinux.ru>
-Rename arm_ccnt_enabled to pmu_counter_enabled, and add logic to only
+Add xlnx_dpdma_read_descriptor() and
-return 'true' if the specified counter is enabled and neither prohibited
+xlnx_dpdma_write_descriptor() functions.
-or filtered.
+xlnx_dpdma_read_descriptor() combines reading a
 descriptor from desc_addr by calling dma_memory_read()
 and swapping the desc fields from guest memory order
 to host memory order. xlnx_dpdma_write_descriptor()
 performs similar actions when writing a descriptor.
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
-Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
 Fixes: d3c6369a96 ("introduce xlnx-dpdma")
 Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
 [PMM: tweaked indent, dropped behaviour change for write-failure case]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181211151945.29137-5-aaron@os.amperecomputing.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    | 10 ++++-
+ hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
- target/arm/cpu.c    |  3 ++
+file changed, 64 insertions(+), 4 deletions(-)
  target/arm/helper.c | 96 +++++++++++++++++++++++++++++++++++++++++----
 files changed, 101 insertions(+), 8 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/hw/dma/xlnx_dpdma.c
-+++ b/target/arm/cpu.h
++++ b/hw/dma/xlnx_dpdma.c
-@@ -XXX,XX +XXX,XX @@ void pmccntr_op_finish(CPUARMState *env);
+@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
- void pmu_op_start(CPUARMState *env);
+     type_register_static(&xlnx_dpdma_info);
  void pmu_op_finish(CPUARMState *env);
 +/**
 + * Functions to register as EL change hooks for PMU mode filtering
 + */
 +void pmu_pre_el_change(ARMCPU *cpu, void *ignored);
 +void pmu_post_el_change(ARMCPU *cpu, void *ignored);
 +
  /* SCTLR bit meanings. Several bits have been reused in newer
   * versions of the architecture; in that case we define constants
   * for both old and new bit meanings. Code which tests against those
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env);
  #define MDCR_EPMAD    (1U << 21)
  #define MDCR_EDAD     (1U << 20)
 -#define MDCR_SPME     (1U << 17)
 +#define MDCR_SPME     (1U << 17)  /* MDCR_EL3 */
 +#define MDCR_HPMD     (1U << 17)  /* MDCR_EL2 */
  #define MDCR_SDD      (1U << 16)
  #define MDCR_SPD      (3U << 14)
  #define MDCR_TDRA     (1U << 11)
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env);
  #define MDCR_HPME     (1U << 7)
  #define MDCR_TPM      (1U << 6)
  #define MDCR_TPMCR    (1U << 5)
 +#define MDCR_HPMN     (0x1fU)
  /* Not all of the MDCR_EL3 bits are present in the 32-bit SDCR */
  #define SDCR_VALID_MASK (MDCR_EPMAD | MDCR_EDAD | MDCR_SPME | MDCR_SPD)
 diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
      if (!cpu->has_pmu) {
          unset_feature(env, ARM_FEATURE_PMU);
          cpu->id_aa64dfr0 &= ~0xf00;
 +    } else if (!kvm_enabled()) {
 +        arm_register_pre_el_change_hook(cpu, &pmu_pre_el_change, 0);
 +        arm_register_el_change_hook(cpu, &pmu_post_el_change, 0);
      }
      if (!arm_feature(env, ARM_FEATURE_EL2)) {
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
  /* Definitions for the PMU registers */
  #define PMCRN_MASK  0xf800
  #define PMCRN_SHIFT 11
 +#define PMCRDP  0x10
  #define PMCRD   0x8
  #define PMCRC   0x4
  #define PMCRE   0x1
 +#define PMXEVTYPER_P          0x80000000
 +#define PMXEVTYPER_U          0x40000000
 +#define PMXEVTYPER_NSK        0x20000000
 +#define PMXEVTYPER_NSU        0x10000000
 +#define PMXEVTYPER_NSH        0x08000000
 +#define PMXEVTYPER_M          0x04000000
 +#define PMXEVTYPER_MT         0x02000000
 +#define PMXEVTYPER_EVTCOUNT   0x0000ffff
 +#define PMXEVTYPER_MASK       (PMXEVTYPER_P | PMXEVTYPER_U | PMXEVTYPER_NSK | \
 +                               PMXEVTYPER_NSU | PMXEVTYPER_NSH | \
 +                               PMXEVTYPER_M | PMXEVTYPER_MT | \
 +                               PMXEVTYPER_EVTCOUNT)
 +
  static inline uint32_t pmu_num_counters(CPUARMState *env)
  {
    return (env->cp15.c9_pmcr & PMCRN_MASK) >> PMCRN_SHIFT;
@@ -XXX,XX +XXX,XX @@ static CPAccessResult pmreg_access_ccntr(CPUARMState *env,
      return pmreg_access(env, ri, isread);
  }
--static inline bool arm_ccnt_enabled(CPUARMState *env)
++static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
-+/* Returns true if the counter (pass 31 for PMCCNTR) should count events using
++                                              uint64_t desc_addr,
-+ * the current EL, security state, and register configuration.
++                                              DPDMADescriptor *desc)
-+ */
++{
-+static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
++    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
- {
++                                      &desc, sizeof(DPDMADescriptor),
--    /* This does not support checking PMCCFILTR_EL0 register */
++                                      MEMTXATTRS_UNSPECIFIED);
-+    uint64_t filter;
++    if (res) {
-+    bool e, p, u, nsk, nsu, nsh, m;
++        return res;
 +    bool enabled, prohibited, filtered;
 +    bool secure = arm_is_secure(env);
 +    int el = arm_current_el(env);
 +    uint8_t hpmn = env->cp15.mdcr_el2 & MDCR_HPMN;
 -    if (!(env->cp15.c9_pmcr & PMCRE) || !(env->cp15.c9_pmcnten & (1 << 31))) {
 -        return false;
 +    if (!arm_feature(env, ARM_FEATURE_EL2) ||
 +            (counter < hpmn || counter == 31)) {
 +        e = env->cp15.c9_pmcr & PMCRE;
 +    } else {
 +        e = env->cp15.mdcr_el2 & MDCR_HPME;
 +    }
 +    enabled = e && (env->cp15.c9_pmcnten & (1 << counter));
 +
 +    if (!secure) {
 +        if (el == 2 && (counter < hpmn || counter == 31)) {
 +            prohibited = env->cp15.mdcr_el2 & MDCR_HPMD;
 +        } else {
 +            prohibited = false;
 +        }
 +    } else {
 +        prohibited = arm_feature(env, ARM_FEATURE_EL3) &&
 +           (env->cp15.mdcr_el3 & MDCR_SPME);
      }
 -    return true;
 +    if (prohibited && counter == 31) {
 +        prohibited = env->cp15.c9_pmcr & PMCRDP;
 +    }
 +
-+    /* TODO Remove assert, set filter to correct PMEVTYPER */
++    /* Convert from LE into host endianness.  */
-+    assert(counter == 31);
++    desc->control = le32_to_cpu(desc->control);
-+    filter = env->cp15.pmccfiltr_el0;
++    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
 +    desc->xfer_size = le32_to_cpu(desc->xfer_size);
 +    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
 +    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
 +    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
 +    desc->address_extension = le32_to_cpu(desc->address_extension);
 +    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
 +    desc->source_address = le32_to_cpu(desc->source_address);
 +    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
 +    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
 +    desc->source_address2 = le32_to_cpu(desc->source_address2);
 +    desc->source_address3 = le32_to_cpu(desc->source_address3);
 +    desc->source_address4 = le32_to_cpu(desc->source_address4);
 +    desc->source_address5 = le32_to_cpu(desc->source_address5);
 +    desc->crc = le32_to_cpu(desc->crc);
 +
-+    p   = filter & PMXEVTYPER_P;
++    return res;
 +    u   = filter & PMXEVTYPER_U;
 +    nsk = arm_feature(env, ARM_FEATURE_EL3) && (filter & PMXEVTYPER_NSK);
 +    nsu = arm_feature(env, ARM_FEATURE_EL3) && (filter & PMXEVTYPER_NSU);
 +    nsh = arm_feature(env, ARM_FEATURE_EL2) && (filter & PMXEVTYPER_NSH);
 +    m   = arm_el_is_aa64(env, 1) &&
 +              arm_feature(env, ARM_FEATURE_EL3) && (filter & PMXEVTYPER_M);
 +
 +    if (el == 0) {
 +        filtered = secure ? u : u != nsu;
 +    } else if (el == 1) {
 +        filtered = secure ? p : p != nsk;
 +    } else if (el == 2) {
 +        filtered = !nsh;
 +    } else { /* EL3 */
 +        filtered = m != p;
 +    }
 +
 +    return enabled && !prohibited && !filtered;
  }
 +
  /*
   * Ensure c15_ccnt is the guest-visible count so that operations such as
   * enabling/disabling the counter or filtering, modifying the count itself,
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_start(CPUARMState *env)
      cycles = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
                            ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
 -    if (arm_ccnt_enabled(env)) {
 +    if (pmu_counter_enabled(env, 31)) {
          uint64_t eff_cycles = cycles;
          if (env->cp15.c9_pmcr & PMCRD) {
              /* Increment once every 64 processor clock cycles */
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_start(CPUARMState *env)
   */
  void pmccntr_op_finish(CPUARMState *env)
  {
 -    if (arm_ccnt_enabled(env)) {
 +    if (pmu_counter_enabled(env, 31)) {
          uint64_t prev_cycles = env->cp15.c15_ccnt_delta;
          if (env->cp15.c9_pmcr & PMCRD) {
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env)
      pmccntr_op_finish(env);
  }
 +void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
 +{
 +    pmu_op_start(&cpu->env);
 +}
 +
-+void pmu_post_el_change(ARMCPU *cpu, void *ignored)
++static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
 +                                               DPDMADescriptor *desc)
 +{
-+    pmu_op_finish(&cpu->env);
++    DPDMADescriptor tmp_desc = *desc;
 +
 +    /* Convert from host endianness into LE.  */
 +    tmp_desc.control = cpu_to_le32(tmp_desc.control);
 +    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
 +    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
 +    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
 +    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
 +    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
 +    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
 +    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
 +    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
 +    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
 +    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
 +    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
 +    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
 +    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
 +    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
 +    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
 +
 +    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
 +                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
 +}
 +
- static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
-                        uint64_t value)
+                                     bool one_desc)
  {
-@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
- {
+             desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
- }
+         }
-+void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
+-        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
-+{
+-                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
-+}
++        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
-+
+             s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
-+void pmu_post_el_change(ARMCPU *cpu, void *ignored)
+             xlnx_dpdma_update_irq(s);
-+{
+             s->operation_finished[channel] = true;
-+}
+@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
-+
+             /* The descriptor need to be updated when it's completed. */
- #endif
+             DPRINTF("update the descriptor with the done flag set.\n");
+             xlnx_dpdma_desc_set_done(&desc);
- static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-            dma_memory_write(&address_space_memory, desc_addr, &desc,
 -                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
 +            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
 +                DPRINTF("Can't write the descriptor.\n");
 +                /* TODO: check hardware behaviour for memory write failure */
 +            }
          }
          if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 41/49] target/arm: Implement PMOVSSET
+[PULL 02/42] hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Zenghui Yu <zenghui.yu@linux.dev>
-Add an array for PMOVSSET so we only define it for v7ve+ platforms
+We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
 we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
 wrong key.
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
+Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+guest can properly detect FEAT_SSBS2 on my M1 HW.
-Message-id: 20181211151945.29137-7-aaron@os.amperecomputing.com
 All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
 It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
 HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
 it.
 Cc: qemu-stable@nongnu.org
 Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
 Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
 Reviewed-by: Alexander Graf <agraf@csgraf.de>
 Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 28 ++++++++++++++++++++++++++++
+ target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
-file changed, 28 insertions(+)
+file changed, 65 insertions(+), 65 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/hvf/hvf.c
-+++ b/target/arm/helper.c
++++ b/target/arm/hvf/hvf.c
-@@ -XXX,XX +XXX,XX @@ static void pmovsr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
      env->cp15.c9_pmovsr &= ~value;
  }
 +static void pmovsset_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                         uint64_t value)
 +{
 +    value &= pmu_counter_mask(env);
 +    env->cp15.c9_pmovsr |= value;
 +}
 +
  static void pmxevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
                               uint64_t value)
  {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7mp_cp_reginfo[] = {
      REGINFO_SENTINEL
  };
-+static const ARMCPRegInfo pmovsset_cp_reginfo[] = {
+ static struct hvf_sreg_match hvf_sreg_match[] = {
-+    /* PMOVSSET is not implemented in v7 before v7ve */
+-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
-+    { .name = "PMOVSSET", .cp = 15, .opc1 = 0, .crn = 9, .crm = 14, .opc2 = 3,
+-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
-+      .access = PL0_RW, .accessfn = pmreg_access,
+-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
-+      .type = ARM_CP_ALIAS,
+-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
-+      .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmovsr),
++    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
-+      .writefn = pmovsset_write,
++    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
-+      .raw_writefn = raw_write },
++    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
-+    { .name = "PMOVSSET_EL0", .state = ARM_CP_STATE_AA64,
++    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
-+      .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 14, .opc2 = 3,
-+      .access = PL0_RW, .accessfn = pmreg_access,
+-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
-+      .type = ARM_CP_ALIAS,
+-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
-+      .fieldoffset = offsetof(CPUARMState, cp15.c9_pmovsr),
+-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
-+      .writefn = pmovsset_write,
+-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
-+      .raw_writefn = raw_write },
++    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
-+    REGINFO_SENTINEL
++    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
-+};
++    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
-+
++    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
- static void teecr_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                         uint64_t value)
+-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
- {
+-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
-@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
+-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
-         !arm_feature(env, ARM_FEATURE_PMSA)) {
+-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
-         define_arm_cp_regs(cpu, v7mp_cp_reginfo);
++    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
-     }
++    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
-+    if (arm_feature(env, ARM_FEATURE_V7VE)) {
++    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
-+        define_arm_cp_regs(cpu, pmovsset_cp_reginfo);
++    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
-+    }
-     if (arm_feature(env, ARM_FEATURE_V7)) {
+-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
-         /* v7 performance monitor control register: same implementor
+-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
-          * field as main ID register, and we implement only the cycle
+-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
 -    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
 -    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
 -    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
 -    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
 +    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
 +    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
 +    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
 +    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
  #ifdef SYNC_NO_RAW_REGS
      /*
@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
      { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
      { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
  #endif
 -    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
 +    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
      { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
      { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
      { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 49/49] tests/libqtest: Introduce qtest_init_with_serial()
+[PULL 03/42] hw/arm/npcm7xx: remove setting of mp-affinity
-From: Julia Suvorova <jusual@mail.ru>
+From: Dorjoy Chowdhury <dorjoychy111@gmail.com>
-Run qtest with a socket that connects QEMU chardev and test code.
+The value of the mp-affinity property being set in npcm7xx_realize is
 always the same as the default value it would have when arm_cpu_realizefn
 is called if the property is not set here. So there is no need to set
 the property value in npcm7xx_realize function.
-Signed-off-by: Julia Suvorova <jusual@mail.ru>
+Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
-Reviewed-by: Stefan Hajnoczi <stefanha@redhat.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190117161640.5496-2-jusual@mail.ru
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- tests/libqtest.h | 11 +++++++++++
+ hw/arm/npcm7xx.c | 3 ---
- tests/libqtest.c | 26 ++++++++++++++++++++++++++
+file changed, 3 deletions(-)
 files changed, 37 insertions(+)
-diff --git a/tests/libqtest.h b/tests/libqtest.h
+diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
 index XXXXXXX..XXXXXXX 100644
---- a/tests/libqtest.h
+--- a/hw/arm/npcm7xx.c
-+++ b/tests/libqtest.h
++++ b/hw/arm/npcm7xx.c
-@@ -XXX,XX +XXX,XX @@ QTestState *qtest_init(const char *extra_args);
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
-  */
- QTestState *qtest_init_without_qmp_handshake(const char *extra_args);
+     /* CPUs */
+     for (i = 0; i < nc->num_cpus; i++) {
-+/**
+-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
-+ * qtest_init_with_serial:
+-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
-+ * @extra_args: other arguments to pass to QEMU.  CAUTION: these
+-                                &error_abort);
-+ * arguments are subject to word splitting and shell evaluation.
+         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
-+ * @sock_fd: pointer to store the socket file descriptor for
+                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
-+ * connection with serial.
+         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
 + *
 + * Returns: #QTestState instance.
 + */
 +QTestState *qtest_init_with_serial(const char *extra_args, int *sock_fd);
 +
  /**
   * qtest_quit:
   * @s: #QTestState instance to operate on.
 diff --git a/tests/libqtest.c b/tests/libqtest.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/libqtest.c
 +++ b/tests/libqtest.c
@@ -XXX,XX +XXX,XX @@ QTestState *qtest_initf(const char *fmt, ...)
      return s;
  }
 +QTestState *qtest_init_with_serial(const char *extra_args, int *sock_fd)
 +{
 +    int sock_fd_init;
 +    char *sock_path, sock_dir[] = "/tmp/qtest-serial-XXXXXX";
 +    QTestState *qts;
 +
 +    g_assert(mkdtemp(sock_dir));
 +    sock_path = g_strdup_printf("%s/sock", sock_dir);
 +
 +    sock_fd_init = init_socket(sock_path);
 +
 +    qts = qtest_initf("-chardev socket,id=s0,path=%s,nowait "
 +                      "-serial chardev:s0 %s",
 +                      sock_path, extra_args);
 +
 +    *sock_fd = socket_accept(sock_fd_init);
 +
 +    unlink(sock_path);
 +    g_free(sock_path);
 +    rmdir(sock_dir);
 +
 +    g_assert(*sock_fd >= 0);
 +
 +    return qts;
 +}
 +
  void qtest_quit(QTestState *s)
  {
      g_hook_destroy_link(&abrt_hooks, g_hook_find_data(&abrt_hooks, TRUE, s));
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 03/49] target/arm: Allow Aarch32 exception return to switch from Mon->Hyp
+[PULL 04/42] hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
-From: Alexander Graf <agraf@suse.de>
+From: Inès Varhol <ines.varhol@telecom-paris.fr>
-In U-boot, we switch from S-SVC -> Mon -> Hyp mode when we want to
+Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
-enter Hyp mode. The change into Hyp mode is done by doing an
+Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
-exception return from Mon. This doesn't work with current QEMU.
+Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
 The problem is that in bad_mode_switch() we refuse to allow
 the change of mode.
 Note that bad_mode_switch() is used to do validation for two situations:
  (1) changes to mode by instructions writing to CPSR.M
      (ie not exception take/return) -- this corresponds to the
      Armv8 Arm ARM pseudocode Arch32.WriteModeByInstr
  (2) changes to mode by exception return
 Attempting to enter or leave Hyp mode via case (1) is forbidden in
 v8 and UNPREDICTABLE in v7, and QEMU is correct to disallow it
 there. However, we're already doing that check at the top of the
 bad_mode_switch() function, so if that passes then we should allow
 the case (2) exception return mode changes to switch into Hyp mode.
 We want to test whether we're trying to return to the nonexistent
 "secure Hyp" mode, so we need to look at arm_is_secure_below_el3()
 rather than arm_is_secure(), since the latter is always true if
 we're in Mon (EL3).
 Signed-off-by: Alexander Graf <agraf@suse.de>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20190109152430.32359-1-agraf@suse.de
-[PMM: rewrote commit message]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 2 +-
+ hw/char/stm32l4x5_usart.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/hw/char/stm32l4x5_usart.c
-+++ b/target/arm/helper.c
++++ b/hw/char/stm32l4x5_usart.c
-@@ -XXX,XX +XXX,XX @@ static int bad_mode_switch(CPUARMState *env, int mode, CPSRWriteType write_type)
+@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
-         return 0;
+     FIELD(CR1, UE, 0, 1)     /* USART enable */
-     case ARM_CPU_MODE_HYP:
+ REG32(CR2, 0x04)
-         return !arm_feature(env, ARM_FEATURE_EL2)
+     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
--            || arm_current_el(env) < 2 || arm_is_secure(env);
+-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
-+            || arm_current_el(env) < 2 || arm_is_secure_below_el3(env);
++    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
-     case ARM_CPU_MODE_MON:
+     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
-         return arm_current_el(env) < 3;
+     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
-     default:
+     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 47/49] target/arm: PMU: Set PMCR.N to 4
+[PULL 05/42] hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Andrey Shumilin <shum.sdl@nppct.ru>
-This both advertises that we support four counters and enables them
+In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
-because the pmu_num_counters() reads this value from PMCR.
+reading and writing the Non-Secure view of the GICC_APR<n> registers
 to functions gic_apr_ns_view() and gic_apr_write_ns_view().
 Unfortunately we got the order of the arguments wrong, swapping the
 CPU number and the register number (which the compiler doesn't catch
 because they're both integers).
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
+Most guests probably didn't notice this bug because directly
-Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
+accessing the APR registers is typically something only done by
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+firmware when it is doing state save for going into a sleep mode.
-Message-id: 20181211151945.29137-13-aaron@os.amperecomputing.com
 Correct the mismatched call arguments.
 Found by Linux Verification Center (linuxtesting.org) with SVACE.
 Cc: qemu-stable@nongnu.org
 Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
 Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
 [PMM: Rewrote commit message]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
 ---
- target/arm/helper.c | 10 +++++-----
+ hw/intc/arm_gic.c | 4 ++--
-file changed, 5 insertions(+), 5 deletions(-)
+file changed, 2 insertions(+), 2 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/hw/intc/arm_gic.c
-+++ b/target/arm/helper.c
++++ b/hw/intc/arm_gic.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
-       .access = PL1_W, .type = ARM_CP_NOP },
+             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
-     /* Performance monitors are implementation defined in v7,
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
-      * but with an ARM recommended set of registers, which we
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
--     * follow (although we don't actually implement any counters)
+-            *data = gic_apr_ns_view(s, regno, cpu);
-+     * follow.
++            *data = gic_apr_ns_view(s, cpu, regno);
-      *
+         } else {
-      * Performance registers fall into three categories:
+             *data = s->apr[regno][cpu];
-      *  (a) always UNDEF in PL0, RW in PL1 (PMINTENSET, PMINTENCLR)
+         }
-@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
-     }
+             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
-     if (arm_feature(env, ARM_FEATURE_V7)) {
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
-         /* v7 performance monitor control register: same implementor
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
--         * field as main ID register, and we implement only the cycle
+-            gic_apr_write_ns_view(s, regno, cpu, value);
--         * count register.
++            gic_apr_write_ns_view(s, cpu, regno, value);
-+         * field as main ID register, and we implement four counters in
+         } else {
-+         * addition to the cycle count register.
+             s->apr[regno][cpu] = value;
-          */
+         }
 -        unsigned int i, pmcrn = 0;
 +        unsigned int i, pmcrn = 4;
          ARMCPRegInfo pmcr = {
              .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
              .access = PL0_RW,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
              .access = PL0_RW, .accessfn = pmreg_access,
              .type = ARM_CP_IO,
              .fieldoffset = offsetof(CPUARMState, cp15.c9_pmcr),
 -            .resetvalue = cpu->midr & 0xff000000,
 +            .resetvalue = (cpu->midr & 0xff000000) | (pmcrn << PMCRN_SHIFT),
              .writefn = pmcr_write, .raw_writefn = raw_write,
          };
          define_one_arm_cp_reg(cpu, &pmcr);
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 44/49] target/arm: Add array for supported PMU events, generate PMCEID[01]_EL0
+[PULL 06/42] hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Philippe Mathieu-Daudé <philmd@linaro.org>
-This commit doesn't add any supported events, but provides the framework
+Check the function index is in range and use an unsigned
-for adding them. We store the pm_event structs in a simple array, and
+variable to avoid the following warning with GCC 13.2.0:
 provide the mapping from the event numbers to array indexes in the
 supported_event_map array. Because the value of PMCEID[01] depends upon
 which events are supported at runtime, generate it dynamically.
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
+  [666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
   hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
   hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
 |     s->dav |= mode_regs[s->function];
         |                         ~^~~~~~~~~~
 Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20240508143513.44996-1-philmd@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20181211151945.29137-10-aaron@os.amperecomputing.com
+[PMM: fixed missing ')']
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    | 10 ++++++++
+ hw/input/tsc2005.c | 5 ++++-
- target/arm/cpu.c    | 19 +++++++++------
+file changed, 4 insertions(+), 1 deletion(-)
  target/arm/cpu64.c  |  4 ----
  target/arm/helper.c | 57 +++++++++++++++++++++++++++++++++++++++++++++
 files changed, 79 insertions(+), 11 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/hw/input/tsc2005.c
-+++ b/target/arm/cpu.h
++++ b/hw/input/tsc2005.c
-@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env);
+@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
- void pmu_pre_el_change(ARMCPU *cpu, void *ignored);
+ static void tsc2005_timer_tick(void *opaque)
- void pmu_post_el_change(ARMCPU *cpu, void *ignored);
+ {
+     TSC2005State *s = opaque;
-+/*
++    unsigned int function = s->function;
 + * get_pmceid
 + * @env: CPUARMState
 + * @which: which PMCEID register to return (0 or 1)
 + *
 + * Return the PMCEID[01]_EL0 register values corresponding to the counters
 + * which are supported given the current configuration
 + */
 +uint64_t get_pmceid(CPUARMState *env, unsigned which);
 +
- /* SCTLR bit meanings. Several bits have been reused in newer
++    assert(function < ARRAY_SIZE(mode_regs));
-  * versions of the architecture; in that case we define constants
-  * for both old and new bit meanings. Code which tests against those
+     /* Timer ticked -- a set of conversions has been finished.  */
-diff --git a/target/arm/cpu.c b/target/arm/cpu.c
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
---- a/target/arm/cpu.c
+         return;
-+++ b/target/arm/cpu.c
-@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
+     s->busy = false;
+-    s->dav |= mode_regs[s->function];
-     if (!cpu->has_pmu) {
++    s->dav |= mode_regs[function];
-         unset_feature(env, ARM_FEATURE_PMU);
+     s->function = -1;
-+    }
+     tsc2005_pin_update(s);
 +    if (arm_feature(env, ARM_FEATURE_PMU)) {
 +        cpu->pmceid0 = get_pmceid(&cpu->env, 0);
 +        cpu->pmceid1 = get_pmceid(&cpu->env, 1);
 +
 +        if (!kvm_enabled()) {
 +            arm_register_pre_el_change_hook(cpu, &pmu_pre_el_change, 0);
 +            arm_register_el_change_hook(cpu, &pmu_post_el_change, 0);
 +        }
 +    } else {
          cpu->id_aa64dfr0 &= ~0xf00;
 -    } else if (!kvm_enabled()) {
 -        arm_register_pre_el_change_hook(cpu, &pmu_pre_el_change, 0);
 -        arm_register_el_change_hook(cpu, &pmu_post_el_change, 0);
 +        cpu->pmceid0 = 0;
 +        cpu->pmceid1 = 0;
      }
      if (!arm_feature(env, ARM_FEATURE_EL2)) {
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
      cpu->id_pfr0 = 0x00001131;
      cpu->id_pfr1 = 0x00011011;
      cpu->id_dfr0 = 0x02010555;
 -    cpu->pmceid0 = 0x00000000;
 -    cpu->pmceid1 = 0x00000000;
      cpu->id_afr0 = 0x00000000;
      cpu->id_mmfr0 = 0x10101105;
      cpu->id_mmfr1 = 0x40000000;
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
      cpu->id_pfr0 = 0x00001131;
      cpu->id_pfr1 = 0x00011011;
      cpu->id_dfr0 = 0x02010555;
 -    cpu->pmceid0 = 0x0000000;
 -    cpu->pmceid1 = 0x00000000;
      cpu->id_afr0 = 0x00000000;
      cpu->id_mmfr0 = 0x10201105;
      cpu->id_mmfr1 = 0x20000000;
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
      cpu->isar.id_isar6 = 0;
      cpu->isar.id_aa64pfr0 = 0x00002222;
      cpu->id_aa64dfr0 = 0x10305106;
 -    cpu->pmceid0 = 0x00000000;
 -    cpu->pmceid1 = 0x00000000;
      cpu->isar.id_aa64isar0 = 0x00011120;
      cpu->isar.id_aa64mmfr0 = 0x00001124;
      cpu->dbgdidr = 0x3516d000;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
      cpu->isar.id_isar5 = 0x00011121;
      cpu->isar.id_aa64pfr0 = 0x00002222;
      cpu->id_aa64dfr0 = 0x10305106;
 -    cpu->pmceid0 = 0x00000000;
 -    cpu->pmceid1 = 0x00000000;
      cpu->isar.id_aa64isar0 = 0x00011120;
      cpu->isar.id_aa64mmfr0 = 0x00001124;
      cpu->dbgdidr = 0x3516d000;
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t pmu_counter_mask(CPUARMState *env)
    return (1 << 31) | ((1 << pmu_num_counters(env)) - 1);
  }
-+typedef struct pm_event {
-+    uint16_t number; /* PMEVTYPER.evtCount is 16 bits wide */
-+    /* If the event is supported on this CPU (used to generate PMCEID[01]) */
-+    bool (*supported)(CPUARMState *);
-+    /*
-+     * Retrieve the current count of the underlying event. The programmed
-+     * counters hold a difference from the return value from this function
-+     */
-+    uint64_t (*get_count)(CPUARMState *);
-+} pm_event;
-+
-+static const pm_event pm_events[] = {
-+};
-+
-+/*
-+ * Note: Before increasing MAX_EVENT_ID beyond 0x3f into the 0x40xx range of
-+ * events (i.e. the statistical profiling extension), this implementation
-+ * should first be updated to something sparse instead of the current
-+ * supported_event_map[] array.
-+ */
-+#define MAX_EVENT_ID 0x0
-+#define UNSUPPORTED_EVENT UINT16_MAX
-+static uint16_t supported_event_map[MAX_EVENT_ID + 1];
-+
-+/*
-+ * Called upon initialization to build PMCEID0_EL0 or PMCEID1_EL0 (indicated by
-+ * 'which'). We also use it to build a map of ARM event numbers to indices in
-+ * our pm_events array.
-+ *
-+ * Note: Events in the 0x40XX range are not currently supported.
-+ */
-+uint64_t get_pmceid(CPUARMState *env, unsigned which)
-+{
-+    uint64_t pmceid = 0;
-+    unsigned int i;
-+
-+    assert(which <= 1);
-+
-+    for (i = 0; i < ARRAY_SIZE(supported_event_map); i++) {
-+        supported_event_map[i] = UNSUPPORTED_EVENT;
-+    }
-+
-+    for (i = 0; i < ARRAY_SIZE(pm_events); i++) {
-+        const pm_event *cnt = &pm_events[i];
-+        assert(cnt->number <= MAX_EVENT_ID);
-+        /* We do not currently support events in the 0x40xx range */
-+        assert(cnt->number <= 0x3f);
-+
-+        if ((cnt->number & 0x20) == (which << 6) &&
-+                cnt->supported(env)) {
-+            pmceid |= (1 << (cnt->number & 0x1f));
-+            supported_event_map[cnt->number] = i;
-+        }
-+    }
-+    return pmceid;
-+}
-+
- static CPAccessResult pmreg_access(CPUARMState *env, const ARMCPRegInfo *ri,
-                                    bool isread)
- {
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 38/49] target/arm: Swap PMU values before/after migrations
+[PULL 07/42] hw: arm: Remove use of tabs in some source files
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Tanmay Patil <tanmaynpatil105@gmail.com>
-Because of the PMU's design, many register accesses have side effects
+Some of the source files for older devices use hardcoded tabs
-which are inter-related, meaning that the normal method of saving CP
+instead of our current coding standard's required spaces.
-registers can result in inconsistent state. These side-effects are
+Fix these in the following files:
-largely handled in pmu_op_start/finish functions which can be called
+    - hw/arm/boot.c
-before and after the state is saved/restored. By doing this and adding
+    - hw/char/omap_uart.c
-raw read/write functions for the affected registers, we avoid
+    - hw/gpio/zaurus.c
-migration-related inconsistencies.
+    - hw/input/tsc2005.c
-Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
+This commit is mostly whitespace-only changes; it also
-Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
+adds curly-braces to some 'if' statements.
 This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
 but some other files remain to be handled.
 Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
 Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20181211151945.29137-4-aaron@os.amperecomputing.com
+[PMM: tweaked commit message]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c  |  6 ++++--
+ hw/arm/boot.c       |   8 +--
- target/arm/machine.c | 24 ++++++++++++++++++++++++
+ hw/char/omap_uart.c |  49 +++++++++--------
-files changed, 28 insertions(+), 2 deletions(-)
+ hw/gpio/zaurus.c    |  59 ++++++++++----------
  hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
 files changed, 130 insertions(+), 116 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/hw/arm/boot.c
-+++ b/target/arm/helper.c
++++ b/hw/arm/boot.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
+@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
-       .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 13, .opc2 = 0,
+     WRITE_WORD(p, info->ram_size / 4096);
-       .access = PL0_RW, .accessfn = pmreg_access_ccntr,
+     /* ramdisk_size */
-       .type = ARM_CP_IO,
+     WRITE_WORD(p, 0);
--      .readfn = pmccntr_read, .writefn = pmccntr_write, },
+-#define FLAG_READONLY    1
-+      .fieldoffset = offsetof(CPUARMState, cp15.c15_ccnt),
+-#define FLAG_RDLOAD    4
-+      .readfn = pmccntr_read, .writefn = pmccntr_write,
+-#define FLAG_RDPROMPT    8
-+      .raw_readfn = raw_read, .raw_writefn = raw_write, },
++#define FLAG_READONLY 1
- #endif
++#define FLAG_RDLOAD   4
-     { .name = "PMCCFILTR_EL0", .state = ARM_CP_STATE_AA64,
++#define FLAG_RDPROMPT 8
-       .opc0 = 3, .opc1 = 3, .crn = 14, .crm = 15, .opc2 = 7,
+     /* flags */
--      .writefn = pmccfiltr_write,
+     WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
-+      .writefn = pmccfiltr_write, .raw_writefn = raw_write,
+     /* rootdev */
-       .access = PL0_RW, .accessfn = pmreg_access,
+-    WRITE_WORD(p, (31 << 8) | 0);    /* /dev/mtdblock0 */
-       .type = ARM_CP_IO,
++    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
-       .fieldoffset = offsetof(CPUARMState, cp15.pmccfiltr_el0),
+     /* video_num_cols */
-diff --git a/target/arm/machine.c b/target/arm/machine.c
+     WRITE_WORD(p, 0);
      /* video_num_rows */
 diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/machine.c
+--- a/hw/char/omap_uart.c
-+++ b/target/arm/machine.c
++++ b/hw/char/omap_uart.c
-@@ -XXX,XX +XXX,XX @@ static int cpu_pre_save(void *opaque)
+@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
      s->fclk = fclk;
      s->irq = irq;
      s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
 -                               omap_clk_getrate(fclk)/16,
 +                               omap_clk_getrate(fclk) / 16,
                                 chr ?: qemu_chr_new(label, "null", NULL),
                                 DEVICE_NATIVE_ENDIAN);
      return s;
@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
      }
      switch (addr) {
 -    case 0x20:    /* MDR1 */
 +    case 0x20:  /* MDR1 */
          return s->mdr[0];
 -    case 0x24:    /* MDR2 */
 +    case 0x24:  /* MDR2 */
          return s->mdr[1];
 -    case 0x40:    /* SCR */
 +    case 0x40:  /* SCR */
          return s->scr;
 -    case 0x44:    /* SSR */
 +    case 0x44:  /* SSR */
          return 0x0;
 -    case 0x48:    /* EBLR (OMAP2) */
 +    case 0x48:  /* EBLR (OMAP2) */
          return s->eblr;
 -    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
 +    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
          return s->clksel;
 -    case 0x50:    /* MVR */
 +    case 0x50:  /* MVR */
          return 0x30;
 -    case 0x54:    /* SYSC (OMAP2) */
 +    case 0x54:  /* SYSC (OMAP2) */
          return s->syscontrol;
 -    case 0x58:    /* SYSS (OMAP2) */
 +    case 0x58:  /* SYSS (OMAP2) */
          return 1;
 -    case 0x5c:    /* WER (OMAP2) */
 +    case 0x5c:  /* WER (OMAP2) */
          return s->wkup;
 -    case 0x60:    /* CFPS (OMAP2) */
 +    case 0x60:  /* CFPS (OMAP2) */
          return s->cfps;
      }
@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
      }
      switch (addr) {
 -    case 0x20:    /* MDR1 */
 +    case 0x20:  /* MDR1 */
          s->mdr[0] = value & 0x7f;
          break;
 -    case 0x24:    /* MDR2 */
 +    case 0x24:  /* MDR2 */
          s->mdr[1] = value & 0xff;
          break;
 -    case 0x40:    /* SCR */
 +    case 0x40:  /* SCR */
          s->scr = value & 0xff;
          break;
 -    case 0x48:    /* EBLR (OMAP2) */
 +    case 0x48:  /* EBLR (OMAP2) */
          s->eblr = value & 0xff;
          break;
 -    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
 +    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
          s->clksel = value & 1;
          break;
 -    case 0x44:    /* SSR */
 -    case 0x50:    /* MVR */
 -    case 0x58:    /* SYSS (OMAP2) */
 +    case 0x44:  /* SSR */
 +    case 0x50:  /* MVR */
 +    case 0x58:  /* SYSS (OMAP2) */
          OMAP_RO_REG(addr);
          break;
 -    case 0x54:    /* SYSC (OMAP2) */
 +    case 0x54:  /* SYSC (OMAP2) */
          s->syscontrol = value & 0x1d;
 -        if (value & 2)
 +        if (value & 2) {
              omap_uart_reset(s);
 +        }
          break;
 -    case 0x5c:    /* WER (OMAP2) */
 +    case 0x5c:  /* WER (OMAP2) */
          s->wkup = value & 0x7f;
          break;
 -    case 0x60:    /* CFPS (OMAP2) */
 +    case 0x60:  /* CFPS (OMAP2) */
          s->cfps = value & 0xff;
          break;
      default:
 diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/gpio/zaurus.c
 +++ b/hw/gpio/zaurus.c
@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
      uint16_t isr;
  };
 -#define SCOOP_MCR    0x00
 -#define SCOOP_CDR    0x04
 -#define SCOOP_CSR    0x08
 -#define SCOOP_CPR    0x0c
 -#define SCOOP_CCR    0x10
 -#define SCOOP_IRR_IRM    0x14
 -#define SCOOP_IMR    0x18
 -#define SCOOP_ISR    0x1c
 -#define SCOOP_GPCR    0x20
 -#define SCOOP_GPWR    0x24
 -#define SCOOP_GPRR    0x28
 +#define SCOOP_MCR       0x00
 +#define SCOOP_CDR       0x04
 +#define SCOOP_CSR       0x08
 +#define SCOOP_CPR       0x0c
 +#define SCOOP_CCR       0x10
 +#define SCOOP_IRR_IRM   0x14
 +#define SCOOP_IMR       0x18
 +#define SCOOP_ISR       0x1c
 +#define SCOOP_GPCR      0x20
 +#define SCOOP_GPWR      0x24
 +#define SCOOP_GPRR      0x28
 -static inline void scoop_gpio_handler_update(ScoopInfo *s) {
 +static inline void scoop_gpio_handler_update(ScoopInfo *s)
 +{
      uint32_t level, diff;
      int bit;
      level = s->gpio_level & s->gpio_dir;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
          break;
      case SCOOP_CPR:
          s->power = value;
 -        if (value & 0x80)
 +        if (value & 0x80) {
              s->power |= 0x8040;
 +        }
          break;
      case SCOOP_CCR:
          s->ccr = value;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
          scoop_gpio_handler_update(s);
          break;
      case SCOOP_GPWR:
 -    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
 +    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
          s->gpio_level = value & s->gpio_dir;
          scoop_gpio_handler_update(s);
          break;
@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
  {
-     ARMCPU *cpu = opaque;
+     ScoopInfo *s = (ScoopInfo *) opaque;
-+    if (!kvm_enabled()) {
+-    if (level)
-+        pmu_op_start(&cpu->env);
++    if (level) {
          s->gpio_level |= (1 << line);
 -    else
 +    } else {
          s->gpio_level &= ~(1 << line);
 +    }
-+
+ }
-     if (kvm_enabled()) {
-         if (!write_kvmstate_to_list(cpu)) {
+ static void scoop_init(Object *obj)
-             /* This should never fail */
+@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
@@ -XXX,XX +XXX,XX @@ static int cpu_pre_save(void *opaque)
      return 0;
  }
-+static int cpu_post_save(void *opaque)
+-static bool is_version_0 (void *opaque, int version_id)
-+{
++static bool is_version_0(void *opaque, int version_id)
-+    ARMCPU *cpu = opaque;
+ {
-+
+     return version_id == 0;
-+    if (!kvm_enabled()) {
+ }
-+        pmu_op_finish(&cpu->env);
+@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
  /* Write the bootloader parameters memory area.  */
 -#define MAGIC_CHG(a, b, c, d)    ((d << 24) | (c << 16) | (b << 8) | a)
 +#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
  static struct QEMU_PACKED sl_param_info {
      uint32_t comadj_keyword;
@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
      uint32_t phad_keyword;
      int32_t phadadj;
  } zaurus_bootparam = {
 -    .comadj_keyword    = MAGIC_CHG('C', 'M', 'A', 'D'),
 -    .comadj        = 125,
 -    .uuid_keyword    = MAGIC_CHG('U', 'U', 'I', 'D'),
 -    .uuid        = { -1 },
 -    .touch_keyword    = MAGIC_CHG('T', 'U', 'C', 'H'),
 -    .touch_xp        = -1,
 -    .adadj_keyword    = MAGIC_CHG('B', 'V', 'A', 'D'),
 -    .adadj        = -1,
 -    .phad_keyword    = MAGIC_CHG('P', 'H', 'A', 'D'),
 -    .phadadj        = 0x01,
 +    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
 +    .comadj             = 125,
 +    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
 +    .uuid               = { -1 },
 +    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
 +    .touch_xp           = -1,
 +    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
 +    .adadj              = -1,
 +    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
 +    .phadadj            = 0x01,
  };
  void sl_bootparam_write(hwaddr ptr)
 diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/input/tsc2005.c
 +++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@
  #include "migration/vmstate.h"
  #include "trace.h"
 -#define TSC_CUT_RESOLUTION(value, p)    ((value) >> (16 - (p ? 12 : 10)))
 +#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
  typedef struct {
 -    qemu_irq pint;    /* Combination of the nPENIRQ and DAV signals */
 +    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
      QEMUTimer *timer;
      uint16_t model;
@@ -XXX,XX +XXX,XX @@ typedef struct {
  } TSC2005State;
  enum {
 -    TSC_MODE_XYZ_SCAN    = 0x0,
 +    TSC_MODE_XYZ_SCAN = 0x0,
      TSC_MODE_XY_SCAN,
      TSC_MODE_X,
      TSC_MODE_Y,
@@ -XXX,XX +XXX,XX @@ enum {
  };
  static const uint16_t mode_regs[16] = {
 -    0xf000,    /* X, Y, Z scan */
 -    0xc000,    /* X, Y scan */
 -    0x8000,    /* X */
 -    0x4000,    /* Y */
 -    0x3000,    /* Z */
 -    0x0800,    /* AUX */
 -    0x0400,    /* TEMP1 */
 -    0x0200,    /* TEMP2 */
 -    0x0800,    /* AUX scan */
 -    0x0040,    /* X test */
 -    0x0020,    /* Y test */
 -    0x0080,    /* Short-circuit test */
 -    0x0000,    /* Reserved */
 -    0x0000,    /* X+, X- drivers */
 -    0x0000,    /* Y+, Y- drivers */
 -    0x0000,    /* Y+, X- drivers */
 +    0xf000, /* X, Y, Z scan */
 +    0xc000, /* X, Y scan */
 +    0x8000, /* X */
 +    0x4000, /* Y */
 +    0x3000, /* Z */
 +    0x0800, /* AUX */
 +    0x0400, /* TEMP1 */
 +    0x0200, /* TEMP2 */
 +    0x0800, /* AUX scan */
 +    0x0040, /* X test */
 +    0x0020, /* Y test */
 +    0x0080, /* Short-circuit test */
 +    0x0000, /* Reserved */
 +    0x0000, /* X+, X- drivers */
 +    0x0000, /* Y+, Y- drivers */
 +    0x0000, /* Y+, X- drivers */
  };
 -#define X_TRANSFORM(s)            \
 +#define X_TRANSFORM(s)      \
      ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
 -#define Y_TRANSFORM(s)            \
 +#define Y_TRANSFORM(s)      \
      ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
 -#define Z1_TRANSFORM(s)            \
 +#define Z1_TRANSFORM(s)     \
      ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
 -#define Z2_TRANSFORM(s)            \
 +#define Z2_TRANSFORM(s)     \
      ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
 -#define AUX_VAL                (700 << 4)    /* +/- 3 at 12-bit */
 -#define TEMP1_VAL            (1264 << 4)    /* +/- 5 at 12-bit */
 -#define TEMP2_VAL            (1531 << 4)    /* +/- 5 at 12-bit */
 +#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
 +#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
 +#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
  static uint16_t tsc2005_read(TSC2005State *s, int reg)
  {
      uint16_t ret;
      switch (reg) {
 -    case 0x0:    /* X */
 +    case 0x0: /* X */
          s->dav &= ~mode_regs[TSC_MODE_X];
          return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
                  (s->noise & 3);
 -    case 0x1:    /* Y */
 +    case 0x1: /* Y */
          s->dav &= ~mode_regs[TSC_MODE_Y];
 -        s->noise ++;
 +        s->noise++;
          return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
                  (s->noise & 3);
 -    case 0x2:    /* Z1 */
 +    case 0x2: /* Z1 */
          s->dav &= 0xdfff;
          return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
                  (s->noise & 3);
 -    case 0x3:    /* Z2 */
 +    case 0x3: /* Z2 */
          s->dav &= 0xefff;
          return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
                  (s->noise & 3);
 -    case 0x4:    /* AUX */
 +    case 0x4: /* AUX */
          s->dav &= ~mode_regs[TSC_MODE_AUX];
          return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
 -    case 0x5:    /* TEMP1 */
 +    case 0x5: /* TEMP1 */
          s->dav &= ~mode_regs[TSC_MODE_TEMP1];
          return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
                  (s->noise & 5);
 -    case 0x6:    /* TEMP2 */
 +    case 0x6: /* TEMP2 */
          s->dav &= 0xdfff;
          s->dav &= ~mode_regs[TSC_MODE_TEMP2];
          return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
                  (s->noise & 3);
 -    case 0x7:    /* Status */
 +    case 0x7: /* Status */
          ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
          s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
                          mode_regs[TSC_MODE_TS_TEST]);
          s->reset = true;
          return ret;
 -    case 0x8:   /* AUX high threshold */
 +    case 0x8: /* AUX high threshold */
          return s->aux_thr[1];
 -    case 0x9:   /* AUX low threshold */
 +    case 0x9: /* AUX low threshold */
          return s->aux_thr[0];
 -    case 0xa:   /* TEMP high threshold */
 +    case 0xa: /* TEMP high threshold */
          return s->temp_thr[1];
 -    case 0xb:   /* TEMP low threshold */
 +    case 0xb: /* TEMP low threshold */
          return s->temp_thr[0];
 -    case 0xc:    /* CFR0 */
 +    case 0xc: /* CFR0 */
          return (s->pressure << 15) | ((!s->busy) << 14) |
 -                (s->nextprecision << 13) | s->timing[0];
 -    case 0xd:    /* CFR1 */
 +                (s->nextprecision << 13) | s->timing[0];
 +    case 0xd: /* CFR1 */
          return s->timing[1];
 -    case 0xe:    /* CFR2 */
 +    case 0xe: /* CFR2 */
          return (s->pin_func << 14) | s->filter;
 -    case 0xf:    /* Function select status */
 +    case 0xf: /* Function select status */
          return s->function >= 0 ? 1 << s->function : 0;
      }
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
          s->temp_thr[0] = data;
          break;
 -    case 0xc:    /* CFR0 */
 +    case 0xc: /* CFR0 */
          s->host_mode = (data >> 15) != 0;
          if (s->enabled != !(data & 0x4000)) {
              s->enabled = !(data & 0x4000);
              trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
 -            if (s->busy && !s->enabled)
 +            if (s->busy && !s->enabled) {
                  timer_del(s->timer);
 +            }
              s->busy = s->busy && s->enabled;
          }
          s->nextprecision = (data >> 13) & 1;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
                            "tsc2005_write: illegal conversion clock setting\n");
          }
          break;
 -    case 0xd:    /* CFR1 */
 +    case 0xd: /* CFR1 */
          s->timing[1] = data & 0xf07;
          break;
 -    case 0xe:    /* CFR2 */
 +    case 0xe: /* CFR2 */
          s->pin_func = (data >> 14) & 3;
          s->filter = data & 0x3fff;
          break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
      switch (s->nextfunction) {
      case TSC_MODE_XYZ_SCAN:
      case TSC_MODE_XY_SCAN:
 -        if (!s->host_mode && s->dav)
 +        if (!s->host_mode && s->dav) {
              s->enabled = false;
 -        if (!s->pressure)
 +        }
 +        if (!s->pressure) {
              return;
 +        }
          /* Fall through */
      case TSC_MODE_AUX_SCAN:
          break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
      case TSC_MODE_X:
      case TSC_MODE_Y:
      case TSC_MODE_Z:
 -        if (!s->pressure)
 +        if (!s->pressure) {
              return;
 +        }
          /* Fall through */
      case TSC_MODE_AUX:
      case TSC_MODE_TEMP1:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
      case TSC_MODE_X_TEST:
      case TSC_MODE_Y_TEST:
      case TSC_MODE_TS_TEST:
 -        if (s->dav)
 +        if (s->dav) {
              s->enabled = false;
 +        }
          break;
      case TSC_MODE_RESERVED:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
          return;
      }
 -    if (!s->enabled || s->busy)
 +    if (!s->enabled || s->busy) {
          return;
 +    }
-+
-+    return 0;
+     s->busy = true;
-+}
+     s->precision = s->nextprecision;
-+
+     s->function = s->nextfunction;
- static int cpu_pre_load(void *opaque)
+-    s->pdst = !s->pnd0;    /* Synchronised on internal clock */
- {
++    s->pdst = !s->pnd0; /* Synchronised on internal clock */
-     ARMCPU *cpu = opaque;
+     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
-@@ -XXX,XX +XXX,XX @@ static int cpu_pre_load(void *opaque)
+         (NANOSECONDS_PER_SECOND >> 7);
      timer_mod(s->timer, expires);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
      TSC2005State *s = opaque;
      uint32_t ret = 0;
 -    switch (s->state ++) {
 +    switch (s->state++) {
      case 0:
          if (value & 0x80) {
              /* Command */
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
                  if (s->enabled != !(value & 1)) {
                      s->enabled = !(value & 1);
                      trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
 -                    if (s->busy && !s->enabled)
 +                    if (s->busy && !s->enabled) {
                          timer_del(s->timer);
 +                    }
                      s->busy = s->busy && s->enabled;
                  }
                  tsc2005_pin_update(s);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
          break;
      case 1:
 -        if (s->command)
 +        if (s->command) {
              ret = (s->data >> 8) & 0xff;
 -        else
 +        } else {
              s->data |= value << 8;
 +        }
          break;
      case 2:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
      /* Timer ticked -- a set of conversions has been finished.  */
 -    if (!s->busy)
 +    if (!s->busy) {
          return;
 +    }
      s->busy = false;
      s->dav |= mode_regs[function];
@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
       * signaling TS events immediately, but for now we simulate
       * the first conversion delay for sake of correctness.
       */
-     env->irq_line_state = UINT32_MAX;
+-    if (p != s->pressure)
++    if (p != s->pressure) {
-+    if (!kvm_enabled()) {
+         tsc2005_pin_update(s);
 +        pmu_op_start(&cpu->env);
 +    }
-+
-     return 0;
  }
-@@ -XXX,XX +XXX,XX @@ static int cpu_post_load(void *opaque, int version_id)
+ static int tsc2005_post_load(void *opaque, int version_id)
      hw_breakpoint_update_all(cpu);
      hw_watchpoint_update_all(cpu);
 +    if (!kvm_enabled()) {
 +        pmu_op_finish(&cpu->env);
 +    }
 +
      return 0;
  }
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_arm_cpu = {
      .version_id = 22,
      .minimum_version_id = 22,
      .pre_save = cpu_pre_save,
 +    .post_save = cpu_post_save,
      .pre_load = cpu_pre_load,
      .post_load = cpu_post_load,
      .fields = (VMStateField[]) {
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 43/49] target/arm: Make PMCEID[01]_EL0 64 bit registers, add PMCEID[23]
+[PULL 08/42] docs/system: Remove ADC from raspi documentation
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Rayhan Faizel <rayhan.faizel@gmail.com>
-Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
+None of the RPi boards have ADC on-board. In real life, an external ADC chip
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+is required to operate on analog signals.
-Message-id: 20181211151945.29137-9-aaron@os.amperecomputing.com
 Signed-off-by: Rayhan Faizel <rayhan.faizel@gmail.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20240512085716.222326-1-rayhan.faizel@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    |  4 ++--
+ docs/system/arm/raspi.rst | 1 -
- target/arm/helper.c | 19 +++++++++++++++++--
+file changed, 1 deletion(-)
 files changed, 19 insertions(+), 4 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/docs/system/arm/raspi.rst b/docs/system/arm/raspi.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/docs/system/arm/raspi.rst
-+++ b/target/arm/cpu.h
++++ b/docs/system/arm/raspi.rst
-@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
+@@ -XXX,XX +XXX,XX @@ Implemented devices
-     uint32_t id_pfr0;
+ Missing devices
-     uint32_t id_pfr1;
+ ---------------
-     uint32_t id_dfr0;
--    uint32_t pmceid0;
+- * Analog to Digital Converter (ADC)
--    uint32_t pmceid1;
+  * Pulse Width Modulation (PWM)
-+    uint64_t pmceid0;
+  * PCIE Root Port (raspi4b)
-+    uint64_t pmceid1;
+  * GENET Ethernet Controller (raspi4b)
      uint32_t id_afr0;
      uint32_t id_mmfr0;
      uint32_t id_mmfr1;
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
      } else {
          define_arm_cp_regs(cpu, not_v7_cp_reginfo);
      }
 +    if (FIELD_EX32(cpu->id_dfr0, ID_DFR0, PERFMON) >= 4 &&
 +            FIELD_EX32(cpu->id_dfr0, ID_DFR0, PERFMON) != 0xf) {
 +        ARMCPRegInfo v81_pmu_regs[] = {
 +            { .name = "PMCEID2", .state = ARM_CP_STATE_AA32,
 +              .cp = 15, .opc1 = 0, .crn = 9, .crm = 14, .opc2 = 4,
 +              .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
 +              .resetvalue = extract64(cpu->pmceid0, 32, 32) },
 +            { .name = "PMCEID3", .state = ARM_CP_STATE_AA32,
 +              .cp = 15, .opc1 = 0, .crn = 9, .crm = 14, .opc2 = 5,
 +              .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
 +              .resetvalue = extract64(cpu->pmceid1, 32, 32) },
 +            REGINFO_SENTINEL
 +        };
 +        define_arm_cp_regs(cpu, v81_pmu_regs);
 +    }
      if (arm_feature(env, ARM_FEATURE_V8)) {
          /* AArch64 ID registers, which all have impdef reset values.
           * Note that within the ID register ranges the unused slots
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
              { .name = "PMCEID0", .state = ARM_CP_STATE_AA32,
                .cp = 15, .opc1 = 0, .crn = 9, .crm = 12, .opc2 = 6,
                .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
 -              .resetvalue = cpu->pmceid0 },
 +              .resetvalue = extract64(cpu->pmceid0, 0, 32) },
              { .name = "PMCEID0_EL0", .state = ARM_CP_STATE_AA64,
                .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 12, .opc2 = 6,
                .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
              { .name = "PMCEID1", .state = ARM_CP_STATE_AA32,
                .cp = 15, .opc1 = 0, .crn = 9, .crm = 12, .opc2 = 7,
                .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
 -              .resetvalue = cpu->pmceid1 },
 +              .resetvalue = extract64(cpu->pmceid1, 0, 32) },
              { .name = "PMCEID1_EL0", .state = ARM_CP_STATE_AA64,
                .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 12, .opc2 = 7,
                .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 25/49] target/arm: Add aa64_va_parameters_both
+[PULL 09/42] target/arm: Use PLD, PLDW, PLI not NOP for t32
 From: Richard Henderson <richard.henderson@linaro.org>
-We will want to check TBI for I and D simultaneously.
+This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
 but are introduced with ARMv7 and ARMv7MP respectively.
 For clarity, do not use NOP for PLD.
 Note that there is no PLDW (literal). Architecturally in the
 T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
 that it should be zero and if it is not then the behaviour
 is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
 value of the bit).
 In our implementation we have patterns for both:
 +    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
 +    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
 and so we effectively ignore the value of bit 5.  (This is a
 permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
 behaviour change in this commit, since we previously had NOP lines
 for both those patterns.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20190108223129.5570-22-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
 [PMM: adjusted commit message to note that PLD (lit) T1 bit 5
 being 1 is an UNPREDICTABLE case.]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h | 15 ++++++++++++---
+ target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
- target/arm/helper.c    | 10 ++++++++--
+ target/arm/tcg/translate.c |  4 ++--
-files changed, 20 insertions(+), 5 deletions(-)
+files changed, 14 insertions(+), 15 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/t32.decode
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/t32.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct ARMVAParameters {
+@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
- } ARMVAParameters;
+ # Note that Load, unsigned (literal) overlaps all other load encodings.
  #ifdef CONFIG_USER_ONLY
 -static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
 -                                                 uint64_t va,
 -                                                 ARMMMUIdx mmu_idx, bool data)
 +static inline ARMVAParameters aa64_va_parameters_both(CPUARMState *env,
 +                                                      uint64_t va,
 +                                                      ARMMMUIdx mmu_idx)
  {
-     return (ARMVAParameters) {
+   {
-         /* 48-bit address space */
+-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
-@@ -XXX,XX +XXX,XX @@ static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
++    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
-         .tbi = false,
+     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
-     };
+   }
    {
 -    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
 +    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
      LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
    }
    LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
    {
 -    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
 +    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
      LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
    }
    LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
    {
 -    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
 +    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
      LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
    }
  }
-+
+ {
-+static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
+   {
-+                                                 uint64_t va,
+-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
-+                                                 ARMMMUIdx mmu_idx, bool data)
++    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
-+{
+     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
-+    return aa64_va_parameters_both(env, va, mmu_idx);
+   }
-+}
+   {
- #else
+-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
-+ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
++    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
-+                                        ARMMMUIdx mmu_idx);
+     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
- ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+   }
-                                    ARMMMUIdx mmu_idx, bool data);
+   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
- #endif
+   {
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
 +    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
      LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
    }
    LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
    {
 -    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
 +    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
      LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
    }
  }
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
    LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
    LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
  }
 -# NOPs here are PLI.
  {
    {
 -    NOP          1111 1001 -001 1111 1111 ------------
 +    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
      LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
    }
    {
 -    NOP          1111 1001 1001 ---- 1111 ------------
 +    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
      LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
    }
    LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
    {
 -    NOP          1111 1001 0001 ---- 1111 1100 --------
 +    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
      LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
    }
    LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
    {
 -    NOP          1111 1001 0001 ---- 1111 000000 -- ----
 +    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
      LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
    }
  }
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/translate.c
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/translate.c
-@@ -XXX,XX +XXX,XX @@ static uint8_t convert_stage2_attrs(CPUARMState *env, uint8_t s2attrs)
+@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
-     return (hiattr << 6) | (hihint << 4) | (loattr << 2) | lohint;
+     return ENABLE_ARCH_5TE;
  }
--ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
--                                   ARMMMUIdx mmu_idx, bool data)
++static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
 +ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
 +                                        ARMMMUIdx mmu_idx)
  {
-     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
+     return arm_dc_feature(s, ARM_FEATURE_V7MP);
      uint32_t el = regime_el(env, mmu_idx);
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
      };
  }
-+ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+-static bool trans_PLI(DisasContext *s, arg_PLD *a)
-+                                   ARMMMUIdx mmu_idx, bool data)
++static bool trans_PLI(DisasContext *s, arg_PLI *a)
 +{
 +    return aa64_va_parameters_both(env, va, mmu_idx);
 +}
 +
  static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
                                            ARMMMUIdx mmu_idx)
  {
+     return ENABLE_ARCH_7;
+ }
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 23/49] target/arm: Merge TBFLAG_AA_TB{0, 1} to TBII
+[PULL 10/42] target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
 From: Richard Henderson <richard.henderson@linaro.org>
-We will shortly want to talk about TBI as it relates to data.
+Fixes RISU mismatch for "fcvtzs h31, h0, #14".
 Passing around a pair of variables is less convenient than a
 single variable.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20190108223129.5570-20-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h           |  3 +--
+ target/arm/tcg/translate-a64.c | 3 +++
- target/arm/translate.h     |  3 +--
+file changed, 3 insertions(+)
  target/arm/helper.c        |  5 ++---
  target/arm/translate-a64.c | 13 +++++++------
 files changed, 11 insertions(+), 13 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A32, HANDLER, 21, 1)
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
- FIELD(TBFLAG_A32, STACKCHECK, 22, 1)
+             read_vec_element_i32(s, tcg_op, rn, pass, size);
+             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
- /* Bit usage when in AArch64 state */
+             if (is_scalar) {
--FIELD(TBFLAG_A64, TBI0, 0, 1)
++                if (size == MO_16 && !is_u) {
--FIELD(TBFLAG_A64, TBI1, 1, 1)
++                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
-+FIELD(TBFLAG_A64, TBII, 0, 2)
++                }
- FIELD(TBFLAG_A64, SVEEXC_EL, 2, 2)
+                 write_fp_sreg(s, rd, tcg_op);
- FIELD(TBFLAG_A64, ZCR_LEN, 4, 4)
+             } else {
- FIELD(TBFLAG_A64, PAUTH_ACTIVE, 8, 1)
+                 write_vec_element_i32(s, tcg_op, rd, pass, size);
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
      int user;
  #endif
      ARMMMUIdx mmu_idx; /* MMU index to use for normal loads/stores */
 -    bool tbi0;         /* TBI0 for EL0/1 or TBI for EL2/3 */
 -    bool tbi1;         /* TBI1 for EL0/1, not used for EL2/3 */
 +    uint8_t tbii;      /* TBI1|TBI0 for EL0/1 or TBI for EL2/3 */
      bool ns;        /* Use non-secure CPREG bank on access */
      int fp_excp_el; /* FP exception EL or 0 if enabled */
      int sve_excp_el; /* SVE exception EL or 0 if enabled */
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
          *pc = env->pc;
          flags = FIELD_DP32(flags, TBFLAG_ANY, AARCH64_STATE, 1);
          /* Get control bits for tagged addresses */
 -        flags = FIELD_DP32(flags, TBFLAG_A64, TBI0,
 +        flags = FIELD_DP32(flags, TBFLAG_A64, TBII,
 +                           (arm_regime_tbi1(env, mmu_idx) << 1) |
                             arm_regime_tbi0(env, mmu_idx));
 -        flags = FIELD_DP32(flags, TBFLAG_A64, TBI1,
 -                           arm_regime_tbi1(env, mmu_idx));
          if (cpu_isar_feature(aa64_sve, cpu)) {
              int sve_el = sve_exception_el(env, current_el);
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ void gen_a64_set_pc_im(uint64_t val)
   */
  static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
  {
 +    /* Note that TBII is TBI1:TBI0.  */
 +    int tbi = s->tbii;
      if (s->current_el <= 1) {
          /* Test if NEITHER or BOTH TBI values are set.  If so, no need to
           * examine bit 55 of address, can just generate code.
           * If mixed, then test via generated code
           */
 -        if (s->tbi0 && s->tbi1) {
 +        if (tbi == 3) {
              TCGv_i64 tmp_reg = tcg_temp_new_i64();
              /* Both bits set, sign extension from bit 55 into [63:56] will
               * cover both cases
@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
              tcg_gen_shli_i64(tmp_reg, src, 8);
              tcg_gen_sari_i64(cpu_pc, tmp_reg, 8);
              tcg_temp_free_i64(tmp_reg);
 -        } else if (!s->tbi0 && !s->tbi1) {
 +        } else if (tbi == 0) {
              /* Neither bit set, just load it as-is */
              tcg_gen_mov_i64(cpu_pc, src);
          } else {
@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
              tcg_gen_andi_i64(tcg_bit55, src, (1ull << 55));
 -            if (s->tbi0) {
 +            if (tbi == 1) {
                  /* tbi0==1, tbi1==0, so 0-fill upper byte if bit 55 = 0 */
                  tcg_gen_andi_i64(tcg_tmpval, src,
 x00FFFFFFFFFFFFFFull);
@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
              tcg_temp_free_i64(tcg_tmpval);
          }
      } else {  /* EL > 1 */
 -        if (s->tbi0) {
 +        if (tbi != 0) {
              /* Force tag byte to all zero */
              tcg_gen_andi_i64(cpu_pc, src, 0x00FFFFFFFFFFFFFFull);
          } else {
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
      dc->condexec_cond = 0;
      core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
      dc->mmu_idx = core_to_arm_mmu_idx(env, core_mmu_idx);
 -    dc->tbi0 = FIELD_EX32(tb_flags, TBFLAG_A64, TBI0);
 -    dc->tbi1 = FIELD_EX32(tb_flags, TBFLAG_A64, TBI1);
 +    dc->tbii = FIELD_EX32(tb_flags, TBFLAG_A64, TBII);
      dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
  #if !defined(CONFIG_USER_ONLY)
      dc->user = (dc->current_el == 0);
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 18/49] target/arm: Decode Load/store register (pac)
+[PULL 11/42] target/arm: Fix decode of FMOV (hp) vs MOVI
 From: Richard Henderson <richard.henderson@linaro.org>
-Not that there are any stores involved, but why argue with ARM's
+The decode of FMOV (vector, immediate, half-precision) vs
-naming convention.
+invalid cases of MOVI are incorrect.
+Fixes RISU mismatch for invalid insn 0x2f01fd31.
+Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20190108223129.5570-15-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
 [fixed trivial comment nit]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 61 ++++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
-file changed, 61 insertions(+)
+file changed, 14 insertions(+), 10 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-        s->be_data | size | MO_ALIGN);
+     bool is_q = extract32(insn, 30, 1);
- }
+     uint64_t imm = 0;
-+/*
+-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
-+ * PAC memory operations
+-        /* Check for FMOV (vector, immediate) - half-precision */
-+ *
+-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
-+ *  31  30      27  26    24    22  21       12  11  10    5     0
++    if (o2) {
-+ * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
++        if (cmode != 0xf || is_neg) {
-+ * | size | 1 1 1 | V | 0 0 | M S | 1 |  imm9  | W | 1 | Rn |  Rt |
+             unallocated_encoding(s);
-+ * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
+             return;
-+ *
+         }
-+ * Rt: the result register
+-    }
-+ * Rn: base address or SP
+-
-+ * V: vector flag (always 0 as of v8.3)
+-    if (!fp_access_check(s)) {
-+ * M: clear for key DA, set for key DB
+-        return;
-+ * W: pre-indexing flag
+-    }
-+ * S: sign for imm9.
+-
-+ */
+-    if (cmode == 15 && o2 && !is_neg) {
-+static void disas_ldst_pac(DisasContext *s, uint32_t insn,
+         /* FMOV (vector, immediate) - half-precision */
-+                           int size, int rt, bool is_vector)
++        if (!dc_isar_feature(aa64_fp16, s)) {
-+{
++            unallocated_encoding(s);
-+    int rn = extract32(insn, 5, 5);
++            return;
-+    bool is_wback = extract32(insn, 11, 1);
++        }
-+    bool use_key_a = !extract32(insn, 23, 1);
+         imm = vfp_expand_imm(MO_16, abcdefgh);
-+    int offset;
+         /* now duplicate across the lanes */
-+    TCGv_i64 tcg_addr, tcg_rt;
+         imm = dup_const(MO_16, imm);
-+
+     } else {
-+    if (size != 3 || is_vector || !dc_isar_feature(aa64_pauth, s)) {
++        if (cmode == 0xf && is_neg && !is_q) {
-+        unallocated_encoding(s);
++            unallocated_encoding(s);
 +            return;
 +        }
          imm = asimd_imm_const(abcdefgh, cmode, is_neg);
      }
 +    if (!fp_access_check(s)) {
 +        return;
 +    }
 +
-+    if (rn == 31) {
+     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
-+        gen_check_sp_alignment(s);
+         /* MOVI or MVNI, with MVNI negation handled above.  */
-+    }
+         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
 +    tcg_addr = read_cpu_reg_sp(s, rn, 1);
 +
 +    if (s->pauth_active) {
 +        if (use_key_a) {
 +            gen_helper_autda(tcg_addr, cpu_env, tcg_addr, cpu_X[31]);
 +        } else {
 +            gen_helper_autdb(tcg_addr, cpu_env, tcg_addr, cpu_X[31]);
 +        }
 +    }
 +
 +    /* Form the 10-bit signed, scaled offset.  */
 +    offset = (extract32(insn, 22, 1) << 9) | extract32(insn, 12, 9);
 +    offset = sextract32(offset << size, 0, 10 + size);
 +    tcg_gen_addi_i64(tcg_addr, tcg_addr, offset);
 +
 +    tcg_rt = cpu_reg(s, rt);
 +
 +    do_gpr_ld(s, tcg_rt, tcg_addr, size, /* is_signed */ false,
 +              /* extend */ false, /* iss_valid */ !is_wback,
 +              /* iss_srt */ rt, /* iss_sf */ true, /* iss_ar */ false);
 +
 +    if (is_wback) {
 +        tcg_gen_mov_i64(cpu_reg_sp(s, rn), tcg_addr);
 +    }
 +}
 +
  /* Load/store register (all forms) */
  static void disas_ldst_reg(DisasContext *s, uint32_t insn)
  {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg(DisasContext *s, uint32_t insn)
          case 2:
              disas_ldst_reg_roffset(s, insn, opc, size, rt, is_vector);
              return;
 +        default:
 +            disas_ldst_pac(s, insn, size, rt, is_vector);
 +            return;
          }
          break;
      case 1:
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 26/49] target/arm: Decode TBID from TCR
+[PULL 12/42] target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
 From: Richard Henderson <richard.henderson@linaro.org>
-Use TBID in aa64_va_parameters depending on the data parameter.
+All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
-This automatically updates all existing users of the function.
+Fixes a RISU miscompare for invalid insn 0x5ef0c87a.
+Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20190108223129.5570-23-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h |  1 +
+ target/arm/tcg/translate-a64.c | 2 +-
- target/arm/helper.c    | 14 +++++++++++---
+file changed, 1 insertion(+), 1 deletion(-)
 files changed, 12 insertions(+), 3 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ typedef struct ARMVAParameters {
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-     unsigned tsz    : 8;
+     case 0x2f: /* FMINP */
-     unsigned select : 1;
+         /* FP op, size[0] is 32 or 64 bit*/
-     bool tbi        : 1;
+         if (!u) {
-+    bool tbid       : 1;
+-            if (!dc_isar_feature(aa64_fp16, s)) {
-     bool epd        : 1;
++            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
-     bool hpd        : 1;
+                 unallocated_encoding(s);
-     bool using16k   : 1;
+                 return;
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+             } else {
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
  {
      uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
      uint32_t el = regime_el(env, mmu_idx);
 -    bool tbi, epd, hpd, using16k, using64k;
 +    bool tbi, tbid, epd, hpd, using16k, using64k;
      int select, tsz;
      /*
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
          using16k = extract32(tcr, 15, 1);
          if (mmu_idx == ARMMMUIdx_S2NS) {
              /* VTCR_EL2 */
 -            tbi = hpd = false;
 +            tbi = tbid = hpd = false;
          } else {
              tbi = extract32(tcr, 20, 1);
              hpd = extract32(tcr, 24, 1);
 +            tbid = extract32(tcr, 29, 1);
          }
          epd = false;
      } else if (!select) {
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
          using16k = extract32(tcr, 15, 1);
          tbi = extract64(tcr, 37, 1);
          hpd = extract64(tcr, 41, 1);
 +        tbid = extract64(tcr, 51, 1);
      } else {
          int tg = extract32(tcr, 30, 2);
          using16k = tg == 1;
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
          epd = extract32(tcr, 23, 1);
          tbi = extract64(tcr, 38, 1);
          hpd = extract64(tcr, 42, 1);
 +        tbid = extract64(tcr, 52, 1);
      }
      tsz = MIN(tsz, 39);  /* TODO: ARMv8.4-TTST */
      tsz = MAX(tsz, 16);  /* TODO: ARMv8.2-LVA  */
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
          .tsz = tsz,
          .select = select,
          .tbi = tbi,
 +        .tbid = tbid,
          .epd = epd,
          .hpd = hpd,
          .using16k = using16k,
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
  ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
                                     ARMMMUIdx mmu_idx, bool data)
  {
 -    return aa64_va_parameters_both(env, va, mmu_idx);
 +    ARMVAParameters ret = aa64_va_parameters_both(env, va, mmu_idx);
 +
 +    /* Present TBI as a composite with TBID.  */
 +    ret.tbi &= (data || !ret.tbid);
 +    return ret;
  }
  static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 09/49] target/arm: Add PAuth helpers
+[PULL 13/42] target/arm: Split out gengvec.c
 From: Richard Henderson <richard.henderson@linaro.org>
-The cryptographic internals are stubbed out for now,
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-but the enable and trap bits are checked.
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
 Message-id: 20190108223129.5570-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/Makefile.objs  |   1 +
+ target/arm/tcg/translate.h |    5 +
- target/arm/helper-a64.h   |  12 +++
+ target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
- target/arm/internals.h    |   6 ++
+ target/arm/tcg/translate.c | 1588 -----------------------------------
- target/arm/pauth_helper.c | 186 ++++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/meson.build |    1 +
-files changed, 205 insertions(+)
+files changed, 1618 insertions(+), 1588 deletions(-)
- create mode 100644 target/arm/pauth_helper.c
+ create mode 100644 target/arm/tcg/gengvec.c
-diff --git a/target/arm/Makefile.objs b/target/arm/Makefile.objs
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/Makefile.objs
+--- a/target/arm/tcg/translate.h
-+++ b/target/arm/Makefile.objs
++++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ obj-y += translate.o op_helper.o helper.o cpu.o
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
- obj-y += neon_helper.o iwmmxt_helper.o vec_helper.o
+ void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
- obj-y += gdbstub.o
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
- obj-$(TARGET_AARCH64) += cpu64.o translate-a64.o helper-a64.o gdbstub64.o
-+obj-$(TARGET_AARCH64) += pauth_helper.o
++void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
- obj-y += crypto_helper.o
++void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
- obj-$(CONFIG_SOFTMMU) += arm-powerctl.o
++void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
++void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
-diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
++
-index XXXXXXX..XXXXXXX 100644
+ void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
---- a/target/arm/helper-a64.h
+                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+++ b/target/arm/helper-a64.h
+ void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(advsimd_rinth, f16, f16, ptr)
+diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
  DEF_HELPER_2(advsimd_f16tosinth, i32, f16, ptr)
  DEF_HELPER_2(advsimd_f16touinth, i32, f16, ptr)
  DEF_HELPER_2(sqrt_f16, f16, f16, ptr)
 +
 +DEF_HELPER_FLAGS_3(pacia, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(pacib, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(pacda, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(pacdb, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(pacga, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(autia, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(autib, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(autda, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_3(autdb, TCG_CALL_NO_WG, i64, env, i64, i64)
 +DEF_HELPER_FLAGS_2(xpaci, TCG_CALL_NO_RWG_SE, i64, env, i64)
 +DEF_HELPER_FLAGS_2(xpacd, TCG_CALL_NO_RWG_SE, i64, env, i64)
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ enum arm_exception_class {
      EC_CP14DTTRAP             = 0x06,
      EC_ADVSIMDFPACCESSTRAP    = 0x07,
      EC_FPIDTRAP               = 0x08,
 +    EC_PACTRAP                = 0x09,
      EC_CP14RRTTRAP            = 0x0c,
      EC_ILLEGALSTATE           = 0x0e,
      EC_AA32_SVC               = 0x11,
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_sve_access_trap(void)
      return EC_SVEACCESSTRAP << ARM_EL_EC_SHIFT;
  }
 +static inline uint32_t syn_pactrap(void)
 +{
 +    return EC_PACTRAP << ARM_EL_EC_SHIFT;
 +}
 +
  static inline uint32_t syn_insn_abort(int same_el, int ea, int s1ptw, int fsc)
  {
      return (EC_INSNABORT << ARM_EL_EC_SHIFT) | (same_el << ARM_EL_EC_SHIFT)
 diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/target/arm/pauth_helper.c
++++ b/target/arm/tcg/gengvec.c
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * ARM v8.3-PAuth Operations
++ *  ARM generic vector expansion
 + *
-+ * Copyright (c) 2019 Linaro, Ltd.
++ *  Copyright (c) 2003 Fabrice Bellard
 + *  Copyright (c) 2005-2007 CodeSourcery
 + *  Copyright (c) 2007 OpenedHand, Ltd.
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
-+ * version 2 of the License, or (at your option) any later version.
++ * version 2.1 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
-+#include "cpu.h"
++#include "translate.h"
-+#include "internals.h"
++
-+#include "exec/exec-all.h"
++
-+#include "exec/cpu_ldst.h"
++static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
-+#include "exec/helper-proto.h"
++                            uint32_t opr_sz, uint32_t max_sz,
-+#include "tcg/tcg-gvec-desc.h"
++                            gen_helper_gvec_3_ptr *fn)
-+
++{
-+
++    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
-+static uint64_t pauth_computepac(uint64_t data, uint64_t modifier,
++
-+                                 ARMPACKey key)
++    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
-+{
++    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
-+    g_assert_not_reached(); /* FIXME */
++                       opr_sz, max_sz, 0, fn);
 +}
 +
-+static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
++void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                             ARMPACKey *key, bool data)
++                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
-+    g_assert_not_reached(); /* FIXME */
++    static gen_helper_gvec_3_ptr * const fns[2] = {
-+}
++        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
-+
++    };
-+static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
++    tcg_debug_assert(vece >= 1 && vece <= 2);
-+                           ARMPACKey *key, bool data, int keynumber)
++    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-+{
++}
-+    g_assert_not_reached(); /* FIXME */
++
-+}
++void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+
++                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+static uint64_t pauth_strip(CPUARMState *env, uint64_t ptr, bool data)
++{
-+{
++    static gen_helper_gvec_3_ptr * const fns[2] = {
-+    g_assert_not_reached(); /* FIXME */
++        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
-+}
++    };
-+
++    tcg_debug_assert(vece >= 1 && vece <= 2);
-+static void QEMU_NORETURN pauth_trap(CPUARMState *env, int target_el,
++    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-+                                     uintptr_t ra)
++}
-+{
++
-+    raise_exception_ra(env, EXCP_UDEF, syn_pactrap(), target_el, ra);
++#define GEN_CMP0(NAME, COND)                              \
-+}
++    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
-+
++              uint32_t opr_sz, uint32_t max_sz)           \
-+static void pauth_check_trap(CPUARMState *env, int el, uintptr_t ra)
++    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
-+{
++
-+    if (el < 2 && arm_feature(env, ARM_FEATURE_EL2)) {
++GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
-+        uint64_t hcr = arm_hcr_el2_eff(env);
++GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
-+        bool trap = !(hcr & HCR_API);
++GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
-+        /* FIXME: ARMv8.1-VHE: trap only applies to EL1&0 regime.  */
++GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
-+        /* FIXME: ARMv8.3-NV: HCR_NV trap takes precedence for ERETA[AB].  */
++GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
-+        if (trap) {
++
-+            pauth_trap(env, 2, ra);
++#undef GEN_CMP0
-+        }
++
 +static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_sar8i_i64(a, a, shift);
 +    tcg_gen_vec_add8_i64(d, d, a);
 +}
 +
 +static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_sar16i_i64(a, a, shift);
 +    tcg_gen_vec_add16_i64(d, d, a);
 +}
 +
 +static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_sari_i32(a, a, shift);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_sari_i64(a, a, shift);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    tcg_gen_sari_vec(vece, a, a, sh);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_ssra8_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_ssra16_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ssra32_i32,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ssra64_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.
 +     */
 +    shift = MIN(shift, (8 << vece) - 1);
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
 +
 +static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_shr8i_i64(a, a, shift);
 +    tcg_gen_vec_add8_i64(d, d, a);
 +}
 +
 +static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_shr16i_i64(a, a, shift);
 +    tcg_gen_vec_add16_i64(d, d, a);
 +}
 +
 +static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_shri_i32(a, a, shift);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_shri_i64(a, a, shift);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    tcg_gen_shri_vec(vece, a, a, sh);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_usra8_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8, },
 +        { .fni8 = gen_usra16_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16, },
 +        { .fni4 = gen_usra32_i32,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32, },
 +        { .fni8 = gen_usra64_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64, },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Unsigned results in all zeros as input to accumulate: nop.
 +     */
 +    if (shift < (8 << vece)) {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    } else {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    }
-+    if (el < 3 && arm_feature(env, ARM_FEATURE_EL3)) {
++}
-+        if (!(env->cp15.scr_el3 & SCR_API)) {
++
-+            pauth_trap(env, 3, ra);
++/*
-+        }
++ * Shift one less than the requested amount, and the low bit is
 + * the rounding bit.  For the 8 and 16-bit operations, because we
 + * mask the low bit, we can perform a normal integer shift instead
 + * of a vector shift.
 + */
 +static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 +    tcg_gen_vec_sar8i_i64(d, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +}
 +
 +static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 +    tcg_gen_vec_sar16i_i64(d, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +}
 +
 +void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t;
 +
 +    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
 +    if (sh == 32) {
 +        tcg_gen_movi_i32(d, 0);
 +        return;
 +    }
-+}
++    t = tcg_temp_new_i32();
-+
++    tcg_gen_extract_i32(t, a, sh - 1, 1);
-+static bool pauth_key_enabled(CPUARMState *env, int el, uint32_t bit)
++    tcg_gen_sari_i32(d, a, sh);
-+{
++    tcg_gen_add_i32(d, d, t);
-+    uint32_t sctlr;
++}
-+    if (el == 0) {
++
-+        /* FIXME: ARMv8.1-VHE S2 translation regime.  */
++ void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-+        sctlr = env->cp15.sctlr_el[1];
++{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_extract_i64(t, a, sh - 1, 1);
 +    tcg_gen_sari_i64(d, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shri_vec(vece, t, a, sh - 1);
 +    tcg_gen_dupi_vec(vece, ones, 1);
 +    tcg_gen_and_vec(vece, t, t, ones);
 +    tcg_gen_sari_vec(vece, d, a, sh);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_srshr8_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_srshr16_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_srshr32_i32,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_srshr64_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Signed results in all sign bits.  With rounding, this produces
 +         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +         * I.e. always zero.
 +         */
 +        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
 +    } else {
-+        sctlr = env->cp15.sctlr_el[el];
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
-+    return (sctlr & bit) != 0;
++}
-+}
++
-+
++static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-+uint64_t HELPER(pacia)(CPUARMState *env, uint64_t x, uint64_t y)
++{
-+{
++    TCGv_i64 t = tcg_temp_new_i64();
-+    int el = arm_current_el(env);
++
-+    if (!pauth_key_enabled(env, el, SCTLR_EnIA)) {
++    gen_srshr8_i64(t, a, sh);
-+        return x;
++    tcg_gen_vec_add8_i64(d, d, t);
 +}
 +
 +static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr16_i64(t, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +}
 +
 +static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    gen_srshr32_i32(t, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr64_i64(t, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    gen_srshr_vec(vece, t, a, sh);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_srsra8_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_srsra16_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_srsra32_i32,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_srsra64_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.  With rounding, this produces
 +     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +     * I.e. always zero.  With accumulation, this leaves D unchanged.
 +     */
 +    if (shift == (8 << vece)) {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
-+    pauth_check_trap(env, el, GETPC());
++}
-+    return pauth_addpac(env, x, y, &env->apia_key, false);
++
-+}
++static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-+
++{
-+uint64_t HELPER(pacib)(CPUARMState *env, uint64_t x, uint64_t y)
++    TCGv_i64 t = tcg_temp_new_i64();
-+{
++
-+    int el = arm_current_el(env);
++    tcg_gen_shri_i64(t, a, sh - 1);
-+    if (!pauth_key_enabled(env, el, SCTLR_EnIB)) {
++    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-+        return x;
++    tcg_gen_vec_shr8i_i64(d, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +}
 +
 +static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 +    tcg_gen_vec_shr16i_i64(d, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +}
 +
 +void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t;
 +
 +    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
 +    if (sh == 32) {
 +        tcg_gen_extract_i32(d, a, sh - 1, 1);
 +        return;
 +    }
-+    pauth_check_trap(env, el, GETPC());
++    t = tcg_temp_new_i32();
-+    return pauth_addpac(env, x, y, &env->apib_key, false);
++    tcg_gen_extract_i32(t, a, sh - 1, 1);
-+}
++    tcg_gen_shri_i32(d, a, sh);
-+
++    tcg_gen_add_i32(d, d, t);
-+uint64_t HELPER(pacda)(CPUARMState *env, uint64_t x, uint64_t y)
++}
-+{
++
-+    int el = arm_current_el(env);
++void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-+    if (!pauth_key_enabled(env, el, SCTLR_EnDA)) {
++{
-+        return x;
++    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_extract_i64(t, a, sh - 1, 1);
 +    tcg_gen_shri_i64(d, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shri_vec(vece, t, a, shift - 1);
 +    tcg_gen_dupi_vec(vece, ones, 1);
 +    tcg_gen_and_vec(vece, t, t, ones);
 +    tcg_gen_shri_vec(vece, d, a, shift);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_urshr8_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_urshr16_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_urshr32_i32,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_urshr64_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Unsigned results in zero.  With rounding, this produces a
 +         * copy of the most significant bit.
 +         */
 +        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
-+    pauth_check_trap(env, el, GETPC());
++}
-+    return pauth_addpac(env, x, y, &env->apda_key, true);
++
-+}
++static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-+
++{
-+uint64_t HELPER(pacdb)(CPUARMState *env, uint64_t x, uint64_t y)
++    TCGv_i64 t = tcg_temp_new_i64();
-+{
++
-+    int el = arm_current_el(env);
++    if (sh == 8) {
-+    if (!pauth_key_enabled(env, el, SCTLR_EnDB)) {
++        tcg_gen_vec_shr8i_i64(t, a, 7);
-+        return x;
++    } else {
 +        gen_urshr8_i64(t, a, sh);
 +    }
-+    pauth_check_trap(env, el, GETPC());
++    tcg_gen_vec_add8_i64(d, d, t);
-+    return pauth_addpac(env, x, y, &env->apdb_key, true);
++}
-+}
++
-+
++static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-+uint64_t HELPER(pacga)(CPUARMState *env, uint64_t x, uint64_t y)
++{
-+{
++    TCGv_i64 t = tcg_temp_new_i64();
-+    uint64_t pac;
++
-+
++    if (sh == 16) {
-+    pauth_check_trap(env, arm_current_el(env), GETPC());
++        tcg_gen_vec_shr16i_i64(t, a, 15);
-+    pac = pauth_computepac(x, y, env->apga_key);
++    } else {
-+
++        gen_urshr16_i64(t, a, sh);
 +    return pac & 0xffffffff00000000ull;
 +}
 +
 +uint64_t HELPER(autia)(CPUARMState *env, uint64_t x, uint64_t y)
 +{
 +    int el = arm_current_el(env);
 +    if (!pauth_key_enabled(env, el, SCTLR_EnIA)) {
 +        return x;
 +    }
-+    pauth_check_trap(env, el, GETPC());
++    tcg_gen_vec_add16_i64(d, d, t);
-+    return pauth_auth(env, x, y, &env->apia_key, false, 0);
++}
-+}
++
-+
++static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-+uint64_t HELPER(autib)(CPUARMState *env, uint64_t x, uint64_t y)
++{
-+{
++    TCGv_i32 t = tcg_temp_new_i32();
-+    int el = arm_current_el(env);
++
-+    if (!pauth_key_enabled(env, el, SCTLR_EnIB)) {
++    if (sh == 32) {
-+        return x;
++        tcg_gen_shri_i32(t, a, 31);
 +    } else {
 +        gen_urshr32_i32(t, a, sh);
 +    }
-+    pauth_check_trap(env, el, GETPC());
++    tcg_gen_add_i32(d, d, t);
-+    return pauth_auth(env, x, y, &env->apib_key, false, 1);
++}
-+}
++
-+
++static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-+uint64_t HELPER(autda)(CPUARMState *env, uint64_t x, uint64_t y)
++{
-+{
++    TCGv_i64 t = tcg_temp_new_i64();
-+    int el = arm_current_el(env);
++
-+    if (!pauth_key_enabled(env, el, SCTLR_EnDA)) {
++    if (sh == 64) {
-+        return x;
++        tcg_gen_shri_i64(t, a, 63);
 +    } else {
 +        gen_urshr64_i64(t, a, sh);
 +    }
-+    pauth_check_trap(env, el, GETPC());
++    tcg_gen_add_i64(d, d, t);
-+    return pauth_auth(env, x, y, &env->apda_key, true, 0);
++}
-+}
++
-+
++static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-+uint64_t HELPER(autdb)(CPUARMState *env, uint64_t x, uint64_t y)
++{
-+{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
-+    int el = arm_current_el(env);
++
-+    if (!pauth_key_enabled(env, el, SCTLR_EnDB)) {
++    if (sh == (8 << vece)) {
-+        return x;
++        tcg_gen_shri_vec(vece, t, a, sh - 1);
 +    } else {
 +        gen_urshr_vec(vece, t, a, sh);
 +    }
-+    pauth_check_trap(env, el, GETPC());
++    tcg_gen_add_vec(vece, d, d, t);
-+    return pauth_auth(env, x, y, &env->apdb_key, true, 1);
++}
-+}
++
-+
++void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+uint64_t HELPER(xpaci)(CPUARMState *env, uint64_t a)
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
-+    return pauth_strip(env, a, false);
++    static const TCGOpcode vecop_list[] = {
-+}
++        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-+
++    };
-+uint64_t HELPER(xpacd)(CPUARMState *env, uint64_t a)
++    static const GVecGen2i ops[4] = {
-+{
++        { .fni8 = gen_ursra8_i64,
-+    return pauth_strip(env, a, true);
++          .fniv = gen_ursra_vec,
-+}
++          .fno = gen_helper_gvec_ursra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_ursra16_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ursra32_i32,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ursra64_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
 +
 +static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_8, 0xff >> shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_shri_i32(a, a, shift);
 +    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
 +}
 +
 +static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_shri_i64(a, a, shift);
 +    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
 +}
 +
 +static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec m = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
 +    tcg_gen_shri_vec(vece, t, a, sh);
 +    tcg_gen_and_vec(vece, d, d, m);
 +    tcg_gen_or_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
 +    const GVecGen2i ops[4] = {
 +        { .fni8 = gen_shr8_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_shr16_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_shr32_ins_i32,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_shr64_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /* Shift of esize leaves destination unchanged. */
 +    if (shift < (8 << vece)) {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    } else {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    }
 +}
 +
 +static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_8, 0xff << shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shli_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_16, 0xffff << shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shli_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
 +}
 +
 +static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
 +}
 +
 +static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec m = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shli_vec(vece, t, a, sh);
 +    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 +    tcg_gen_and_vec(vece, d, d, m);
 +    tcg_gen_or_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
 +    const GVecGen2i ops[4] = {
 +        { .fni8 = gen_shl8_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_shl16_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_shl32_ins_i32,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_shl64_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [0..esize-1]. */
 +    tcg_debug_assert(shift >= 0);
 +    tcg_debug_assert(shift < (8 << vece));
 +
 +    if (shift == 0) {
 +        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u8(a, a, b);
 +    gen_helper_neon_add_u8(d, d, a);
 +}
 +
 +static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u8(a, a, b);
 +    gen_helper_neon_sub_u8(d, d, a);
 +}
 +
 +static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u16(a, a, b);
 +    gen_helper_neon_add_u16(d, d, a);
 +}
 +
 +static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u16(a, a, b);
 +    gen_helper_neon_sub_u16(d, d, a);
 +}
 +
 +static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    tcg_gen_mul_i32(a, a, b);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    tcg_gen_mul_i32(a, a, b);
 +    tcg_gen_sub_i32(d, d, a);
 +}
 +
 +static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    tcg_gen_mul_i64(a, a, b);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    tcg_gen_mul_i64(a, a, b);
 +    tcg_gen_sub_i64(d, d, a);
 +}
 +
 +static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    tcg_gen_mul_vec(vece, a, a, b);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    tcg_gen_mul_vec(vece, a, a, b);
 +    tcg_gen_sub_vec(vece, d, d, a);
 +}
 +
 +/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
 + * these tables are shared with AArch64 which does support them.
 + */
 +void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_mul_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fni4 = gen_mla8_i32,
 +          .fniv = gen_mla_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni4 = gen_mla16_i32,
 +          .fniv = gen_mla_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_mla32_i32,
 +          .fniv = gen_mla_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_mla64_i64,
 +          .fniv = gen_mla_vec,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fni4 = gen_mls8_i32,
 +          .fniv = gen_mls_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni4 = gen_mls16_i32,
 +          .fniv = gen_mls_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_mls32_i32,
 +          .fniv = gen_mls_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_mls64_i64,
 +          .fniv = gen_mls_vec,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +/* CMTST : test is "if (X & Y != 0)". */
 +static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    tcg_gen_and_i32(d, a, b);
 +    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
 +}
 +
 +void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    tcg_gen_and_i64(d, a, b);
 +    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
 +}
 +
 +static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    tcg_gen_and_vec(vece, d, a, b);
 +    tcg_gen_dupi_vec(vece, a, 0);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
 +}
 +
 +void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
 +    static const GVecGen3 ops[4] = {
 +        { .fni4 = gen_helper_neon_tst_u8,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni4 = gen_helper_neon_tst_u16,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_cmtst_i32,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_cmtst_i64,
 +          .fniv = gen_cmtst_vec,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 +{
 +    TCGv_i32 lval = tcg_temp_new_i32();
 +    TCGv_i32 rval = tcg_temp_new_i32();
 +    TCGv_i32 lsh = tcg_temp_new_i32();
 +    TCGv_i32 rsh = tcg_temp_new_i32();
 +    TCGv_i32 zero = tcg_constant_i32(0);
 +    TCGv_i32 max = tcg_constant_i32(32);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i32(lsh, shift);
 +    tcg_gen_neg_i32(rsh, lsh);
 +    tcg_gen_shl_i32(lval, src, lsh);
 +    tcg_gen_shr_i32(rval, src, rsh);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
 +}
 +
 +void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 +{
 +    TCGv_i64 lval = tcg_temp_new_i64();
 +    TCGv_i64 rval = tcg_temp_new_i64();
 +    TCGv_i64 lsh = tcg_temp_new_i64();
 +    TCGv_i64 rsh = tcg_temp_new_i64();
 +    TCGv_i64 zero = tcg_constant_i64(0);
 +    TCGv_i64 max = tcg_constant_i64(64);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i64(lsh, shift);
 +    tcg_gen_neg_i64(rsh, lsh);
 +    tcg_gen_shl_i64(lval, src, lsh);
 +    tcg_gen_shr_i64(rval, src, rsh);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
 +}
 +
 +static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
 +                         TCGv_vec src, TCGv_vec shift)
 +{
 +    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec msk, max;
 +
 +    tcg_gen_neg_vec(vece, rsh, shift);
 +    if (vece == MO_8) {
 +        tcg_gen_mov_vec(lsh, shift);
 +    } else {
 +        msk = tcg_temp_new_vec_matching(dst);
 +        tcg_gen_dupi_vec(vece, msk, 0xff);
 +        tcg_gen_and_vec(vece, lsh, shift, msk);
 +        tcg_gen_and_vec(vece, rsh, rsh, msk);
 +    }
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_shlv_vec(vece, lval, src, lsh);
 +    tcg_gen_shrv_vec(vece, rval, src, rsh);
 +
 +    max = tcg_temp_new_vec_matching(dst);
 +    tcg_gen_dupi_vec(vece, max, 8 << vece);
 +
 +    /*
 +     * The choice of LT (signed) and GEU (unsigned) are biased toward
 +     * the instructions of the x86_64 host.  For MO_8, the whole byte
 +     * is significant so we must use an unsigned compare; otherwise we
 +     * have already masked to a byte and so a signed compare works.
 +     * Other tcg hosts have a full set of comparisons and do not care.
 +     */
 +    if (vece == MO_8) {
 +        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
 +        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
 +        tcg_gen_andc_vec(vece, lval, lval, lsh);
 +        tcg_gen_andc_vec(vece, rval, rval, rsh);
 +    } else {
 +        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
 +        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
 +        tcg_gen_and_vec(vece, lval, lval, lsh);
 +        tcg_gen_and_vec(vece, rval, rval, rsh);
 +    }
 +    tcg_gen_or_vec(vece, dst, lval, rval);
 +}
 +
 +void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_neg_vec, INDEX_op_shlv_vec,
 +        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_ushl_vec,
 +          .fno = gen_helper_gvec_ushl_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_ushl_vec,
 +          .fno = gen_helper_gvec_ushl_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ushl_i32,
 +          .fniv = gen_ushl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ushl_i64,
 +          .fniv = gen_ushl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 +{
 +    TCGv_i32 lval = tcg_temp_new_i32();
 +    TCGv_i32 rval = tcg_temp_new_i32();
 +    TCGv_i32 lsh = tcg_temp_new_i32();
 +    TCGv_i32 rsh = tcg_temp_new_i32();
 +    TCGv_i32 zero = tcg_constant_i32(0);
 +    TCGv_i32 max = tcg_constant_i32(31);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i32(lsh, shift);
 +    tcg_gen_neg_i32(rsh, lsh);
 +    tcg_gen_shl_i32(lval, src, lsh);
 +    tcg_gen_umin_i32(rsh, rsh, max);
 +    tcg_gen_sar_i32(rval, src, rsh);
 +    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
 +    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
 +}
 +
 +void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 +{
 +    TCGv_i64 lval = tcg_temp_new_i64();
 +    TCGv_i64 rval = tcg_temp_new_i64();
 +    TCGv_i64 lsh = tcg_temp_new_i64();
 +    TCGv_i64 rsh = tcg_temp_new_i64();
 +    TCGv_i64 zero = tcg_constant_i64(0);
 +    TCGv_i64 max = tcg_constant_i64(63);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i64(lsh, shift);
 +    tcg_gen_neg_i64(rsh, lsh);
 +    tcg_gen_shl_i64(lval, src, lsh);
 +    tcg_gen_umin_i64(rsh, rsh, max);
 +    tcg_gen_sar_i64(rval, src, rsh);
 +    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
 +    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
 +}
 +
 +static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
 +                         TCGv_vec src, TCGv_vec shift)
 +{
 +    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_neg_vec(vece, rsh, shift);
 +    if (vece == MO_8) {
 +        tcg_gen_mov_vec(lsh, shift);
 +    } else {
 +        tcg_gen_dupi_vec(vece, tmp, 0xff);
 +        tcg_gen_and_vec(vece, lsh, shift, tmp);
 +        tcg_gen_and_vec(vece, rsh, rsh, tmp);
 +    }
 +
 +    /* Bound rsh so out of bound right shift gets -1.  */
 +    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
 +    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
 +    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
 +
 +    tcg_gen_shlv_vec(vece, lval, src, lsh);
 +    tcg_gen_sarv_vec(vece, rval, src, rsh);
 +
 +    /* Select in-bound left shift.  */
 +    tcg_gen_andc_vec(vece, lval, lval, tmp);
 +
 +    /* Select between left and right shift.  */
 +    if (vece == MO_8) {
 +        tcg_gen_dupi_vec(vece, tmp, 0);
 +        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
 +    } else {
 +        tcg_gen_dupi_vec(vece, tmp, 0x80);
 +        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
 +    }
 +}
 +
 +void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
 +        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_sshl_vec,
 +          .fno = gen_helper_gvec_sshl_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_sshl_vec,
 +          .fno = gen_helper_gvec_sshl_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_sshl_i32,
 +          .fniv = gen_sshl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_sshl_i64,
 +          .fniv = gen_sshl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_add_vec(vece, x, a, b);
 +    tcg_gen_usadd_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_b,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_h,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_s,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_d,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_add_vec(vece, x, a, b);
 +    tcg_gen_ssadd_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_sub_vec(vece, x, a, b);
 +    tcg_gen_ussub_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_sub_vec(vece, x, a, b);
 +    tcg_gen_sssub_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_sub_i32(t, a, b);
 +    tcg_gen_sub_i32(d, b, a);
 +    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
 +}
 +
 +static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
 +}
 +
 +static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_smin_vec(vece, t, a, b);
 +    tcg_gen_smax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_sabd_i32,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_sabd_i64,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_sub_i32(t, a, b);
 +    tcg_gen_sub_i32(d, b, a);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
 +}
 +
 +static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
 +}
 +
 +static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_umin_vec(vece, t, a, b);
 +    tcg_gen_umax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uabd_i32,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uabd_i64,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +    gen_sabd_i32(t, a, b);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    gen_sabd_i64(t, a, b);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    gen_sabd_vec(vece, t, a, b);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_saba_i32,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_saba_i64,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +    gen_uabd_i32(t, a, b);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    gen_uabd_i64(t, a, b);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    gen_uabd_vec(vece, t, a, b);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uaba_i32,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uaba_i64,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.c
 +++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
      gen_rfe(s, pc, load_cpu_field(spsr));
  }
 -static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
 -                            uint32_t opr_sz, uint32_t max_sz,
 -                            gen_helper_gvec_3_ptr *fn)
 -{
 -    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
 -
 -    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
 -    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
 -                       opr_sz, max_sz, 0, fn);
 -}
 -
 -void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static gen_helper_gvec_3_ptr * const fns[2] = {
 -        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
 -    };
 -    tcg_debug_assert(vece >= 1 && vece <= 2);
 -    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 -}
 -
 -void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static gen_helper_gvec_3_ptr * const fns[2] = {
 -        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
 -    };
 -    tcg_debug_assert(vece >= 1 && vece <= 2);
 -    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 -}
 -
 -#define GEN_CMP0(NAME, COND)                              \
 -    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
 -              uint32_t opr_sz, uint32_t max_sz)           \
 -    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
 -
 -GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
 -GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
 -GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
 -GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
 -GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
 -
 -#undef GEN_CMP0
 -
 -static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_sar8i_i64(a, a, shift);
 -    tcg_gen_vec_add8_i64(d, d, a);
 -}
 -
 -static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_sar16i_i64(a, a, shift);
 -    tcg_gen_vec_add16_i64(d, d, a);
 -}
 -
 -static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_sari_i32(a, a, shift);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_sari_i64(a, a, shift);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    tcg_gen_sari_vec(vece, a, a, sh);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
 -void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sari_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_ssra8_i64,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_ssra16_i64,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_ssra32_i32,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_ssra64_i64,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize]. */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /*
 -     * Shifts larger than the element size are architecturally valid.
 -     * Signed results in all sign bits.
 -     */
 -    shift = MIN(shift, (8 << vece) - 1);
 -    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -}
 -
 -static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_shr8i_i64(a, a, shift);
 -    tcg_gen_vec_add8_i64(d, d, a);
 -}
 -
 -static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_shr16i_i64(a, a, shift);
 -    tcg_gen_vec_add16_i64(d, d, a);
 -}
 -
 -static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_shri_i32(a, a, shift);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_shri_i64(a, a, shift);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    tcg_gen_shri_vec(vece, a, a, sh);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
 -void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_usra8_i64,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8, },
 -        { .fni8 = gen_usra16_i64,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16, },
 -        { .fni4 = gen_usra32_i32,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32, },
 -        { .fni8 = gen_usra64_i64,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64, },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize]. */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /*
 -     * Shifts larger than the element size are architecturally valid.
 -     * Unsigned results in all zeros as input to accumulate: nop.
 -     */
 -    if (shift < (8 << vece)) {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    } else {
 -        /* Nop, but we do need to clear the tail. */
 -        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 -    }
 -}
 -
 -/*
 - * Shift one less than the requested amount, and the low bit is
 - * the rounding bit.  For the 8 and 16-bit operations, because we
 - * mask the low bit, we can perform a normal integer shift instead
 - * of a vector shift.
 - */
 -static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 -    tcg_gen_vec_sar8i_i64(d, a, sh);
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 -    tcg_gen_vec_sar16i_i64(d, a, sh);
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t;
 -
 -    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
 -    if (sh == 32) {
 -        tcg_gen_movi_i32(d, 0);
 -        return;
 -    }
 -    t = tcg_temp_new_i32();
 -    tcg_gen_extract_i32(t, a, sh - 1, 1);
 -    tcg_gen_sari_i32(d, a, sh);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_extract_i64(t, a, sh - 1, 1);
 -    tcg_gen_sari_i64(d, a, sh);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_shri_vec(vece, t, a, sh - 1);
 -    tcg_gen_dupi_vec(vece, ones, 1);
 -    tcg_gen_and_vec(vece, t, t, ones);
 -    tcg_gen_sari_vec(vece, d, a, sh);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_srshr8_i64,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_srshr16_i64,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_srshr32_i32,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_srshr64_i64,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    if (shift == (8 << vece)) {
 -        /*
 -         * Shifts larger than the element size are architecturally valid.
 -         * Signed results in all sign bits.  With rounding, this produces
 -         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 -         * I.e. always zero.
 -         */
 -        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    gen_srshr8_i64(t, a, sh);
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    gen_srshr16_i64(t, a, sh);
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    gen_srshr32_i32(t, a, sh);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    gen_srshr64_i64(t, a, sh);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    gen_srshr_vec(vece, t, a, sh);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_srsra8_i64,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fni8 = gen_srsra16_i64,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_srsra32_i32,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_srsra64_i64,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /*
 -     * Shifts larger than the element size are architecturally valid.
 -     * Signed results in all sign bits.  With rounding, this produces
 -     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 -     * I.e. always zero.  With accumulation, this leaves D unchanged.
 -     */
 -    if (shift == (8 << vece)) {
 -        /* Nop, but we do need to clear the tail. */
 -        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 -    tcg_gen_vec_shr8i_i64(d, a, sh);
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 -    tcg_gen_vec_shr16i_i64(d, a, sh);
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t;
 -
 -    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
 -    if (sh == 32) {
 -        tcg_gen_extract_i32(d, a, sh - 1, 1);
 -        return;
 -    }
 -    t = tcg_temp_new_i32();
 -    tcg_gen_extract_i32(t, a, sh - 1, 1);
 -    tcg_gen_shri_i32(d, a, sh);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_extract_i64(t, a, sh - 1, 1);
 -    tcg_gen_shri_i64(d, a, sh);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_shri_vec(vece, t, a, shift - 1);
 -    tcg_gen_dupi_vec(vece, ones, 1);
 -    tcg_gen_and_vec(vece, t, t, ones);
 -    tcg_gen_shri_vec(vece, d, a, shift);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_urshr8_i64,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_urshr16_i64,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_urshr32_i32,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_urshr64_i64,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    if (shift == (8 << vece)) {
 -        /*
 -         * Shifts larger than the element size are architecturally valid.
 -         * Unsigned results in zero.  With rounding, this produces a
 -         * copy of the most significant bit.
 -         */
 -        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    if (sh == 8) {
 -        tcg_gen_vec_shr8i_i64(t, a, 7);
 -    } else {
 -        gen_urshr8_i64(t, a, sh);
 -    }
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    if (sh == 16) {
 -        tcg_gen_vec_shr16i_i64(t, a, 15);
 -    } else {
 -        gen_urshr16_i64(t, a, sh);
 -    }
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    if (sh == 32) {
 -        tcg_gen_shri_i32(t, a, 31);
 -    } else {
 -        gen_urshr32_i32(t, a, sh);
 -    }
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    if (sh == 64) {
 -        tcg_gen_shri_i64(t, a, 63);
 -    } else {
 -        gen_urshr64_i64(t, a, sh);
 -    }
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    if (sh == (8 << vece)) {
 -        tcg_gen_shri_vec(vece, t, a, sh - 1);
 -    } else {
 -        gen_urshr_vec(vece, t, a, sh);
 -    }
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_ursra8_i64,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fni8 = gen_ursra16_i64,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_ursra32_i32,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_ursra64_i64,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -}
 -
 -static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_8, 0xff >> shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_shri_i32(a, a, shift);
 -    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
 -}
 -
 -static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_shri_i64(a, a, shift);
 -    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
 -}
 -
 -static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
 -    tcg_gen_shri_vec(vece, t, a, sh);
 -    tcg_gen_and_vec(vece, d, d, m);
 -    tcg_gen_or_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
 -    const GVecGen2i ops[4] = {
 -        { .fni8 = gen_shr8_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_shr16_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_shr32_ins_i32,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_shr64_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize]. */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /* Shift of esize leaves destination unchanged. */
 -    if (shift < (8 << vece)) {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    } else {
 -        /* Nop, but we do need to clear the tail. */
 -        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 -    }
 -}
 -
 -static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_8, 0xff << shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shli_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_16, 0xffff << shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shli_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
 -}
 -
 -static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
 -}
 -
 -static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_shli_vec(vece, t, a, sh);
 -    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 -    tcg_gen_and_vec(vece, d, d, m);
 -    tcg_gen_or_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
 -    const GVecGen2i ops[4] = {
 -        { .fni8 = gen_shl8_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_shl16_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_shl32_ins_i32,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_shl64_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [0..esize-1]. */
 -    tcg_debug_assert(shift >= 0);
 -    tcg_debug_assert(shift < (8 << vece));
 -
 -    if (shift == 0) {
 -        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u8(a, a, b);
 -    gen_helper_neon_add_u8(d, d, a);
 -}
 -
 -static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u8(a, a, b);
 -    gen_helper_neon_sub_u8(d, d, a);
 -}
 -
 -static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u16(a, a, b);
 -    gen_helper_neon_add_u16(d, d, a);
 -}
 -
 -static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u16(a, a, b);
 -    gen_helper_neon_sub_u16(d, d, a);
 -}
 -
 -static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    tcg_gen_mul_i32(a, a, b);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    tcg_gen_mul_i32(a, a, b);
 -    tcg_gen_sub_i32(d, d, a);
 -}
 -
 -static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    tcg_gen_mul_i64(a, a, b);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    tcg_gen_mul_i64(a, a, b);
 -    tcg_gen_sub_i64(d, d, a);
 -}
 -
 -static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    tcg_gen_mul_vec(vece, a, a, b);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
 -static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    tcg_gen_mul_vec(vece, a, a, b);
 -    tcg_gen_sub_vec(vece, d, d, a);
 -}
 -
 -/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
 - * these tables are shared with AArch64 which does support them.
 - */
 -void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_mul_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fni4 = gen_mla8_i32,
 -          .fniv = gen_mla_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni4 = gen_mla16_i32,
 -          .fniv = gen_mla_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_mla32_i32,
 -          .fniv = gen_mla_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_mla64_i64,
 -          .fniv = gen_mla_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fni4 = gen_mls8_i32,
 -          .fniv = gen_mls_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni4 = gen_mls16_i32,
 -          .fniv = gen_mls_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_mls32_i32,
 -          .fniv = gen_mls_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_mls64_i64,
 -          .fniv = gen_mls_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -/* CMTST : test is "if (X & Y != 0)". */
 -static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    tcg_gen_and_i32(d, a, b);
 -    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
 -}
 -
 -void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    tcg_gen_and_i64(d, a, b);
 -    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
 -}
 -
 -static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    tcg_gen_and_vec(vece, d, a, b);
 -    tcg_gen_dupi_vec(vece, a, 0);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
 -}
 -
 -void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
 -    static const GVecGen3 ops[4] = {
 -        { .fni4 = gen_helper_neon_tst_u8,
 -          .fniv = gen_cmtst_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni4 = gen_helper_neon_tst_u16,
 -          .fniv = gen_cmtst_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_cmtst_i32,
 -          .fniv = gen_cmtst_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_cmtst_i64,
 -          .fniv = gen_cmtst_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 -{
 -    TCGv_i32 lval = tcg_temp_new_i32();
 -    TCGv_i32 rval = tcg_temp_new_i32();
 -    TCGv_i32 lsh = tcg_temp_new_i32();
 -    TCGv_i32 rsh = tcg_temp_new_i32();
 -    TCGv_i32 zero = tcg_constant_i32(0);
 -    TCGv_i32 max = tcg_constant_i32(32);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i32(lsh, shift);
 -    tcg_gen_neg_i32(rsh, lsh);
 -    tcg_gen_shl_i32(lval, src, lsh);
 -    tcg_gen_shr_i32(rval, src, rsh);
 -    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
 -    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
 -}
 -
 -void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 -{
 -    TCGv_i64 lval = tcg_temp_new_i64();
 -    TCGv_i64 rval = tcg_temp_new_i64();
 -    TCGv_i64 lsh = tcg_temp_new_i64();
 -    TCGv_i64 rsh = tcg_temp_new_i64();
 -    TCGv_i64 zero = tcg_constant_i64(0);
 -    TCGv_i64 max = tcg_constant_i64(64);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i64(lsh, shift);
 -    tcg_gen_neg_i64(rsh, lsh);
 -    tcg_gen_shl_i64(lval, src, lsh);
 -    tcg_gen_shr_i64(rval, src, rsh);
 -    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
 -    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
 -}
 -
 -static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
 -                         TCGv_vec src, TCGv_vec shift)
 -{
 -    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec msk, max;
 -
 -    tcg_gen_neg_vec(vece, rsh, shift);
 -    if (vece == MO_8) {
 -        tcg_gen_mov_vec(lsh, shift);
 -    } else {
 -        msk = tcg_temp_new_vec_matching(dst);
 -        tcg_gen_dupi_vec(vece, msk, 0xff);
 -        tcg_gen_and_vec(vece, lsh, shift, msk);
 -        tcg_gen_and_vec(vece, rsh, rsh, msk);
 -    }
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_shlv_vec(vece, lval, src, lsh);
 -    tcg_gen_shrv_vec(vece, rval, src, rsh);
 -
 -    max = tcg_temp_new_vec_matching(dst);
 -    tcg_gen_dupi_vec(vece, max, 8 << vece);
 -
 -    /*
 -     * The choice of LT (signed) and GEU (unsigned) are biased toward
 -     * the instructions of the x86_64 host.  For MO_8, the whole byte
 -     * is significant so we must use an unsigned compare; otherwise we
 -     * have already masked to a byte and so a signed compare works.
 -     * Other tcg hosts have a full set of comparisons and do not care.
 -     */
 -    if (vece == MO_8) {
 -        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
 -        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
 -        tcg_gen_andc_vec(vece, lval, lval, lsh);
 -        tcg_gen_andc_vec(vece, rval, rval, rsh);
 -    } else {
 -        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
 -        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
 -        tcg_gen_and_vec(vece, lval, lval, lsh);
 -        tcg_gen_and_vec(vece, rval, rval, rsh);
 -    }
 -    tcg_gen_or_vec(vece, dst, lval, rval);
 -}
 -
 -void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_neg_vec, INDEX_op_shlv_vec,
 -        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_ushl_vec,
 -          .fno = gen_helper_gvec_ushl_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_ushl_vec,
 -          .fno = gen_helper_gvec_ushl_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_ushl_i32,
 -          .fniv = gen_ushl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_ushl_i64,
 -          .fniv = gen_ushl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 -{
 -    TCGv_i32 lval = tcg_temp_new_i32();
 -    TCGv_i32 rval = tcg_temp_new_i32();
 -    TCGv_i32 lsh = tcg_temp_new_i32();
 -    TCGv_i32 rsh = tcg_temp_new_i32();
 -    TCGv_i32 zero = tcg_constant_i32(0);
 -    TCGv_i32 max = tcg_constant_i32(31);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i32(lsh, shift);
 -    tcg_gen_neg_i32(rsh, lsh);
 -    tcg_gen_shl_i32(lval, src, lsh);
 -    tcg_gen_umin_i32(rsh, rsh, max);
 -    tcg_gen_sar_i32(rval, src, rsh);
 -    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
 -    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
 -}
 -
 -void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 -{
 -    TCGv_i64 lval = tcg_temp_new_i64();
 -    TCGv_i64 rval = tcg_temp_new_i64();
 -    TCGv_i64 lsh = tcg_temp_new_i64();
 -    TCGv_i64 rsh = tcg_temp_new_i64();
 -    TCGv_i64 zero = tcg_constant_i64(0);
 -    TCGv_i64 max = tcg_constant_i64(63);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i64(lsh, shift);
 -    tcg_gen_neg_i64(rsh, lsh);
 -    tcg_gen_shl_i64(lval, src, lsh);
 -    tcg_gen_umin_i64(rsh, rsh, max);
 -    tcg_gen_sar_i64(rval, src, rsh);
 -    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
 -    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
 -}
 -
 -static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
 -                         TCGv_vec src, TCGv_vec shift)
 -{
 -    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_neg_vec(vece, rsh, shift);
 -    if (vece == MO_8) {
 -        tcg_gen_mov_vec(lsh, shift);
 -    } else {
 -        tcg_gen_dupi_vec(vece, tmp, 0xff);
 -        tcg_gen_and_vec(vece, lsh, shift, tmp);
 -        tcg_gen_and_vec(vece, rsh, rsh, tmp);
 -    }
 -
 -    /* Bound rsh so out of bound right shift gets -1.  */
 -    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
 -    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
 -    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
 -
 -    tcg_gen_shlv_vec(vece, lval, src, lsh);
 -    tcg_gen_sarv_vec(vece, rval, src, rsh);
 -
 -    /* Select in-bound left shift.  */
 -    tcg_gen_andc_vec(vece, lval, lval, tmp);
 -
 -    /* Select between left and right shift.  */
 -    if (vece == MO_8) {
 -        tcg_gen_dupi_vec(vece, tmp, 0);
 -        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
 -    } else {
 -        tcg_gen_dupi_vec(vece, tmp, 0x80);
 -        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
 -    }
 -}
 -
 -void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
 -        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_sshl_vec,
 -          .fno = gen_helper_gvec_sshl_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_sshl_vec,
 -          .fno = gen_helper_gvec_sshl_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_sshl_i32,
 -          .fniv = gen_sshl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_sshl_i64,
 -          .fniv = gen_sshl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_add_vec(vece, x, a, b);
 -    tcg_gen_usadd_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_b,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_h,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_s,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_d,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_add_vec(vece, x, a, b);
 -    tcg_gen_ssadd_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_b,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_h,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_16 },
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_s,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_32 },
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_d,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_sub_vec(vece, x, a, b);
 -    tcg_gen_ussub_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_b,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_h,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_16 },
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_s,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_32 },
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_d,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_sub_vec(vece, x, a, b);
 -    tcg_gen_sssub_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_b,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_h,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_16 },
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_s,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_32 },
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_d,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    tcg_gen_sub_i32(t, a, b);
 -    tcg_gen_sub_i32(d, b, a);
 -    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
 -}
 -
 -static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_sub_i64(t, a, b);
 -    tcg_gen_sub_i64(d, b, a);
 -    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
 -}
 -
 -static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_smin_vec(vece, t, a, b);
 -    tcg_gen_smax_vec(vece, d, a, b);
 -    tcg_gen_sub_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_sabd_i32,
 -          .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_sabd_i64,
 -          .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    tcg_gen_sub_i32(t, a, b);
 -    tcg_gen_sub_i32(d, b, a);
 -    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
 -}
 -
 -static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_sub_i64(t, a, b);
 -    tcg_gen_sub_i64(d, b, a);
 -    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
 -}
 -
 -static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_umin_vec(vece, t, a, b);
 -    tcg_gen_umax_vec(vece, d, a, b);
 -    tcg_gen_sub_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_uabd_i32,
 -          .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_uabd_i64,
 -          .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -    gen_sabd_i32(t, a, b);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    gen_sabd_i64(t, a, b);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    gen_sabd_vec(vece, t, a, b);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_add_vec,
 -        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_saba_i32,
 -          .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_saba_i64,
 -          .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -    gen_uabd_i32(t, a, b);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    gen_uabd_i64(t, a, b);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    gen_uabd_vec(vece, t, a, b);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_add_vec,
 -        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_uaba_i32,
 -          .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_uaba_i64,
 -          .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
  static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
  {
      static const uint16_t mask[3] = {
 diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/meson.build
 +++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
  arm_ss.add(files(
    'cpu32.c',
 +  'gengvec.c',
    'translate.c',
    'translate-m-nocp.c',
    'translate-mve.c',
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 28/49] target/arm: Implement pauth_strip
+[PULL 14/42] target/arm: Split out gengvec64.c
 From: Richard Henderson <richard.henderson@linaro.org>
-Stripping out the authentication data does not require any crypto,
+Split some routines out of translate-a64.c and translate-sve.c
-it merely requires the virtual address parameters.
+that are used by both.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-25-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/pauth_helper.c | 14 +++++++++++++-
+ target/arm/tcg/translate-a64.h |   4 +
-file changed, 13 insertions(+), 1 deletion(-)
+ target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
  target/arm/tcg/translate-a64.c |  26 -----
  target/arm/tcg/translate-sve.c | 145 +------------------------
  target/arm/tcg/meson.build     |   1 +
 files changed, 197 insertions(+), 169 deletions(-)
  create mode 100644 target/arm/tcg/gengvec64.c
-diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
+diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/pauth_helper.c
+--- a/target/arm/tcg/translate-a64.h
-+++ b/target/arm/pauth_helper.c
++++ b/target/arm/tcg/translate-a64.h
-@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-     g_assert_not_reached(); /* FIXME */
+ void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                    uint32_t rm_ofs, int64_t shift,
                    uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
 +void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
  void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
  void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
 diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/target/arm/tcg/gengvec64.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + *  AArch64 generic vector expansion
 + *
 + *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2.1 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "translate.h"
 +#include "translate-a64.h"
 +
 +
 +static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
 +{
 +    tcg_gen_rotli_i64(d, m, 1);
 +    tcg_gen_xor_i64(d, d, n);
 +}
 +
 +static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
 +{
 +    tcg_gen_rotli_vec(vece, d, m, 1);
 +    tcg_gen_xor_vec(vece, d, d, n);
 +}
 +
 +void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
 +    static const GVecGen3 op = {
 +        .fni8 = gen_rax1_i64,
 +        .fniv = gen_rax1_vec,
 +        .opt_opc = vecop_list,
 +        .fno = gen_helper_crypto_rax1,
 +        .vece = MO_64,
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
 +}
 +
 +static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    uint64_t mask = dup_const(MO_8, 0xff >> sh);
 +
 +    tcg_gen_xor_i64(t, n, m);
 +    tcg_gen_shri_i64(d, t, sh);
 +    tcg_gen_shli_i64(t, t, 8 - sh);
 +    tcg_gen_andi_i64(d, d, mask);
 +    tcg_gen_andi_i64(t, t, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
 +
 +    tcg_gen_xor_i64(t, n, m);
 +    tcg_gen_shri_i64(d, t, sh);
 +    tcg_gen_shli_i64(t, t, 16 - sh);
 +    tcg_gen_andi_i64(d, d, mask);
 +    tcg_gen_andi_i64(t, t, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
 +{
 +    tcg_gen_xor_i32(d, n, m);
 +    tcg_gen_rotri_i32(d, d, sh);
 +}
 +
 +static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    tcg_gen_xor_i64(d, n, m);
 +    tcg_gen_rotri_i64(d, d, sh);
 +}
 +
 +static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                        TCGv_vec m, int64_t sh)
 +{
 +    tcg_gen_xor_vec(vece, d, n, m);
 +    tcg_gen_rotri_vec(vece, d, d, sh);
 +}
 +
 +void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                  uint32_t rm_ofs, int64_t shift,
 +                  uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
 +    static const GVecGen3i ops[4] = {
 +        { .fni8 = gen_xar8_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_b,
 +          .opt_opc = vecop,
 +          .vece = MO_8 },
 +        { .fni8 = gen_xar16_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_h,
 +          .opt_opc = vecop,
 +          .vece = MO_16 },
 +        { .fni4 = gen_xar_i32,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_s,
 +          .opt_opc = vecop,
 +          .vece = MO_32 },
 +        { .fni8 = gen_xar_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_gvec_xar_d,
 +          .opt_opc = vecop,
 +          .vece = MO_64 }
 +    };
 +    int esize = 8 << vece;
 +
 +    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
 +    tcg_debug_assert(shift >= 0);
 +    tcg_debug_assert(shift <= esize);
 +    shift &= esize - 1;
 +
 +    if (shift == 0) {
 +        /* xar with no rotate devolves to xor. */
 +        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
 +                        shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 +{
 +    tcg_gen_xor_i64(d, n, m);
 +    tcg_gen_xor_i64(d, d, k);
 +}
 +
 +static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                         TCGv_vec m, TCGv_vec k)
 +{
 +    tcg_gen_xor_vec(vece, d, n, m);
 +    tcg_gen_xor_vec(vece, d, d, k);
 +}
 +
 +void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_eor3_i64,
 +        .fniv = gen_eor3_vec,
 +        .fno = gen_helper_sve2_eor3,
 +        .vece = MO_64,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 +}
 +
 +static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 +{
 +    tcg_gen_andc_i64(d, m, k);
 +    tcg_gen_xor_i64(d, d, n);
 +}
 +
 +static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                         TCGv_vec m, TCGv_vec k)
 +{
 +    tcg_gen_andc_vec(vece, d, m, k);
 +    tcg_gen_xor_vec(vece, d, d, n);
 +}
 +
 +void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_bcax_i64,
 +        .fniv = gen_bcax_vec,
 +        .fno = gen_helper_sve2_bcax,
 +        .vece = MO_64,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 +}
 +
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
      gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
  }
-+static uint64_t pauth_original_ptr(uint64_t ptr, ARMVAParameters param)
+-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
-+{
+-{
-+    uint64_t extfield = -param.select;
+-    tcg_gen_rotli_i64(d, m, 1);
-+    int bot_pac_bit = 64 - param.tsz;
+-    tcg_gen_xor_i64(d, d, n);
-+    int top_pac_bit = 64 - 8 * param.tbi;
+-}
-+
+-
-+    return deposit64(ptr, bot_pac_bit, top_pac_bit - bot_pac_bit, extfield);
+-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
-+}
+-{
-+
+-    tcg_gen_rotli_vec(vece, d, m, 1);
- static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
+-    tcg_gen_xor_vec(vece, d, d, n);
-                            ARMPACKey *key, bool data, int keynumber)
+-}
 -
 -void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
 -    static const GVecGen3 op = {
 -        .fni8 = gen_rax1_i64,
 -        .fniv = gen_rax1_vec,
 -        .opt_opc = vecop_list,
 -        .fno = gen_helper_crypto_rax1,
 -        .vece = MO_64,
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
 -}
 -
  /* Crypto three-reg SHA512
   *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
   * +-----------------------+------+---+---+-----+--------+------+------+
 diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-sve.c
 +++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
  TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
  TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
 -static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    uint64_t mask = dup_const(MO_8, 0xff >> sh);
 -
 -    tcg_gen_xor_i64(t, n, m);
 -    tcg_gen_shri_i64(d, t, sh);
 -    tcg_gen_shli_i64(t, t, 8 - sh);
 -    tcg_gen_andi_i64(d, d, mask);
 -    tcg_gen_andi_i64(t, t, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
 -
 -    tcg_gen_xor_i64(t, n, m);
 -    tcg_gen_shri_i64(d, t, sh);
 -    tcg_gen_shli_i64(t, t, 16 - sh);
 -    tcg_gen_andi_i64(d, d, mask);
 -    tcg_gen_andi_i64(t, t, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
 -{
 -    tcg_gen_xor_i32(d, n, m);
 -    tcg_gen_rotri_i32(d, d, sh);
 -}
 -
 -static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    tcg_gen_xor_i64(d, n, m);
 -    tcg_gen_rotri_i64(d, d, sh);
 -}
 -
 -static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                        TCGv_vec m, int64_t sh)
 -{
 -    tcg_gen_xor_vec(vece, d, n, m);
 -    tcg_gen_rotri_vec(vece, d, d, sh);
 -}
 -
 -void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                  uint32_t rm_ofs, int64_t shift,
 -                  uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
 -    static const GVecGen3i ops[4] = {
 -        { .fni8 = gen_xar8_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_b,
 -          .opt_opc = vecop,
 -          .vece = MO_8 },
 -        { .fni8 = gen_xar16_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_h,
 -          .opt_opc = vecop,
 -          .vece = MO_16 },
 -        { .fni4 = gen_xar_i32,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_s,
 -          .opt_opc = vecop,
 -          .vece = MO_32 },
 -        { .fni8 = gen_xar_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_gvec_xar_d,
 -          .opt_opc = vecop,
 -          .vece = MO_64 }
 -    };
 -    int esize = 8 << vece;
 -
 -    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
 -    tcg_debug_assert(shift >= 0);
 -    tcg_debug_assert(shift <= esize);
 -    shift &= esize - 1;
 -
 -    if (shift == 0) {
 -        /* xar with no rotate devolves to xor. */
 -        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
 -                        shift, &ops[vece]);
 -    }
 -}
 -
  static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
  {
-@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
+     if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
+@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
- static uint64_t pauth_strip(CPUARMState *env, uint64_t ptr, bool data)
+     return true;
  {
 -    g_assert_not_reached(); /* FIXME */
 +    ARMMMUIdx mmu_idx = arm_stage1_mmu_idx(env);
 +    ARMVAParameters param = aa64_va_parameters(env, ptr, mmu_idx, data);
 +
 +    return pauth_original_ptr(ptr, param);
  }
- static void QEMU_NORETURN pauth_trap(CPUARMState *env, int target_el,
+-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 -{
 -    tcg_gen_xor_i64(d, n, m);
 -    tcg_gen_xor_i64(d, d, k);
 -}
 -
 -static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                         TCGv_vec m, TCGv_vec k)
 -{
 -    tcg_gen_xor_vec(vece, d, n, m);
 -    tcg_gen_xor_vec(vece, d, d, k);
 -}
 -
 -static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 -                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen4 op = {
 -        .fni8 = gen_eor3_i64,
 -        .fniv = gen_eor3_vec,
 -        .fno = gen_helper_sve2_eor3,
 -        .vece = MO_64,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -    };
 -    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 -}
 -
 -TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
 -
 -static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 -{
 -    tcg_gen_andc_i64(d, m, k);
 -    tcg_gen_xor_i64(d, d, n);
 -}
 -
 -static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                         TCGv_vec m, TCGv_vec k)
 -{
 -    tcg_gen_andc_vec(vece, d, m, k);
 -    tcg_gen_xor_vec(vece, d, d, n);
 -}
 -
 -static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 -                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen4 op = {
 -        .fni8 = gen_bcax_i64,
 -        .fniv = gen_bcax_vec,
 -        .fno = gen_helper_sve2_bcax,
 -        .vece = MO_64,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -    };
 -    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 -}
 -
 -TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
 +TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
 +TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
  static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
                      uint32_t a, uint32_t oprsz, uint32_t maxsz)
 diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/meson.build
 +++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
  arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
    'cpu64.c',
 +  'gengvec64.c',
    'translate-a64.c',
    'translate-sve.c',
    'translate-sme.c',
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 04/49] ftgmac100: implement the new MDIO interface on Aspeed SoC
+[PULL 15/42] target/arm: Convert Cryptographic AES to decodetree
-From: Cédric Le Goater <clg@kaod.org>
+From: Richard Henderson <richard.henderson@linaro.org>
-The PHY behind the MAC of an Aspeed SoC can be controlled using two
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-different MDC/MDIO interfaces. The same registers PHYCR (MAC60) and
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-PHYDATA (MAC64) are involved but they have a different layout.
+Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
 BIT31 of the Feature Register (MAC40) controls which MDC/MDIO
 interface is active.
 Signed-off-by: Cédric Le Goater <clg@kaod.org>
 Reviewed-by: Andrew Jeffery <andrew@aj.id.au>
 Reviewed-by: Joel Stanley <joel@jms.id.au>
 Message-id: 20190111125759.31577-1-clg@kaod.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/net/ftgmac100.c | 80 +++++++++++++++++++++++++++++++++++++++-------
+ target/arm/tcg/a64.decode      | 21 +++++++--
-file changed, 68 insertions(+), 12 deletions(-)
+ target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
 files changed, 54 insertions(+), 53 deletions(-)
-diff --git a/hw/net/ftgmac100.c b/hw/net/ftgmac100.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/hw/net/ftgmac100.c
+--- a/target/arm/tcg/a64.decode
-+++ b/hw/net/ftgmac100.c
++++ b/target/arm/tcg/a64.decode
 @@ -XXX,XX +XXX,XX @@
- #define FTGMAC100_PHYDATA_MIIWDATA(x)       ((x) & 0xffff)
+ # This file is processed by scripts/decodetree.py
- #define FTGMAC100_PHYDATA_MIIRDATA(x)       (((x) >> 16) & 0xffff)
+ #
 -&r               rn
 -&ri              rd imm
 -&rri_sf          rd rn imm sf
 -&i               imm
 +%rd             0:5
 +&r              rn
 +&ri             rd imm
 +&rri_sf         rd rn imm sf
 +&i              imm
 +&qrr_e          q rd rn esz
 +&qrrr_e         q rd rn rm esz
 +
 +@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 +@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
  CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
  CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
  CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
 +
 +### Cryptographic AES
 +
 +AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
 +AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
 +AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
 +AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
      return true;
  }
 +/*
-+ * PHY control register - New MDC/MDIO interface
++ * Expanders for AdvSIMD translation functions.
 + */
-+#define FTGMAC100_PHYCR_NEW_DATA(x)     (((x) >> 16) & 0xffff)
++
-+#define FTGMAC100_PHYCR_NEW_FIRE        (1 << 15)
++static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
-+#define FTGMAC100_PHYCR_NEW_ST_22       (1 << 12)
++                            gen_helper_gvec_2 *fn)
-+#define FTGMAC100_PHYCR_NEW_OP(x)       (((x) >> 10) & 3)
++{
-+#define   FTGMAC100_PHYCR_NEW_OP_WRITE    0x1
++    if (!a->q && a->esz == MO_64) {
-+#define   FTGMAC100_PHYCR_NEW_OP_READ     0x2
++        return false;
-+#define FTGMAC100_PHYCR_NEW_DEV(x)      (((x) >> 5) & 0x1f)
++    }
-+#define FTGMAC100_PHYCR_NEW_REG(x)      ((x) & 0x1f)
++    if (fp_access_check(s)) {
 +        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
 +    }
 +    return true;
 +}
 +
 +static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
 +                            gen_helper_gvec_3 *fn)
 +{
 +    if (!a->q && a->esz == MO_64) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
 +    }
 +    return true;
 +}
 +
  /*
-  * Feature Register
+  * This utility function is for doing register extension with an
-  */
+  * optional shift. You will likely want to pass a temporary for the
-@@ -XXX,XX +XXX,XX @@ static void phy_reset(FTGMAC100State *s)
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
-     s->phy_int = 0;
+     return true;
  }
--static uint32_t do_phy_read(FTGMAC100State *s, int reg)
++/*
-+static uint16_t do_phy_read(FTGMAC100State *s, uint8_t reg)
++ * Cryptographic AES
- {
++ */
--    uint32_t val;
++
-+    uint16_t val;
++TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
++TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
-     switch (reg) {
++TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
-     case MII_BMCR: /* Basic Control */
++TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
-@@ -XXX,XX +XXX,XX @@ static uint32_t do_phy_read(FTGMAC100State *s, int reg)
++
-                        MII_BMCR_FD | MII_BMCR_CTST)
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
- #define MII_ANAR_MASK 0x2d7f
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
--static void do_phy_write(FTGMAC100State *s, int reg, uint32_t val)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
 +static void do_phy_write(FTGMAC100State *s, uint8_t reg, uint16_t val)
  {
      switch (reg) {
      case MII_BMCR:     /* Basic Control */
@@ -XXX,XX +XXX,XX @@ static void do_phy_write(FTGMAC100State *s, int reg, uint32_t val)
      }
  }
-+static void do_phy_new_ctl(FTGMAC100State *s)
+-/* Crypto AES
-+{
+- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
-+    uint8_t reg;
+- * +-----------------+------+-----------+--------+-----+------+------+
-+    uint16_t data;
+- * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
-+
+- * +-----------------+------+-----------+--------+-----+------+------+
-+    if (!(s->phycr & FTGMAC100_PHYCR_NEW_ST_22)) {
+- */
-+        qemu_log_mask(LOG_UNIMP, "%s: unsupported ST code\n", __func__);
+-static void disas_crypto_aes(DisasContext *s, uint32_t insn)
-+        return;
+-{
-+    }
+-    int size = extract32(insn, 22, 2);
-+
+-    int opcode = extract32(insn, 12, 5);
-+    /* Nothing to do */
+-    int rn = extract32(insn, 5, 5);
-+    if (!(s->phycr & FTGMAC100_PHYCR_NEW_FIRE)) {
+-    int rd = extract32(insn, 0, 5);
-+        return;
+-    gen_helper_gvec_2 *genfn2 = NULL;
-+    }
+-    gen_helper_gvec_3 *genfn3 = NULL;
-+
+-
-+    reg = FTGMAC100_PHYCR_NEW_REG(s->phycr);
+-    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
-+    data = FTGMAC100_PHYCR_NEW_DATA(s->phycr);
+-        unallocated_encoding(s);
-+
+-        return;
-+    switch (FTGMAC100_PHYCR_NEW_OP(s->phycr)) {
+-    }
-+    case FTGMAC100_PHYCR_NEW_OP_WRITE:
+-
-+        do_phy_write(s, reg, data);
+-    switch (opcode) {
-+        break;
+-    case 0x4: /* AESE */
-+    case FTGMAC100_PHYCR_NEW_OP_READ:
+-        genfn3 = gen_helper_crypto_aese;
-+        s->phydata = do_phy_read(s, reg) & 0xffff;
+-        break;
-+        break;
+-    case 0x6: /* AESMC */
-+    default:
+-        genfn2 = gen_helper_crypto_aesmc;
-+        qemu_log_mask(LOG_GUEST_ERROR, "%s: invalid OP code %08x\n",
+-        break;
-+                      __func__, s->phycr);
+-    case 0x5: /* AESD */
-+    }
+-        genfn3 = gen_helper_crypto_aesd;
-+
+-        break;
-+    s->phycr &= ~FTGMAC100_PHYCR_NEW_FIRE;
+-    case 0x7: /* AESIMC */
-+}
+-        genfn2 = gen_helper_crypto_aesimc;
-+
+-        break;
-+static void do_phy_ctl(FTGMAC100State *s)
+-    default:
-+{
+-        unallocated_encoding(s);
-+    uint8_t reg = FTGMAC100_PHYCR_REG(s->phycr);
+-        return;
-+
+-    }
-+    if (s->phycr & FTGMAC100_PHYCR_MIIWR) {
+-
-+        do_phy_write(s, reg, s->phydata & 0xffff);
+-    if (!fp_access_check(s)) {
-+        s->phycr &= ~FTGMAC100_PHYCR_MIIWR;
+-        return;
-+    } else if (s->phycr & FTGMAC100_PHYCR_MIIRD) {
+-    }
-+        s->phydata = do_phy_read(s, reg) << 16;
+-    if (genfn2) {
-+        s->phycr &= ~FTGMAC100_PHYCR_MIIRD;
+-        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
-+    } else {
+-    } else {
-+        qemu_log_mask(LOG_GUEST_ERROR, "%s: no OP code %08x\n",
+-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
-+                      __func__, s->phycr);
+-    }
-+    }
+-}
-+}
+-
-+
+ /* Crypto three-reg SHA
- static int ftgmac100_read_bd(FTGMAC100Desc *bd, dma_addr_t addr)
+  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
- {
+  * +-----------------+------+---+------+---+--------+-----+------+------+
-     if (dma_memory_read(&address_space_memory, addr, bd, sizeof(*bd))) {
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-@@ -XXX,XX +XXX,XX @@ static void ftgmac100_write(void *opaque, hwaddr addr,
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
-                           uint64_t value, unsigned size)
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
- {
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-     FTGMAC100State *s = FTGMAC100(opaque);
+-    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
--    int reg;
+     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
+     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
-     switch (addr & 0xff) {
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
      case FTGMAC100_ISR: /* Interrupt status */
@@ -XXX,XX +XXX,XX @@ static void ftgmac100_write(void *opaque, hwaddr addr,
          break;
      case FTGMAC100_PHYCR:  /* PHY Device control */
 -        reg = FTGMAC100_PHYCR_REG(value);
          s->phycr = value;
 -        if (value & FTGMAC100_PHYCR_MIIWR) {
 -            do_phy_write(s, reg, s->phydata & 0xffff);
 -            s->phycr &= ~FTGMAC100_PHYCR_MIIWR;
 +        if (s->revr & FTGMAC100_REVR_NEW_MDIO_INTERFACE) {
 +            do_phy_new_ctl(s);
          } else {
 -            s->phydata = do_phy_read(s, reg) << 16;
 -            s->phycr &= ~FTGMAC100_PHYCR_MIIRD;
 +            do_phy_ctl(s);
          }
          break;
      case FTGMAC100_PHYDATA:
@@ -XXX,XX +XXX,XX @@ static void ftgmac100_write(void *opaque, hwaddr addr,
          s->dblac = value;
          break;
      case FTGMAC100_REVR:  /* Feature Register */
 -        /* TODO: Only Old MDIO interface is supported */
 -        s->revr = value & ~FTGMAC100_REVR_NEW_MDIO_INTERFACE;
 +        s->revr = value;
          break;
      case FTGMAC100_FEAR1: /* Feature Register 1 */
          s->fear1 = value;
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 35/49] target/arm: Tidy TBI handling in gen_a64_set_pc
+[PULL 16/42] target/arm: Convert Cryptographic 3-register SHA to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-We can perform this with fewer operations.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-32-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 62 +++++++++++++-------------------------
+ target/arm/tcg/a64.decode      | 11 +++++
-file changed, 21 insertions(+), 41 deletions(-)
+ target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
 files changed, 21 insertions(+), 68 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ void gen_a64_set_pc_im(uint64_t val)
+@@ -XXX,XX +XXX,XX @@
- /* Load the PC from a generic TCG variable.
-  *
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
-  * If address tagging is enabled via the TCR TBI bits, then loading
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
-- * an address into the PC will clear out any tag in the it:
++@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
-+ * an address into the PC will clear out any tag in it:
-  *  + for EL2 and EL3 there is only one TBI bit, and if it is set
+ ### Data Processing - Immediate
-  *    then the address is zero-extended, clearing bits [63:56]
-  *  + for EL0 and EL1, TBI0 controls addresses with bit 55 == 0
+@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
-@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
+ AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
-     int tbi = s->tbii;
+ AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
+ AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
-     if (s->current_el <= 1) {
++
--        /* Test if NEITHER or BOTH TBI values are set.  If so, no need to
++### Cryptographic three-register SHA
--         * examine bit 55 of address, can just generate code.
++
--         * If mixed, then test via generated code
++SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
--         */
++SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
--        if (tbi == 3) {
++SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
--            TCGv_i64 tmp_reg = tcg_temp_new_i64();
++SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
--            /* Both bits set, sign extension from bit 55 into [63:56] will
++SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
--             * cover both cases
++SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
--             */
++SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
--            tcg_gen_shli_i64(tmp_reg, src, 8);
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
--            tcg_gen_sari_i64(cpu_pc, tmp_reg, 8);
+index XXXXXXX..XXXXXXX 100644
--            tcg_temp_free_i64(tmp_reg);
+--- a/target/arm/tcg/translate-a64.c
--        } else if (tbi == 0) {
++++ b/target/arm/tcg/translate-a64.c
--            /* Neither bit set, just load it as-is */
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
--            tcg_gen_mov_i64(cpu_pc, src);
+ }
--        } else {
--            TCGv_i64 tcg_tmpval = tcg_temp_new_i64();
+ /*
--            TCGv_i64 tcg_bit55  = tcg_temp_new_i64();
+- * Cryptographic AES
--            TCGv_i64 tcg_zero   = tcg_const_i64(0);
++ * Cryptographic AES, SHA
-+        if (tbi != 0) {
+  */
-+            /* Sign-extend from bit 55.  */
-+            tcg_gen_sextract_i64(cpu_pc, src, 0, 56);
+ TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
--            tcg_gen_andi_i64(tcg_bit55, src, (1ull << 55));
+ TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
-+            if (tbi != 3) {
+ TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
-+                TCGv_i64 tcg_zero = tcg_const_i64(0);
++TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
--            if (tbi == 1) {
++TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
--                /* tbi0==1, tbi1==0, so 0-fill upper byte if bit 55 = 0 */
++TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
--                tcg_gen_andi_i64(tcg_tmpval, src,
++TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
--                                 0x00FFFFFFFFFFFFFFull);
++
--                tcg_gen_movcond_i64(TCG_COND_EQ, cpu_pc, tcg_bit55, tcg_zero,
++TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
--                                    tcg_tmpval, src);
++TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
--            } else {
++TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
--                /* tbi0==0, tbi1==1, so 1-fill upper byte if bit 55 = 1 */
++
--                tcg_gen_ori_i64(tcg_tmpval, src,
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
--                                0xFF00000000000000ull);
+  * Note that it is the caller's responsibility to ensure that the
--                tcg_gen_movcond_i64(TCG_COND_NE, cpu_pc, tcg_bit55, tcg_zero,
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
--                                    tcg_tmpval, src);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
 +                /*
 +                 * The two TBI bits differ.
 +                 * If tbi0, then !tbi1: only use the extension if positive.
 +                 * if !tbi0, then tbi1: only use the extension if negative.
 +                 */
 +                tcg_gen_movcond_i64(tbi == 1 ? TCG_COND_GE : TCG_COND_LT,
 +                                    cpu_pc, cpu_pc, tcg_zero, cpu_pc, src);
 +                tcg_temp_free_i64(tcg_zero);
              }
 -            tcg_temp_free_i64(tcg_zero);
 -            tcg_temp_free_i64(tcg_bit55);
 -            tcg_temp_free_i64(tcg_tmpval);
 +            return;
          }
 -    } else {  /* EL > 1 */
 +    } else {
          if (tbi != 0) {
              /* Force tag byte to all zero */
 -            tcg_gen_andi_i64(cpu_pc, src, 0x00FFFFFFFFFFFFFFull);
 -        } else {
 -            /* Load unmodified address */
 -            tcg_gen_mov_i64(cpu_pc, src);
 +            tcg_gen_extract_i64(cpu_pc, src, 0, 56);
 +            return;
          }
      }
-+
-+    /* Load unmodified address */
-+    tcg_gen_mov_i64(cpu_pc, src);
  }
- typedef struct DisasCompare64 {
+-/* Crypto three-reg SHA
 - *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
 - * +-----------------+------+---+------+---+--------+-----+------+------+
 - * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
 - * +-----------------+------+---+------+---+--------+-----+------+------+
 - */
 -static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
 -{
 -    int size = extract32(insn, 22, 2);
 -    int opcode = extract32(insn, 12, 3);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    gen_helper_gvec_3 *genfn;
 -    bool feature;
 -
 -    if (size != 0) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (opcode) {
 -    case 0: /* SHA1C */
 -        genfn = gen_helper_crypto_sha1c;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 1: /* SHA1P */
 -        genfn = gen_helper_crypto_sha1p;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 2: /* SHA1M */
 -        genfn = gen_helper_crypto_sha1m;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 3: /* SHA1SU0 */
 -        genfn = gen_helper_crypto_sha1su0;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 4: /* SHA256H */
 -        genfn = gen_helper_crypto_sha256h;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    case 5: /* SHA256H2 */
 -        genfn = gen_helper_crypto_sha256h2;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    case 6: /* SHA256SU1 */
 -        genfn = gen_helper_crypto_sha256su1;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
 -}
 -
  /* Crypto two-reg SHA
   *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
   * +-----------------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
      { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
      { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
      { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 30/49] target/arm: Implement pauth_addpac
+[PULL 17/42] target/arm: Convert Cryptographic 2-register SHA to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This is not really functional yet, because the crypto is not yet
-implemented.  This, however follows the AddPAC pseudo function.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-27-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/pauth_helper.c | 42 ++++++++++++++++++++++++++++++++++++++-
+ target/arm/tcg/a64.decode      |  6 ++++
-file changed, 41 insertions(+), 1 deletion(-)
+ target/arm/tcg/translate-a64.c | 54 +++-------------------------------
 files changed, 10 insertions(+), 50 deletions(-)
-diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/pauth_helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/pauth_helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_computepac(uint64_t data, uint64_t modifier,
+@@ -XXX,XX +XXX,XX @@ SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
- static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
+ SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
-                              ARMPACKey *key, bool data)
+ SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
- {
+ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
 -    g_assert_not_reached(); /* FIXME */
 +    ARMMMUIdx mmu_idx = arm_stage1_mmu_idx(env);
 +    ARMVAParameters param = aa64_va_parameters(env, ptr, mmu_idx, data);
 +    uint64_t pac, ext_ptr, ext, test;
 +    int bot_bit, top_bit;
 +
-+    /* If tagged pointers are in use, use ptr<55>, otherwise ptr<63>.  */
++### Cryptographic two-register SHA
 +    if (param.tbi) {
 +        ext = sextract64(ptr, 55, 1);
 +    } else {
 +        ext = sextract64(ptr, 63, 1);
 +    }
 +
-+    /* Build a pointer with known good extension bits.  */
++SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
-+    top_bit = 64 - 8 * param.tbi;
++SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
-+    bot_bit = 64 - param.tsz;
++SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
-+    ext_ptr = deposit64(ptr, bot_bit, top_bit - bot_bit, ext);
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256
  TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
  TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
 +TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
 +TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
 +TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
 +
-+    pac = pauth_computepac(ext_ptr, modifier, *key);
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+
+  * Note that it is the caller's responsibility to ensure that the
-+    /*
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-+     * Check if the ptr has good extension bits and corrupt the
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-+     * pointer authentication code if not.
+     }
 +     */
 +    test = sextract64(ptr, bot_bit, top_bit - bot_bit);
 +    if (test != 0 && test != -1) {
 +        pac ^= MAKE_64BIT_MASK(top_bit - 1, 1);
 +    }
 +
 +    /*
 +     * Preserve the determination between upper and lower at bit 55,
 +     * and insert pointer authentication code.
 +     */
 +    if (param.tbi) {
 +        ptr &= ~MAKE_64BIT_MASK(bot_bit, 55 - bot_bit + 1);
 +        pac &= MAKE_64BIT_MASK(bot_bit, 54 - bot_bit + 1);
 +    } else {
 +        ptr &= MAKE_64BIT_MASK(0, bot_bit);
 +        pac &= ~(MAKE_64BIT_MASK(55, 1) | MAKE_64BIT_MASK(0, bot_bit));
 +    }
 +    ext &= MAKE_64BIT_MASK(55, 1);
 +    return pac | ext | ptr;
  }
- static uint64_t pauth_original_ptr(uint64_t ptr, ARMVAParameters param)
+-/* Crypto two-reg SHA
 - *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
 - * +-----------------+------+-----------+--------+-----+------+------+
 - * | 0 1 0 1 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
 - * +-----------------+------+-----------+--------+-----+------+------+
 - */
 -static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
 -{
 -    int size = extract32(insn, 22, 2);
 -    int opcode = extract32(insn, 12, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    gen_helper_gvec_2 *genfn;
 -    bool feature;
 -
 -    if (size != 0) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (opcode) {
 -    case 0: /* SHA1H */
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        genfn = gen_helper_crypto_sha1h;
 -        break;
 -    case 1: /* SHA1SU1 */
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        genfn = gen_helper_crypto_sha1su1;
 -        break;
 -    case 2: /* SHA256SU0 */
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        genfn = gen_helper_crypto_sha256su0;
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -    gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
 -}
 -
  /* Crypto three-reg SHA512
   *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
   * +-----------------------+------+---+---+-----+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
      { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
      { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
      { 0xce000000, 0xff808000, disas_crypto_four_reg },
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 48/49] target/arm: Implement PMSWINC
+[PULL 18/42] target/arm: Convert Cryptographic 3-register SHA512 to decodetree
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181211151945.29137-14-aaron@os.amperecomputing.com
+Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 39 +++++++++++++++++++++++++++++++++++++--
+ target/arm/tcg/a64.decode      | 11 ++++
-file changed, 37 insertions(+), 2 deletions(-)
+ target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
 files changed, 32 insertions(+), 76 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static bool event_always_supported(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@
  @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
  @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 +@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
  SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
  SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
  SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
 +
 +### Cryptographic three-register SHA512
 +
 +SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
 +SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
 +SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
 +RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
 +SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
 +SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
 +SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
      return true;
  }
-+static uint64_t swinc_get_count(CPUARMState *env)
++static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
 +{
-+    /*
++    if (!a->q && a->esz == MO_64) {
-+     * SW_INCR events are written directly to the pmevcntr's by writes to
++        return false;
-+     * PMSWINC, so there is no underlying count maintained by the PMU itself
++    }
-+     */
++    if (fp_access_check(s)) {
-+    return 0;
++        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
 +    }
 +    return true;
 +}
 +
  /*
-  * Return the underlying cycle count for the PMU cycle counters. If we're in
+  * This utility function is for doing register extension with an
-  * usermode, simply return 0.
+  * optional shift. You will likely want to pass a temporary for the
-@@ -XXX,XX +XXX,XX @@ static uint64_t instructions_get_count(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
  #endif
  static const pm_event pm_events[] = {
 +    { .number = 0x000, /* SW_INCR */
 +      .supported = event_always_supported,
 +      .get_count = swinc_get_count,
 +    },
  #ifndef CONFIG_USER_ONLY
      { .number = 0x008, /* INST_RETIRED, Instruction architecturally executed */
        .supported = instructions_supported,
@@ -XXX,XX +XXX,XX @@ static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
      pmu_op_finish(env);
  }
-+static void pmswinc_write(CPUARMState *env, const ARMCPRegInfo *ri,
+ /*
-+                          uint64_t value)
+- * Cryptographic AES, SHA
-+{
++ * Cryptographic AES, SHA, SHA512
-+    unsigned int i;
+  */
-+    for (i = 0; i < pmu_num_counters(env); i++) {
-+        /* Increment a counter's count iff: */
+ TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
-+        if ((value & (1 << i)) && /* counter's bit is set */
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
-+                /* counter is enabled and not filtered */
+ TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
-+                pmu_counter_enabled(env, i) &&
+ TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
-+                /* counter is SW_INCR */
-+                (env->cp15.c14_pmevtyper[i] & PMXEVTYPER_EVTCOUNT) == 0x0) {
++TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
-+            pmevcntr_op_start(env, i);
++TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
-+            env->cp15.c14_pmevcntr[i]++;
++TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
-+            pmevcntr_op_finish(env, i);
++TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
-+        }
++TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
-+    }
++TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
-+}
++TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 +
- static uint64_t pmccntr_read(CPUARMState *env, const ARMCPRegInfo *ri)
++
- {
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-     uint64_t ret;
+  * Note that it is the caller's responsibility to ensure that the
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-       .fieldoffset = offsetof(CPUARMState, cp15.c9_pmovsr),
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-       .writefn = pmovsr_write,
+     }
-       .raw_writefn = raw_write },
+ }
--    /* Unimplemented so WI. */
-     { .name = "PMSWINC", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 4,
+-/* Crypto three-reg SHA512
--      .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NOP },
+- *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
-+      .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NO_RAW,
+- * +-----------------------+------+---+---+-----+--------+------+------+
-+      .writefn = pmswinc_write },
+- * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
-+    { .name = "PMSWINC_EL0", .state = ARM_CP_STATE_AA64,
+- * +-----------------------+------+---+---+-----+--------+------+------+
-+      .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 12, .opc2 = 4,
+- */
-+      .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NO_RAW,
+-static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
-+      .writefn = pmswinc_write },
+-{
-     { .name = "PMSELR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 5,
+-    int opcode = extract32(insn, 10, 2);
-       .access = PL0_RW, .type = ARM_CP_ALIAS,
+-    int o =  extract32(insn, 14, 1);
-       .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmselr),
+-    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    bool feature;
 -    gen_helper_gvec_3 *oolfn = NULL;
 -    GVecGen3Fn *gvecfn = NULL;
 -
 -    if (o == 0) {
 -        switch (opcode) {
 -        case 0: /* SHA512H */
 -            feature = dc_isar_feature(aa64_sha512, s);
 -            oolfn = gen_helper_crypto_sha512h;
 -            break;
 -        case 1: /* SHA512H2 */
 -            feature = dc_isar_feature(aa64_sha512, s);
 -            oolfn = gen_helper_crypto_sha512h2;
 -            break;
 -        case 2: /* SHA512SU1 */
 -            feature = dc_isar_feature(aa64_sha512, s);
 -            oolfn = gen_helper_crypto_sha512su1;
 -            break;
 -        case 3: /* RAX1 */
 -            feature = dc_isar_feature(aa64_sha3, s);
 -            gvecfn = gen_gvec_rax1;
 -            break;
 -        default:
 -            g_assert_not_reached();
 -        }
 -    } else {
 -        switch (opcode) {
 -        case 0: /* SM3PARTW1 */
 -            feature = dc_isar_feature(aa64_sm3, s);
 -            oolfn = gen_helper_crypto_sm3partw1;
 -            break;
 -        case 1: /* SM3PARTW2 */
 -            feature = dc_isar_feature(aa64_sm3, s);
 -            oolfn = gen_helper_crypto_sm3partw2;
 -            break;
 -        case 2: /* SM4EKEY */
 -            feature = dc_isar_feature(aa64_sm4, s);
 -            oolfn = gen_helper_crypto_sm4ekey;
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    if (oolfn) {
 -        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
 -    } else {
 -        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
 -    }
 -}
 -
  /* Crypto two-reg SHA512
   *  31                                     12  11  10  9    5 4    0
   * +-----------------------------------------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
      { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
      { 0xce000000, 0xff808000, disas_crypto_four_reg },
      { 0xce800000, 0xffe00000, disas_crypto_xar },
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 15/49] target/arm: Add new_pc argument to helper_exception_return
+[PULL 19/42] target/arm: Convert Cryptographic 2-register SHA512 to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-12-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-a64.h    |  2 +-
+ target/arm/tcg/a64.decode      |  5 ++++
- target/arm/helper-a64.c    | 10 +++++-----
+ target/arm/tcg/translate-a64.c | 50 ++--------------------------------
- target/arm/translate-a64.c |  7 ++++++-
+files changed, 8 insertions(+), 47 deletions(-)
 files changed, 12 insertions(+), 7 deletions(-)
-diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/helper-a64.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(advsimd_f16tosinth, i32, f16, ptr)
+@@ -XXX,XX +XXX,XX @@ RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
- DEF_HELPER_2(advsimd_f16touinth, i32, f16, ptr)
+ SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
- DEF_HELPER_2(sqrt_f16, f16, f16, ptr)
+ SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
+ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
--DEF_HELPER_1(exception_return, void, env)
++
-+DEF_HELPER_2(exception_return, void, env, i64)
++### Cryptographic two-register SHA512
++
- DEF_HELPER_FLAGS_3(pacia, TCG_CALL_NO_WG, i64, env, i64, i64)
++SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
- DEF_HELPER_FLAGS_3(pacib, TCG_CALL_NO_WG, i64, env, i64, i64)
++SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
-diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/helper-a64.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static int el_from_spsr(uint32_t spsr)
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3part
  TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
  TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 +TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
 +TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
--void HELPER(exception_return)(CPUARMState *env)
+-/* Crypto two-reg SHA512
-+void HELPER(exception_return)(CPUARMState *env, uint64_t new_pc)
+- *  31                                     12  11  10  9    5 4    0
- {
+- * +-----------------------------------------+--------+------+------+
-     int cur_el = arm_current_el(env);
+- * | 1 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 | opcode |  Rn  |  Rd  |
-     unsigned int spsr_idx = aarch64_banked_spsr_index(cur_el);
+- * +-----------------------------------------+--------+------+------+
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env)
+- */
-         aarch64_sync_64_to_32(env);
+-static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
+-{
-         if (spsr & CPSR_T) {
+-    int opcode = extract32(insn, 10, 2);
--            env->regs[15] = env->elr_el[cur_el] & ~0x1;
+-    int rn = extract32(insn, 5, 5);
-+            env->regs[15] = new_pc & ~0x1;
+-    int rd = extract32(insn, 0, 5);
-         } else {
+-    bool feature;
--            env->regs[15] = env->elr_el[cur_el] & ~0x3;
+-
-+            env->regs[15] = new_pc & ~0x3;
+-    switch (opcode) {
-         }
+-    case 0: /* SHA512SU0 */
-         qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
+-        feature = dc_isar_feature(aa64_sha512, s);
-                       "AArch32 EL%d PC 0x%" PRIx32 "\n",
+-        break;
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_return)(CPUARMState *env)
+-    case 1: /* SM4E */
-             env->pstate &= ~PSTATE_SS;
+-        feature = dc_isar_feature(aa64_sm4, s);
-         }
+-        break;
-         aarch64_restore_sp(env, new_el);
+-    default:
--        env->pc = env->elr_el[cur_el];
+-        unallocated_encoding(s);
-+        env->pc = new_pc;
+-        return;
-         qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
+-    }
-                       "AArch64 EL%d PC 0x%" PRIx64 "\n",
+-
-                       cur_el, new_el, env->pc);
+-    if (!feature) {
-@@ -XXX,XX +XXX,XX @@ illegal_return:
+-        unallocated_encoding(s);
-      * no change to exception level, execution state or stack pointer
+-        return;
-      */
+-    }
-     env->pstate |= PSTATE_IL;
+-
--    env->pc = env->elr_el[cur_el];
+-    if (!fp_access_check(s)) {
-+    env->pc = new_pc;
+-        return;
-     spsr &= PSTATE_NZCV | PSTATE_DAIF;
+-    }
-     spsr |= pstate_read(env) & ~(PSTATE_NZCV | PSTATE_DAIF);
+-
-     pstate_write(env, spsr);
+-    switch (opcode) {
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+-    case 0: /* SHA512SU0 */
-index XXXXXXX..XXXXXXX 100644
+-        gen_gvec_op2_ool(s, true, rd, rn, 0, gen_helper_crypto_sha512su0);
---- a/target/arm/translate-a64.c
+-        break;
-+++ b/target/arm/translate-a64.c
+-    case 1: /* SM4E */
-@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
+-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, gen_helper_crypto_sm4e);
- static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+-        break;
- {
+-    default:
-     unsigned int opc, op2, op3, rn, op4;
+-        g_assert_not_reached();
-+    TCGv_i64 dst;
+-    }
+-}
-     opc = extract32(insn, 21, 4);
+-
-     op2 = extract32(insn, 16, 5);
+ /* Crypto four-register
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+  *  31               23 22 21 20  16 15  14  10 9    5 4    0
-         if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
+  * +-------------------+-----+------+---+------+------+------+
-             gen_io_start();
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-         }
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
--        gen_helper_exception_return(cpu_env);
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
-+        dst = tcg_temp_new_i64();
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-+        tcg_gen_ld_i64(dst, cpu_env,
+-    { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
-+                       offsetof(CPUARMState, elr_el[s->current_el]));
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
-+        gen_helper_exception_return(cpu_env, dst);
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
-+        tcg_temp_free_i64(dst);
+     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
          if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
              gen_io_end();
          }
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 05/49] target/arm: Add state for the ARMv8.3-PAuth extension
+[PULL 20/42] target/arm: Convert Cryptographic 4-register to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Add storage space for the 5 encryption keys.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-2-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h | 30 +++++++++++++++++++++++++++++-
+ target/arm/tcg/a64.decode      |   8 ++
-file changed, 29 insertions(+), 1 deletion(-)
+ target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
 files changed, 51 insertions(+), 89 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct ARMVectorReg {
+@@ -XXX,XX +XXX,XX @@
-     uint64_t d[2 * ARM_MAX_VQ] QEMU_ALIGNED(16);
+ &i              imm
- } ARMVectorReg;
+ &qrr_e          q rd rn esz
+ &qrrr_e         q rd rn rm esz
--/* In AArch32 mode, predicate registers do not exist at all.  */
++&qrrrr_e        q rd rn rm ra esz
- #ifdef TARGET_AARCH64
-+/* In AArch32 mode, predicate registers do not exist at all.  */
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
- typedef struct ARMPredicateReg {
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
-     uint64_t p[2 * ARM_MAX_VQ / 8] QEMU_ALIGNED(16);
+ @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
- } ARMPredicateReg;
+ @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
-+
++@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
-+/* In AArch32 mode, PAC keys do not exist at all.  */
-+typedef struct ARMPACKey {
+ ### Data Processing - Immediate
-+    uint64_t lo, hi;
-+} ARMPACKey;
+@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
- #endif
+ SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
+ SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
++
-         uint32_t cregs[16];
++### Cryptographic four-register
-     } iwmmxt;
++
++EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
-+#ifdef TARGET_AARCH64
++BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
-+    ARMPACKey apia_key;
++SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
-+    ARMPACKey apib_key;
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-+    ARMPACKey apda_key;
+index XXXXXXX..XXXXXXX 100644
-+    ARMPACKey apdb_key;
+--- a/target/arm/tcg/translate-a64.c
-+    ARMPACKey apga_key;
++++ b/target/arm/tcg/translate-a64.c
-+#endif
+@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
-+
+     return true;
  #if defined(CONFIG_USER_ONLY)
      /* For usermode syscall translation.  */
      int eabi;
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
      return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
  }
-+static inline bool isar_feature_aa64_pauth(const ARMISARegisters *id)
++static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
 +{
-+    /*
++    if (!a->q && a->esz == MO_64) {
-+     * Note that while QEMU will only implement the architected algorithm
++        return false;
-+     * QARMA, and thus APA+GPA, the host cpu for kvm may use implementation
++    }
-+     * defined algorithms, and thus API+GPI, and this predicate controls
++    if (fp_access_check(s)) {
-+     * migration of the 128-bit keys.
++        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
-+     */
++    }
-+    return (id->id_aa64isar1 &
++    return true;
 +            (FIELD_DP64(0, ID_AA64ISAR1, APA, -1) |
 +             FIELD_DP64(0, ID_AA64ISAR1, API, -1) |
 +             FIELD_DP64(0, ID_AA64ISAR1, GPA, -1) |
 +             FIELD_DP64(0, ID_AA64ISAR1, GPI, -1))) != 0;
 +}
 +
- static inline bool isar_feature_aa64_fp16(const ARMISARegisters *id)
+ /*
- {
+  * This utility function is for doing register extension with an
-     /* We always set the AdvSIMD and FP fields identically wrt FP16.  */
+  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
  TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
  TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 +TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
 +TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
 +
 +static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
 +{
 +    if (!dc_isar_feature(aa64_sm3, s)) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 +        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 +        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
 +        TCGv_i32 tcg_res = tcg_temp_new_i32();
 +        unsigned vsz, dofs;
 +
 +        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
 +        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
 +        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
 +
 +        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
 +        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
 +        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
 +        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
 +
 +        /* Clear the whole register first, then store bits [127:96]. */
 +        vsz = vec_full_reg_size(s);
 +        dofs = vec_full_reg_offset(s, a->rd);
 +        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
 +        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
 +    }
 +    return true;
 +}
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
 -/* Crypto four-register
 - *  31               23 22 21 20  16 15  14  10 9    5 4    0
 - * +-------------------+-----+------+---+------+------+------+
 - * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
 - * +-------------------+-----+------+---+------+------+------+
 - */
 -static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
 -{
 -    int op0 = extract32(insn, 21, 2);
 -    int rm = extract32(insn, 16, 5);
 -    int ra = extract32(insn, 10, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    bool feature;
 -
 -    switch (op0) {
 -    case 0: /* EOR3 */
 -    case 1: /* BCAX */
 -        feature = dc_isar_feature(aa64_sha3, s);
 -        break;
 -    case 2: /* SM3SS1 */
 -        feature = dc_isar_feature(aa64_sm3, s);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    if (op0 < 2) {
 -        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
 -        int pass;
 -
 -        tcg_op1 = tcg_temp_new_i64();
 -        tcg_op2 = tcg_temp_new_i64();
 -        tcg_op3 = tcg_temp_new_i64();
 -        tcg_res[0] = tcg_temp_new_i64();
 -        tcg_res[1] = tcg_temp_new_i64();
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            read_vec_element(s, tcg_op1, rn, pass, MO_64);
 -            read_vec_element(s, tcg_op2, rm, pass, MO_64);
 -            read_vec_element(s, tcg_op3, ra, pass, MO_64);
 -
 -            if (op0 == 0) {
 -                /* EOR3 */
 -                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
 -            } else {
 -                /* BCAX */
 -                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
 -            }
 -            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
 -        }
 -        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
 -        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
 -    } else {
 -        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
 -
 -        tcg_op1 = tcg_temp_new_i32();
 -        tcg_op2 = tcg_temp_new_i32();
 -        tcg_op3 = tcg_temp_new_i32();
 -        tcg_res = tcg_temp_new_i32();
 -        tcg_zero = tcg_constant_i32(0);
 -
 -        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
 -        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
 -        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
 -
 -        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
 -        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
 -        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
 -        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
 -
 -        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
 -        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
 -        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
 -        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
 -    }
 -}
 -
  /* Crypto XAR
   *  31                   21 20  16 15    10 9    5 4    0
   * +-----------------------+------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0xce000000, 0xff808000, disas_crypto_four_reg },
      { 0xce800000, 0xffe00000, disas_crypto_xar },
      { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
      { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 06/49] target/arm: Add SCTLR bits through ARMv8.5
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Post v8.4 bits taken from SysReg_v85_xml-00bet8.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-3-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h | 45 +++++++++++++++++++++++++++++++++------------
-file changed, 33 insertions(+), 12 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ void pmccntr_sync(CPUARMState *env);
- #define SCTLR_A       (1U << 1)
- #define SCTLR_C       (1U << 2)
- #define SCTLR_W       (1U << 3) /* up to v6; RAO in v7 */
--#define SCTLR_SA      (1U << 3)
-+#define SCTLR_nTLSMD_32 (1U << 3) /* v8.2-LSMAOC, AArch32 only */
-+#define SCTLR_SA      (1U << 3) /* AArch64 only */
- #define SCTLR_P       (1U << 4) /* up to v5; RAO in v6 and v7 */
-+#define SCTLR_LSMAOE_32 (1U << 4) /* v8.2-LSMAOC, AArch32 only */
- #define SCTLR_SA0     (1U << 4) /* v8 onward, AArch64 only */
- #define SCTLR_D       (1U << 5) /* up to v5; RAO in v6 */
- #define SCTLR_CP15BEN (1U << 5) /* v7 onward */
- #define SCTLR_L       (1U << 6) /* up to v5; RAO in v6 and v7; RAZ in v8 */
-+#define SCTLR_nAA     (1U << 6) /* when v8.4-LSE is implemented */
- #define SCTLR_B       (1U << 7) /* up to v6; RAZ in v7 */
- #define SCTLR_ITD     (1U << 7) /* v8 onward */
- #define SCTLR_S       (1U << 8) /* up to v6; RAZ in v7 */
-@@ -XXX,XX +XXX,XX @@ void pmccntr_sync(CPUARMState *env);
- #define SCTLR_R       (1U << 9) /* up to v6; RAZ in v7 */
- #define SCTLR_UMA     (1U << 9) /* v8 onward, AArch64 only */
- #define SCTLR_F       (1U << 10) /* up to v6 */
--#define SCTLR_SW      (1U << 10) /* v7 onward */
--#define SCTLR_Z       (1U << 11)
-+#define SCTLR_SW      (1U << 10) /* v7, RES0 in v8 */
-+#define SCTLR_Z       (1U << 11) /* in v7, RES1 in v8 */
-+#define SCTLR_EOS     (1U << 11) /* v8.5-ExS */
- #define SCTLR_I       (1U << 12)
--#define SCTLR_V       (1U << 13)
-+#define SCTLR_V       (1U << 13) /* AArch32 only */
-+#define SCTLR_EnDB    (1U << 13) /* v8.3, AArch64 only */
- #define SCTLR_RR      (1U << 14) /* up to v7 */
- #define SCTLR_DZE     (1U << 14) /* v8 onward, AArch64 only */
- #define SCTLR_L4      (1U << 15) /* up to v6; RAZ in v7 */
- #define SCTLR_UCT     (1U << 15) /* v8 onward, AArch64 only */
- #define SCTLR_DT      (1U << 16) /* up to ??, RAO in v6 and v7 */
- #define SCTLR_nTWI    (1U << 16) /* v8 onward */
--#define SCTLR_HA      (1U << 17)
-+#define SCTLR_HA      (1U << 17) /* up to v7, RES0 in v8 */
- #define SCTLR_BR      (1U << 17) /* PMSA only */
- #define SCTLR_IT      (1U << 18) /* up to ??, RAO in v6 and v7 */
- #define SCTLR_nTWE    (1U << 18) /* v8 onward */
- #define SCTLR_WXN     (1U << 19)
- #define SCTLR_ST      (1U << 20) /* up to ??, RAZ in v6 */
--#define SCTLR_UWXN    (1U << 20) /* v7 onward */
--#define SCTLR_FI      (1U << 21)
--#define SCTLR_U       (1U << 22)
-+#define SCTLR_UWXN    (1U << 20) /* v7 onward, AArch32 only */
-+#define SCTLR_FI      (1U << 21) /* up to v7, v8 RES0 */
-+#define SCTLR_IESB    (1U << 21) /* v8.2-IESB, AArch64 only */
-+#define SCTLR_U       (1U << 22) /* up to v6, RAO in v7 */
-+#define SCTLR_EIS     (1U << 22) /* v8.5-ExS */
- #define SCTLR_XP      (1U << 23) /* up to v6; v7 onward RAO */
-+#define SCTLR_SPAN    (1U << 23) /* v8.1-PAN */
- #define SCTLR_VE      (1U << 24) /* up to v7 */
- #define SCTLR_E0E     (1U << 24) /* v8 onward, AArch64 only */
- #define SCTLR_EE      (1U << 25)
- #define SCTLR_L2      (1U << 26) /* up to v6, RAZ in v7 */
- #define SCTLR_UCI     (1U << 26) /* v8 onward, AArch64 only */
--#define SCTLR_NMFI    (1U << 27)
--#define SCTLR_TRE     (1U << 28)
--#define SCTLR_AFE     (1U << 29)
--#define SCTLR_TE      (1U << 30)
-+#define SCTLR_NMFI    (1U << 27) /* up to v7, RAZ in v7VE and v8 */
-+#define SCTLR_EnDA    (1U << 27) /* v8.3, AArch64 only */
-+#define SCTLR_TRE     (1U << 28) /* AArch32 only */
-+#define SCTLR_nTLSMD_64 (1U << 28) /* v8.2-LSMAOC, AArch64 only */
-+#define SCTLR_AFE     (1U << 29) /* AArch32 only */
-+#define SCTLR_LSMAOE_64 (1U << 29) /* v8.2-LSMAOC, AArch64 only */
-+#define SCTLR_TE      (1U << 30) /* AArch32 only */
-+#define SCTLR_EnIB    (1U << 30) /* v8.3, AArch64 only */
-+#define SCTLR_EnIA    (1U << 31) /* v8.3, AArch64 only */
-+#define SCTLR_BT0     (1ULL << 35) /* v8.5-BTI */
-+#define SCTLR_BT1     (1ULL << 36) /* v8.5-BTI */
-+#define SCTLR_ITFSB   (1ULL << 37) /* v8.5-MemTag */
-+#define SCTLR_TCF0    (3ULL << 38) /* v8.5-MemTag */
-+#define SCTLR_TCF     (3ULL << 40) /* v8.5-MemTag */
-+#define SCTLR_ATA0    (1ULL << 42) /* v8.5-MemTag */
-+#define SCTLR_ATA     (1ULL << 43) /* v8.5-MemTag */
-+#define SCTLR_DSSBS   (1ULL << 44) /* v8.5 */
- #define CPTR_TCPAC    (1U << 31)
- #define CPTR_TTA      (1U << 20)
---
-.20.1

-[Qemu-devel] [PULL 07/49] target/arm: Add PAuth active bit to tbflags
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-There are 5 bits of state that could be added, but to save
-space within tbflags, add only a single enable bit.
-Helpers will determine the rest of the state at runtime.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-4-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h           |  1 +
- target/arm/translate.h     |  2 ++
- target/arm/helper.c        | 19 +++++++++++++++++++
- target/arm/translate-a64.c |  1 +
-files changed, 23 insertions(+)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, TBI0, 0, 1)
- FIELD(TBFLAG_A64, TBI1, 1, 1)
- FIELD(TBFLAG_A64, SVEEXC_EL, 2, 2)
- FIELD(TBFLAG_A64, ZCR_LEN, 4, 4)
-+FIELD(TBFLAG_A64, PAUTH_ACTIVE, 8, 1)
- static inline bool bswap_code(bool sctlr_b)
- {
-diff --git a/target/arm/translate.h b/target/arm/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
-     bool is_ldex;
-     /* True if a single-step exception will be taken to the current EL */
-     bool ss_same_el;
-+    /* True if v8.3-PAuth is active.  */
-+    bool pauth_active;
-     /* Bottom two bits of XScale c15_cpar coprocessor access control reg */
-     int c15_cpar;
-     /* TCG op of the current insn_start.  */
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
-             flags = FIELD_DP32(flags, TBFLAG_A64, SVEEXC_EL, sve_el);
-             flags = FIELD_DP32(flags, TBFLAG_A64, ZCR_LEN, zcr_len);
-         }
-+
-+        if (cpu_isar_feature(aa64_pauth, cpu)) {
-+            /*
-+             * In order to save space in flags, we record only whether
-+             * pauth is "inactive", meaning all insns are implemented as
-+             * a nop, or "active" when some action must be performed.
-+             * The decision of which action to take is left to a helper.
-+             */
-+            uint64_t sctlr;
-+            if (current_el == 0) {
-+                /* FIXME: ARMv8.1-VHE S2 translation regime.  */
-+                sctlr = env->cp15.sctlr_el[1];
-+            } else {
-+                sctlr = env->cp15.sctlr_el[current_el];
-+            }
-+            if (sctlr & (SCTLR_EnIA | SCTLR_EnIB | SCTLR_EnDA | SCTLR_EnDB)) {
-+                flags = FIELD_DP32(flags, TBFLAG_A64, PAUTH_ACTIVE, 1);
-+            }
-+        }
-     } else {
-         *pc = env->regs[15];
-         flags = FIELD_DP32(flags, TBFLAG_A32, THUMB, env->thumb);
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
-     dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
-     dc->sve_excp_el = FIELD_EX32(tb_flags, TBFLAG_A64, SVEEXC_EL);
-     dc->sve_len = (FIELD_EX32(tb_flags, TBFLAG_A64, ZCR_LEN) + 1) * 16;
-+    dc->pauth_active = FIELD_EX32(tb_flags, TBFLAG_A64, PAUTH_ACTIVE);
-     dc->vec_len = 0;
-     dc->vec_stride = 0;
-     dc->cp_regs = arm_cpu->cp_regs;
---
-.20.1

-[Qemu-devel] [PULL 32/49] target/arm: Add PAuth system registers
+[PULL 21/42] target/arm: Convert Cryptographic 3-register, imm2 to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-29-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 70 +++++++++++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/a64.decode      | 10 ++++++++
-file changed, 70 insertions(+)
+ target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
 files changed, 22 insertions(+), 31 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static CPAccessResult access_lor_other(CPUARMState *env,
+@@ -XXX,XX +XXX,XX @@ SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
-     return access_lor_ns(env);
+ EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
  BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
  SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
 +
 +### Cryptographic three-register, imm2
 +
 +&crypto3i       rd rn rm imm
 +@crypto3i       ........ ... rm:5 .. imm:2 .. rn:5 rd:5 &crypto3i
 +
 +SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
 +SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
 +SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
 +SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
      return true;
  }
-+#ifdef TARGET_AARCH64
++static bool do_crypto3i(DisasContext *s, arg_crypto3i *a, gen_helper_gvec_3 *fn)
 +static CPAccessResult access_pauth(CPUARMState *env, const ARMCPRegInfo *ri,
 +                                   bool isread)
 +{
-+    int el = arm_current_el(env);
++    if (fp_access_check(s)) {
 +        gen_gvec_op3_ool(s, true, a->rd, a->rn, a->rm, a->imm, fn);
 +    }
 +    return true;
 +}
 +TRANS_FEAT(SM3TT1A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1a)
 +TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
 +TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
 +TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
 +
-+    if (el < 2 &&
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+        arm_feature(env, ARM_FEATURE_EL2) &&
+  * Note that it is the caller's responsibility to ensure that the
-+        !(arm_hcr_el2_eff(env) & HCR_APK)) {
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-+        return CP_ACCESS_TRAP_EL2;
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_xar(DisasContext *s, uint32_t insn)
-+    }
+                  vec_full_reg_size(s));
 +    if (el < 3 &&
 +        arm_feature(env, ARM_FEATURE_EL3) &&
 +        !(env->cp15.scr_el3 & SCR_APK)) {
 +        return CP_ACCESS_TRAP_EL3;
 +    }
 +    return CP_ACCESS_OK;
 +}
 +
 +static const ARMCPRegInfo pauth_reginfo[] = {
 +    { .name = "APDAKEYLO_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 0,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apda_key.lo) },
 +    { .name = "APDAKEYHI_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 1,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apda_key.hi) },
 +    { .name = "APDBKEYLO_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 2,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apdb_key.lo) },
 +    { .name = "APDBKEYHI_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 3,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apdb_key.hi) },
 +    { .name = "APGAKEYLO_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 3, .opc2 = 0,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apga_key.lo) },
 +    { .name = "APGAKEYHI_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 3, .opc2 = 1,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apga_key.hi) },
 +    { .name = "APIAKEYLO_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 0,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apia_key.lo) },
 +    { .name = "APIAKEYHI_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 1,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apia_key.hi) },
 +    { .name = "APIBKEYLO_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 2,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apib_key.lo) },
 +    { .name = "APIBKEYHI_EL1", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 3,
 +      .access = PL1_RW, .accessfn = access_pauth,
 +      .fieldoffset = offsetof(CPUARMState, apib_key.hi) },
 +    REGINFO_SENTINEL
 +};
 +#endif
 +
  void register_cp_regs_for_features(ARMCPU *cpu)
  {
      /* Register all the coprocessor registers based on feature bits */
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
              define_one_arm_cp_reg(cpu, &zcr_el3_reginfo);
          }
      }
 +
 +#ifdef TARGET_AARCH64
 +    if (cpu_isar_feature(aa64_pauth, cpu)) {
 +        define_arm_cp_regs(cpu, pauth_reginfo);
 +    }
 +#endif
  }
- void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu)
+-/* Crypto three-reg imm2
 - *  31                   21 20  16 15  14 13 12  11  10  9    5 4    0
 - * +-----------------------+------+-----+------+--------+------+------+
 - * | 1 1 0 0 1 1 1 0 0 1 0 |  Rm  | 1 0 | imm2 | opcode |  Rn  |  Rd  |
 - * +-----------------------+------+-----+------+--------+------+------+
 - */
 -static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
 -{
 -    static gen_helper_gvec_3 * const fns[4] = {
 -        gen_helper_crypto_sm3tt1a, gen_helper_crypto_sm3tt1b,
 -        gen_helper_crypto_sm3tt2a, gen_helper_crypto_sm3tt2b,
 -    };
 -    int opcode = extract32(insn, 10, 2);
 -    int imm2 = extract32(insn, 12, 2);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -
 -    if (!dc_isar_feature(aa64_sm3, s)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    gen_gvec_op3_ool(s, true, rd, rn, rm, imm2, fns[opcode]);
 -}
 -
  /* C3.6 Data processing - SIMD, inc Crypto
   *
   * As the decode gets a little complex we are using a table based
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0xce800000, 0xffe00000, disas_crypto_xar },
 -    { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
      { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
      { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
      { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 46/49] target/arm: PMU: Add instruction and cycle events
+[PULL 22/42] target/arm: Convert XAR to decodetree
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-The instruction event is only enabled when icount is used, cycles are
-always supported. Always defining get_cycle_count (but altering its
-behavior depending on CONFIG_USER_ONLY) allows us to remove some
-CONFIG_USER_ONLY #defines throughout the rest of the code.
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
-Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20181211151945.29137-12-aaron@os.amperecomputing.com
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 90 ++++++++++++++++++++++-----------------------
+ target/arm/tcg/a64.decode      |  4 ++++
-file changed, 44 insertions(+), 46 deletions(-)
+ target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
 files changed, 18 insertions(+), 29 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
- #include "arm_ldst.h"
+ SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
- #include <zlib.h> /* For crc32 */
+ SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
- #include "exec/semihost.h"
+ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
-+#include "sysemu/cpus.h"
++
- #include "sysemu/kvm.h"
++### Cryptographic XAR
- #include "fpu/softfloat.h"
++
- #include "qemu/range.h"
++XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
-@@ -XXX,XX +XXX,XX @@ typedef struct pm_event {
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-     uint64_t (*get_count)(CPUARMState *);
+index XXXXXXX..XXXXXXX 100644
- } pm_event;
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
-+static bool event_always_supported(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
  TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
  TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
 +static bool trans_XAR(DisasContext *s, arg_XAR *a)
 +{
++    if (!dc_isar_feature(aa64_sha3, s)) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        gen_gvec_xar(MO_64, vec_full_reg_offset(s, a->rd),
++                     vec_full_reg_offset(s, a->rn),
++                     vec_full_reg_offset(s, a->rm), a->imm, 16,
++                     vec_full_reg_size(s));
++    }
 +    return true;
 +}
 +
-+/*
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+ * Return the underlying cycle count for the PMU cycle counters. If we're in
+  * Note that it is the caller's responsibility to ensure that the
-+ * usermode, simply return 0.
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
-+ */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-+static uint64_t cycles_get_count(CPUARMState *env)
+     }
 +{
 +#ifndef CONFIG_USER_ONLY
 +    return muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
 +                   ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
 +#else
 +    return cpu_get_host_ticks();
 +#endif
 +}
 +
 +#ifndef CONFIG_USER_ONLY
 +static bool instructions_supported(CPUARMState *env)
 +{
 +    return use_icount == 1 /* Precise instruction counting */;
 +}
 +
 +static uint64_t instructions_get_count(CPUARMState *env)
 +{
 +    return (uint64_t)cpu_get_icount_raw();
 +}
 +#endif
 +
  static const pm_event pm_events[] = {
 +#ifndef CONFIG_USER_ONLY
 +    { .number = 0x008, /* INST_RETIRED, Instruction architecturally executed */
 +      .supported = instructions_supported,
 +      .get_count = instructions_get_count,
 +    },
 +    { .number = 0x011, /* CPU_CYCLES, Cycle */
 +      .supported = event_always_supported,
 +      .get_count = cycles_get_count,
 +    }
 +#endif
  };
  /*
@@ -XXX,XX +XXX,XX @@ static const pm_event pm_events[] = {
   * should first be updated to something sparse instead of the current
   * supported_event_map[] array.
   */
 -#define MAX_EVENT_ID 0x0
 +#define MAX_EVENT_ID 0x11
  #define UNSUPPORTED_EVENT UINT16_MAX
  static uint16_t supported_event_map[MAX_EVENT_ID + 1];
@@ -XXX,XX +XXX,XX @@ static CPAccessResult pmreg_access_swinc(CPUARMState *env,
      return pmreg_access(env, ri, isread);
  }
--#ifndef CONFIG_USER_ONLY
+-/* Crypto XAR
 - *  31                   21 20  16 15    10 9    5 4    0
 - * +-----------------------+------+--------+------+------+
 - * | 1 1 0 0 1 1 1 0 1 0 0 |  Rm  |  imm6  |  Rn  |  Rd  |
 - * +-----------------------+------+--------+------+------+
 - */
 -static void disas_crypto_xar(DisasContext *s, uint32_t insn)
 -{
 -    int rm = extract32(insn, 16, 5);
 -    int imm6 = extract32(insn, 10, 6);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -
- static CPAccessResult pmreg_access_selr(CPUARMState *env,
+-    if (!dc_isar_feature(aa64_sha3, s)) {
-                                         const ARMCPRegInfo *ri,
+-        unallocated_encoding(s);
-                                         bool isread)
+-        return;
-@@ -XXX,XX +XXX,XX @@ static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
+-    }
   */
  void pmccntr_op_start(CPUARMState *env)
  {
 -    uint64_t cycles = 0;
 -    cycles = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
 -                          ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
 +    uint64_t cycles = cycles_get_count(env);
      if (pmu_counter_enabled(env, 31)) {
          uint64_t eff_cycles = cycles;
@@ -XXX,XX +XXX,XX @@ static void pmccntr_write32(CPUARMState *env, const ARMCPRegInfo *ri,
      pmccntr_write(env, ri, deposit64(cur_val, 0, 32, value));
  }
 -#else /* CONFIG_USER_ONLY */
 -
--void pmccntr_op_start(CPUARMState *env)
+-    if (!fp_access_check(s)) {
--{
+-        return;
 -    }
 -
 -    gen_gvec_xar(MO_64, vec_full_reg_offset(s, rd),
 -                 vec_full_reg_offset(s, rn),
 -                 vec_full_reg_offset(s, rm), imm6, 16,
 -                 vec_full_reg_size(s));
 -}
 -
--void pmccntr_op_finish(CPUARMState *env)
+ /* C3.6 Data processing - SIMD, inc Crypto
--{
+  *
--}
+  * As the decode gets a little complex we are using a table based
--
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
--void pmevcntr_op_start(CPUARMState *env, uint8_t i)
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
--{
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
--}
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
--
+-    { 0xce800000, 0xffe00000, disas_crypto_xar },
--void pmevcntr_op_finish(CPUARMState *env, uint8_t i)
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
--{
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
--}
+     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
 -
 -void pmu_op_start(CPUARMState *env)
 -{
 -}
 -
 -void pmu_op_finish(CPUARMState *env)
 -{
 -}
 -
 -void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
 -{
 -}
 -
 -void pmu_post_el_change(ARMCPU *cpu, void *ignored)
 -{
 -}
 -
 -#endif
 -
  static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                              uint64_t value)
  {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
      /* Unimplemented so WI. */
      { .name = "PMSWINC", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 4,
        .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NOP },
 -#ifndef CONFIG_USER_ONLY
      { .name = "PMSELR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 5,
        .access = PL0_RW, .type = ARM_CP_ALIAS,
        .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmselr),
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
        .fieldoffset = offsetof(CPUARMState, cp15.c15_ccnt),
        .readfn = pmccntr_read, .writefn = pmccntr_write,
        .raw_readfn = raw_read, .raw_writefn = raw_write, },
 -#endif
      { .name = "PMCCFILTR", .cp = 15, .opc1 = 0, .crn = 14, .crm = 15, .opc2 = 7,
        .writefn = pmccfiltr_write_a32, .readfn = pmccfiltr_read_a32,
        .access = PL0_RW, .accessfn = pmreg_access,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
           * count register.
           */
          unsigned int i, pmcrn = 0;
 -#ifndef CONFIG_USER_ONLY
          ARMCPRegInfo pmcr = {
              .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
              .access = PL0_RW,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
              g_free(pmevtyper_name);
              g_free(pmevtyper_el0_name);
          }
 -#endif
          ARMCPRegInfo clidr = {
              .name = "CLIDR", .state = ARM_CP_STATE_BOTH,
              .opc0 = 3, .crn = 0, .crm = 0, .opc1 = 1, .opc2 = 1,
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 45/49] target/arm: Finish implementation of PM[X]EVCNTR and PM[X]EVTYPER
+[PULL 23/42] target/arm: Convert Advanced SIMD copy to decodetree
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-Add arrays to hold the registers, the definitions themselves, access
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-functions, and logic to reset counters when PMCR.P is set. Update
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-filtering code to support counters other than PMCCNTR. Support migration
+Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
 with raw read/write functions.
 Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
 Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20181211151945.29137-11-aaron@os.amperecomputing.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    |   3 +
+ target/arm/tcg/a64.decode      |  13 +
- target/arm/helper.c | 296 +++++++++++++++++++++++++++++++++++++++++---
+ target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
-files changed, 282 insertions(+), 17 deletions(-)
+files changed, 152 insertions(+), 287 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
+@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
-          * pmccntr_op_finish.
+ ### Cryptographic XAR
-          */
-         uint64_t c15_ccnt_delta;
+ XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
-+        uint64_t c14_pmevcntr[31];
++
-+        uint64_t c14_pmevcntr_delta[31];
++### Advanced SIMD scalar copy
-+        uint64_t c14_pmevtyper[31];
++
-         uint64_t pmccfiltr_el0; /* Performance Monitor Filter Register */
++DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
-         uint64_t vpidr_el2; /* Virtualization Processor ID Register */
++
-         uint64_t vmpidr_el2; /* Virtualization Multiprocessor ID Register */
++### Advanced SIMD copy
-diff --git a/target/arm/helper.c b/target/arm/helper.c
++
 +DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
 +DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
 +INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 +SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 +UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 +INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
+@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
- #define PMCRDP  0x10
+     return true;
  #define PMCRD   0x8
  #define PMCRC   0x4
 +#define PMCRP   0x2
  #define PMCRE   0x1
  #define PMXEVTYPER_P          0x80000000
@@ -XXX,XX +XXX,XX @@ uint64_t get_pmceid(CPUARMState *env, unsigned which)
      return pmceid;
  }
 +/*
-+ * Check at runtime whether a PMU event is supported for the current machine
++ * Advanced SIMD copy
 + */
-+static bool event_supported(uint16_t number)
++
-+{
++static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
-+    if (number > MAX_EVENT_ID) {
++{
-+        return false;
++    unsigned esz = ctz32(imm);
-+    }
++    if (esz <= MO_64) {
-+    return supported_event_map[number] != UNSUPPORTED_EVENT;
++        *pesz = esz;
-+}
++        *pidx = imm >> (esz + 1);
-+
++        return true;
- static CPAccessResult pmreg_access(CPUARMState *env, const ARMCPRegInfo *ri,
++    }
-                                    bool isread)
++    return false;
- {
++}
-@@ -XXX,XX +XXX,XX @@ static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
++
-         prohibited = env->cp15.c9_pmcr & PMCRDP;
++static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
-     }
++{
++    MemOp esz;
--    /* TODO Remove assert, set filter to correct PMEVTYPER */
++    unsigned idx;
--    assert(counter == 31);
++
--    filter = env->cp15.pmccfiltr_el0;
++    if (!decode_esz_idx(a->imm, &esz, &idx)) {
-+    if (counter == 31) {
++        return false;
-+        filter = env->cp15.pmccfiltr_el0;
++    }
-+    } else {
++    if (fp_access_check(s)) {
 +        filter = env->cp15.c14_pmevtyper[counter];
 +    }
      p   = filter & PMXEVTYPER_P;
      u   = filter & PMXEVTYPER_U;
@@ -XXX,XX +XXX,XX @@ static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
          filtered = m != p;
      }
 +    if (counter != 31) {
 +        /*
-+         * If not checking PMCCNTR, ensure the counter is setup to an event we
++         * This instruction just extracts the specified element and
-+         * support
++         * zero-extends it into the bottom of the destination register.
 +         */
-+        uint16_t event = filter & PMXEVTYPER_EVTCOUNT;
++        TCGv_i64 tmp = tcg_temp_new_i64();
-+        if (!event_supported(event)) {
++        read_vec_element(s, tmp, a->rn, idx, esz);
 +        write_fp_dreg(s, a->rd, tmp);
 +    }
 +    return true;
 +}
 +
 +static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
 +                             vec_reg_offset(s, a->rn, idx, esz),
 +                             a->q ? 16 : 8, vec_full_reg_size(s));
 +    }
 +    return true;
 +}
 +
 +static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
 +                             a->q ? 16 : 8, vec_full_reg_size(s),
 +                             cpu_reg(s, a->rn));
 +    }
 +    return true;
 +}
 +
 +static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (is_signed) {
 +        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
 +            return false;
 +        }
-+    }
++    } else {
-+
++        if (esz == MO_64 ? !a->q : a->q) {
-     return enabled && !prohibited && !filtered;
++            return false;
 +        }
 +    }
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
 +        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
 +        if (is_signed && !a->q) {
 +            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 +        }
 +    }
 +    return true;
 +}
 +
 +TRANS(SMOV, do_smov_umov, a, MO_SIGN)
 +TRANS(UMOV, do_smov_umov, a, 0)
 +
 +static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
 +{
 +    MemOp esz;
 +    unsigned didx, sidx;
 +
 +    if (!decode_esz_idx(a->di, &esz, &didx)) {
 +        return false;
 +    }
 +    sidx = a->si >> esz;
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +
 +        read_vec_element(s, tmp, a->rn, sidx, esz);
 +        write_vec_element(s, tmp, a->rd, didx, esz);
 +
 +        /* INS is considered a 128-bit write for SVE. */
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_res);
  }
-@@ -XXX,XX +XXX,XX @@ void pmccntr_op_finish(CPUARMState *env)
+-/* DUP (Element, Vector)
 - *
 - *  31  30   29              21 20    16 15        10  9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
 -                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -
 -    if (size > 3 || (size == 3 && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
 -                         vec_reg_offset(s, rn, index, size),
 -                         is_q ? 16 : 8, vec_full_reg_size(s));
 -}
 -
 -/* DUP (element, scalar)
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - */
 -static void handle_simd_dupes(DisasContext *s, int rd, int rn,
 -                              int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -
 -    /* This instruction just extracts the specified element and
 -     * zero-extends it into the bottom of the destination register.
 -     */
 -    tmp = tcg_temp_new_i64();
 -    read_vec_element(s, tmp, rn, index, size);
 -    write_fp_dreg(s, rd, tmp);
 -}
 -
 -/* DUP (General)
 - *
 - *  31  30   29              21 20    16 15        10  9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
 -                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    uint32_t dofs, oprsz, maxsz;
 -
 -    if (size > 3 || ((size == 3) && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dofs = vec_full_reg_offset(s, rd);
 -    oprsz = is_q ? 16 : 8;
 -    maxsz = vec_full_reg_size(s);
 -
 -    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
 -}
 -
 -/* INS (Element)
 - *
 - *  31                   21 20    16 15  14    11  10 9    5 4    0
 - * +-----------------------+--------+------------+---+------+------+
 - * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+------------+---+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_inse(DisasContext *s, int rd, int rn,
 -                             int imm4, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int src_index, dst_index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dst_index = extract32(imm5, 1+size, 5);
 -    src_index = extract32(imm4, size, 4);
 -
 -    tmp = tcg_temp_new_i64();
 -
 -    read_vec_element(s, tmp, rn, src_index, size);
 -    write_vec_element(s, tmp, rd, dst_index, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -
 -/* INS (General)
 - *
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int idx;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    idx = extract32(imm5, 1 + size, 4 - size);
 -    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -/*
 - * UMOV (General)
 - * SMOV (General)
 - *
 - *  31  30   29              21 20    16 15    12   10 9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * U: unsigned when set
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
 -                                  int rn, int rd, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int element;
 -    TCGv_i64 tcg_rd;
 -
 -    /* Check for UnallocatedEncodings */
 -    if (is_signed) {
 -        if (size > 2 || (size == 2 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    } else {
 -        if (size > 3
 -            || (size < 3 && is_q)
 -            || (size == 3 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    element = extract32(imm5, 1+size, 4);
 -
 -    tcg_rd = cpu_reg(s, rd);
 -    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
 -    if (is_signed && !is_q) {
 -        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 -    }
 -}
 -
 -/* AdvSIMD copy
 - *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - */
 -static void disas_simd_copy(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int imm4 = extract32(insn, 11, 4);
 -    int op = extract32(insn, 29, 1);
 -    int is_q = extract32(insn, 30, 1);
 -    int imm5 = extract32(insn, 16, 5);
 -
 -    if (op) {
 -        if (is_q) {
 -            /* INS (element) */
 -            handle_simd_inse(s, rd, rn, imm4, imm5);
 -        } else {
 -            unallocated_encoding(s);
 -        }
 -    } else {
 -        switch (imm4) {
 -        case 0:
 -            /* DUP (element - vector) */
 -            handle_simd_dupe(s, is_q, rd, rn, imm5);
 -            break;
 -        case 1:
 -            /* DUP (general) */
 -            handle_simd_dupg(s, is_q, rd, rn, imm5);
 -            break;
 -        case 3:
 -            if (is_q) {
 -                /* INS (general) */
 -                handle_simd_insg(s, rd, rn, imm5);
 -            } else {
 -                unallocated_encoding(s);
 -            }
 -            break;
 -        case 5:
 -        case 7:
 -            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
 -            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            break;
 -        }
 -    }
 -}
 -
  /* AdvSIMD modified immediate
   *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
   * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
  }
-+static void pmevcntr_op_start(CPUARMState *env, uint8_t counter)
+-/* AdvSIMD scalar copy
-+{
+- *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
-+
+- * +-----+----+-----------------+------+---+------+---+------+------+
-+    uint16_t event = env->cp15.c14_pmevtyper[counter] & PMXEVTYPER_EVTCOUNT;
+- * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
-+    uint64_t count = 0;
+- * +-----+----+-----------------+------+---+------+---+------+------+
-+    if (event_supported(event)) {
+- */
-+        uint16_t event_idx = supported_event_map[event];
+-static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
-+        count = pm_events[event_idx].get_count(env);
+-{
-+    }
+-    int rd = extract32(insn, 0, 5);
-+
+-    int rn = extract32(insn, 5, 5);
-+    if (pmu_counter_enabled(env, counter)) {
+-    int imm4 = extract32(insn, 11, 4);
-+        env->cp15.c14_pmevcntr[counter] =
+-    int imm5 = extract32(insn, 16, 5);
-+            count - env->cp15.c14_pmevcntr_delta[counter];
+-    int op = extract32(insn, 29, 1);
-+    }
+-
-+    env->cp15.c14_pmevcntr_delta[counter] = count;
+-    if (op != 0 || imm4 != 0) {
-+}
+-        unallocated_encoding(s);
-+
+-        return;
-+static void pmevcntr_op_finish(CPUARMState *env, uint8_t counter)
+-    }
-+{
+-
-+    if (pmu_counter_enabled(env, counter)) {
+-    /* DUP (element, scalar) */
-+        env->cp15.c14_pmevcntr_delta[counter] -=
+-    handle_simd_dupes(s, rd, rn, imm5);
-+            env->cp15.c14_pmevcntr[counter];
+-}
-+    }
+-
-+}
+ /* AdvSIMD scalar pairwise
-+
+  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
- void pmu_op_start(CPUARMState *env)
+  * +-----+---+-----------+------+-----------+--------+-----+------+------+
- {
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-+    unsigned int i;
+     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
-     pmccntr_op_start(env);
+     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
-+    for (i = 0; i < pmu_num_counters(env); i++) {
+     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
-+        pmevcntr_op_start(env, i);
+-    { 0x0e000400, 0x9fe08400, disas_simd_copy },
-+    }
+     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
- }
+     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
+     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
- void pmu_op_finish(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
- {
+     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
-+    unsigned int i;
+     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
-     pmccntr_op_finish(env);
+     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
-+    for (i = 0; i < pmu_num_counters(env); i++) {
+-    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
-+        pmevcntr_op_finish(env, i);
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
-+    }
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
- }
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
  void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
@@ -XXX,XX +XXX,XX @@ static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
          env->cp15.c15_ccnt = 0;
      }
 +    if (value & PMCRP) {
 +        unsigned int i;
 +        for (i = 0; i < pmu_num_counters(env); i++) {
 +            env->cp15.c14_pmevcntr[i] = 0;
 +        }
 +    }
 +
      /* only the DP, X, D and E bits are writable */
      env->cp15.c9_pmcr &= ~0x39;
      env->cp15.c9_pmcr |= (value & 0x39);
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_finish(CPUARMState *env)
  {
  }
 +void pmevcntr_op_start(CPUARMState *env, uint8_t i)
 +{
 +}
 +
 +void pmevcntr_op_finish(CPUARMState *env, uint8_t i)
 +{
 +}
 +
  void pmu_op_start(CPUARMState *env)
  {
  }
@@ -XXX,XX +XXX,XX @@ static void pmovsset_write(CPUARMState *env, const ARMCPRegInfo *ri,
      env->cp15.c9_pmovsr |= value;
  }
 -static void pmxevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
 -                             uint64_t value)
 +static void pmevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                             uint64_t value, const uint8_t counter)
  {
 +    if (counter == 31) {
 +        pmccfiltr_write(env, ri, value);
 +    } else if (counter < pmu_num_counters(env)) {
 +        pmevcntr_op_start(env, counter);
 +
 +        /*
 +         * If this counter's event type is changing, store the current
 +         * underlying count for the new type in c14_pmevcntr_delta[counter] so
 +         * pmevcntr_op_finish has the correct baseline when it converts back to
 +         * a delta.
 +         */
 +        uint16_t old_event = env->cp15.c14_pmevtyper[counter] &
 +            PMXEVTYPER_EVTCOUNT;
 +        uint16_t new_event = value & PMXEVTYPER_EVTCOUNT;
 +        if (old_event != new_event) {
 +            uint64_t count = 0;
 +            if (event_supported(new_event)) {
 +                uint16_t event_idx = supported_event_map[new_event];
 +                count = pm_events[event_idx].get_count(env);
 +            }
 +            env->cp15.c14_pmevcntr_delta[counter] = count;
 +        }
 +
 +        env->cp15.c14_pmevtyper[counter] = value & PMXEVTYPER_MASK;
 +        pmevcntr_op_finish(env, counter);
 +    }
      /* Attempts to access PMXEVTYPER are CONSTRAINED UNPREDICTABLE when
       * PMSELR value is equal to or greater than the number of implemented
       * counters, but not equal to 0x1f. We opt to behave as a RAZ/WI.
       */
 -    if (env->cp15.c9_pmselr == 0x1f) {
 -        pmccfiltr_write(env, ri, value);
 +}
 +
 +static uint64_t pmevtyper_read(CPUARMState *env, const ARMCPRegInfo *ri,
 +                               const uint8_t counter)
 +{
 +    if (counter == 31) {
 +        return env->cp15.pmccfiltr_el0;
 +    } else if (counter < pmu_num_counters(env)) {
 +        return env->cp15.c14_pmevtyper[counter];
 +    } else {
 +      /*
 +       * We opt to behave as a RAZ/WI when attempts to access PMXEVTYPER
 +       * are CONSTRAINED UNPREDICTABLE. See comments in pmevtyper_write().
 +       */
 +        return 0;
      }
  }
 +static void pmevtyper_writefn(CPUARMState *env, const ARMCPRegInfo *ri,
 +                              uint64_t value)
 +{
 +    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
 +    pmevtyper_write(env, ri, value, counter);
 +}
 +
 +static void pmevtyper_rawwrite(CPUARMState *env, const ARMCPRegInfo *ri,
 +                               uint64_t value)
 +{
 +    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
 +    env->cp15.c14_pmevtyper[counter] = value;
 +
 +    /*
 +     * pmevtyper_rawwrite is called between a pair of pmu_op_start and
 +     * pmu_op_finish calls when loading saved state for a migration. Because
 +     * we're potentially updating the type of event here, the value written to
 +     * c14_pmevcntr_delta by the preceeding pmu_op_start call may be for a
 +     * different counter type. Therefore, we need to set this value to the
 +     * current count for the counter type we're writing so that pmu_op_finish
 +     * has the correct count for its calculation.
 +     */
 +    uint16_t event = value & PMXEVTYPER_EVTCOUNT;
 +    if (event_supported(event)) {
 +        uint16_t event_idx = supported_event_map[event];
 +        env->cp15.c14_pmevcntr_delta[counter] =
 +            pm_events[event_idx].get_count(env);
 +    }
 +}
 +
 +static uint64_t pmevtyper_readfn(CPUARMState *env, const ARMCPRegInfo *ri)
 +{
 +    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
 +    return pmevtyper_read(env, ri, counter);
 +}
 +
 +static void pmxevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                             uint64_t value)
 +{
 +    pmevtyper_write(env, ri, value, env->cp15.c9_pmselr & 31);
 +}
 +
  static uint64_t pmxevtyper_read(CPUARMState *env, const ARMCPRegInfo *ri)
  {
 -    /* We opt to behave as a RAZ/WI when attempts to access PMXEVTYPER
 -     * are CONSTRAINED UNPREDICTABLE. See comments in pmxevtyper_write().
 +    return pmevtyper_read(env, ri, env->cp15.c9_pmselr & 31);
 +}
 +
 +static void pmevcntr_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                             uint64_t value, uint8_t counter)
 +{
 +    if (counter < pmu_num_counters(env)) {
 +        pmevcntr_op_start(env, counter);
 +        env->cp15.c14_pmevcntr[counter] = value;
 +        pmevcntr_op_finish(env, counter);
 +    }
 +    /*
 +     * We opt to behave as a RAZ/WI when attempts to access PM[X]EVCNTR
 +     * are CONSTRAINED UNPREDICTABLE.
       */
 -    if (env->cp15.c9_pmselr == 0x1f) {
 -        return env->cp15.pmccfiltr_el0;
 +}
 +
 +static uint64_t pmevcntr_read(CPUARMState *env, const ARMCPRegInfo *ri,
 +                              uint8_t counter)
 +{
 +    if (counter < pmu_num_counters(env)) {
 +        uint64_t ret;
 +        pmevcntr_op_start(env, counter);
 +        ret = env->cp15.c14_pmevcntr[counter];
 +        pmevcntr_op_finish(env, counter);
 +        return ret;
      } else {
 +      /* We opt to behave as a RAZ/WI when attempts to access PM[X]EVCNTR
 +       * are CONSTRAINED UNPREDICTABLE. */
          return 0;
      }
  }
 +static void pmevcntr_writefn(CPUARMState *env, const ARMCPRegInfo *ri,
 +                             uint64_t value)
 +{
 +    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
 +    pmevcntr_write(env, ri, value, counter);
 +}
 +
 +static uint64_t pmevcntr_readfn(CPUARMState *env, const ARMCPRegInfo *ri)
 +{
 +    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
 +    return pmevcntr_read(env, ri, counter);
 +}
 +
 +static void pmevcntr_rawwrite(CPUARMState *env, const ARMCPRegInfo *ri,
 +                             uint64_t value)
 +{
 +    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
 +    assert(counter < pmu_num_counters(env));
 +    env->cp15.c14_pmevcntr[counter] = value;
 +    pmevcntr_write(env, ri, value, counter);
 +}
 +
 +static uint64_t pmevcntr_rawread(CPUARMState *env, const ARMCPRegInfo *ri)
 +{
 +    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
 +    assert(counter < pmu_num_counters(env));
 +    return env->cp15.c14_pmevcntr[counter];
 +}
 +
 +static void pmxevcntr_write(CPUARMState *env, const ARMCPRegInfo *ri,
 +                             uint64_t value)
 +{
 +    pmevcntr_write(env, ri, value, env->cp15.c9_pmselr & 31);
 +}
 +
 +static uint64_t pmxevcntr_read(CPUARMState *env, const ARMCPRegInfo *ri)
 +{
 +    return pmevcntr_read(env, ri, env->cp15.c9_pmselr & 31);
 +}
 +
  static void pmuserenr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                              uint64_t value)
  {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
        .fieldoffset = offsetof(CPUARMState, cp15.pmccfiltr_el0),
        .resetvalue = 0, },
      { .name = "PMXEVTYPER", .cp = 15, .crn = 9, .crm = 13, .opc1 = 0, .opc2 = 1,
 -      .access = PL0_RW, .type = ARM_CP_NO_RAW, .accessfn = pmreg_access,
 +      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
 +      .accessfn = pmreg_access,
        .writefn = pmxevtyper_write, .readfn = pmxevtyper_read },
      { .name = "PMXEVTYPER_EL0", .state = ARM_CP_STATE_AA64,
        .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 13, .opc2 = 1,
 -      .access = PL0_RW, .type = ARM_CP_NO_RAW, .accessfn = pmreg_access,
 +      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
 +      .accessfn = pmreg_access,
        .writefn = pmxevtyper_write, .readfn = pmxevtyper_read },
 -    /* Unimplemented, RAZ/WI. */
      { .name = "PMXEVCNTR", .cp = 15, .crn = 9, .crm = 13, .opc1 = 0, .opc2 = 2,
 -      .access = PL0_RW, .type = ARM_CP_CONST, .resetvalue = 0,
 -      .accessfn = pmreg_access_xevcntr },
 +      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
 +      .accessfn = pmreg_access_xevcntr,
 +      .writefn = pmxevcntr_write, .readfn = pmxevcntr_read },
 +    { .name = "PMXEVCNTR_EL0", .state = ARM_CP_STATE_AA64,
 +      .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 13, .opc2 = 2,
 +      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
 +      .accessfn = pmreg_access_xevcntr,
 +      .writefn = pmxevcntr_write, .readfn = pmxevcntr_read },
      { .name = "PMUSERENR", .cp = 15, .crn = 9, .crm = 14, .opc1 = 0, .opc2 = 0,
        .access = PL0_R | PL1_RW, .accessfn = access_tpm,
        .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmuserenr),
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el2_cp_reginfo[] = {
  #endif
      /* The only field of MDCR_EL2 that has a defined architectural reset value
       * is MDCR_EL2.HPMN which should reset to the value of PMCR_EL0.N; but we
 -     * don't impelment any PMU event counters, so using zero as a reset
 +     * don't implement any PMU event counters, so using zero as a reset
       * value for MDCR_EL2 is okay
       */
      { .name = "MDCR_EL2", .state = ARM_CP_STATE_BOTH,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
           * field as main ID register, and we implement only the cycle
           * count register.
           */
 +        unsigned int i, pmcrn = 0;
  #ifndef CONFIG_USER_ONLY
          ARMCPRegInfo pmcr = {
              .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
          };
          define_one_arm_cp_reg(cpu, &pmcr);
          define_one_arm_cp_reg(cpu, &pmcr64);
 +        for (i = 0; i < pmcrn; i++) {
 +            char *pmevcntr_name = g_strdup_printf("PMEVCNTR%d", i);
 +            char *pmevcntr_el0_name = g_strdup_printf("PMEVCNTR%d_EL0", i);
 +            char *pmevtyper_name = g_strdup_printf("PMEVTYPER%d", i);
 +            char *pmevtyper_el0_name = g_strdup_printf("PMEVTYPER%d_EL0", i);
 +            ARMCPRegInfo pmev_regs[] = {
 +                { .name = pmevcntr_name, .cp = 15, .crn = 15,
 +                  .crm = 8 | (3 & (i >> 3)), .opc1 = 0, .opc2 = i & 7,
 +                  .access = PL0_RW, .type = ARM_CP_IO | ARM_CP_ALIAS,
 +                  .readfn = pmevcntr_readfn, .writefn = pmevcntr_writefn,
 +                  .accessfn = pmreg_access },
 +                { .name = pmevcntr_el0_name, .state = ARM_CP_STATE_AA64,
 +                  .opc0 = 3, .opc1 = 3, .crn = 15, .crm = 8 | (3 & (i >> 3)),
 +                  .opc2 = i & 7, .access = PL0_RW, .accessfn = pmreg_access,
 +                  .type = ARM_CP_IO,
 +                  .readfn = pmevcntr_readfn, .writefn = pmevcntr_writefn,
 +                  .raw_readfn = pmevcntr_rawread,
 +                  .raw_writefn = pmevcntr_rawwrite },
 +                { .name = pmevtyper_name, .cp = 15, .crn = 15,
 +                  .crm = 12 | (3 & (i >> 3)), .opc1 = 0, .opc2 = i & 7,
 +                  .access = PL0_RW, .type = ARM_CP_IO | ARM_CP_ALIAS,
 +                  .readfn = pmevtyper_readfn, .writefn = pmevtyper_writefn,
 +                  .accessfn = pmreg_access },
 +                { .name = pmevtyper_el0_name, .state = ARM_CP_STATE_AA64,
 +                  .opc0 = 3, .opc1 = 3, .crn = 15, .crm = 12 | (3 & (i >> 3)),
 +                  .opc2 = i & 7, .access = PL0_RW, .accessfn = pmreg_access,
 +                  .type = ARM_CP_IO,
 +                  .readfn = pmevtyper_readfn, .writefn = pmevtyper_writefn,
 +                  .raw_writefn = pmevtyper_rawwrite },
 +                REGINFO_SENTINEL
 +            };
 +            define_arm_cp_regs(cpu, pmev_regs);
 +            g_free(pmevcntr_name);
 +            g_free(pmevcntr_el0_name);
 +            g_free(pmevtyper_name);
 +            g_free(pmevtyper_el0_name);
 +        }
  #endif
          ARMCPRegInfo clidr = {
              .name = "CLIDR", .state = ARM_CP_STATE_BOTH,
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 11/49] target/arm: Rearrange decode in disas_data_proc_1src
+[PULL 24/42] target/arm: Convert FMULX to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Now properly signals unallocated for REV64 with SF=0.
+Convert all forms (scalar, vector, scalar indexed, vector indexed),
-Allows for the opcode2 field to be decoded shortly.
+which allows us to remove switch table entries elsewhere.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-8-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 31 ++++++++++++++++++++++---------
+ target/arm/tcg/helper-a64.h    |   8 ++
-file changed, 22 insertions(+), 9 deletions(-)
+ target/arm/tcg/a64.decode      |  45 +++++++
  target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
  target/arm/tcg/vec_helper.c    |  39 +++---
 files changed, 259 insertions(+), 54 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/helper-a64.h
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ static void handle_rev16(DisasContext *s, unsigned int sf,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
-  */
+ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
- static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
+ DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
- {
+ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
--    unsigned int sf, opcode, rn, rd;
++
-+    unsigned int sf, opcode, opcode2, rn, rd;
++DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--    if (extract32(insn, 29, 1) || extract32(insn, 16, 5)) {
++DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    if (extract32(insn, 29, 1)) {
++
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
  #
  %rd             0:5
 +%esz_sd         22:1 !function=plus_2
 +%hl             11:1 21:1
 +%hlm            11:1 20:2
  &r              rn
  &ri             rd imm
  &rri_sf         rd rn imm sf
  &i              imm
 +&rrr_e          rd rn rm esz
 +&rrx_e          rd rn rm idx esz
  &qrr_e          q rd rn esz
  &qrrr_e         q rd rn rm esz
 +&qrrx_e         q rd rn rm idx esz
  &qrrrr_e        q rd rn rm ra esz
 +@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
 +@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
 +
 +@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
 +@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
 +@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
 +
  @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
  @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
  @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
  @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 +@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 +@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 +
 +@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
 +                &qrrx_e esz=1 idx=%hlm
 +@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
 +                &qrrx_e esz=2 idx=%hl
 +@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
 +                &qrrx_e esz=3
 +
  ### Data Processing - Immediate
  # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
  SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
  UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
  INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 +
 +### Advanced SIMD scalar three same
 +
 +FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 +FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 +
 +### Advanced SIMD three same
 +
 +FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 +FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +
 +### Advanced SIMD scalar x indexed element
 +
 +FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 +FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +
 +### Advanced SIMD vector x indexed element
 +
 +FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 +FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 +FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
      return true;
  }
 +/*
 + * Advanced SIMD three same
 + */
 +
 +typedef struct FPScalar {
 +    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
 +    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
 +    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
 +} FPScalar;
 +
 +static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
 +{
 +    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
 +            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
 +    return true;
 +}
 +
 +static const FPScalar f_scalar_fmulx = {
 +    gen_helper_advsimd_mulxh,
 +    gen_helper_vfp_mulxs,
 +    gen_helper_vfp_mulxd,
 +};
 +TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
 +
 +static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
 +                          gen_helper_gvec_3_ptr * const fns[3])
 +{
 +    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
 +                          esz == MO_16, 0, fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
 +    gen_helper_gvec_fmulx_h,
 +    gen_helper_gvec_fmulx_s,
 +    gen_helper_gvec_fmulx_d,
 +};
 +TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 +
 +/*
 + * Advanced SIMD scalar/vector x indexed element
 + */
 +
 +static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
 +{
 +    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t1, a->rm, a->idx, MO_64);
 +            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
 +TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 +
 +static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
 +                              gen_helper_gvec_3_ptr * const fns[3])
 +{
 +    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
 +                          esz == MO_16, a->idx, fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
 +static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
 +    gen_helper_gvec_fmulx_idx_h,
 +    gen_helper_gvec_fmulx_idx_s,
 +    gen_helper_gvec_fmulx_idx_d,
 +};
 +TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 +
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1a: /* FADD */
                  gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1a: /* FADD */
                  gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          /* Floating point: U, size[1] and opcode indicate operation */
          int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
          switch (fpopcode) {
 -        case 0x1b: /* FMULX */
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
          case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          case 0x7a: /* FABD */
              break;
          default:
 +        case 0x1b: /* FMULX */
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      TCGv_i32 tcg_res;
      switch (fpopcode) {
 -    case 0x03: /* FMULX */
      case 0x04: /* FCMEQ (reg) */
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      case 0x1d: /* FACGT */
          break;
      default:
 +    case 0x03: /* FMULX */
          unallocated_encoding(s);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-     sf = extract32(insn, 31, 1);
+     tcg_res = tcg_temp_new_i32();
-     opcode = extract32(insn, 10, 6);
-+    opcode2 = extract32(insn, 16, 5);
+     switch (fpopcode) {
-     rn = extract32(insn, 5, 5);
+-    case 0x03: /* FMULX */
-     rd = extract32(insn, 0, 5);
+-        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
--    switch (opcode) {
+     case 0x04: /* FCMEQ (reg) */
--    case 0: /* RBIT */
+         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 +#define MAP(SF, O2, O1) ((SF) | (O1 << 1) | (O2 << 7))
 +
 +    switch (MAP(sf, opcode2, opcode)) {
 +    case MAP(0, 0x00, 0x00): /* RBIT */
 +    case MAP(1, 0x00, 0x00):
          handle_rbit(s, sf, rn, rd);
          break;
--    case 1: /* REV16 */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-+    case MAP(0, 0x00, 0x01): /* REV16 */
+         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 +    case MAP(1, 0x00, 0x01):
          handle_rev16(s, sf, rn, rd);
          break;
--    case 2: /* REV32 */
+     default:
-+    case MAP(0, 0x00, 0x02): /* REV/REV32 */
++    case 0x03: /* FMULX */
-+    case MAP(1, 0x00, 0x02):
+         g_assert_not_reached();
-         handle_rev32(s, sf, rn, rd);
+     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                 rn, rm, rd);
          return;
 -    case 0x1b: /* FMULX */
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
      case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x1b: /* FMULX */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
      case 0x2: /* FADD */
 -    case 0x3: /* FMULX */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
--    case 3: /* REV64 */
+     default:
-+    case MAP(1, 0x00, 0x03): /* REV64 */
++    case 0x3: /* FMULX */
-         handle_rev64(s, sf, rn, rd);
+         unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0x2: /* FADD */
                  gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3: /* FMULX */
 -                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x3: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      case 0x01: /* FMLA */
      case 0x05: /* FMLS */
      case 0x09: /* FMUL */
 -    case 0x19: /* FMULX */
          is_fp = 1;
          break;
--    case 4: /* CLZ */
+     case 0x1d: /* SQRDMLAH */
-+    case MAP(0, 0x00, 0x04): /* CLZ */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-+    case MAP(1, 0x00, 0x04):
+         /* is_fp, but we pass tcg_env not fp_status.  */
          handle_clz(s, sf, rn, rd);
          break;
--    case 5: /* CLS */
+     default:
-+    case MAP(0, 0x00, 0x05): /* CLS */
++    case 0x19: /* FMULX */
-+    case MAP(1, 0x00, 0x05):
+         unallocated_encoding(s);
-         handle_cls(s, sf, rn, rd);
+         return;
          break;
 +    default:
 +        unallocated_encoding(s);
 +        break;
      }
-+
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-+#undef MAP
+             case 0x09: /* FMUL */
                  gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
                  break;
 -            case 0x19: /* FMULX */
 -                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
 -                break;
              default:
 +            case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                      g_assert_not_reached();
                  }
                  break;
 -            case 0x19: /* FMULX */
 -                switch (size) {
 -                case 1:
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
 -                                                 tcg_idx, fpst);
 -                    } else {
 -                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
 -                                                  tcg_idx, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
  DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
  #ifdef TARGET_AARCH64
 +DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
 +DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
 +DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
  DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
  DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
  #undef DO_MLA_IDX
 -#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
 +#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
      intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
      for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
          TYPE mm = m[H(i + idx)];                                           \
          for (j = 0; j < segment; j++) {                                    \
 -            d[i + j] = TYPE##_##ADD(d[i + j],                              \
 -                                    TYPE##_mul(n[i + j], mm, stat), stat); \
 +            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
          }                                                                  \
      }                                                                      \
      clear_tail(d, oprsz, simd_maxsz(desc));                                \
  }
- static void handle_div(DisasContext *s, bool is_signed, unsigned int sf,
+-#define float16_nop(N, M, S) (M)
 -#define float32_nop(N, M, S) (M)
 -#define float64_nop(N, M, S) (M)
 +#define nop(N, M, S) (M)
 -DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
 -DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
 -DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
 +DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
 +DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
 +
 +#ifdef TARGET_AARCH64
 +
 +DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
 +DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
 +DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
 +
 +#endif
 +
 +#undef nop
  /*
   * Non-fused multiply-accumulate operations, for Neon. NB that unlike
   * the fused ops below they assume accumulate both from and into Vd.
   */
 -DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
 -DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
 -DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
 -DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
 +DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 -#undef float16_nop
 -#undef float32_nop
 -#undef float64_nop
  #undef DO_FMUL_IDX
  #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 22/49] target/arm: Create ARMVAParameters and helpers
+[PULL 25/42] target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Split out functions to extract the virtual address parameters.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Let the functions choose T0 or T1 address space half, if present.
 Extract (most of) the control bits that vary between EL or Tx.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
 Message-id: 20190108223129.5570-19-richard.henderson@linaro.org
 [PMM: fixed minor checkpatch comment nits]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h |  14 +++
+ target/arm/tcg/helper-a64.h    |   4 +
- target/arm/helper.c    | 278 ++++++++++++++++++++++-------------------
+ target/arm/tcg/translate.h     |   5 +
-files changed, 164 insertions(+), 128 deletions(-)
+ target/arm/tcg/a64.decode      |  27 +++++
  target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |   4 +
 files changed, 143 insertions(+), 102 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/helper-a64.h
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ static inline ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
- ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env);
+ DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
- #endif
+ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
-+/*
++DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+ * Parameters of a given virtual address, as extracted from the
++DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+ * translation control register (TCR) for a given regime.
++DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+ */
++
-+typedef struct ARMVAParameters {
+ DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    unsigned tsz    : 8;
+ DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    unsigned select : 1;
+ DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    bool tbi        : 1;
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 +    bool epd        : 1;
 +    bool hpd        : 1;
 +    bool using16k   : 1;
 +    bool using64k   : 1;
 +} ARMVAParameters;
 +
  #endif
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/translate.h
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ static uint8_t convert_stage2_attrs(CPUARMState *env, uint8_t s2attrs)
+@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
-     return (hiattr << 6) | (hihint << 4) | (loattr << 2) | lohint;
+     return x << 12;
  }
-+static ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
++static inline int xor_2(DisasContext *s, int x)
 +                                          ARMMMUIdx mmu_idx, bool data)
 +{
-+    uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
++    return x ^ 2;
 +    uint32_t el = regime_el(env, mmu_idx);
 +    bool tbi, epd, hpd, using16k, using64k;
 +    int select, tsz;
 +
 +    /*
 +     * Bit 55 is always between the two regions, and is canonical for
 +     * determining if address tagging is enabled.
 +     */
 +    select = extract64(va, 55, 1);
 +
 +    if (el > 1) {
 +        tsz = extract32(tcr, 0, 6);
 +        using64k = extract32(tcr, 14, 1);
 +        using16k = extract32(tcr, 15, 1);
 +        if (mmu_idx == ARMMMUIdx_S2NS) {
 +            /* VTCR_EL2 */
 +            tbi = hpd = false;
 +        } else {
 +            tbi = extract32(tcr, 20, 1);
 +            hpd = extract32(tcr, 24, 1);
 +        }
 +        epd = false;
 +    } else if (!select) {
 +        tsz = extract32(tcr, 0, 6);
 +        epd = extract32(tcr, 7, 1);
 +        using64k = extract32(tcr, 14, 1);
 +        using16k = extract32(tcr, 15, 1);
 +        tbi = extract64(tcr, 37, 1);
 +        hpd = extract64(tcr, 41, 1);
 +    } else {
 +        int tg = extract32(tcr, 30, 2);
 +        using16k = tg == 1;
 +        using64k = tg == 3;
 +        tsz = extract32(tcr, 16, 6);
 +        epd = extract32(tcr, 23, 1);
 +        tbi = extract64(tcr, 38, 1);
 +        hpd = extract64(tcr, 42, 1);
 +    }
 +    tsz = MIN(tsz, 39);  /* TODO: ARMv8.4-TTST */
 +    tsz = MAX(tsz, 16);  /* TODO: ARMv8.2-LVA  */
 +
 +    return (ARMVAParameters) {
 +        .tsz = tsz,
 +        .select = select,
 +        .tbi = tbi,
 +        .epd = epd,
 +        .hpd = hpd,
 +        .using16k = using16k,
 +        .using64k = using64k,
 +    };
 +}
 +
-+static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
+ static inline int neon_3same_fp_size(DisasContext *s, int x)
-+                                          ARMMMUIdx mmu_idx)
+ {
-+{
+     /* Convert 0==fp32, 1==fp16 into a MO_* value */
-+    uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+    uint32_t el = regime_el(env, mmu_idx);
+index XXXXXXX..XXXXXXX 100644
-+    int select, tsz;
+--- a/target/arm/tcg/a64.decode
-+    bool epd, hpd;
++++ b/target/arm/tcg/a64.decode
-+
+@@ -XXX,XX +XXX,XX @@
-+    if (mmu_idx == ARMMMUIdx_S2NS) {
-+        /* VTCR */
+ %rd             0:5
-+        bool sext = extract32(tcr, 4, 1);
+ %esz_sd         22:1 !function=plus_2
-+        bool sign = extract32(tcr, 3, 1);
++%esz_hsd        22:2 !function=xor_2
-+
+ %hl             11:1 21:1
-+        /*
+ %hlm            11:1 20:2
-+         * If the sign-extend bit is not the same as t0sz[3], the result
-+         * is unpredictable. Flag this as a guest error.
+@@ -XXX,XX +XXX,XX @@
-+         */
-+        if (sign != sext) {
+ @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
-+            qemu_log_mask(LOG_GUEST_ERROR,
+ @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
-+                          "AArch32: VTCR.S / VTCR.T0SZ[3] mismatch\n");
++@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
-+        }
-+        tsz = sextract32(tcr, 0, 4) + 8;
+ @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
-+        select = 0;
+ @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
-+        hpd = false;
+@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
-+        epd = false;
-+    } else if (el == 2) {
+ ### Advanced SIMD scalar three same
-+        /* HTCR */
-+        tsz = extract32(tcr, 0, 3);
++FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
-+        select = 0;
++FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
-+        hpd = extract64(tcr, 24, 1);
++FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
-+        epd = false;
++FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
-+    } else {
++
-+        int t0sz = extract32(tcr, 0, 3);
+ FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
-+        int t1sz = extract32(tcr, 16, 3);
+ FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
-+
-+        if (t1sz == 0) {
+ ### Advanced SIMD three same
-+            select = va > (0xffffffffu >> t0sz);
-+        } else {
++FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
-+            /* Note that we will detect errors later.  */
++FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
-+            select = va >= ~(0xffffffffu >> t1sz);
++
-+        }
++FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
-+        if (!select) {
++FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
-+            tsz = t0sz;
++
-+            epd = extract32(tcr, 7, 1);
++FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
-+            hpd = extract64(tcr, 41, 1);
++FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
-+        } else {
++
-+            tsz = t1sz;
++FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
-+            epd = extract32(tcr, 23, 1);
++FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
-+            hpd = extract64(tcr, 42, 1);
++
-+        }
+ FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
-+        /* For aarch32, hpd0 is not enabled without t2e as well.  */
+ FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
-+        hpd &= extract32(tcr, 6, 1);
-+    }
+ ### Advanced SIMD scalar x indexed element
-+
-+    return (ARMVAParameters) {
++FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
-+        .tsz = tsz,
++FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
-+        .select = select,
++FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
-+        .epd = epd,
++
-+        .hpd = hpd,
+ FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
-+    };
+ FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
-+}
+ FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
-+
- static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
+ ### Advanced SIMD vector x indexed element
-                                MMUAccessType access_type, ARMMMUIdx mmu_idx,
-                                hwaddr *phys_ptr, MemTxAttrs *txattrs, int *prot,
++FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
-@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
++FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
-     /* Read an LPAE long-descriptor translation table. */
++FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
-     ARMFaultType fault_type = ARMFault_Translation;
++
-     uint32_t level;
+ FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
--    uint32_t epd = 0;
+ FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
--    int32_t t0sz, t1sz;
+ FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
--    uint32_t tg;
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-+    ARMVAParameters param;
+index XXXXXXX..XXXXXXX 100644
-     uint64_t ttbr;
+--- a/target/arm/tcg/translate-a64.c
--    int ttbr_select;
++++ b/target/arm/tcg/translate-a64.c
-     hwaddr descaddr, indexmask, indexmask_grainsize;
+@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
-     uint32_t tableattrs;
+     return true;
--    target_ulong page_size;
+ }
-+    target_ulong page_size, top_bits;
-     uint32_t attrs;
++static const FPScalar f_scalar_fadd = {
--    int32_t stride = 9;
++    gen_helper_vfp_addh,
--    int32_t addrsize;
++    gen_helper_vfp_adds,
--    int inputsize;
++    gen_helper_vfp_addd,
--    int32_t tbi = 0;
++};
-+    int32_t stride;
++TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
-+    int addrsize, inputsize;
++
-     TCR *tcr = regime_tcr(env, mmu_idx);
++static const FPScalar f_scalar_fsub = {
-     int ap, ns, xn, pxn;
++    gen_helper_vfp_subh,
-     uint32_t el = regime_el(env, mmu_idx);
++    gen_helper_vfp_subs,
--    bool ttbr1_valid = true;
++    gen_helper_vfp_subd,
-+    bool ttbr1_valid;
++};
-     uint64_t descaddrmask;
++TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
-     bool aarch64 = arm_el_is_aa64(env, el);
++
--    bool hpd = false;
++static const FPScalar f_scalar_fdiv = {
++    gen_helper_vfp_divh,
-     /* TODO:
++    gen_helper_vfp_divs,
-      * This code does not handle the different format TCR for VTCR_EL2.
++    gen_helper_vfp_divd,
-@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
++};
-      * support for those page table walks.
++TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
-      */
++
-     if (aarch64) {
++static const FPScalar f_scalar_fmul = {
-+        param = aa64_va_parameters(env, address, mmu_idx,
++    gen_helper_vfp_mulh,
-+                                   access_type != MMU_INST_FETCH);
++    gen_helper_vfp_muls,
-         level = 0;
++    gen_helper_vfp_muld,
--        addrsize = 64;
++};
--        if (el > 1) {
++TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
--            if (mmu_idx != ARMMMUIdx_S2NS) {
++
--                tbi = extract64(tcr->raw_tcr, 20, 1);
+ static const FPScalar f_scalar_fmulx = {
--            }
+     gen_helper_advsimd_mulxh,
--        } else {
+     gen_helper_vfp_mulxs,
--            if (extract64(address, 55, 1)) {
+@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
--                tbi = extract64(tcr->raw_tcr, 38, 1);
+     return true;
--            } else {
+ }
--                tbi = extract64(tcr->raw_tcr, 37, 1);
--            }
++static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
--        }
++    gen_helper_gvec_fadd_h,
--        tbi *= 8;
++    gen_helper_gvec_fadd_s,
--
++    gen_helper_gvec_fadd_d,
-         /* If we are in 64-bit EL2 or EL3 then there is no TTBR1, so mark it
++};
-          * invalid.
++TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
-          */
++
--        if (el > 1) {
++static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
--            ttbr1_valid = false;
++    gen_helper_gvec_fsub_h,
--        }
++    gen_helper_gvec_fsub_s,
-+        ttbr1_valid = (el < 2);
++    gen_helper_gvec_fsub_d,
-+        addrsize = 64 - 8 * param.tbi;
++};
-+        inputsize = 64 - param.tsz;
++TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
-     } else {
++
-+        param = aa32_va_parameters(env, address, mmu_idx);
++static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
-         level = 1;
++    gen_helper_gvec_fdiv_h,
--        addrsize = 32;
++    gen_helper_gvec_fdiv_s,
-         /* There is no TTBR1 for EL2 */
++    gen_helper_gvec_fdiv_d,
--        if (el == 2) {
++};
--            ttbr1_valid = false;
++TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
--        }
++
-+        ttbr1_valid = (el != 2);
++static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
-+        addrsize = (mmu_idx == ARMMMUIdx_S2NS ? 40 : 32);
++    gen_helper_gvec_fmul_h,
-+        inputsize = addrsize - param.tsz;
++    gen_helper_gvec_fmul_s,
 +    gen_helper_gvec_fmul_d,
 +};
 +TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
      gen_helper_gvec_fmulx_h,
      gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
      return true;
  }
 +TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
  static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
      return true;
  }
 +static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
 +    gen_helper_gvec_fmul_idx_h,
 +    gen_helper_gvec_fmul_idx_s,
 +    gen_helper_gvec_fmul_idx_d,
 +};
 +TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
      gen_helper_gvec_fmulx_idx_h,
      gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      tcg_op2 = read_fp_sreg(s, rm);
      switch (opcode) {
 -    case 0x0: /* FMUL */
 -        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1: /* FDIV */
 -        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x2: /* FADD */
 -        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x3: /* FSUB */
 -        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x4: /* FMAX */
          gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negs(tcg_res, tcg_res);
          break;
 +    default:
 +    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
 +        g_assert_not_reached();
      }
--    /* Determine whether this address is in the region controlled by
+     write_fp_sreg(s, rd, tcg_res);
--     * TTBR0 or TTBR1 (or if it is in neither region and should fault).
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
--     * This is a Non-secure PL0/1 stage 1 translation, so controlled by
+     tcg_op2 = read_fp_dreg(s, rm);
--     * TTBCR/TTBR0/TTBR1 in accordance with ARM ARM DDI0406C table B-32:
-+    /*
+     switch (opcode) {
-+     * We determined the region when collecting the parameters, but we
+-    case 0x0: /* FMUL */
-+     * have not yet validated that the address is valid for the region.
+-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-+     * Extract the top bits and verify that they all match select.
+-        break;
-      */
+-    case 0x1: /* FDIV */
--    if (aarch64) {
+-        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
--        /* AArch64 translation.  */
+-        break;
--        t0sz = extract32(tcr->raw_tcr, 0, 6);
+-    case 0x2: /* FADD */
--        t0sz = MIN(t0sz, 39);
+-        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
--        t0sz = MAX(t0sz, 16);
+-        break;
--    } else if (mmu_idx != ARMMMUIdx_S2NS) {
+-    case 0x3: /* FSUB */
--        /* AArch32 stage 1 translation.  */
+-        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
--        t0sz = extract32(tcr->raw_tcr, 0, 3);
+-        break;
--    } else {
+     case 0x4: /* FMAX */
--        /* AArch32 stage 2 translation.  */
+         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
--        bool sext = extract32(tcr->raw_tcr, 4, 1);
+         break;
--        bool sign = extract32(tcr->raw_tcr, 3, 1);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
--        /* Address size is 40-bit for a stage 2 translation,
+         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
--         * and t0sz can be negative (from -8 to 7),
+         gen_helper_vfp_negd(tcg_res, tcg_res);
--         * so we need to adjust it to use the TTBR selecting logic below.
+         break;
--         */
++    default:
--        addrsize = 40;
++    case 0x0: /* FMUL */
--        t0sz = sextract32(tcr->raw_tcr, 0, 4) + 8;
++    case 0x1: /* FDIV */
--
++    case 0x2: /* FADD */
--        /* If the sign-extend bit is not the same as t0sz[3], the result
++    case 0x3: /* FSUB */
--         * is unpredictable. Flag this as a guest error.  */
++        g_assert_not_reached();
 -        if (sign != sext) {
 -            qemu_log_mask(LOG_GUEST_ERROR,
 -                          "AArch32: VTCR.S / VTCR.T0SZ[3] mismatch\n");
 -        }
 -    }
 -    t1sz = extract32(tcr->raw_tcr, 16, 6);
 -    if (aarch64) {
 -        t1sz = MIN(t1sz, 39);
 -        t1sz = MAX(t1sz, 16);
 -    }
 -    if (t0sz && !extract64(address, addrsize - t0sz, t0sz - tbi)) {
 -        /* there is a ttbr0 region and we are in it (high bits all zero) */
 -        ttbr_select = 0;
 -    } else if (ttbr1_valid && t1sz &&
 -               !extract64(~address, addrsize - t1sz, t1sz - tbi)) {
 -        /* there is a ttbr1 region and we are in it (high bits all one) */
 -        ttbr_select = 1;
 -    } else if (!t0sz) {
 -        /* ttbr0 region is "everything not in the ttbr1 region" */
 -        ttbr_select = 0;
 -    } else if (!t1sz && ttbr1_valid) {
 -        /* ttbr1 region is "everything not in the ttbr0 region" */
 -        ttbr_select = 1;
 -    } else {
 -        /* in the gap between the two regions, this is a Translation fault */
 +    top_bits = sextract64(address, inputsize, addrsize - inputsize);
 +    if (-top_bits != param.select || (param.select && !ttbr1_valid)) {
 +        /* In the gap between the two regions, this is a Translation fault */
          fault_type = ARMFault_Translation;
          goto do_fault;
      }
-+    if (param.using64k) {
+     write_fp_dreg(s, rd, tcg_res);
-+        stride = 13;
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
-+    } else if (param.using16k) {
+     tcg_op2 = read_fp_hreg(s, rm);
-+        stride = 11;
-+    } else {
+     switch (opcode) {
-+        stride = 9;
+-    case 0x0: /* FMUL */
-+    }
+-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-+
+-        break;
-     /* Note that QEMU ignores shareability and cacheability attributes,
+-    case 0x1: /* FDIV */
-      * so we don't need to do anything with the SH, ORGN, IRGN fields
+-        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-      * in the TTBCR.  Similarly, TTBCR:A1 selects whether we get the
+-        break;
-@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
+-    case 0x2: /* FADD */
-      * implement any ASID-like capability so we can ignore it (instead
+-        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-      * we will always flush the TLB any time the ASID is changed).
+-        break;
-      */
+-    case 0x3: /* FSUB */
--    if (ttbr_select == 0) {
+-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
--        ttbr = regime_ttbr(env, mmu_idx, 0);
+-        break;
--        if (el < 2) {
+     case 0x4: /* FMAX */
--            epd = extract32(tcr->raw_tcr, 7, 1);
+         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
--        }
+         break;
--        inputsize = addrsize - t0sz;
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
--
+         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
--        tg = extract32(tcr->raw_tcr, 14, 2);
+         break;
--        if (tg == 1) { /* 64KB pages */
+     default:
--            stride = 13;
++    case 0x0: /* FMUL */
--        }
++    case 0x1: /* FDIV */
--        if (tg == 2) { /* 16KB pages */
++    case 0x2: /* FADD */
--            stride = 11;
++    case 0x3: /* FSUB */
--        }
+         g_assert_not_reached();
--        if (aarch64 && el > 1) {
+     }
--            hpd = extract64(tcr->raw_tcr, 24, 1);
--        } else {
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
--            hpd = extract64(tcr->raw_tcr, 41, 1);
+             case 0x18: /* FMAXNM */
--        }
+                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
--        if (!aarch64) {
+                 break;
--            /* For aarch32, hpd0 is not enabled without t2e as well.  */
+-            case 0x1a: /* FADD */
--            hpd &= extract64(tcr->raw_tcr, 6, 1);
+-                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
--        }
+-                break;
--    } else {
+             case 0x1c: /* FCMEQ */
--        /* We should only be here if TTBR1 is valid */
+                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
--        assert(ttbr1_valid);
+                 break;
--
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
--        ttbr = regime_ttbr(env, mmu_idx, 1);
+             case 0x38: /* FMINNM */
--        epd = extract32(tcr->raw_tcr, 23, 1);
+                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
--        inputsize = addrsize - t1sz;
+                 break;
--
+-            case 0x3a: /* FSUB */
--        tg = extract32(tcr->raw_tcr, 30, 2);
+-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
--        if (tg == 3)  { /* 64KB pages */
+-                break;
--            stride = 13;
+             case 0x3e: /* FMIN */
--        }
+                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
--        if (tg == 1) { /* 16KB pages */
+                 break;
--            stride = 11;
+             case 0x3f: /* FRSQRTS */
--        }
+                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
--        hpd = extract64(tcr->raw_tcr, 42, 1);
+                 break;
--        if (!aarch64) {
+-            case 0x5b: /* FMUL */
--            /* For aarch32, hpd1 is not enabled without t2e as well.  */
+-                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
--            hpd &= extract64(tcr->raw_tcr, 6, 1);
+-                break;
--        }
+             case 0x5c: /* FCMGE */
--    }
+                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-+    ttbr = regime_ttbr(env, mmu_idx, param.select);
+                 break;
+             case 0x5d: /* FACGE */
-     /* Here we should have set up all the parameters for the translation:
+                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-      * inputsize, ttbr, epd, stride, tbi
+                 break;
-      */
+-            case 0x5f: /* FDIV */
+-                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
--    if (epd) {
+-                break;
-+    if (param.epd) {
+             case 0x7a: /* FABD */
-         /* Translation table walk disabled => Translation fault on TLB miss
+                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-          * Note: This is always 0 on 64-bit EL2 and EL3.
+                 gen_helper_vfp_absd(tcg_res, tcg_res);
-          */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
+                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-         }
+                 break;
-         /* Merge in attributes from table descriptors */
+             default:
-         attrs |= nstable << 3; /* NS */
++            case 0x1a: /* FADD */
--        if (hpd) {
+             case 0x1b: /* FMULX */
-+        if (param.hpd) {
++            case 0x3a: /* FSUB */
-             /* HPD disables all the table attributes except NSTable.  */
++            case 0x5b: /* FMUL */
-             break;
++            case 0x5f: /* FDIV */
-         }
+                 g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                         tcg_res, fpst);
                  break;
 -            case 0x1a: /* FADD */
 -                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x38: /* FMINNM */
                  gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3a: /* FSUB */
 -                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3e: /* FMIN */
                  gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5b: /* FMUL */
 -                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5c: /* FCMGE */
                  gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x5d: /* FACGE */
                  gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5f: /* FDIV */
 -                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x3a: /* FSUB */
 +            case 0x5b: /* FMUL */
 +            case 0x5f: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x39: /* FMLS */
      case 0x18: /* FMAXNM */
 -    case 0x1a: /* FADD */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 -    case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 -    case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
 -    case 0x5f: /* FDIV */
      case 0x7a: /* FABD */
      case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x3a: /* FSUB */
 +    case 0x5b: /* FMUL */
 +    case 0x5f: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
 -    case 0x2: /* FADD */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
 -    case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0xf: /* FRSQRTS */
 -    case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
 -    case 0x17: /* FDIV */
      case 0x1a: /* FABD */
      case 0x1c: /* FCMGT */
      case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
      default:
 +    case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0xa: /* FSUB */
 +    case 0x13: /* FMUL */
 +    case 0x17: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0x2: /* FADD */
 -                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0xa: /* FSUB */
 -                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xe: /* FMIN */
                  gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x13: /* FMUL */
 -                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x14: /* FCMGE */
                  gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x15: /* FACGE */
                  gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x17: /* FDIV */
 -                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0xa: /* FSUB */
 +            case 0x13: /* FMUL */
 +            case 0x17: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          break;
      case 0x01: /* FMLA */
      case 0x05: /* FMLS */
 -    case 0x09: /* FMUL */
          is_fp = 1;
          break;
      case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
                  gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                  break;
 -            case 0x09: /* FMUL */
 -                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
 -                break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                      g_assert_not_reached();
                  }
                  break;
 -            case 0x09: /* FMUL */
 -                switch (size) {
 -                case 1:
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
 -                                                tcg_idx, fpst);
 -                    } else {
 -                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
 -                                                 tcg_idx, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
  DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
  #ifdef TARGET_AARCH64
 +DO_3OP(gvec_fdiv_h, float16_div, float16)
 +DO_3OP(gvec_fdiv_s, float32_div, float32)
 +DO_3OP(gvec_fdiv_d, float64_div, float64)
 +
  DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
  DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
  DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 33/49] target/arm: Enable PAuth for -cpu max
+[PULL 26/42] target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-30-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu64.c | 4 ++++
+ target/arm/helper.h            |   4 +
-file changed, 4 insertions(+)
+ target/arm/tcg/a64.decode      |  17 ++++
  target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |   4 +
 files changed, 113 insertions(+), 80 deletions(-)
-diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu64.c
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu64.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         t = cpu->isar.id_aa64isar1;
+ DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         t = FIELD_DP64(t, ID_AA64ISAR1, FCMA, 1);
+ DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+        t = FIELD_DP64(t, ID_AA64ISAR1, APA, 1); /* PAuth, architected only */
++DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+        t = FIELD_DP64(t, ID_AA64ISAR1, API, 0);
-+        t = FIELD_DP64(t, ID_AA64ISAR1, GPA, 1);
+ DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+        t = FIELD_DP64(t, ID_AA64ISAR1, GPI, 0);
+ DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         cpu->isar.id_aa64isar1 = t;
++DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         t = cpu->isar.id_aa64pfr0;
+ DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
  FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
  FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 +FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
 +FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
 +FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
 +FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
 +
  FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
  FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
  FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
 +FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
 +FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
 +FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
 +FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
 +FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
  FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
  };
  TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 +static const FPScalar f_scalar_fmax = {
 +    gen_helper_advsimd_maxh,
 +    gen_helper_vfp_maxs,
 +    gen_helper_vfp_maxd,
 +};
 +TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
 +
 +static const FPScalar f_scalar_fmin = {
 +    gen_helper_advsimd_minh,
 +    gen_helper_vfp_mins,
 +    gen_helper_vfp_mind,
 +};
 +TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
 +
 +static const FPScalar f_scalar_fmaxnm = {
 +    gen_helper_advsimd_maxnumh,
 +    gen_helper_vfp_maxnums,
 +    gen_helper_vfp_maxnumd,
 +};
 +TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
 +
 +static const FPScalar f_scalar_fminnm = {
 +    gen_helper_advsimd_minnumh,
 +    gen_helper_vfp_minnums,
 +    gen_helper_vfp_minnumd,
 +};
 +TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
 +
  static const FPScalar f_scalar_fmulx = {
      gen_helper_advsimd_mulxh,
      gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
  };
  TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 +static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
 +    gen_helper_gvec_fmax_h,
 +    gen_helper_gvec_fmax_s,
 +    gen_helper_gvec_fmax_d,
 +};
 +TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
 +    gen_helper_gvec_fmin_h,
 +    gen_helper_gvec_fmin_s,
 +    gen_helper_gvec_fmin_d,
 +};
 +TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
 +    gen_helper_gvec_fmaxnum_h,
 +    gen_helper_gvec_fmaxnum_s,
 +    gen_helper_gvec_fmaxnum_d,
 +};
 +TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
 +    gen_helper_gvec_fminnum_h,
 +    gen_helper_gvec_fminnum_s,
 +    gen_helper_gvec_fminnum_d,
 +};
 +TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
 +
  static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
      gen_helper_gvec_fmulx_h,
      gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      tcg_op2 = read_fp_sreg(s, rm);
      switch (opcode) {
 -    case 0x4: /* FMAX */
 -        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x5: /* FMIN */
 -        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x6: /* FMAXNM */
 -        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x7: /* FMINNM */
 -        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x8: /* FNMUL */
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negs(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      case 0x1: /* FDIV */
      case 0x2: /* FADD */
      case 0x3: /* FSUB */
 +    case 0x4: /* FMAX */
 +    case 0x5: /* FMIN */
 +    case 0x6: /* FMAXNM */
 +    case 0x7: /* FMINNM */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
      tcg_op2 = read_fp_dreg(s, rm);
      switch (opcode) {
 -    case 0x4: /* FMAX */
 -        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x5: /* FMIN */
 -        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x6: /* FMAXNM */
 -        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x7: /* FMINNM */
 -        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x8: /* FNMUL */
          gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
      case 0x1: /* FDIV */
      case 0x2: /* FADD */
      case 0x3: /* FSUB */
 +    case 0x4: /* FMAX */
 +    case 0x5: /* FMIN */
 +    case 0x6: /* FMAXNM */
 +    case 0x7: /* FMINNM */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
      tcg_op2 = read_fp_hreg(s, rm);
      switch (opcode) {
 -    case 0x4: /* FMAX */
 -        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x5: /* FMIN */
 -        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x6: /* FMAXNM */
 -        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x7: /* FMINNM */
 -        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x8: /* FNMUL */
          gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
          tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
      case 0x1: /* FDIV */
      case 0x2: /* FADD */
      case 0x3: /* FSUB */
 +    case 0x4: /* FMAX */
 +    case 0x5: /* FMIN */
 +    case 0x6: /* FMAXNM */
 +    case 0x7: /* FMINNM */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
                                         tcg_res, fpst);
                  break;
 -            case 0x18: /* FMAXNM */
 -                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1e: /* FMAX */
 -                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x38: /* FMINNM */
 -                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3e: /* FMIN */
 -                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x18: /* FMAXNM */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1e: /* FMAX */
 +            case 0x38: /* FMINNM */
              case 0x3a: /* FSUB */
 +            case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
              case 0x5f: /* FDIV */
                  g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1e: /* FMAX */
 -                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x18: /* FMAXNM */
 -                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x38: /* FMINNM */
 -                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3e: /* FMIN */
 -                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x18: /* FMAXNM */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1e: /* FMAX */
 +            case 0x38: /* FMINNM */
              case 0x3a: /* FSUB */
 +            case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
              case 0x5f: /* FDIV */
                  g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x7d: /* FACGT */
      case 0x19: /* FMLA */
      case 0x39: /* FMLS */
 -    case 0x18: /* FMAXNM */
      case 0x1c: /* FCMEQ */
 -    case 0x1e: /* FMAX */
 -    case 0x38: /* FMINNM */
 -    case 0x3e: /* FMIN */
      case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
      case 0x7c: /* FCMGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x18: /* FMAXNM */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x1e: /* FMAX */
 +    case 0x38: /* FMINNM */
      case 0x3a: /* FSUB */
 +    case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
      case 0x5f: /* FDIV */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
      case 0x4: /* FCMEQ */
 -    case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
 -    case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
 -    case 0xe: /* FMIN */
      case 0xf: /* FRSQRTS */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
      default:
 +    case 0x0: /* FMAXNM */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0x6: /* FMAX */
 +    case 0x8: /* FMINNM */
      case 0xa: /* FSUB */
 +    case 0xe: /* FMIN */
      case 0x13: /* FMUL */
      case 0x17: /* FDIV */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x0: /* FMAXNM */
 -                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1: /* FMLA */
                  read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x6: /* FMAX */
 -                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x8: /* FMINNM */
 -                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x9: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
                  tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0xe: /* FMIN */
 -                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x0: /* FMAXNM */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0x6: /* FMAX */
 +            case 0x8: /* FMINNM */
              case 0xa: /* FSUB */
 +            case 0xe: /* FMIN */
              case 0x13: /* FMUL */
              case 0x17: /* FDIV */
                  g_assert_not_reached();
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
  DO_3OP(gvec_fmax_h, float16_max, float16)
  DO_3OP(gvec_fmax_s, float32_max, float32)
 +DO_3OP(gvec_fmax_d, float64_max, float64)
  DO_3OP(gvec_fmin_h, float16_min, float16)
  DO_3OP(gvec_fmin_s, float32_min, float32)
 +DO_3OP(gvec_fmin_d, float64_min, float64)
  DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
  DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
 +DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
  DO_3OP(gvec_fminnum_h, float16_minnum, float16)
  DO_3OP(gvec_fminnum_s, float32_minnum, float32)
 +DO_3OP(gvec_fminnum_d, float64_minnum, float64)
  DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
  DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 34/49] target/arm: Enable PAuth for user-only
+[PULL 27/42] target/arm: Introduce vfp_load_reg16
 From: Richard Henderson <richard.henderson@linaro.org>
-Add 4 attributes that controls the EL1 enable bits, as we may not
+Load and zero-extend float16 into a TCGv_i32 before
-always want to turn on pointer authentication with -cpu max.
+all scalar operations.
 However, by default they are enabled.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20190108223129.5570-31-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.c   |  3 +++
+ target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
- target/arm/cpu64.c | 60 ++++++++++++++++++++++++++++++++++++++++++++++
+file changed, 22 insertions(+), 17 deletions(-)
 files changed, 63 insertions(+)
-diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.c
+--- a/target/arm/tcg/translate-vfp.c
-+++ b/target/arm/cpu.c
++++ b/target/arm/tcg/translate-vfp.c
-@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(CPUState *s)
+@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
-         env->pstate = PSTATE_MODE_EL0t;
+     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
          /* Userspace expects access to DC ZVA, CTL_EL0 and the cache ops */
          env->cp15.sctlr_el[1] |= SCTLR_UCT | SCTLR_UCI | SCTLR_DZE;
 +        /* Enable all PAC instructions */
 +        env->cp15.hcr_el2 |= HCR_API;
 +        env->cp15.scr_el3 |= SCR_API;
          /* and to the FP/Neon instructions */
          env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 20, 2, 3);
          /* and to the SVE instructions */
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void cpu_max_set_sve_vq(Object *obj, Visitor *v, const char *name,
      error_propagate(errp, err);
  }
-+#ifdef CONFIG_USER_ONLY
++static inline void vfp_load_reg16(TCGv_i32 var, int reg)
 +static void cpu_max_get_packey(Object *obj, Visitor *v, const char *name,
 +                               void *opaque, Error **errp)
 +{
-+    ARMCPU *cpu = ARM_CPU(obj);
++    tcg_gen_ld16u_i32(var, tcg_env,
-+    const uint64_t *bit = opaque;
++                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
 +    bool enabled = (cpu->env.cp15.sctlr_el[1] & *bit) != 0;
 +
 +    visit_type_bool(v, name, &enabled, errp);
 +}
 +
-+static void cpu_max_set_packey(Object *obj, Visitor *v, const char *name,
+ /*
-+                               void *opaque, Error **errp)
+  * The imm8 encodes the sign bit, enough bits to represent an exponent in
-+{
+  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
-+    ARMCPU *cpu = ARM_CPU(obj);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
-+    Error *err = NULL;
+     if (a->l) {
-+    const uint64_t *bit = opaque;
+         /* VFP to general purpose register */
-+    bool enabled;
+         tmp = tcg_temp_new_i32();
-+
+-        vfp_load_reg32(tmp, a->vn);
-+    visit_type_bool(v, name, &enabled, errp);
+-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
-+
++        vfp_load_reg16(tmp, a->vn);
-+    if (!err) {
+         store_reg(s, a->rt, tmp);
-+        if (enabled) {
+     } else {
-+            cpu->env.cp15.sctlr_el[1] |= *bit;
+         /* general purpose register to VFP */
-+        } else {
+@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
-+            cpu->env.cp15.sctlr_el[1] &= ~*bit;
+     fd = tcg_temp_new_i32();
-+        }
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
-+    }
-+    error_propagate(errp, err);
+-    vfp_load_reg32(f0, vn);
-+}
+-    vfp_load_reg32(f1, vm);
-+#endif
++    vfp_load_reg16(f0, vn);
-+
++    vfp_load_reg16(f1, vm);
- /* -cpu max: if KVM is enabled, like -cpu host (best possible with this host);
-  * otherwise, a CPU with as many features enabled as our emulation supports.
+     if (reads_vd) {
-  * The version of '-cpu max' for qemu-system-arm is defined in cpu.c;
+-        vfp_load_reg32(fd, vd);
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
++        vfp_load_reg16(fd, vd);
-          */
+     }
-         cpu->ctr = 0x80038003; /* 32 byte I and D cacheline size, VIPT icache */
+     fn(fd, f0, f1, fpst);
-         cpu->dcz_blocksize = 7; /*  512 bytes */
+     vfp_store_reg32(fd, vd);
-+
+@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
-+        /*
+     }
-+         * Note that Linux will enable enable all of the keys at once.
-+         * But doing it this way will allow experimentation beyond that.
+     f0 = tcg_temp_new_i32();
-+         */
+-    vfp_load_reg32(f0, vm);
-+        {
++    vfp_load_reg16(f0, vm);
-+            static const uint64_t apia_bit = SCTLR_EnIA;
+     fn(f0, f0);
-+            static const uint64_t apib_bit = SCTLR_EnIB;
+     vfp_store_reg32(f0, vd);
-+            static const uint64_t apda_bit = SCTLR_EnDA;
-+            static const uint64_t apdb_bit = SCTLR_EnDB;
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
-+
+     vm = tcg_temp_new_i32();
-+            object_property_add(obj, "apia", "bool", cpu_max_get_packey,
+     vd = tcg_temp_new_i32();
-+                                cpu_max_set_packey, NULL,
-+                                (void *)&apia_bit, &error_fatal);
+-    vfp_load_reg32(vn, a->vn);
-+            object_property_add(obj, "apib", "bool", cpu_max_get_packey,
+-    vfp_load_reg32(vm, a->vm);
-+                                cpu_max_set_packey, NULL,
++    vfp_load_reg16(vn, a->vn);
-+                                (void *)&apib_bit, &error_fatal);
++    vfp_load_reg16(vm, a->vm);
-+            object_property_add(obj, "apda", "bool", cpu_max_get_packey,
+     if (neg_n) {
-+                                cpu_max_set_packey, NULL,
+         /* VFNMS, VFMS */
-+                                (void *)&apda_bit, &error_fatal);
+         gen_helper_vfp_negh(vn, vn);
-+            object_property_add(obj, "apdb", "bool", cpu_max_get_packey,
+     }
-+                                cpu_max_set_packey, NULL,
+-    vfp_load_reg32(vd, a->vd);
-+                                (void *)&apdb_bit, &error_fatal);
++    vfp_load_reg16(vd, a->vd);
-+
+     if (neg_d) {
-+            /* Enable all PAC keys by default.  */
+         /* VFNMA, VFNMS */
-+            cpu->env.cp15.sctlr_el[1] |= SCTLR_EnIA | SCTLR_EnIB;
+         gen_helper_vfp_negh(vd, vd);
-+            cpu->env.cp15.sctlr_el[1] |= SCTLR_EnDA | SCTLR_EnDB;
+@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
-+        }
+     vd = tcg_temp_new_i32();
- #endif
+     vm = tcg_temp_new_i32();
-         cpu->sve_max_vq = ARM_MAX_VQ;
+-    vfp_load_reg32(vd, a->vd);
 +    vfp_load_reg16(vd, a->vd);
      if (a->z) {
          tcg_gen_movi_i32(vm, 0);
      } else {
 -        vfp_load_reg32(vm, a->vm);
 +        vfp_load_reg16(vm, a->vm);
      }
      if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth(tmp, tmp, fpst);
      vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
      gen_helper_rinth(tmp, tmp, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth_exact(tmp, tmp, fpst);
      vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      vm = tcg_temp_new_i32();
 -    vfp_load_reg32(vm, a->vm);
 +    vfp_load_reg16(vm, a->vm);
      if (a->s) {
          if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
      /* Insert low half of Vm into high half of Vd */
      rm = tcg_temp_new_i32();
      rd = tcg_temp_new_i32();
 -    vfp_load_reg32(rm, a->vm);
 -    vfp_load_reg32(rd, a->vd);
 +    vfp_load_reg16(rm, a->vm);
 +    vfp_load_reg16(rd, a->vd);
      tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
      vfp_store_reg32(rd, a->vd);
      return true;
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 17/49] target/arm: Decode PAuth within disas_uncond_b_reg
+[PULL 28/42] target/arm: Expand vfp neg and abs inline
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-14-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 82 +++++++++++++++++++++++++++++++++++++-
+ target/arm/helper.h            |  6 ----
-file changed, 81 insertions(+), 1 deletion(-)
+ target/arm/tcg/translate.h     | 30 +++++++++++++++++++
  target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
  target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
  target/arm/vfp_helper.c        | 30 -------------------
 files changed, 79 insertions(+), 85 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/helper.h
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
  DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
  DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
  DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
 -DEF_HELPER_1(vfp_negh, f16, f16)
 -DEF_HELPER_1(vfp_negs, f32, f32)
 -DEF_HELPER_1(vfp_negd, f64, f64)
 -DEF_HELPER_1(vfp_absh, f16, f16)
 -DEF_HELPER_1(vfp_abss, f32, f32)
 -DEF_HELPER_1(vfp_absd, f64, f64)
  DEF_HELPER_2(vfp_sqrth, f16, f16, env)
  DEF_HELPER_2(vfp_sqrts, f32, f32, env)
  DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
   */
  uint64_t vfp_expand_imm(int size, uint8_t imm8);
 +static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_andi_i32(d, s, INT16_MAX);
 +}
 +
 +static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_andi_i32(d, s, INT32_MAX);
 +}
 +
 +static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
 +{
 +    tcg_gen_andi_i64(d, s, INT64_MAX);
 +}
 +
 +static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_xori_i32(d, s, 1u << 15);
 +}
 +
 +static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_xori_i32(d, s, 1u << 31);
 +}
 +
 +static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
 +{
 +    tcg_gen_xori_i64(d, s, 1ull << 63);
 +}
 +
  /* Vector operations shared between ARM and AArch64.  */
  void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                     uint32_t opr_sz, uint32_t max_sz);
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
          tcg_gen_mov_i32(tcg_res, tcg_op);
          break;
      case 0x1: /* FABS */
 -        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
 +        gen_vfp_absh(tcg_res, tcg_op);
          break;
      case 0x2: /* FNEG */
 -        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
 +        gen_vfp_negh(tcg_res, tcg_op);
          break;
      case 0x3: /* FSQRT */
          fpst = fpstatus_ptr(FPST_FPCR_F16);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
          tcg_gen_mov_i32(tcg_res, tcg_op);
          goto done;
      case 0x1: /* FABS */
 -        gen_helper_vfp_abss(tcg_res, tcg_op);
 +        gen_vfp_abss(tcg_res, tcg_op);
          goto done;
      case 0x2: /* FNEG */
 -        gen_helper_vfp_negs(tcg_res, tcg_op);
 +        gen_vfp_negs(tcg_res, tcg_op);
          goto done;
      case 0x3: /* FSQRT */
          gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
      switch (opcode) {
      case 0x1: /* FABS */
 -        gen_helper_vfp_absd(tcg_res, tcg_op);
 +        gen_vfp_absd(tcg_res, tcg_op);
          goto done;
      case 0x2: /* FNEG */
 -        gen_helper_vfp_negd(tcg_res, tcg_op);
 +        gen_vfp_negd(tcg_res, tcg_op);
          goto done;
      case 0x3: /* FSQRT */
          gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      switch (opcode) {
      case 0x8: /* FNMUL */
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_helper_vfp_negs(tcg_res, tcg_res);
 +        gen_vfp_negs(tcg_res, tcg_res);
          break;
      default:
      case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
      switch (opcode) {
      case 0x8: /* FNMUL */
          gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_helper_vfp_negd(tcg_res, tcg_res);
 +        gen_vfp_negd(tcg_res, tcg_res);
          break;
      default:
      case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
      switch (opcode) {
      case 0x8: /* FNMUL */
          gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
 +        gen_vfp_negh(tcg_res, tcg_res);
          break;
      default:
      case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
       * flipped if it is a negated-input.
       */
      if (o1 == true) {
 -        gen_helper_vfp_negs(tcg_op3, tcg_op3);
 +        gen_vfp_negs(tcg_op3, tcg_op3);
      }
      if (o0 != o1) {
 -        gen_helper_vfp_negs(tcg_op1, tcg_op1);
 +        gen_vfp_negs(tcg_op1, tcg_op1);
      }
      gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
       * flipped if it is a negated-input.
       */
      if (o1 == true) {
 -        gen_helper_vfp_negd(tcg_op3, tcg_op3);
 +        gen_vfp_negd(tcg_op3, tcg_op3);
      }
      if (o0 != o1) {
 -        gen_helper_vfp_negd(tcg_op1, tcg_op1);
 +        gen_vfp_negd(tcg_op1, tcg_op1);
      }
      gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              switch (fpopcode) {
              case 0x39: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_helper_vfp_negd(tcg_op1, tcg_op1);
 +                gen_vfp_negd(tcg_op1, tcg_op1);
                  /* fall through */
              case 0x19: /* FMLA */
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                gen_helper_vfp_absd(tcg_res, tcg_res);
 +                gen_vfp_absd(tcg_res, tcg_res);
                  break;
              case 0x7c: /* FCMGT */
                  gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              switch (fpopcode) {
              case 0x39: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_helper_vfp_negs(tcg_op1, tcg_op1);
 +                gen_vfp_negs(tcg_op1, tcg_op1);
                  /* fall through */
              case 0x19: /* FMLA */
                  read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                gen_helper_vfp_abss(tcg_res, tcg_res);
 +                gen_vfp_abss(tcg_res, tcg_res);
                  break;
              case 0x7c: /* FCMGT */
                  gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
          }
          break;
      case 0x2f: /* FABS */
 -        gen_helper_vfp_absd(tcg_rd, tcg_rn);
 +        gen_vfp_absd(tcg_rd, tcg_rn);
          break;
      case 0x6f: /* FNEG */
 -        gen_helper_vfp_negd(tcg_rd, tcg_rn);
 +        gen_vfp_negd(tcg_rd, tcg_rn);
          break;
      case 0x7f: /* FSQRT */
          gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                      }
                      break;
                  case 0x2f: /* FABS */
 -                    gen_helper_vfp_abss(tcg_res, tcg_op);
 +                    gen_vfp_abss(tcg_res, tcg_op);
                      break;
                  case 0x6f: /* FNEG */
 -                    gen_helper_vfp_negs(tcg_res, tcg_op);
 +                    gen_vfp_negs(tcg_res, tcg_op);
                      break;
                  case 0x7f: /* FSQRT */
                      gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
              switch (16 * u + opcode) {
              case 0x05: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_helper_vfp_negd(tcg_op, tcg_op);
 +                gen_vfp_negd(tcg_op, tcg_op);
                  /* fall through */
              case 0x01: /* FMLA */
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
 diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-vfp.c
 +++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negh(tmp, tmp);
 +    gen_vfp_negh(tmp, tmp);
      gen_helper_vfp_addh(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_muls(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negs(tmp, tmp);
 +    gen_vfp_negs(tmp, tmp);
      gen_helper_vfp_adds(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
      TCGv_i64 tmp = tcg_temp_new_i64();
      gen_helper_vfp_muld(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negd(tmp, tmp);
 +    gen_vfp_negd(tmp, tmp);
      gen_helper_vfp_addd(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negh(vd, vd);
 +    gen_vfp_negh(vd, vd);
      gen_helper_vfp_addh(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_muls(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negs(vd, vd);
 +    gen_vfp_negs(vd, vd);
      gen_helper_vfp_adds(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
      TCGv_i64 tmp = tcg_temp_new_i64();
      gen_helper_vfp_muld(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negd(vd, vd);
 +    gen_vfp_negd(vd, vd);
      gen_helper_vfp_addd(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negh(tmp, tmp);
 -    gen_helper_vfp_negh(vd, vd);
 +    gen_vfp_negh(tmp, tmp);
 +    gen_vfp_negh(vd, vd);
      gen_helper_vfp_addh(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_muls(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negs(tmp, tmp);
 -    gen_helper_vfp_negs(vd, vd);
 +    gen_vfp_negs(tmp, tmp);
 +    gen_vfp_negs(vd, vd);
      gen_helper_vfp_adds(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
      TCGv_i64 tmp = tcg_temp_new_i64();
      gen_helper_vfp_muld(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negd(tmp, tmp);
 -    gen_helper_vfp_negd(vd, vd);
 +    gen_vfp_negd(tmp, tmp);
 +    gen_vfp_negd(vd, vd);
      gen_helper_vfp_addd(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
-     unsigned int opc, op2, op3, rn, op4;
+     /* VNMUL: -(fn * fm) */
-     TCGv_i64 dst;
+     gen_helper_vfp_mulh(vd, vn, vm, fpst);
-+    TCGv_i64 modifier;
+-    gen_helper_vfp_negh(vd, vd);
++    gen_vfp_negh(vd, vd);
-     opc = extract32(insn, 21, 4);
+ }
-     op2 = extract32(insn, 16, 5);
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+ static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
-     case 2: /* RET */
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
-         switch (op3) {
+ {
-         case 0:
+     /* VNMUL: -(fn * fm) */
-+            /* BR, BLR, RET */
+     gen_helper_vfp_muls(vd, vn, vm, fpst);
-             if (op4 != 0) {
+-    gen_helper_vfp_negs(vd, vd);
-                 goto do_unallocated;
++    gen_vfp_negs(vd, vd);
-             }
+ }
-             dst = cpu_reg(s, rn);
-             break;
+ static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
-+        case 2:
+ {
-+        case 3:
+     /* VNMUL: -(fn * fm) */
-+            if (!dc_isar_feature(aa64_pauth, s)) {
+     gen_helper_vfp_muld(vd, vn, vm, fpst);
-+                goto do_unallocated;
+-    gen_helper_vfp_negd(vd, vd);
-+            }
++    gen_vfp_negd(vd, vd);
-+            if (opc == 2) {
+ }
-+                /* RETAA, RETAB */
-+                if (rn != 0x1f || op4 != 0x1f) {
+ static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
-+                    goto do_unallocated;
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
-+                }
+     vfp_load_reg16(vm, a->vm);
-+                rn = 30;
+     if (neg_n) {
-+                modifier = cpu_X[31];
+         /* VFNMS, VFMS */
-+            } else {
+-        gen_helper_vfp_negh(vn, vn);
-+                /* BRAAZ, BRABZ, BLRAAZ, BLRABZ */
++        gen_vfp_negh(vn, vn);
-+                if (op4 != 0x1f) {
+     }
-+                    goto do_unallocated;
+     vfp_load_reg16(vd, a->vd);
-+                }
+     if (neg_d) {
-+                modifier = new_tmp_a64_zero(s);
+         /* VFNMA, VFNMS */
-+            }
+-        gen_helper_vfp_negh(vd, vd);
-+            if (s->pauth_active) {
++        gen_vfp_negh(vd, vd);
-+                dst = new_tmp_a64(s);
+     }
-+                if (op3 == 2) {
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
-+                    gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
+     gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
-+                } else {
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
-+                    gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
+     vfp_load_reg32(vm, a->vm);
-+                }
+     if (neg_n) {
-+            } else {
+         /* VFNMS, VFMS */
-+                dst = cpu_reg(s, rn);
+-        gen_helper_vfp_negs(vn, vn);
-+            }
++        gen_vfp_negs(vn, vn);
-+            break;
+     }
-+
+     vfp_load_reg32(vd, a->vd);
-         default:
+     if (neg_d) {
-             goto do_unallocated;
+         /* VFNMA, VFNMS */
-         }
+-        gen_helper_vfp_negs(vd, vd);
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
++        gen_vfp_negs(vd, vd);
-         }
+     }
-         break;
+     fpst = fpstatus_ptr(FPST_FPCR);
+     gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
-+    case 8: /* BRAA */
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
-+    case 9: /* BLRAA */
+     vfp_load_reg64(vm, a->vm);
-+        if (!dc_isar_feature(aa64_pauth, s)) {
+     if (neg_n) {
-+            goto do_unallocated;
+         /* VFNMS, VFMS */
-+        }
+-        gen_helper_vfp_negd(vn, vn);
-+        if (op3 != 2 || op3 != 3) {
++        gen_vfp_negd(vn, vn);
-+            goto do_unallocated;
+     }
-+        }
+     vfp_load_reg64(vd, a->vd);
-+        if (s->pauth_active) {
+     if (neg_d) {
-+            dst = new_tmp_a64(s);
+         /* VFNMA, VFNMS */
-+            modifier = cpu_reg_sp(s, op4);
+-        gen_helper_vfp_negd(vd, vd);
-+            if (op3 == 2) {
++        gen_vfp_negd(vd, vd);
-+                gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
+     }
-+            } else {
+     fpst = fpstatus_ptr(FPST_FPCR);
-+                gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
+     gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
-+            }
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
-+        } else {
+ DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
-+            dst = cpu_reg(s, rn);
+ DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
-+        }
-+        gen_a64_set_pc(s, dst);
+-DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
-+        /* BLRAA also needs to load return address */
+-DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
-+        if (opc == 9) {
+-DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
-+            tcg_gen_movi_i64(cpu_reg(s, 30), s->pc);
++DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
-+        }
++DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
-+        break;
++DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
-+
-     case 4: /* ERET */
+-DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
-         if (s->current_el == 0) {
+-DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
-             goto do_unallocated;
+-DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
-         }
++DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
-         switch (op3) {
++DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
--        case 0:
++DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
-+        case 0: /* ERET */
-             if (op4 != 0) {
+ static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
-                 goto do_unallocated;
+ {
-             }
+diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+index XXXXXXX..XXXXXXX 100644
-                            offsetof(CPUARMState, elr_el[s->current_el]));
+--- a/target/arm/vfp_helper.c
-             break;
++++ b/target/arm/vfp_helper.c
+@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
-+        case 2: /* ERETAA */
+ VFP_BINOP(maxnum)
-+        case 3: /* ERETAB */
+ #undef VFP_BINOP
-+            if (!dc_isar_feature(aa64_pauth, s)) {
-+                goto do_unallocated;
+-dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
-+            }
+-{
-+            if (rn != 0x1f || op4 != 0x1f) {
+-    return float16_chs(a);
-+                goto do_unallocated;
+-}
-+            }
+-
-+            dst = tcg_temp_new_i64();
+-float32 VFP_HELPER(neg, s)(float32 a)
-+            tcg_gen_ld_i64(dst, cpu_env,
+-{
-+                           offsetof(CPUARMState, elr_el[s->current_el]));
+-    return float32_chs(a);
-+            if (s->pauth_active) {
+-}
-+                modifier = cpu_X[31];
+-
-+                if (op3 == 2) {
+-float64 VFP_HELPER(neg, d)(float64 a)
-+                    gen_helper_autia(dst, cpu_env, dst, modifier);
+-{
-+                } else {
+-    return float64_chs(a);
-+                    gen_helper_autib(dst, cpu_env, dst, modifier);
+-}
-+                }
+-
-+            }
+-dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
-+            break;
+-{
-+
+-    return float16_abs(a);
-         default:
+-}
-             goto do_unallocated;
+-
-         }
+-float32 VFP_HELPER(abs, s)(float32 a)
 -{
 -    return float32_abs(a);
 -}
 -
 -float64 VFP_HELPER(abs, d)(float64 a)
 -{
 -    return float64_abs(a);
 -}
 -
  dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
  {
      return float16_sqrt(a, &env->vfp.fp_status_f16);
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 29/49] target/arm: Implement pauth_auth
+[PULL 29/42] target/arm: Convert FNMUL to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This is not really functional yet, because the crypto is not yet
+This is the last instruction within disas_fp_2src,
-implemented.  This, however follows the Auth pseudo function.
+so remove that and its subroutines.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-26-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/pauth_helper.c | 21 ++++++++++++++++++++-
+ target/arm/tcg/a64.decode      |   1 +
-file changed, 20 insertions(+), 1 deletion(-)
+ target/arm/tcg/translate-a64.c | 177 +++++----------------------------
 files changed, 27 insertions(+), 151 deletions(-)
-diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/pauth_helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/pauth_helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_original_ptr(uint64_t ptr, ARMVAParameters param)
+@@ -XXX,XX +XXX,XX @@ FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
- static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
+ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
-                            ARMPACKey *key, bool data, int keynumber)
+ FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
  FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 +FNMUL_s         0001 1110 ..1 ..... 1000 10 ..... ..... @rrr_hsd
  FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
  FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmulx = {
  };
  TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
 +static void gen_fnmul_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_mulh(d, n, m, s);
 +    gen_vfp_negh(d, d);
 +}
 +
 +static void gen_fnmul_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_muls(d, n, m, s);
 +    gen_vfp_negs(d, d);
 +}
 +
 +static void gen_fnmul_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_muld(d, n, m, s);
 +    gen_vfp_negd(d, d);
 +}
 +
 +static const FPScalar f_scalar_fnmul = {
 +    gen_fnmul_h,
 +    gen_fnmul_s,
 +    gen_fnmul_d,
 +};
 +TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
--    g_assert_not_reached(); /* FIXME */
+@@ -XXX,XX +XXX,XX @@ static void disas_fp_1src(DisasContext *s, uint32_t insn)
-+    ARMMMUIdx mmu_idx = arm_stage1_mmu_idx(env);
+     }
 +    ARMVAParameters param = aa64_va_parameters(env, ptr, mmu_idx, data);
 +    int bot_bit, top_bit;
 +    uint64_t pac, orig_ptr, test;
 +
 +    orig_ptr = pauth_original_ptr(ptr, param);
 +    pac = pauth_computepac(orig_ptr, modifier, *key);
 +    bot_bit = 64 - param.tsz;
 +    top_bit = 64 - 8 * param.tbi;
 +
 +    test = (pac ^ ptr) & ~MAKE_64BIT_MASK(55, 1);
 +    if (unlikely(extract64(test, bot_bit, top_bit - bot_bit))) {
 +        int error_code = (keynumber << 1) | (keynumber ^ 1);
 +        if (param.tbi) {
 +            return deposit64(ptr, 53, 2, error_code);
 +        } else {
 +            return deposit64(ptr, 61, 2, error_code);
 +        }
 +    }
 +    return orig_ptr;
  }
- static uint64_t pauth_strip(CPUARMState *env, uint64_t ptr, bool data)
+-/* Floating-point data-processing (2 source) - single precision */
 -static void handle_fp_2src_single(DisasContext *s, int opcode,
 -                                  int rd, int rn, int rm)
 -{
 -    TCGv_i32 tcg_op1;
 -    TCGv_i32 tcg_op2;
 -    TCGv_i32 tcg_res;
 -    TCGv_ptr fpst;
 -
 -    tcg_res = tcg_temp_new_i32();
 -    fpst = fpstatus_ptr(FPST_FPCR);
 -    tcg_op1 = read_fp_sreg(s, rn);
 -    tcg_op2 = read_fp_sreg(s, rm);
 -
 -    switch (opcode) {
 -    case 0x8: /* FNMUL */
 -        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_vfp_negs(tcg_res, tcg_res);
 -        break;
 -    default:
 -    case 0x0: /* FMUL */
 -    case 0x1: /* FDIV */
 -    case 0x2: /* FADD */
 -    case 0x3: /* FSUB */
 -    case 0x4: /* FMAX */
 -    case 0x5: /* FMIN */
 -    case 0x6: /* FMAXNM */
 -    case 0x7: /* FMINNM */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
 -/* Floating-point data-processing (2 source) - double precision */
 -static void handle_fp_2src_double(DisasContext *s, int opcode,
 -                                  int rd, int rn, int rm)
 -{
 -    TCGv_i64 tcg_op1;
 -    TCGv_i64 tcg_op2;
 -    TCGv_i64 tcg_res;
 -    TCGv_ptr fpst;
 -
 -    tcg_res = tcg_temp_new_i64();
 -    fpst = fpstatus_ptr(FPST_FPCR);
 -    tcg_op1 = read_fp_dreg(s, rn);
 -    tcg_op2 = read_fp_dreg(s, rm);
 -
 -    switch (opcode) {
 -    case 0x8: /* FNMUL */
 -        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_vfp_negd(tcg_res, tcg_res);
 -        break;
 -    default:
 -    case 0x0: /* FMUL */
 -    case 0x1: /* FDIV */
 -    case 0x2: /* FADD */
 -    case 0x3: /* FSUB */
 -    case 0x4: /* FMAX */
 -    case 0x5: /* FMIN */
 -    case 0x6: /* FMAXNM */
 -    case 0x7: /* FMINNM */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_dreg(s, rd, tcg_res);
 -}
 -
 -/* Floating-point data-processing (2 source) - half precision */
 -static void handle_fp_2src_half(DisasContext *s, int opcode,
 -                                int rd, int rn, int rm)
 -{
 -    TCGv_i32 tcg_op1;
 -    TCGv_i32 tcg_op2;
 -    TCGv_i32 tcg_res;
 -    TCGv_ptr fpst;
 -
 -    tcg_res = tcg_temp_new_i32();
 -    fpst = fpstatus_ptr(FPST_FPCR_F16);
 -    tcg_op1 = read_fp_hreg(s, rn);
 -    tcg_op2 = read_fp_hreg(s, rm);
 -
 -    switch (opcode) {
 -    case 0x8: /* FNMUL */
 -        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_vfp_negh(tcg_res, tcg_res);
 -        break;
 -    default:
 -    case 0x0: /* FMUL */
 -    case 0x1: /* FDIV */
 -    case 0x2: /* FADD */
 -    case 0x3: /* FSUB */
 -    case 0x4: /* FMAX */
 -    case 0x5: /* FMIN */
 -    case 0x6: /* FMAXNM */
 -    case 0x7: /* FMINNM */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
 -/* Floating point data-processing (2 source)
 - *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
 - * +---+---+---+-----------+------+---+------+--------+-----+------+------+
 - * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | opcode | 1 0 |  Rn  |  Rd  |
 - * +---+---+---+-----------+------+---+------+--------+-----+------+------+
 - */
 -static void disas_fp_2src(DisasContext *s, uint32_t insn)
 -{
 -    int mos = extract32(insn, 29, 3);
 -    int type = extract32(insn, 22, 2);
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rm = extract32(insn, 16, 5);
 -    int opcode = extract32(insn, 12, 4);
 -
 -    if (opcode > 8 || mos) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (type) {
 -    case 0:
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_fp_2src_single(s, opcode, rd, rn, rm);
 -        break;
 -    case 1:
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_fp_2src_double(s, opcode, rd, rn, rm);
 -        break;
 -    case 3:
 -        if (!dc_isar_feature(aa64_fp16, s)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_fp_2src_half(s, opcode, rd, rn, rm);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -    }
 -}
 -
  /* Floating-point data-processing (3 source) - single precision */
  static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
                                    int rd, int rn, int rm, int ra)
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
              break;
          case 2:
              /* Floating point data-processing (2 source) */
 -            disas_fp_2src(s, insn);
 +            unallocated_encoding(s); /* in decodetree */
              break;
          case 3:
              /* Floating point conditional select */
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 10/49] target/arm: Decode PAuth within system hint space
+[PULL 30/42] target/arm: Convert FMLA, FMLS to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-7-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 93 +++++++++++++++++++++++++++++++++-----
+ target/arm/helper.h            |   2 +
-file changed, 81 insertions(+), 12 deletions(-)
+ target/arm/tcg/a64.decode      |  22 +++
  target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |  14 ++
 files changed, 163 insertions(+), 116 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/helper.h
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void handle_hint(DisasContext *s, uint32_t insn,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-     }
+ DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-     switch (selector) {
+ DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--    case 0: /* NOP */
++DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--        return;
--    case 3: /* WFI */
+ DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    case 0b00000: /* NOP */
+ DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+        break;
++DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    case 0b00011: /* WFI */
-         s->base.is_jmp = DISAS_WFI;
+ DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
--        return;
+                    void, ptr, ptr, ptr, ptr, i32)
-+        break;
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+    case 0b00001: /* YIELD */
+index XXXXXXX..XXXXXXX 100644
-         /* When running in MTTCG we don't generate jumps to the yield and
+--- a/target/arm/tcg/a64.decode
-          * WFE helpers as it won't affect the scheduling of other vCPUs.
++++ b/target/arm/tcg/a64.decode
-          * If we wanted to more completely model WFE/SEV so we don't busy
+@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
-          * spin unnecessarily we would need to do something more involved.
+ FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
-          */
+ FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
--    case 1: /* YIELD */
-         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
++FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
-             s->base.is_jmp = DISAS_YIELD;
++FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
-         }
++
--        return;
++FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
--    case 2: /* WFE */
++FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
-+        break;
++
-+    case 0b00010: /* WFE */
+ ### Advanced SIMD scalar x indexed element
-         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
-             s->base.is_jmp = DISAS_WFE;
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
-         }
+ FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
--        return;
+ FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
--    case 4: /* SEV */
--    case 5: /* SEVL */
++FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
-+        break;
++FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
-+    case 0b00100: /* SEV */
++FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
-+    case 0b00101: /* SEVL */
++
-         /* we treat all as NOP at least for now */
++FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
--        return;
++FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
-+        break;
++FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
-+    case 0b00111: /* XPACLRI */
++
-+        if (s->pauth_active) {
+ FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
-+            gen_helper_xpaci(cpu_X[30], cpu_env, cpu_X[30]);
+ FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
 +FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
 +FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
 +
 +FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
 +FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
 +FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
 +
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
  };
  TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 +static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
 +    gen_helper_gvec_vfma_h,
 +    gen_helper_gvec_vfma_s,
 +    gen_helper_gvec_vfma_d,
 +};
 +TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 +    gen_helper_gvec_vfms_h,
 +    gen_helper_gvec_vfms_s,
 +    gen_helper_gvec_vfms_d,
 +};
 +TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
  TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 +static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
 +{
 +    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
 +            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t2 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t2, a->rm, a->idx, MO_64);
 +            if (neg) {
 +                gen_vfp_negd(t1, t1);
 +            }
 +            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
-+    case 0b01000: /* PACIA1716 */
++    case MO_32:
-+        if (s->pauth_active) {
++        if (fp_access_check(s)) {
-+            gen_helper_pacia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
++            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
 +            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
 +            if (neg) {
 +                gen_vfp_negs(t1, t1);
 +            }
 +            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
-+    case 0b01010: /* PACIB1716 */
++    case MO_16:
-+        if (s->pauth_active) {
++        if (!dc_isar_feature(aa64_fp16, s)) {
-+            gen_helper_pacib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
++            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
 +            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
 +            if (neg) {
 +                gen_vfp_negh(t1, t1);
 +            }
 +            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
 +                                       fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
-+    case 0b01100: /* AUTIA1716 */
++    default:
-+        if (s->pauth_active) {
++        g_assert_not_reached();
-+            gen_helper_autia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
++    }
 +    return true;
 +}
 +
 +TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
 +TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
 +
  static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
                                gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
  };
  TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 +static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
 +{
 +    static gen_helper_gvec_4_ptr * const fns[3] = {
 +        gen_helper_gvec_fmla_idx_h,
 +        gen_helper_gvec_fmla_idx_s,
 +        gen_helper_gvec_fmla_idx_d,
 +    };
 +    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
-+    case 0b01110: /* AUTIB1716 */
++    case MO_32:
-+        if (s->pauth_active) {
++        break;
-+            gen_helper_autib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
++    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
-+    case 0b11000: /* PACIAZ */
++    default:
-+        if (s->pauth_active) {
++        g_assert_not_reached();
-+            gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30],
++    }
-+                                new_tmp_a64_zero(s));
++    if (fp_access_check(s)) {
-+        }
++        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
-+        break;
++                          esz == MO_16, (a->idx << 1) | neg,
-+    case 0b11001: /* PACIASP */
++                          fns[esz - 1]);
-+        if (s->pauth_active) {
++    }
-+            gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
++    return true;
-+        }
++}
-+        break;
++
-+    case 0b11010: /* PACIBZ */
++TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
-+        if (s->pauth_active) {
++TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
-+            gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30],
++
-+                                new_tmp_a64_zero(s));
-+        }
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+        break;
+  * Note that it is the caller's responsibility to ensure that the
-+    case 0b11011: /* PACIBSP */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-+        if (s->pauth_active) {
+             read_vec_element(s, tcg_op2, rm, pass, MO_64);
-+            gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
-+        }
+             switch (fpopcode) {
-+        break;
+-            case 0x39: /* FMLS */
-+    case 0b11100: /* AUTIAZ */
+-                /* As usual for ARM, separate negation for fused multiply-add */
-+        if (s->pauth_active) {
+-                gen_vfp_negd(tcg_op1, tcg_op1);
-+            gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30],
+-                /* fall through */
-+                              new_tmp_a64_zero(s));
+-            case 0x19: /* FMLA */
-+        }
+-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-+        break;
+-                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
-+    case 0b11101: /* AUTIASP */
+-                                       tcg_res, fpst);
-+        if (s->pauth_active) {
+-                break;
-+            gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
+             case 0x1c: /* FCMEQ */
-+        }
+                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-+        break;
+                 break;
-+    case 0b11110: /* AUTIBZ */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-+        if (s->pauth_active) {
+                 break;
-+            gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30],
+             default:
-+                              new_tmp_a64_zero(s));
+             case 0x18: /* FMAXNM */
-+        }
++            case 0x19: /* FMLA */
-+        break;
+             case 0x1a: /* FADD */
-+    case 0b11111: /* AUTIBSP */
+             case 0x1b: /* FMULX */
-+        if (s->pauth_active) {
+             case 0x1e: /* FMAX */
-+            gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
+             case 0x38: /* FMINNM */
-+        }
++            case 0x39: /* FMLS */
-+        break;
+             case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
              switch (fpopcode) {
 -            case 0x39: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negs(tcg_op1, tcg_op1);
 -                /* fall through */
 -            case 0x19: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
 -                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
 -                                       tcg_res, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              default:
              case 0x18: /* FMAXNM */
 +            case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
 +            case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3f: /* FRSQRTS */
      case 0x5d: /* FACGE */
      case 0x7d: /* FACGT */
 -    case 0x19: /* FMLA */
 -    case 0x39: /* FMLS */
      case 0x1c: /* FCMEQ */
      case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      default:
-         /* default specified as NOP equivalent */
+     case 0x18: /* FMAXNM */
--        return;
++    case 0x19: /* FMLA */
-+        break;
+     case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 +    case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x1: /* FMLA */
      case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
 -    case 0x9: /* FMLS */
      case 0xf: /* FRSQRTS */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          break;
      default:
      case 0x0: /* FMAXNM */
 +    case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
 +    case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x1: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x9: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  break;
              default:
              case 0x0: /* FMAXNM */
 +            case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
 +            case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      case 0x0c: /* SQDMULH */
      case 0x0d: /* SQRDMULH */
          break;
 -    case 0x01: /* FMLA */
 -    case 0x05: /* FMLS */
 -        is_fp = 1;
 -        break;
      case 0x1d: /* SQRDMLAH */
      case 0x1f: /* SQRDMLSH */
          if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x01: /* FMLA */
 +    case 0x05: /* FMLS */
      case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      switch (is_fp) {
      case 1: /* normal fp */
 -        /* convert insn encoded size to MemOp size */
 -        switch (size) {
 -        case 0: /* half-precision */
 -            size = MO_16;
 -            is_fp16 = true;
 -            break;
 -        case MO_32: /* single precision */
 -        case MO_64: /* double precision */
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        break;
 +        unallocated_encoding(s); /* in decodetree */
 +        return;
      case 2: /* complex fp */
          /* Each indexable element is a complex pair.  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
+     if (size == 3) {
+-        TCGv_i64 tcg_idx = tcg_temp_new_i64();
+-        int pass;
+-
+-        assert(is_fp && is_q && !is_long);
+-
+-        read_vec_element(s, tcg_idx, rm, index, MO_64);
+-
+-        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
+-            TCGv_i64 tcg_op = tcg_temp_new_i64();
+-            TCGv_i64 tcg_res = tcg_temp_new_i64();
+-
+-            read_vec_element(s, tcg_op, rn, pass, MO_64);
+-
+-            switch (16 * u + opcode) {
+-            case 0x05: /* FMLS */
+-                /* As usual for ARM, separate negation for fused multiply-add */
+-                gen_vfp_negd(tcg_op, tcg_op);
+-                /* fall through */
+-            case 0x01: /* FMLA */
+-                read_vec_element(s, tcg_res, rd, pass, MO_64);
+-                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
+-                break;
+-            default:
+-            case 0x09: /* FMUL */
+-            case 0x19: /* FMULX */
+-                g_assert_not_reached();
+-            }
+-
+-            write_vec_element(s, tcg_res, rd, pass, MO_64);
+-        }
+-
+-        clear_vec_high(s, !is_scalar, rd);
++        g_assert_not_reached();
+     } else if (!is_long) {
+         /* 32 bit floating point, or 16 or 32 bit integer.
+          * For the 16 bit scalar case we use the usual Neon helpers and
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+                 genfn(tcg_res, tcg_op, tcg_res);
+                 break;
+             }
+-            case 0x05: /* FMLS */
+-            case 0x01: /* FMLA */
+-                read_vec_element_i32(s, tcg_res, rd, pass,
+-                                     is_scalar ? size : MO_32);
+-                switch (size) {
+-                case 1:
+-                    if (opcode == 0x5) {
+-                        /* As usual for ARM, separate negation for fused
+-                         * multiply-add */
+-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
+-                    }
+-                    if (is_scalar) {
+-                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
+-                                                   tcg_res, fpst);
+-                    } else {
+-                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
+-                                                    tcg_res, fpst);
+-                    }
+-                    break;
+-                case 2:
+-                    if (opcode == 0x5) {
+-                        /* As usual for ARM, separate negation for
+-                         * fused multiply-add */
+-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
+-                    }
+-                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
+-                                           tcg_res, fpst);
+-                    break;
+-                default:
+-                    g_assert_not_reached();
+-                }
+-                break;
+             case 0x0c: /* SQDMULH */
+                 if (size == 1) {
+                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+                 }
+                 break;
+             default:
++            case 0x01: /* FMLA */
++            case 0x05: /* FMLS */
+             case 0x09: /* FMUL */
+             case 0x19: /* FMULX */
+                 g_assert_not_reached();
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
+     return float32_muladd(op1, op2, dest, 0, stat);
  }
++static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
++                                 float_status *stat)
++{
++    return float64_muladd(op1, op2, dest, 0, stat);
++}
++
+ static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
+                                  float_status *stat)
+ {
+@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
+     return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
+ }
++static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
++                                 float_status *stat)
++{
++    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
++}
++
+ #define DO_MULADD(NAME, FUNC, TYPE)                                     \
+ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+ {                                                                          \
+@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
+ DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
+ DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
++DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
+ DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
+ DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
++DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
+ /* For the indexed ops, SVE applies the index per 128-bit vector segment.
+  * For AdvSIMD, there is of course only one such vector segment.
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 31/49] target/arm: Implement pauth_computepac
+[PULL 31/42] target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This is the main crypto routine, an implementation of QARMA.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 This matches, as much as possible, ARM pseudocode.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
 Message-id: 20190108223129.5570-28-richard.henderson@linaro.org
 [PMM: fixed minor checkpatch nits]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/pauth_helper.c | 242 +++++++++++++++++++++++++++++++++++++-
+ target/arm/helper.h            |   5 +
-file changed, 241 insertions(+), 1 deletion(-)
+ target/arm/tcg/a64.decode      |  30 ++++++
  target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
  target/arm/tcg/vec_helper.c    |  30 ++++++
 files changed, 174 insertions(+), 79 deletions(-)
-diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/pauth_helper.c
+--- a/target/arm/helper.h
-+++ b/target/arm/pauth_helper.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- #include "tcg/tcg-gvec-desc.h"
+ DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+static uint64_t pac_cell_shuffle(uint64_t i)
++DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
  FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
  FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 +FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
 +FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
 +FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
 +FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
 +FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
 +
 +FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
 +FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
  FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
  FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 +FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
 +FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
 +FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
 +FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
 +FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
 +
 +FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
 +FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
  };
  TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 +static const FPScalar f_scalar_fcmeq = {
 +    gen_helper_advsimd_ceq_f16,
 +    gen_helper_neon_ceq_f32,
 +    gen_helper_neon_ceq_f64,
 +};
 +TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
 +
 +static const FPScalar f_scalar_fcmge = {
 +    gen_helper_advsimd_cge_f16,
 +    gen_helper_neon_cge_f32,
 +    gen_helper_neon_cge_f64,
 +};
 +TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
 +
 +static const FPScalar f_scalar_fcmgt = {
 +    gen_helper_advsimd_cgt_f16,
 +    gen_helper_neon_cgt_f32,
 +    gen_helper_neon_cgt_f64,
 +};
 +TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
 +
 +static const FPScalar f_scalar_facge = {
 +    gen_helper_advsimd_acge_f16,
 +    gen_helper_neon_acge_f32,
 +    gen_helper_neon_acge_f64,
 +};
 +TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
 +
 +static const FPScalar f_scalar_facgt = {
 +    gen_helper_advsimd_acgt_f16,
 +    gen_helper_neon_acgt_f32,
 +    gen_helper_neon_acgt_f64,
 +};
 +TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
  };
  TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
 +    gen_helper_gvec_fceq_h,
 +    gen_helper_gvec_fceq_s,
 +    gen_helper_gvec_fceq_d,
 +};
 +TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
 +    gen_helper_gvec_fcge_h,
 +    gen_helper_gvec_fcge_s,
 +    gen_helper_gvec_fcge_d,
 +};
 +TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
 +    gen_helper_gvec_fcgt_h,
 +    gen_helper_gvec_fcgt_s,
 +    gen_helper_gvec_fcgt_d,
 +};
 +TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
 +    gen_helper_gvec_facge_h,
 +    gen_helper_gvec_facge_s,
 +    gen_helper_gvec_facge_d,
 +};
 +TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
 +    gen_helper_gvec_facgt_h,
 +    gen_helper_gvec_facgt_s,
 +    gen_helper_gvec_facgt_d,
 +};
 +TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element(s, tcg_op2, rm, pass, MO_64);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_absd(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_abss(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          switch (fpopcode) {
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
 +        case 0x7a: /* FABD */
 +            break;
 +        default:
 +        case 0x1b: /* FMULX */
          case 0x5d: /* FACGE */
          case 0x7d: /* FACGT */
          case 0x1c: /* FCMEQ */
          case 0x5c: /* FCMGE */
          case 0x7c: /* FCMGT */
 -        case 0x7a: /* FABD */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      TCGv_i32 tcg_res;
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
          break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      tcg_res = tcg_temp_new_i32();
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
 -        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x07: /* FRECPS */
          gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
      case 0x0f: /* FRSQRTS */
          gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
 -    case 0x14: /* FCMGE (reg) */
 -        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x15: /* FACGE */
 -        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x1a: /* FABD */
          gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
          tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
          break;
 -    case 0x1c: /* FCMGT (reg) */
 -        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1d: /* FACGT */
 -        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
 -    case 0x5d: /* FACGE */
 -    case 0x7d: /* FACGT */
 -    case 0x1c: /* FCMEQ */
 -    case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
 -    case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
 +    case 0x5c: /* FCMGE */
 +    case 0x5d: /* FACGE */
      case 0x5f: /* FDIV */
 +    case 0x7d: /* FACGT */
 +    case 0x7c: /* FCMGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
      case 0xf: /* FRSQRTS */
 -    case 0x14: /* FCMGE */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT */
 -    case 0x1d: /* FACGT */
          pairwise = false;
          break;
      case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
 +    case 0x14: /* FCMGE */
 +    case 0x15: /* FACGE */
      case 0x17: /* FDIV */
 +    case 0x1c: /* FCMGT */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x4: /* FCMEQ */
 -                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x14: /* FCMGE */
 -                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x15: /* FACGE */
 -                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                  break;
 -            case 0x1c: /* FCMGT */
 -                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x1d: /* FACGT */
 -                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x0: /* FMAXNM */
              case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0x4: /* FCMEQ */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
              case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
 +            case 0x14: /* FCMGE */
 +            case 0x15: /* FACGE */
              case 0x17: /* FDIV */
 +            case 0x1c: /* FCMGT */
 +            case 0x1d: /* FACGT */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
      return -float32_eq_quiet(op1, op2, stat);
  }
 +static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
 +{
-+    uint64_t o = 0;
++    return -float64_eq_quiet(op1, op2, stat);
 +
 +    o |= extract64(i, 52, 4);
 +    o |= extract64(i, 24, 4) << 4;
 +    o |= extract64(i, 44, 4) << 8;
 +    o |= extract64(i,  0, 4) << 12;
 +
 +    o |= extract64(i, 28, 4) << 16;
 +    o |= extract64(i, 48, 4) << 20;
 +    o |= extract64(i,  4, 4) << 24;
 +    o |= extract64(i, 40, 4) << 28;
 +
 +    o |= extract64(i, 32, 4) << 32;
 +    o |= extract64(i, 12, 4) << 36;
 +    o |= extract64(i, 56, 4) << 40;
 +    o |= extract64(i, 20, 4) << 44;
 +
 +    o |= extract64(i,  8, 4) << 48;
 +    o |= extract64(i, 36, 4) << 52;
 +    o |= extract64(i, 16, 4) << 56;
 +    o |= extract64(i, 60, 4) << 60;
 +
 +    return o;
 +}
 +
-+static uint64_t pac_cell_inv_shuffle(uint64_t i)
+ static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
  {
      return -float16_le(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
      return -float32_le(op2, op1, stat);
  }
 +static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
 +{
-+    uint64_t o = 0;
++    return -float64_le(op2, op1, stat);
 +
 +    o |= extract64(i, 12, 4);
 +    o |= extract64(i, 24, 4) << 4;
 +    o |= extract64(i, 48, 4) << 8;
 +    o |= extract64(i, 36, 4) << 12;
 +
 +    o |= extract64(i, 56, 4) << 16;
 +    o |= extract64(i, 44, 4) << 20;
 +    o |= extract64(i,  4, 4) << 24;
 +    o |= extract64(i, 16, 4) << 28;
 +
 +    o |= i & MAKE_64BIT_MASK(32, 4);
 +    o |= extract64(i, 52, 4) << 36;
 +    o |= extract64(i, 28, 4) << 40;
 +    o |= extract64(i,  8, 4) << 44;
 +
 +    o |= extract64(i, 20, 4) << 48;
 +    o |= extract64(i,  0, 4) << 52;
 +    o |= extract64(i, 40, 4) << 56;
 +    o |= i & MAKE_64BIT_MASK(60, 4);
 +
 +    return o;
 +}
 +
-+static uint64_t pac_sub(uint64_t i)
+ static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
  {
      return -float16_lt(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
      return -float32_lt(op2, op1, stat);
  }
 +static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
 +{
-+    static const uint8_t sub[16] = {
++    return -float64_lt(op2, op1, stat);
 +        0xb, 0x6, 0x8, 0xf, 0xc, 0x0, 0x9, 0xe,
 +        0x3, 0x7, 0x4, 0x5, 0xd, 0x2, 0x1, 0xa,
 +    };
 +    uint64_t o = 0;
 +    int b;
 +
 +    for (b = 0; b < 64; b += 16) {
 +        o |= (uint64_t)sub[(i >> b) & 0xf] << b;
 +    }
 +    return o;
 +}
 +
-+static uint64_t pac_inv_sub(uint64_t i)
+ static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
  {
      return -float16_le(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
      return -float32_le(float32_abs(op2), float32_abs(op1), stat);
  }
 +static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
 +{
-+    static const uint8_t inv_sub[16] = {
++    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
 +        0x5, 0xe, 0xd, 0x8, 0xa, 0xb, 0x1, 0x9,
 +        0x2, 0x6, 0xf, 0x0, 0x4, 0xc, 0x7, 0x3,
 +    };
 +    uint64_t o = 0;
 +    int b;
 +
 +    for (b = 0; b < 64; b += 16) {
 +        o |= (uint64_t)inv_sub[(i >> b) & 0xf] << b;
 +    }
 +    return o;
 +}
 +
-+static int rot_cell(int cell, int n)
+ static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
  {
      return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
      return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
  }
 +static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
 +{
-+    /* 4-bit rotate left by n.  */
++    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
 +    cell |= cell << 4;
 +    return extract32(cell, 4 - n, 4);
 +}
 +
-+static uint64_t pac_mult(uint64_t i)
+ static int16_t vfp_tosszh(float16 x, void *fpstp)
 +{
 +    uint64_t o = 0;
 +    int b;
 +
 +    for (b = 0; b < 4 * 4; b += 4) {
 +        int i0, i4, i8, ic, t0, t1, t2, t3;
 +
 +        i0 = extract64(i, b, 4);
 +        i4 = extract64(i, b + 4 * 4, 4);
 +        i8 = extract64(i, b + 8 * 4, 4);
 +        ic = extract64(i, b + 12 * 4, 4);
 +
 +        t0 = rot_cell(i8, 1) ^ rot_cell(i4, 2) ^ rot_cell(i0, 1);
 +        t1 = rot_cell(ic, 1) ^ rot_cell(i4, 1) ^ rot_cell(i0, 2);
 +        t2 = rot_cell(ic, 2) ^ rot_cell(i8, 1) ^ rot_cell(i0, 1);
 +        t3 = rot_cell(ic, 1) ^ rot_cell(i8, 2) ^ rot_cell(i4, 1);
 +
 +        o |= (uint64_t)t3 << b;
 +        o |= (uint64_t)t2 << (b + 4 * 4);
 +        o |= (uint64_t)t1 << (b + 8 * 4);
 +        o |= (uint64_t)t0 << (b + 12 * 4);
 +    }
 +    return o;
 +}
 +
 +static uint64_t tweak_cell_rot(uint64_t cell)
 +{
 +    return (cell >> 1) | (((cell ^ (cell >> 1)) & 1) << 3);
 +}
 +
 +static uint64_t tweak_shuffle(uint64_t i)
 +{
 +    uint64_t o = 0;
 +
 +    o |= extract64(i, 16, 4) << 0;
 +    o |= extract64(i, 20, 4) << 4;
 +    o |= tweak_cell_rot(extract64(i, 24, 4)) << 8;
 +    o |= extract64(i, 28, 4) << 12;
 +
 +    o |= tweak_cell_rot(extract64(i, 44, 4)) << 16;
 +    o |= extract64(i,  8, 4) << 20;
 +    o |= extract64(i, 12, 4) << 24;
 +    o |= tweak_cell_rot(extract64(i, 32, 4)) << 28;
 +
 +    o |= extract64(i, 48, 4) << 32;
 +    o |= extract64(i, 52, 4) << 36;
 +    o |= extract64(i, 56, 4) << 40;
 +    o |= tweak_cell_rot(extract64(i, 60, 4)) << 44;
 +
 +    o |= tweak_cell_rot(extract64(i,  0, 4)) << 48;
 +    o |= extract64(i,  4, 4) << 52;
 +    o |= tweak_cell_rot(extract64(i, 40, 4)) << 56;
 +    o |= tweak_cell_rot(extract64(i, 36, 4)) << 60;
 +
 +    return o;
 +}
 +
 +static uint64_t tweak_cell_inv_rot(uint64_t cell)
 +{
 +    return ((cell << 1) & 0xf) | ((cell & 1) ^ (cell >> 3));
 +}
 +
 +static uint64_t tweak_inv_shuffle(uint64_t i)
 +{
 +    uint64_t o = 0;
 +
 +    o |= tweak_cell_inv_rot(extract64(i, 48, 4));
 +    o |= extract64(i, 52, 4) << 4;
 +    o |= extract64(i, 20, 4) << 8;
 +    o |= extract64(i, 24, 4) << 12;
 +
 +    o |= extract64(i,  0, 4) << 16;
 +    o |= extract64(i,  4, 4) << 20;
 +    o |= tweak_cell_inv_rot(extract64(i,  8, 4)) << 24;
 +    o |= extract64(i, 12, 4) << 28;
 +
 +    o |= tweak_cell_inv_rot(extract64(i, 28, 4)) << 32;
 +    o |= tweak_cell_inv_rot(extract64(i, 60, 4)) << 36;
 +    o |= tweak_cell_inv_rot(extract64(i, 56, 4)) << 40;
 +    o |= tweak_cell_inv_rot(extract64(i, 16, 4)) << 44;
 +
 +    o |= extract64(i, 32, 4) << 48;
 +    o |= extract64(i, 36, 4) << 52;
 +    o |= extract64(i, 40, 4) << 56;
 +    o |= tweak_cell_inv_rot(extract64(i, 44, 4)) << 60;
 +
 +    return o;
 +}
 +
  static uint64_t pauth_computepac(uint64_t data, uint64_t modifier,
                                   ARMPACKey key)
  {
--    g_assert_not_reached(); /* FIXME */
+     float_status *fpst = fpstp;
-+    static const uint64_t RC[5] = {
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
-+        0x0000000000000000ull,
-+        0x13198A2E03707344ull,
+ DO_3OP(gvec_fceq_h, float16_ceq, float16)
-+        0xA4093822299F31D0ull,
+ DO_3OP(gvec_fceq_s, float32_ceq, float32)
-+        0x082EFA98EC4E6C89ull,
++DO_3OP(gvec_fceq_d, float64_ceq, float64)
-+        0x452821E638D01377ull,
-+    };
+ DO_3OP(gvec_fcge_h, float16_cge, float16)
-+    const uint64_t alpha = 0xC0AC29B7C97C50DDull;
+ DO_3OP(gvec_fcge_s, float32_cge, float32)
-+    /*
++DO_3OP(gvec_fcge_d, float64_cge, float64)
-+     * Note that in the ARM pseudocode, key0 contains bits <127:64>
-+     * and key1 contains bits <63:0> of the 128-bit key.
+ DO_3OP(gvec_fcgt_h, float16_cgt, float16)
-+     */
+ DO_3OP(gvec_fcgt_s, float32_cgt, float32)
-+    uint64_t key0 = key.hi, key1 = key.lo;
++DO_3OP(gvec_fcgt_d, float64_cgt, float64)
-+    uint64_t workingval, runningmod, roundkey, modk0;
-+    int i;
+ DO_3OP(gvec_facge_h, float16_acge, float16)
-+
+ DO_3OP(gvec_facge_s, float32_acge, float32)
-+    modk0 = (key0 << 63) | ((key0 >> 1) ^ (key0 >> 63));
++DO_3OP(gvec_facge_d, float64_acge, float64)
-+    runningmod = modifier;
-+    workingval = data ^ key0;
+ DO_3OP(gvec_facgt_h, float16_acgt, float16)
-+
+ DO_3OP(gvec_facgt_s, float32_acgt, float32)
-+    for (i = 0; i <= 4; ++i) {
++DO_3OP(gvec_facgt_d, float64_acgt, float64)
-+        roundkey = key1 ^ runningmod;
-+        workingval ^= roundkey;
+ DO_3OP(gvec_fmax_h, float16_max, float16)
-+        workingval ^= RC[i];
+ DO_3OP(gvec_fmax_s, float32_max, float32)
 +        if (i > 0) {
 +            workingval = pac_cell_shuffle(workingval);
 +            workingval = pac_mult(workingval);
 +        }
 +        workingval = pac_sub(workingval);
 +        runningmod = tweak_shuffle(runningmod);
 +    }
 +    roundkey = modk0 ^ runningmod;
 +    workingval ^= roundkey;
 +    workingval = pac_cell_shuffle(workingval);
 +    workingval = pac_mult(workingval);
 +    workingval = pac_sub(workingval);
 +    workingval = pac_cell_shuffle(workingval);
 +    workingval = pac_mult(workingval);
 +    workingval ^= key1;
 +    workingval = pac_cell_inv_shuffle(workingval);
 +    workingval = pac_inv_sub(workingval);
 +    workingval = pac_mult(workingval);
 +    workingval = pac_cell_inv_shuffle(workingval);
 +    workingval ^= key0;
 +    workingval ^= runningmod;
 +    for (i = 0; i <= 4; ++i) {
 +        workingval = pac_inv_sub(workingval);
 +        if (i < 4) {
 +            workingval = pac_mult(workingval);
 +            workingval = pac_cell_inv_shuffle(workingval);
 +        }
 +        runningmod = tweak_inv_shuffle(runningmod);
 +        roundkey = key1 ^ runningmod;
 +        workingval ^= RC[4 - i];
 +        workingval ^= roundkey;
 +        workingval ^= alpha;
 +    }
 +    workingval ^= modk0;
 +
 +    return workingval;
  }
  static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 08/49] target/arm: Introduce raise_exception_ra
+[PULL 32/42] target/arm: Convert FABD to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This path uses cpu_loop_exit_restore to unwind current processor state.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Suggested-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
 Message-id: 20190108223129.5570-5-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h |  7 +++++++
+ target/arm/helper.h            |  1 +
- target/arm/op_helper.c | 19 +++++++++++++++++--
+ target/arm/tcg/a64.decode      |  6 ++++
-files changed, 24 insertions(+), 2 deletions(-)
+ target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
  target/arm/tcg/vec_helper.c    |  6 ++++
 files changed, 53 insertions(+), 20 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/helper.h
-+++ b/target/arm/internals.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ FIELD(V7M_EXCRET, RES1, 7, 25) /* including the must-be-1 prefix */
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- void QEMU_NORETURN raise_exception(CPUARMState *env, uint32_t excp,
-                                    uint32_t syndrome, uint32_t target_el);
+ DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+/*
++DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+ * Similarly, but also use unwinding to restore cpu state.
-+ */
+ DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+void QEMU_NORETURN raise_exception_ra(CPUARMState *env, uint32_t excp,
+ DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+                                      uint32_t syndrome, uint32_t target_el,
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+                                      uintptr_t ra);
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
  FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
  FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 +FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
 +FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
  FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
  FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 +FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 +FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_facgt = {
  };
  TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
 +static void gen_fabd_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_subh(d, n, m, s);
 +    gen_vfp_absh(d, d);
 +}
 +
 +static void gen_fabd_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_subs(d, n, m, s);
 +    gen_vfp_abss(d, d);
 +}
 +
 +static void gen_fabd_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_subd(d, n, m, s);
 +    gen_vfp_absd(d, d);
 +}
 +
 +static const FPScalar f_scalar_fabd = {
 +    gen_fabd_h,
 +    gen_fabd_s,
 +    gen_fabd_d,
 +};
 +TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
  };
  TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
 +static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
 +    gen_helper_gvec_fabd_h,
 +    gen_helper_gvec_fabd_s,
 +    gen_helper_gvec_fabd_d,
 +};
 +TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 +
  /*
-  * For AArch64, map a given EL to an index in the banked_spsr array.
+  * Advanced SIMD scalar/vector x indexed element
-  * Note that this mapping and the AArch32 mapping defined in bank_number()
+  */
-diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-index XXXXXXX..XXXXXXX 100644
+             case 0x3f: /* FRSQRTS */
---- a/target/arm/op_helper.c
+                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-+++ b/target/arm/op_helper.c
+                 break;
-@@ -XXX,XX +XXX,XX @@
+-            case 0x7a: /* FABD */
- #define SIGNBIT (uint32_t)0x80000000
+-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
- #define SIGNBIT64 ((uint64_t)1 << 63)
+-                gen_vfp_absd(tcg_res, tcg_res);
+-                break;
--void raise_exception(CPUARMState *env, uint32_t excp,
+             default:
--                     uint32_t syndrome, uint32_t target_el)
+             case 0x18: /* FMAXNM */
-+static CPUState *do_raise_exception(CPUARMState *env, uint32_t excp,
+             case 0x19: /* FMLA */
-+                                    uint32_t syndrome, uint32_t target_el)
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
- {
+             case 0x5c: /* FCMGE */
-     CPUState *cs = CPU(arm_env_get_cpu(env));
+             case 0x5d: /* FACGE */
+             case 0x5f: /* FDIV */
-@@ -XXX,XX +XXX,XX @@ void raise_exception(CPUARMState *env, uint32_t excp,
++            case 0x7a: /* FABD */
-     cs->exception_index = excp;
+             case 0x7c: /* FCMGT */
-     env->exception.syndrome = syndrome;
+             case 0x7d: /* FACGT */
-     env->exception.target_el = target_el;
+                 g_assert_not_reached();
-+
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-+    return cs;
+             case 0x3f: /* FRSQRTS */
-+}
+                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-+
+                 break;
-+void raise_exception(CPUARMState *env, uint32_t excp,
+-            case 0x7a: /* FABD */
-+                     uint32_t syndrome, uint32_t target_el)
+-                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-+{
+-                gen_vfp_abss(tcg_res, tcg_res);
-+    CPUState *cs = do_raise_exception(env, excp, syndrome, target_el);
+-                break;
-     cpu_loop_exit(cs);
+             default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x5c: /* FCMGE */
              case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7a: /* FABD */
              case 0x7c: /* FCMGT */
              case 0x7d: /* FACGT */
                  g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          switch (fpopcode) {
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
 -        case 0x7a: /* FABD */
              break;
          default:
          case 0x1b: /* FMULX */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          case 0x7d: /* FACGT */
          case 0x1c: /* FCMEQ */
          case 0x5c: /* FCMGE */
 +        case 0x7a: /* FABD */
          case 0x7c: /* FCMGT */
              unallocated_encoding(s);
              return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      switch (fpopcode) {
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
 -    case 0x1a: /* FABD */
          break;
      default:
      case 0x03: /* FMULX */
      case 0x04: /* FCMEQ (reg) */
      case 0x14: /* FCMGE (reg) */
      case 0x15: /* FACGE */
 +    case 0x1a: /* FABD */
      case 0x1c: /* FCMGT (reg) */
      case 0x1d: /* FACGT */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      case 0x0f: /* FRSQRTS */
          gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
 -    case 0x1a: /* FABD */
 -        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
 -        break;
      default:
      case 0x03: /* FMULX */
      case 0x04: /* FCMEQ (reg) */
      case 0x14: /* FCMGE (reg) */
      case 0x15: /* FACGE */
 +    case 0x1a: /* FABD */
      case 0x1c: /* FCMGT (reg) */
      case 0x1d: /* FACGT */
          g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
 -    case 0x7a: /* FABD */
          if (!fp_access_check(s)) {
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
      case 0x5f: /* FDIV */
 +    case 0x7a: /* FABD */
      case 0x7d: /* FACGT */
      case 0x7c: /* FCMGT */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x7: /* FRECPS */
      case 0xf: /* FRSQRTS */
 -    case 0x1a: /* FABD */
          pairwise = false;
          break;
      case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
      case 0x17: /* FDIV */
 +    case 0x1a: /* FABD */
      case 0x1c: /* FCMGT */
      case 0x1d: /* FACGT */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1a: /* FABD */
 -                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
 -                break;
              default:
              case 0x0: /* FMAXNM */
              case 0x1: /* FMLA */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0x14: /* FCMGE */
              case 0x15: /* FACGE */
              case 0x17: /* FDIV */
 +            case 0x1a: /* FABD */
              case 0x1c: /* FCMGT */
              case 0x1d: /* FACGT */
                  g_assert_not_reached();
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
      return float32_abs(float32_sub(op1, op2, stat));
  }
-+void raise_exception_ra(CPUARMState *env, uint32_t excp, uint32_t syndrome,
++static float64 float64_abd(float64 op1, float64 op2, float_status *stat)
-+                        uint32_t target_el, uintptr_t ra)
++{
-+{
++    return float64_abs(float64_sub(op1, op2, stat));
-+    CPUState *cs = do_raise_exception(env, excp, syndrome, target_el);
++}
-+    cpu_loop_exit_restore(cs, ra);
++
-+}
+ /*
-+
+  * Reciprocal step. These are the AArch32 version which uses a
- static int exception_target_el(CPUARMState *env)
+  * non-fused multiply-and-subtract.
- {
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
-     int target_el = MAX(1, arm_current_el(env));
  DO_3OP(gvec_fabd_h, float16_abd, float16)
  DO_3OP(gvec_fabd_s, float32_abd, float32)
 +DO_3OP(gvec_fabd_d, float64_abd, float64)
  DO_3OP(gvec_fceq_h, float16_ceq, float16)
  DO_3OP(gvec_fceq_s, float32_ceq, float32)
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 21/49] target/arm: Introduce arm_stage1_mmu_idx
+[PULL 33/42] target/arm: Convert FRECPS, FRSQRTS to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-While we could expose stage_1_mmu_idx, the combination is
+These are the last instructions within handle_3same_float
-probably going to be more useful.
+and disas_simd_scalar_three_reg_same_fp16 so remove them.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-18-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h | 15 +++++++++++++++
+ target/arm/tcg/a64.decode      |  12 ++
- target/arm/helper.c    |  7 +++++++
+ target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
-files changed, 22 insertions(+)
+files changed, 46 insertions(+), 259 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ void arm_cpu_update_vfiq(ARMCPU *cpu);
+@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
  FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
  FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 +FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
 +FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
 +
 +FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
 +FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
  FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
  FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
 +FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
 +FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
 +FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
  };
  TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 +static const FPScalar f_scalar_frecps = {
 +    gen_helper_recpsf_f16,
 +    gen_helper_recpsf_f32,
 +    gen_helper_recpsf_f64,
 +};
 +TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
 +
 +static const FPScalar f_scalar_frsqrts = {
 +    gen_helper_rsqrtsf_f16,
 +    gen_helper_rsqrtsf_f32,
 +    gen_helper_rsqrtsf_f64,
 +};
 +TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
  };
  TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 +static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
 +    gen_helper_gvec_recps_h,
 +    gen_helper_gvec_recps_s,
 +    gen_helper_gvec_recps_d,
 +};
 +TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
 +    gen_helper_gvec_rsqrts_h,
 +    gen_helper_gvec_rsqrts_s,
 +    gen_helper_gvec_rsqrts_d,
 +};
 +TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
- ARMMMUIdx arm_mmu_idx(CPUARMState *env);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
+     }
 +/**
 + * arm_stage1_mmu_idx:
 + * @env: The cpu environment
 + *
 + * Return the ARMMMUIdx for the stage1 traversal for the current regime.
 + */
 +#ifdef CONFIG_USER_ONLY
 +static inline ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
 +{
 +    return ARMMMUIdx_S1NSE0;
 +}
 +#else
 +ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env);
 +#endif
 +
  #endif
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ int cpu_mmu_index(CPUARMState *env, bool ifetch)
      return arm_to_core_mmu_idx(arm_mmu_idx(env));
  }
-+#ifndef CONFIG_USER_ONLY
+-/* Handle the 3-same-operands float operations; shared by the scalar
-+ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
+- * and vector encodings. The caller must filter out any encodings
-+{
+- * not allocated for the encoding it is dealing with.
-+    return stage_1_mmu_idx(arm_mmu_idx(env));
+- */
-+}
+-static void handle_3same_float(DisasContext *s, int size, int elements,
-+#endif
+-                               int fpopcode, int rd, int rn, int rm)
-+
+-{
- void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
+-    int pass;
-                           target_ulong *cs_base, uint32_t *pflags)
+-    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
- {
+-
 -    for (pass = 0; pass < elements; pass++) {
 -        if (size) {
 -            /* Double */
 -            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -            read_vec_element(s, tcg_op1, rn, pass, MO_64);
 -            read_vec_element(s, tcg_op2, rm, pass, MO_64);
 -
 -            switch (fpopcode) {
 -            case 0x1f: /* FRECPS */
 -                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3f: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element(s, tcg_res, rd, pass, MO_64);
 -        } else {
 -            /* Single */
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 -
 -            switch (fpopcode) {
 -            case 0x1f: /* FRECPS */
 -                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3f: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            if (elements == 1) {
 -                /* scalar single so clear high part */
 -                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 -
 -                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
 -                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
 -            } else {
 -                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
 -            }
 -        }
 -    }
 -
 -    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
 -}
 -
  /* AdvSIMD scalar three same
   *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
   * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      bool u = extract32(insn, 29, 1);
      TCGv_i64 tcg_rd;
 -    if (opcode >= 0x18) {
 -        /* Floating point: U, size[1] and opcode indicate operation */
 -        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
 -        switch (fpopcode) {
 -        case 0x1f: /* FRECPS */
 -        case 0x3f: /* FRSQRTS */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
 -        case 0x5d: /* FACGE */
 -        case 0x7d: /* FACGT */
 -        case 0x1c: /* FCMEQ */
 -        case 0x5c: /* FCMGE */
 -        case 0x7a: /* FABD */
 -        case 0x7c: /* FCMGT */
 -            unallocated_encoding(s);
 -            return;
 -        }
 -
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -
 -        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
 -        return;
 -    }
 -
      switch (opcode) {
      case 0x1: /* SQADD, UQADD */
      case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_rd);
  }
 -/* AdvSIMD scalar three same FP16
 - *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
 - * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
 - * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
 - * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
 - * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
 - * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
 - */
 -static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
 -                                                  uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int opcode = extract32(insn, 11, 3);
 -    int rm = extract32(insn, 16, 5);
 -    bool u = extract32(insn, 29, 1);
 -    bool a = extract32(insn, 23, 1);
 -    int fpopcode = opcode | (a << 3) |  (u << 4);
 -    TCGv_ptr fpst;
 -    TCGv_i32 tcg_op1;
 -    TCGv_i32 tcg_op2;
 -    TCGv_i32 tcg_res;
 -
 -    switch (fpopcode) {
 -    case 0x07: /* FRECPS */
 -    case 0x0f: /* FRSQRTS */
 -        break;
 -    default:
 -    case 0x03: /* FMULX */
 -    case 0x04: /* FCMEQ (reg) */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!dc_isar_feature(aa64_fp16, s)) {
 -        unallocated_encoding(s);
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    fpst = fpstatus_ptr(FPST_FPCR_F16);
 -
 -    tcg_op1 = read_fp_hreg(s, rn);
 -    tcg_op2 = read_fp_hreg(s, rm);
 -    tcg_res = tcg_temp_new_i32();
 -
 -    switch (fpopcode) {
 -    case 0x07: /* FRECPS */
 -        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x0f: /* FRSQRTS */
 -        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    default:
 -    case 0x03: /* FMULX */
 -    case 0x04: /* FCMEQ (reg) */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
  /* AdvSIMD scalar three same extra
   *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
   * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
  /* Pairwise op subgroup of C3.6.16.
   *
 - * This is called directly or via the handle_3same_float for float pairwise
 + * This is called directly for float pairwise
   * operations where the opcode and size are calculated differently.
   */
  static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      int rn = extract32(insn, 5, 5);
      int rd = extract32(insn, 0, 5);
 -    int datasize = is_q ? 128 : 64;
 -    int esize = 32 << size;
 -    int elements = datasize / esize;
 -
      if (size == 1 && !is_q) {
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                 rn, rm, rd);
          return;
 -    case 0x1f: /* FRECPS */
 -    case 0x3f: /* FRSQRTS */
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
 -        return;
      case 0x1d: /* FMLAL  */
      case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x1b: /* FMULX */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
 +    case 0x1f: /* FRECPS */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 +    case 0x3f: /* FRSQRTS */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
       * together indicate the operation.
       */
      int fpopcode = opcode | (a << 3) | (u << 4);
 -    int datasize = is_q ? 128 : 64;
 -    int elements = datasize / 16;
      bool pairwise;
      TCGv_ptr fpst;
      int pass;
      switch (fpopcode) {
 -    case 0x7: /* FRECPS */
 -    case 0xf: /* FRSQRTS */
 -        pairwise = false;
 -        break;
      case 0x10: /* FMAXNMP */
      case 0x12: /* FADDP */
      case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x3: /* FMULX */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
 +    case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
 +    case 0xf: /* FRSQRTS */
      case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
          }
      } else {
 -        for (pass = 0; pass < elements; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 -
 -            switch (fpopcode) {
 -            case 0x7: /* FRECPS */
 -                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x0: /* FMAXNM */
 -            case 0x1: /* FMLA */
 -            case 0x2: /* FADD */
 -            case 0x3: /* FMULX */
 -            case 0x4: /* FCMEQ */
 -            case 0x6: /* FMAX */
 -            case 0x8: /* FMINNM */
 -            case 0x9: /* FMLS */
 -            case 0xa: /* FSUB */
 -            case 0xe: /* FMIN */
 -            case 0x13: /* FMUL */
 -            case 0x14: /* FCMGE */
 -            case 0x15: /* FACGE */
 -            case 0x17: /* FDIV */
 -            case 0x1a: /* FABD */
 -            case 0x1c: /* FCMGT */
 -            case 0x1d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -        }
 +        g_assert_not_reached();
      }
      clear_vec_high(s, is_q, rd);
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
      { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
 -    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
      { 0x00000000, 0x00000000, NULL }
  };
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 12/49] target/arm: Decode PAuth within disas_data_proc_1src
+[PULL 34/42] target/arm: Convert FADDP to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-9-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 146 +++++++++++++++++++++++++++++++++++++
+ target/arm/helper.h            |  4 ++
-file changed, 146 insertions(+)
+ target/arm/tcg/a64.decode      | 12 +++++
  target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
  target/arm/tcg/vec_helper.c    | 23 +++++++++
 files changed, 105 insertions(+), 21 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/helper.h
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void handle_rev16(DisasContext *s, unsigned int sf,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_uclamp_s, TCG_CALL_NO_RWG,
- static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
+ DEF_HELPER_FLAGS_5(gvec_uclamp_d, TCG_CALL_NO_RWG,
- {
+                    void, ptr, ptr, ptr, ptr, i32)
-     unsigned int sf, opcode, opcode2, rn, rd;
-+    TCGv_i64 tcg_rd;
++DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-     if (extract32(insn, 29, 1)) {
++DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         unallocated_encoding(s);
++
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
+ #ifdef TARGET_AARCH64
-     case MAP(1, 0x00, 0x05):
+ #include "tcg/helper-a64.h"
-         handle_cls(s, sf, rn, rd);
+ #include "tcg/helper-sve.h"
-         break;
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+    case MAP(1, 0x01, 0x00): /* PACIA */
+index XXXXXXX..XXXXXXX 100644
-+        if (s->pauth_active) {
+--- a/target/arm/tcg/a64.decode
-+            tcg_rd = cpu_reg(s, rd);
++++ b/target/arm/tcg/a64.decode
-+            gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+@@ -XXX,XX +XXX,XX @@
-+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+ &ri             rd imm
-+            goto do_unallocated;
+ &rri_sf         rd rn imm sf
  &i              imm
 +&rr_e           rd rn esz
  &rrr_e          rd rn rm esz
  &rrx_e          rd rn rm idx esz
  &qrr_e          q rd rn esz
@@ -XXX,XX +XXX,XX @@
  &qrrx_e         q rd rn rm idx esz
  &qrrrr_e        q rd rn rm ra esz
 +@rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
 +@rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
 +
  @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
  @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
  @rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
@@ -XXX,XX +XXX,XX @@ FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
  FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
  FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 +### Advanced SIMD scalar pairwise
 +
 +FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
 +FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
  FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
  FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 +FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 +FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
  };
  TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
 +static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
 +    gen_helper_gvec_faddp_h,
 +    gen_helper_gvec_faddp_s,
 +    gen_helper_gvec_faddp_d,
 +};
 +TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
  TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
  TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
 +/*
 + * Advanced SIMD scalar pairwise
 + */
 +
 +static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
 +{
 +    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = tcg_temp_new_i64();
 +            TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t0, a->rn, 0, MO_64);
 +            read_vec_element(s, t1, a->rn, 1, MO_64);
 +            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
-+    case MAP(1, 0x01, 0x01): /* PACIB */
++    case MO_32:
-+        if (s->pauth_active) {
++        if (fp_access_check(s)) {
-+            tcg_rd = cpu_reg(s, rd);
++            TCGv_i32 t0 = tcg_temp_new_i32();
-+            gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
++            TCGv_i32 t1 = tcg_temp_new_i32();
-+        } else if (!dc_isar_feature(aa64_pauth, s)) {
++
-+            goto do_unallocated;
++            read_vec_element_i32(s, t0, a->rn, 0, MO_32);
 +            read_vec_element_i32(s, t1, a->rn, 1, MO_32);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
-+    case MAP(1, 0x01, 0x02): /* PACDA */
++    case MO_16:
-+        if (s->pauth_active) {
++        if (!dc_isar_feature(aa64_fp16, s)) {
-+            tcg_rd = cpu_reg(s, rd);
++            return false;
-+            gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
++        }
-+        } else if (!dc_isar_feature(aa64_pauth, s)) {
++        if (fp_access_check(s)) {
-+            goto do_unallocated;
++            TCGv_i32 t0 = tcg_temp_new_i32();
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t0, a->rn, 0, MO_16);
 +            read_vec_element_i32(s, t1, a->rn, 1, MO_16);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
-+    case MAP(1, 0x01, 0x03): /* PACDB */
++    default:
-+        if (s->pauth_active) {
++        g_assert_not_reached();
-+            tcg_rd = cpu_reg(s, rd);
++    }
-+            gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
++    return true;
-+        } else if (!dc_isar_feature(aa64_pauth, s)) {
++}
-+            goto do_unallocated;
++
-+        }
++TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
-+        break;
-+    case MAP(1, 0x01, 0x04): /* AUTIA */
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+        if (s->pauth_active) {
+  * Note that it is the caller's responsibility to ensure that the
-+            tcg_rd = cpu_reg(s, rd);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-+            gen_helper_autia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+         fpst = NULL;
-+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+         break;
-+            goto do_unallocated;
+     case 0xc: /* FMAXNMP */
-+        }
+-    case 0xd: /* FADDP */
-+        break;
+     case 0xf: /* FMAXP */
-+    case MAP(1, 0x01, 0x05): /* AUTIB */
+     case 0x2c: /* FMINNMP */
-+        if (s->pauth_active) {
+     case 0x2f: /* FMINP */
-+            tcg_rd = cpu_reg(s, rd);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-+            gen_helper_autib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+         fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+         break;
 +            goto do_unallocated;
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x06): /* AUTDA */
 +        if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_autda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
 +        } else if (!dc_isar_feature(aa64_pauth, s)) {
 +            goto do_unallocated;
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x07): /* AUTDB */
 +        if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
 +        } else if (!dc_isar_feature(aa64_pauth, s)) {
 +            goto do_unallocated;
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x08): /* PACIZA */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x09): /* PACIZB */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x0a): /* PACDZA */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x0b): /* PACDZB */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x0c): /* AUTIZA */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_autia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x0d): /* AUTIZB */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_autib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x0e): /* AUTDZA */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_autda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x0f): /* AUTDZB */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x10): /* XPACI */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_xpaci(tcg_rd, cpu_env, tcg_rd);
 +        }
 +        break;
 +    case MAP(1, 0x01, 0x11): /* XPACD */
 +        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
 +            goto do_unallocated;
 +        } else if (s->pauth_active) {
 +            tcg_rd = cpu_reg(s, rd);
 +            gen_helper_xpacd(tcg_rd, cpu_env, tcg_rd);
 +        }
 +        break;
      default:
-+    do_unallocated:
++    case 0xd: /* FADDP */
          unallocated_encoding(s);
-         break;
+         return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+         case 0xc: /* FMAXNMP */
+             gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+-        case 0xd: /* FADDP */
+-            gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
+-            break;
+         case 0xf: /* FMAXP */
+             gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+         default:
++        case 0xd: /* FADDP */
+             g_assert_not_reached();
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             case 0xc: /* FMAXNMP */
+                 gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0xd: /* FADDP */
+-                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FMAXP */
+                 gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0xd: /* FADDP */
+                 g_assert_not_reached();
+             }
+         } else {
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             case 0xc: /* FMAXNMP */
+                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0xd: /* FADDP */
+-                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FMAXP */
+                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0xd: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+             case 0x58: /* FMAXNMP */
+                 gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x5a: /* FADDP */
+-                gen_helper_vfp_addd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x5e: /* FMAXP */
+                 gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+                 gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x5a: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+             case 0x58: /* FMAXNMP */
+                 gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x5a: /* FADDP */
+-                gen_helper_vfp_adds(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x5e: /* FMAXP */
+                 gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+                 gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x5a: /* FADDP */
+                 g_assert_not_reached();
+             }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x58: /* FMAXNMP */
+-    case 0x5a: /* FADDP */
+     case 0x5e: /* FMAXP */
+     case 0x78: /* FMINNMP */
+     case 0x7e: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x3a: /* FSUB */
+     case 0x3e: /* FMIN */
+     case 0x3f: /* FRSQRTS */
++    case 0x5a: /* FADDP */
+     case 0x5b: /* FMUL */
+     case 0x5c: /* FCMGE */
+     case 0x5d: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x10: /* FMAXNMP */
+-    case 0x12: /* FADDP */
+     case 0x16: /* FMAXP */
+     case 0x18: /* FMINNMP */
+     case 0x1e: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     case 0xa: /* FSUB */
+     case 0xe: /* FMIN */
+     case 0xf: /* FRSQRTS */
++    case 0x12: /* FADDP */
+     case 0x13: /* FMUL */
+     case 0x14: /* FCMGE */
+     case 0x15: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
+                                            fpst);
+                 break;
+-            case 0x12: /* FADDP */
+-                gen_helper_advsimd_addh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x16: /* FMAXP */
+                 gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x12: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_NEON_PAIRWISE(neon_pmin, min)
+ #undef DO_NEON_PAIRWISE
++#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
++void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
++{                                                                          \
++    ARMVectorReg scratch;                                                  \
++    intptr_t oprsz = simd_oprsz(desc);                                     \
++    intptr_t half = oprsz / sizeof(TYPE) / 2;                              \
++    TYPE *d = vd, *n = vn, *m = vm;                                        \
++    if (unlikely(d == m)) {                                                \
++        m = memcpy(&scratch, m, oprsz);                                    \
++    }                                                                      \
++    for (intptr_t i = 0; i < half; ++i) {                                  \
++        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)], stat);                \
++    }                                                                      \
++    for (intptr_t i = 0; i < half; ++i) {                                  \
++        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)], stat);         \
++    }                                                                      \
++    clear_tail(d, oprsz, simd_maxsz(desc));                                \
++}
++
++DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
++DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
++DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
++
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
+     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+     {                                                                   \
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 14/49] target/arm: Move helper_exception_return to helper-a64.c
+[PULL 35/42] target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This function is only used by AArch64.  Code movement only.
+These are the last instructions within disas_simd_three_reg_same_fp16,
 so remove it.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-11-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper-a64.h |   2 +
+ target/arm/helper.h            |  16 ++
- target/arm/helper.h     |   1 -
+ target/arm/tcg/a64.decode      |  24 +++
- target/arm/helper-a64.c | 155 ++++++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
- target/arm/op_helper.c  | 155 ----------------------------------------
+ target/arm/tcg/vec_helper.c    |  16 ++
-files changed, 157 insertions(+), 156 deletions(-)
+files changed, 107 insertions(+), 245 deletions(-)
-diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.h
-+++ b/target/arm/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(advsimd_f16tosinth, i32, f16, ptr)
- DEF_HELPER_2(advsimd_f16touinth, i32, f16, ptr)
- DEF_HELPER_2(sqrt_f16, f16, f16, ptr)
-+DEF_HELPER_1(exception_return, void, env)
-+
- DEF_HELPER_FLAGS_3(pacia, TCG_CALL_NO_WG, i64, env, i64, i64)
- DEF_HELPER_FLAGS_3(pacib, TCG_CALL_NO_WG, i64, env, i64, i64)
- DEF_HELPER_FLAGS_3(pacda, TCG_CALL_NO_WG, i64, env, i64, i64)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(get_cp_reg64, i64, env, ptr)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_3(msr_i_pstate, void, env, i32, i32)
+ DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_1(clear_pstate_ss, void, env)
--DEF_HELPER_1(exception_return, void, env)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_2(get_r13_banked, i32, env, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_3(set_r13_banked, void, env, i32, i32)
++
-diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
++DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "tcg/helper-a64.h"
  #include "tcg/helper-sve.h"
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper-a64.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/helper-a64.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_f16touinth)(uint32_t a, void *fpstp)
+@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
-     return float16_to_uint16(a, fpst);
+ FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
  FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
 +FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
 +FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
 +
 +FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
 +FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
 +
 +FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
 +FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
 +
 +FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
 +FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
  FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
  FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
 +FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
 +FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
 +FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
 +FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
 +FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
  };
  TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
 +    gen_helper_gvec_fmaxp_h,
 +    gen_helper_gvec_fmaxp_s,
 +    gen_helper_gvec_fmaxp_d,
 +};
 +TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
 +    gen_helper_gvec_fminp_h,
 +    gen_helper_gvec_fminp_s,
 +    gen_helper_gvec_fminp_d,
 +};
 +TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
 +    gen_helper_gvec_fmaxnump_h,
 +    gen_helper_gvec_fmaxnump_s,
 +    gen_helper_gvec_fmaxnump_d,
 +};
 +TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
 +    gen_helper_gvec_fminnump_h,
 +    gen_helper_gvec_fminnump_s,
 +    gen_helper_gvec_fminnump_d,
 +};
 +TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
  }
-+static int el_from_spsr(uint32_t spsr)
+ TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
-+{
++TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
-+    /* Return the exception level that this SPSR is requesting a return to,
++TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
-+     * or -1 if it is invalid (an illegal return)
++TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
-+     */
++TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
-+    if (spsr & PSTATE_nRW) {
-+        switch (spsr & CPSR_M) {
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+        case ARM_CPU_MODE_USR:
+  * Note that it is the caller's responsibility to ensure that the
-+            return 0;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-+        case ARM_CPU_MODE_HYP:
+     int opcode = extract32(insn, 12, 5);
-+            return 2;
+     int rn = extract32(insn, 5, 5);
-+        case ARM_CPU_MODE_FIQ:
+     int rd = extract32(insn, 0, 5);
-+        case ARM_CPU_MODE_IRQ:
+-    TCGv_ptr fpst;
-+        case ARM_CPU_MODE_SVC:
-+        case ARM_CPU_MODE_ABT:
+     /* For some ops (the FP ones), size[1] is part of the encoding.
-+        case ARM_CPU_MODE_UND:
+      * For ADDP strictly it is not but size[1] is always 1 for valid
-+        case ARM_CPU_MODE_SYS:
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-+            return 1;
+         if (!fp_access_check(s)) {
-+        case ARM_CPU_MODE_MON:
+             return;
-+            /* Returning to Mon from AArch64 is never possible,
+         }
-+             * so this is an illegal return.
+-
-+             */
+-        fpst = NULL;
-+        default:
+         break;
-+            return -1;
++    default:
-+        }
+     case 0xc: /* FMAXNMP */
-+    } else {
++    case 0xd: /* FADDP */
-+        if (extract32(spsr, 1, 1)) {
+     case 0xf: /* FMAXP */
-+            /* Return with reserved M[1] bit set */
+     case 0x2c: /* FMINNMP */
-+            return -1;
+     case 0x2f: /* FMINP */
-+        }
+-        /* FP op, size[0] is 32 or 64 bit*/
-+        if (extract32(spsr, 0, 4) == 1) {
+-        if (!u) {
-+            /* return to EL0 with M[0] bit set */
+-            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
-+            return -1;
+-                unallocated_encoding(s);
-+        }
+-                return;
-+        return extract32(spsr, 2, 2);
+-            } else {
-+    }
+-                size = MO_16;
-+}
+-            }
-+
+-        } else {
-+void HELPER(exception_return)(CPUARMState *env)
+-            size = extract32(size, 0, 1) ? MO_64 : MO_32;
-+{
+-        }
-+    int cur_el = arm_current_el(env);
+-
-+    unsigned int spsr_idx = aarch64_banked_spsr_index(cur_el);
+-        if (!fp_access_check(s)) {
-+    uint32_t spsr = env->banked_spsr[spsr_idx];
+-            return;
-+    int new_el;
+-        }
-+    bool return_to_aa64 = (spsr & PSTATE_nRW) == 0;
+-
-+
+-        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-+    aarch64_save_sp(env, cur_el);
+-        break;
-+
+-    default:
-+    arm_clear_exclusive(env);
+-    case 0xd: /* FADDP */
-+
+         unallocated_encoding(s);
-+    /* We must squash the PSTATE.SS bit to zero unless both of the
+         return;
-+     * following hold:
+     }
-+     *  1. debug exceptions are currently disabled
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-+     *  2. singlestep will be active in the EL we return to
+         case 0x3b: /* ADDP */
-+     * We check 1 here and 2 after we've done the pstate/cpsr write() to
+             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
-+     * transition to the EL we're going to.
+             break;
-+     */
+-        case 0xc: /* FMAXNMP */
-+    if (arm_generate_debug_exceptions(env)) {
+-            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-+        spsr &= ~PSTATE_SS;
+-            break;
-+    }
+-        case 0xf: /* FMAXP */
-+
+-            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-+    new_el = el_from_spsr(spsr);
+-            break;
-+    if (new_el == -1) {
+-        case 0x2c: /* FMINNMP */
-+        goto illegal_return;
+-            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-+    }
+-            break;
-+    if (new_el > cur_el
+-        case 0x2f: /* FMINP */
-+        || (new_el == 2 && !arm_feature(env, ARM_FEATURE_EL2))) {
+-            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-+        /* Disallow return to an EL which is unimplemented or higher
+-            break;
-+         * than the current one.
+         default:
-+         */
++        case 0xc: /* FMAXNMP */
-+        goto illegal_return;
+         case 0xd: /* FADDP */
-+    }
++        case 0xf: /* FMAXP */
-+
++        case 0x2c: /* FMINNMP */
-+    if (new_el != 0 && arm_el_is_aa64(env, new_el) != return_to_aa64) {
++        case 0x2f: /* FMINP */
-+        /* Return to an EL which is configured for a different register width */
+             g_assert_not_reached();
-+        goto illegal_return;
+         }
-+    }
-+
+         write_fp_dreg(s, rd, tcg_res);
-+    if (new_el == 2 && arm_is_secure_below_el3(env)) {
+     } else {
-+        /* Return to the non-existent secure-EL2 */
+-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-+        goto illegal_return;
+-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-+    }
+-        TCGv_i32 tcg_res = tcg_temp_new_i32();
-+
+-
-+    if (new_el == 1 && (arm_hcr_el2_eff(env) & HCR_TGE)) {
+-        read_vec_element_i32(s, tcg_op1, rn, 0, size);
-+        goto illegal_return;
+-        read_vec_element_i32(s, tcg_op2, rn, 1, size);
-+    }
+-
-+
+-        if (size == MO_16) {
-+    qemu_mutex_lock_iothread();
+-            switch (opcode) {
-+    arm_call_pre_el_change_hook(arm_env_get_cpu(env));
+-            case 0xc: /* FMAXNMP */
-+    qemu_mutex_unlock_iothread();
+-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-+
+-                break;
-+    if (!return_to_aa64) {
+-            case 0xf: /* FMAXP */
-+        env->aarch64 = 0;
+-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-+        /* We do a raw CPSR write because aarch64_sync_64_to_32()
+-                break;
-+         * will sort the register banks out for us, and we've already
+-            case 0x2c: /* FMINNMP */
-+         * caught all the bad-mode cases in el_from_spsr().
+-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-+         */
+-                break;
-+        cpsr_write(env, spsr, ~0, CPSRWriteRaw);
+-            case 0x2f: /* FMINP */
-+        if (!arm_singlestep_active(env)) {
+-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-+            env->uncached_cpsr &= ~PSTATE_SS;
+-                break;
-+        }
+-            default:
-+        aarch64_sync_64_to_32(env);
+-            case 0xd: /* FADDP */
-+
+-                g_assert_not_reached();
-+        if (spsr & CPSR_T) {
+-            }
-+            env->regs[15] = env->elr_el[cur_el] & ~0x1;
+-        } else {
-+        } else {
+-            switch (opcode) {
-+            env->regs[15] = env->elr_el[cur_el] & ~0x3;
+-            case 0xc: /* FMAXNMP */
-+        }
+-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-+        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
+-                break;
-+                      "AArch32 EL%d PC 0x%" PRIx32 "\n",
+-            case 0xf: /* FMAXP */
-+                      cur_el, new_el, env->regs[15]);
+-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-+    } else {
+-                break;
-+        env->aarch64 = 1;
+-            case 0x2c: /* FMINNMP */
-+        pstate_write(env, spsr);
+-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-+        if (!arm_singlestep_active(env)) {
+-                break;
-+            env->pstate &= ~PSTATE_SS;
+-            case 0x2f: /* FMINP */
-+        }
+-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-+        aarch64_restore_sp(env, new_el);
+-                break;
-+        env->pc = env->elr_el[cur_el];
+-            default:
-+        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
+-            case 0xd: /* FADDP */
-+                      "AArch64 EL%d PC 0x%" PRIx64 "\n",
+-                g_assert_not_reached();
-+                      cur_el, new_el, env->pc);
+-            }
-+    }
+-        }
-+    /*
+-
-+     * Note that cur_el can never be 0.  If new_el is 0, then
+-        write_fp_sreg(s, rd, tcg_res);
-+     * el0_a64 is return_to_aa64, else el0_a64 is ignored.
++        g_assert_not_reached();
 +     */
 +    aarch64_sve_change_el(env, cur_el, new_el, return_to_aa64);
 +
 +    qemu_mutex_lock_iothread();
 +    arm_call_el_change_hook(arm_env_get_cpu(env));
 +    qemu_mutex_unlock_iothread();
 +
 +    return;
 +
 +illegal_return:
 +    /* Illegal return events of various kinds have architecturally
 +     * mandated behaviour:
 +     * restore NZCV and DAIF from SPSR_ELx
 +     * set PSTATE.IL
 +     * restore PC from ELR_ELx
 +     * no change to exception level, execution state or stack pointer
 +     */
 +    env->pstate |= PSTATE_IL;
 +    env->pc = env->elr_el[cur_el];
 +    spsr &= PSTATE_NZCV | PSTATE_DAIF;
 +    spsr |= pstate_read(env) & ~(PSTATE_NZCV | PSTATE_DAIF);
 +    pstate_write(env, spsr);
 +    if (!arm_singlestep_active(env)) {
 +        env->pstate &= ~PSTATE_SS;
 +    }
 +    qemu_log_mask(LOG_GUEST_ERROR, "Illegal exception return at EL%d: "
 +                  "resuming execution at 0x%" PRIx64 "\n", cur_el, env->pc);
 +}
 +
  /*
   * Square Root and Reciprocal square root
   */
 diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/op_helper.c
 +++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(pre_smc)(CPUARMState *env, uint32_t syndrome)
      }
  }
--static int el_from_spsr(uint32_t spsr)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
  static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                                     int size, int rn, int rm, int rd)
  {
 -    TCGv_ptr fpst;
      int pass;
 -    /* Floating point operations need fpst */
 -    if (opcode >= 0x58) {
 -        fpst = fpstatus_ptr(FPST_FPCR);
 -    } else {
 -        fpst = NULL;
 -    }
 -
      if (!fp_access_check(s)) {
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
              case 0x17: /* ADDP */
                  tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
                  break;
 -            case 0x58: /* FMAXNMP */
 -                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5e: /* FMAXP */
 -                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
          }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  genfn = fns[size][u];
                  break;
              }
 -            /* The FP operations are all on single floats (32 bit) */
 -            case 0x58: /* FMAXNMP */
 -                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5e: /* FMAXP */
 -                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      }
      switch (fpopcode) {
 -    case 0x58: /* FMAXNMP */
 -    case 0x5e: /* FMAXP */
 -    case 0x78: /* FMINNMP */
 -    case 0x7e: /* FMINP */
 -        if (size && !is_q) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
 -                               rn, rm, rd);
 -        return;
 -
      case 0x1d: /* FMLAL  */
      case 0x3d: /* FMLSL  */
      case 0x59: /* FMLAL2 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x3f: /* FRSQRTS */
 +    case 0x58: /* FMAXNMP */
      case 0x5a: /* FADDP */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
 +    case 0x5e: /* FMAXP */
      case 0x5f: /* FDIV */
 +    case 0x78: /* FMINNMP */
      case 0x7a: /* FABD */
      case 0x7d: /* FACGT */
      case 0x7c: /* FCMGT */
 +    case 0x7e: /* FMINP */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      }
  }
 -/*
 - * Advanced SIMD three same (ARMv8.2 FP16 variants)
 - *
 - *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
 - * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
 - * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
 - * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
 - *
 - * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
 - * (register), FACGE, FABD, FCMGT (register) and FACGT.
 - *
 - */
 -static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
 -{
--    /* Return the exception level that this SPSR is requesting a return to,
+-    int opcode = extract32(insn, 11, 3);
--     * or -1 if it is invalid (an illegal return)
+-    int u = extract32(insn, 29, 1);
 -    int a = extract32(insn, 23, 1);
 -    int is_q = extract32(insn, 30, 1);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    /*
 -     * For these floating point ops, the U, a and opcode bits
 -     * together indicate the operation.
 -     */
--    if (spsr & PSTATE_nRW) {
+-    int fpopcode = opcode | (a << 3) | (u << 4);
--        switch (spsr & CPSR_M) {
+-    bool pairwise;
--        case ARM_CPU_MODE_USR:
+-    TCGv_ptr fpst;
--            return 0;
+-    int pass;
--        case ARM_CPU_MODE_HYP:
+-
--            return 2;
+-    switch (fpopcode) {
--        case ARM_CPU_MODE_FIQ:
+-    case 0x10: /* FMAXNMP */
--        case ARM_CPU_MODE_IRQ:
+-    case 0x16: /* FMAXP */
--        case ARM_CPU_MODE_SVC:
+-    case 0x18: /* FMINNMP */
--        case ARM_CPU_MODE_ABT:
+-    case 0x1e: /* FMINP */
--        case ARM_CPU_MODE_UND:
+-        pairwise = true;
--        case ARM_CPU_MODE_SYS:
+-        break;
--            return 1;
+-    default:
--        case ARM_CPU_MODE_MON:
+-    case 0x0: /* FMAXNM */
--            /* Returning to Mon from AArch64 is never possible,
+-    case 0x1: /* FMLA */
--             * so this is an illegal return.
+-    case 0x2: /* FADD */
--             */
+-    case 0x3: /* FMULX */
--        default:
+-    case 0x4: /* FCMEQ */
--            return -1;
+-    case 0x6: /* FMAX */
 -    case 0x7: /* FRECPS */
 -    case 0x8: /* FMINNM */
 -    case 0x9: /* FMLS */
 -    case 0xa: /* FSUB */
 -    case 0xe: /* FMIN */
 -    case 0xf: /* FRSQRTS */
 -    case 0x12: /* FADDP */
 -    case 0x13: /* FMUL */
 -    case 0x14: /* FCMGE */
 -    case 0x15: /* FACGE */
 -    case 0x17: /* FDIV */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT */
 -    case 0x1d: /* FACGT */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!dc_isar_feature(aa64_fp16, s)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    fpst = fpstatus_ptr(FPST_FPCR_F16);
 -
 -    if (pairwise) {
 -        int maxpass = is_q ? 8 : 4;
 -        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -        TCGv_i32 tcg_res[8];
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            int passreg = pass < (maxpass / 2) ? rn : rm;
 -            int passelt = (pass << 1) & (maxpass - 1);
 -
 -            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
 -            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
 -            tcg_res[pass] = tcg_temp_new_i32();
 -
 -            switch (fpopcode) {
 -            case 0x10: /* FMAXNMP */
 -                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
 -                                           fpst);
 -                break;
 -            case 0x16: /* FMAXP */
 -                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x18: /* FMINNMP */
 -                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
 -                                           fpst);
 -                break;
 -            case 0x1e: /* FMINP */
 -                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x12: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
 -        }
 -    } else {
--        if (extract32(spsr, 1, 1)) {
+-        g_assert_not_reached();
 -            /* Return with reserved M[1] bit set */
 -            return -1;
 -        }
 -        if (extract32(spsr, 0, 4) == 1) {
 -            /* return to EL0 with M[0] bit set */
 -            return -1;
 -        }
 -        return extract32(spsr, 2, 2);
 -    }
+-
+-    clear_vec_high(s, is_q, rd);
 -}
 -
--void HELPER(exception_return)(CPUARMState *env)
+ /* AdvSIMD three same extra
--{
+  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
--    int cur_el = arm_current_el(env);
+  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
--    unsigned int spsr_idx = aarch64_banked_spsr_index(cur_el);
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
--    uint32_t spsr = env->banked_spsr[spsr_idx];
+     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
--    int new_el;
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
--    bool return_to_aa64 = (spsr & PSTATE_nRW) == 0;
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
--
+-    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
--    aarch64_save_sp(env, cur_el);
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
--
+     { 0x00000000, 0x00000000, NULL }
--    arm_clear_exclusive(env);
+ };
--
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
--    /* We must squash the PSTATE.SS bit to zero unless both of the
+index XXXXXXX..XXXXXXX 100644
--     * following hold:
+--- a/target/arm/tcg/vec_helper.c
--     *  1. debug exceptions are currently disabled
++++ b/target/arm/tcg/vec_helper.c
--     *  2. singlestep will be active in the EL we return to
+@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
--     * We check 1 here and 2 after we've done the pstate/cpsr write() to
+ DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
--     * transition to the EL we're going to.
+ DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
--     */
--    if (arm_generate_debug_exceptions(env)) {
++DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
--        spsr &= ~PSTATE_SS;
++DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
--    }
++DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
--
++
--    new_el = el_from_spsr(spsr);
++DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
--    if (new_el == -1) {
++DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
--        goto illegal_return;
++DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
--    }
++
--    if (new_el > cur_el
++DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
--        || (new_el == 2 && !arm_feature(env, ARM_FEATURE_EL2))) {
++DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
--        /* Disallow return to an EL which is unimplemented or higher
++DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
--         * than the current one.
++
--         */
++DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
--        goto illegal_return;
++DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
--    }
++DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
--
++
--    if (new_el != 0 && arm_el_is_aa64(env, new_el) != return_to_aa64) {
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
--        /* Return to an EL which is configured for a different register width */
+     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
--        goto illegal_return;
+     {                                                                   \
 -    }
 -
 -    if (new_el == 2 && arm_is_secure_below_el3(env)) {
 -        /* Return to the non-existent secure-EL2 */
 -        goto illegal_return;
 -    }
 -
 -    if (new_el == 1 && (arm_hcr_el2_eff(env) & HCR_TGE)) {
 -        goto illegal_return;
 -    }
 -
 -    qemu_mutex_lock_iothread();
 -    arm_call_pre_el_change_hook(arm_env_get_cpu(env));
 -    qemu_mutex_unlock_iothread();
 -
 -    if (!return_to_aa64) {
 -        env->aarch64 = 0;
 -        /* We do a raw CPSR write because aarch64_sync_64_to_32()
 -         * will sort the register banks out for us, and we've already
 -         * caught all the bad-mode cases in el_from_spsr().
 -         */
 -        cpsr_write(env, spsr, ~0, CPSRWriteRaw);
 -        if (!arm_singlestep_active(env)) {
 -            env->uncached_cpsr &= ~PSTATE_SS;
 -        }
 -        aarch64_sync_64_to_32(env);
 -
 -        if (spsr & CPSR_T) {
 -            env->regs[15] = env->elr_el[cur_el] & ~0x1;
 -        } else {
 -            env->regs[15] = env->elr_el[cur_el] & ~0x3;
 -        }
 -        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
 -                      "AArch32 EL%d PC 0x%" PRIx32 "\n",
 -                      cur_el, new_el, env->regs[15]);
 -    } else {
 -        env->aarch64 = 1;
 -        pstate_write(env, spsr);
 -        if (!arm_singlestep_active(env)) {
 -            env->pstate &= ~PSTATE_SS;
 -        }
 -        aarch64_restore_sp(env, new_el);
 -        env->pc = env->elr_el[cur_el];
 -        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
 -                      "AArch64 EL%d PC 0x%" PRIx64 "\n",
 -                      cur_el, new_el, env->pc);
 -    }
 -    /*
 -     * Note that cur_el can never be 0.  If new_el is 0, then
 -     * el0_a64 is return_to_aa64, else el0_a64 is ignored.
 -     */
 -    aarch64_sve_change_el(env, cur_el, new_el, return_to_aa64);
 -
 -    qemu_mutex_lock_iothread();
 -    arm_call_el_change_hook(arm_env_get_cpu(env));
 -    qemu_mutex_unlock_iothread();
 -
 -    return;
 -
 -illegal_return:
 -    /* Illegal return events of various kinds have architecturally
 -     * mandated behaviour:
 -     * restore NZCV and DAIF from SPSR_ELx
 -     * set PSTATE.IL
 -     * restore PC from ELR_ELx
 -     * no change to exception level, execution state or stack pointer
 -     */
 -    env->pstate |= PSTATE_IL;
 -    env->pc = env->elr_el[cur_el];
 -    spsr &= PSTATE_NZCV | PSTATE_DAIF;
 -    spsr |= pstate_read(env) & ~(PSTATE_NZCV | PSTATE_DAIF);
 -    pstate_write(env, spsr);
 -    if (!arm_singlestep_active(env)) {
 -        env->pstate &= ~PSTATE_SS;
 -    }
 -    qemu_log_mask(LOG_GUEST_ERROR, "Illegal exception return at EL%d: "
 -                  "resuming execution at 0x%" PRIx64 "\n", cur_el, env->pc);
 -}
 -
  /* Return true if the linked breakpoint entry lbn passes its checks */
  static bool linked_bp_matches(ARMCPU *cpu, int lbn)
  {
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 19/49] target/arm: Move cpu_mmu_index out of line
+[PULL 36/42] target/arm: Use gvec for neon faddp, fmaxp, fminp
 From: Richard Henderson <richard.henderson@linaro.org>
-This function is, or will shortly become, too big to inline.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-16-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    | 48 +++++----------------------------------------
+ target/arm/helper.h             |  7 -----
- target/arm/helper.c | 44 +++++++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/translate-neon.c | 55 ++-------------------------------
-files changed, 49 insertions(+), 43 deletions(-)
+ target/arm/tcg/vec_helper.c     | 45 ---------------------------
 files changed, 3 insertions(+), 104 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static inline int arm_mmu_idx_to_el(ARMMMUIdx mmu_idx)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
  DEF_HELPER_FLAGS_6(gvec_fcmlad, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_paddh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pmaxh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pminh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -
  DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-neon.c
 +++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
  DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
  DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
  DO_3S_FP_GVEC(VRSQRTS, gen_helper_gvec_rsqrts_nf_s, gen_helper_gvec_rsqrts_nf_h)
 +DO_3S_FP_GVEC(VPADD, gen_helper_gvec_faddp_s, gen_helper_gvec_faddp_h)
 +DO_3S_FP_GVEC(VPMAX, gen_helper_gvec_fmaxp_s, gen_helper_gvec_fmaxp_h)
 +DO_3S_FP_GVEC(VPMIN, gen_helper_gvec_fminp_s, gen_helper_gvec_fminp_h)
  WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
  WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
      return do_3same(s, a, gen_VMINNM_fp32_3s);
  }
- /* Return the MMU index for a v7M CPU in the specified security and
+-static bool do_3same_fp_pair(DisasContext *s, arg_3same *a,
-- * privilege state
+-                             gen_helper_gvec_3_ptr *fn)
 + * privilege state.
   */
 -static inline ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
 -                                                              bool secstate,
 -                                                              bool priv)
 -{
--    ARMMMUIdx mmu_idx = ARM_MMU_IDX_M;
+-    /* FP pairwise operations */
 -    TCGv_ptr fpstatus;
 -
--    if (priv) {
+-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
--        mmu_idx |= ARM_MMU_IDX_M_PRIV;
+-        return false;
 -    }
 -
--    if (armv7m_nvic_neg_prio_requested(env->nvic, secstate)) {
+-    /* UNDEF accesses to D16-D31 if they don't exist. */
--        mmu_idx |= ARM_MMU_IDX_M_NEGPRI;
+-    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vn | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
--    if (secstate) {
+-    if (!vfp_access_check(s)) {
--        mmu_idx |= ARM_MMU_IDX_M_S;
+-        return true;
 -    }
 -
--    return mmu_idx;
+-    assert(a->q == 0); /* enforced by decode patterns */
 -
 -
 -    fpstatus = fpstatus_ptr(a->size == MO_16 ? FPST_STD_F16 : FPST_STD);
 -    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
 -                       vfp_reg_offset(1, a->vn),
 -                       vfp_reg_offset(1, a->vm),
 -                       fpstatus, 8, 8, 0, fn);
 -
 -    return true;
 -}
-+ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
-+                                                bool secstate, bool priv);
- /* Return the MMU index for a v7M CPU in the specified security state */
--static inline ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env,
--                                                     bool secstate)
--{
--    bool priv = arm_current_el(env) != 0;
 -
--    return arm_v7m_mmu_idx_for_secstate_and_priv(env, secstate, priv);
+-/*
--}
+- * For all the functions using this macro, size == 1 means fp16,
-+ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate);
+- * which is an architecture extension we don't implement yet.
+- */
- /* Determine the current mmu_idx to use for normal loads/stores */
+-#define DO_3S_FP_PAIR(INSN,FUNC)                                    \
--static inline int cpu_mmu_index(CPUARMState *env, bool ifetch)
+-    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
--{
+-    {                                                               \
--    int el = arm_current_el(env);
+-        if (a->size == MO_16) {                                     \
--
+-            if (!dc_isar_feature(aa32_fp16_arith, s)) {             \
--    if (arm_feature(env, ARM_FEATURE_M)) {
+-                return false;                                       \
--        ARMMMUIdx mmu_idx = arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
+-            }                                                       \
--
+-            return do_3same_fp_pair(s, a, FUNC##h);                 \
--        return arm_to_core_mmu_idx(mmu_idx);
+-        }                                                           \
 -        return do_3same_fp_pair(s, a, FUNC##s);                     \
 -    }
 -
--    if (el < 2 && arm_is_secure_below_el3(env)) {
+-DO_3S_FP_PAIR(VPADD, gen_helper_neon_padd)
--        return arm_to_core_mmu_idx(ARMMMUIdx_S1SE0 + el);
+-DO_3S_FP_PAIR(VPMAX, gen_helper_neon_pmax)
 -DO_3S_FP_PAIR(VPMIN, gen_helper_neon_pmin)
 -
  static bool do_vector_2sh(DisasContext *s, arg_2reg_shift *a, GVecGen2iFn *fn)
  {
      /* Handle a 2-reg-shift insn which can be vectorized. */
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_d, uint64_t)
  #undef DO_ABA
 -#define DO_NEON_PAIRWISE(NAME, OP)                                      \
 -    void HELPER(NAME##s)(void *vd, void *vn, void *vm,                  \
 -                         void *stat, uint32_t oprsz)                    \
 -    {                                                                   \
 -        float_status *fpst = stat;                                      \
 -        float32 *d = vd;                                                \
 -        float32 *n = vn;                                                \
 -        float32 *m = vm;                                                \
 -        float32 r0, r1;                                                 \
 -                                                                        \
 -        /* Read all inputs before writing outputs in case vm == vd */   \
 -        r0 = float32_##OP(n[H4(0)], n[H4(1)], fpst);                    \
 -        r1 = float32_##OP(m[H4(0)], m[H4(1)], fpst);                    \
 -                                                                        \
 -        d[H4(0)] = r0;                                                  \
 -        d[H4(1)] = r1;                                                  \
 -    }                                                                   \
 -                                                                        \
 -    void HELPER(NAME##h)(void *vd, void *vn, void *vm,                  \
 -                         void *stat, uint32_t oprsz)                    \
 -    {                                                                   \
 -        float_status *fpst = stat;                                      \
 -        float16 *d = vd;                                                \
 -        float16 *n = vn;                                                \
 -        float16 *m = vm;                                                \
 -        float16 r0, r1, r2, r3;                                         \
 -                                                                        \
 -        /* Read all inputs before writing outputs in case vm == vd */   \
 -        r0 = float16_##OP(n[H2(0)], n[H2(1)], fpst);                    \
 -        r1 = float16_##OP(n[H2(2)], n[H2(3)], fpst);                    \
 -        r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
 -        r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
 -                                                                        \
 -        d[H2(0)] = r0;                                                  \
 -        d[H2(1)] = r1;                                                  \
 -        d[H2(2)] = r2;                                                  \
 -        d[H2(3)] = r3;                                                  \
 -    }
--    return el;
+-
--}
+-DO_NEON_PAIRWISE(neon_padd, add)
-+int cpu_mmu_index(CPUARMState *env, bool ifetch);
+-DO_NEON_PAIRWISE(neon_pmax, max)
+-DO_NEON_PAIRWISE(neon_pmin, min)
- /* Indexes used when registering address spaces with cpu_address_space_init */
+-
- typedef enum ARMASIdx {
+-#undef DO_NEON_PAIRWISE
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+-
-index XXXXXXX..XXXXXXX 100644
+ #define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
---- a/target/arm/helper.c
+ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
-+++ b/target/arm/helper.c
+ {                                                                          \
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
      return 0;
  }
 +ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
 +                                                bool secstate, bool priv)
 +{
 +    ARMMMUIdx mmu_idx = ARM_MMU_IDX_M;
 +
 +    if (priv) {
 +        mmu_idx |= ARM_MMU_IDX_M_PRIV;
 +    }
 +
 +    if (armv7m_nvic_neg_prio_requested(env->nvic, secstate)) {
 +        mmu_idx |= ARM_MMU_IDX_M_NEGPRI;
 +    }
 +
 +    if (secstate) {
 +        mmu_idx |= ARM_MMU_IDX_M_S;
 +    }
 +
 +    return mmu_idx;
 +}
 +
 +/* Return the MMU index for a v7M CPU in the specified security state */
 +ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate)
 +{
 +    bool priv = arm_current_el(env) != 0;
 +
 +    return arm_v7m_mmu_idx_for_secstate_and_priv(env, secstate, priv);
 +}
 +
 +int cpu_mmu_index(CPUARMState *env, bool ifetch)
 +{
 +    int el = arm_current_el(env);
 +
 +    if (arm_feature(env, ARM_FEATURE_M)) {
 +        ARMMMUIdx mmu_idx = arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
 +
 +        return arm_to_core_mmu_idx(mmu_idx);
 +    }
 +
 +    if (el < 2 && arm_is_secure_below_el3(env)) {
 +        return arm_to_core_mmu_idx(ARMMMUIdx_S1SE0 + el);
 +    }
 +    return el;
 +}
 +
  void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                            target_ulong *cs_base, uint32_t *pflags)
  {
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 37/49] target/arm: Reorganize PMCCNTR accesses
+[PULL 37/42] target/arm: Convert ADDP to decodetree
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-pmccntr_read and pmccntr_write contained duplicate code that was already
-being handled by pmccntr_sync. Consolidate the duplicated code into two
-functions: pmccntr_op_start and pmccntr_op_finish. Add a companion to
-c15_ccnt in CPUARMState so that we can simultaneously save both the
-architectural register value and the last underlying cycle count - this
-ensures time isn't lost and will also allow us to access the 'old'
-architectural register value in order to detect overflows in later
-patches.
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
-Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20181211151945.29137-3-aaron@os.amperecomputing.com
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    |  37 +++++++++++---
+ target/arm/helper.h            |   5 ++
- target/arm/helper.c | 118 ++++++++++++++++++++++++++------------------
+ target/arm/tcg/translate.h     |   3 +
-files changed, 100 insertions(+), 55 deletions(-)
+ target/arm/tcg/a64.decode      |   6 ++
  target/arm/tcg/gengvec.c       |  12 ++++
  target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
  target/arm/tcg/vec_helper.c    |  30 ++++++++
 files changed, 77 insertions(+), 107 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i
-         uint64_t oslsr_el1; /* OS Lock Status */
+ DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         uint64_t mdcr_el2;
+ DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         uint64_t mdcr_el3;
--        /* If the counter is enabled, this stores the last time the counter
++DEF_HELPER_FLAGS_4(gvec_addp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
--         * was reset. Otherwise it stores the counter value
++DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+        /* Stores the architectural value of the counter *the last time it was
++DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+         * updated* by pmccntr_op_start. Accesses should always be surrounded
++DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+         * by pmccntr_op_start/pmccntr_op_finish to guarantee the latest
++
-+         * architecturally-correct value is being read/set.
+ #ifdef TARGET_AARCH64
-          */
+ #include "tcg/helper-a64.h"
-         uint64_t c15_ccnt;
+ #include "tcg/helper-sve.h"
-+        /* Stores the delta between the architectural value and the underlying
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
-+         * cycle count during normal operation. It is used to update c15_ccnt
+index XXXXXXX..XXXXXXX 100644
-+         * to be the correct architectural value before accesses. During
+--- a/target/arm/tcg/translate.h
-+         * accesses, c15_ccnt_delta contains the underlying count being used
++++ b/target/arm/tcg/translate.h
-+         * for the access, after which it reverts to the delta value in
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+         * pmccntr_op_finish.
+ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+         */
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+        uint64_t c15_ccnt_delta;
-         uint64_t pmccfiltr_el0; /* Performance Monitor Filter Register */
++void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-         uint64_t vpidr_el2; /* Virtualization Processor ID Register */
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-         uint64_t vmpidr_el2; /* Virtualization Multiprocessor ID Register */
++
-@@ -XXX,XX +XXX,XX @@ int cpu_arm_signal_handler(int host_signum, void *pinfo,
+ /*
-                            void *puc);
+  * Forward to the isar_feature_* tests given a DisasContext pointer.
  /**
 - * pmccntr_sync
 + * pmccntr_op_start/finish
   * @env: CPUARMState
   *
 - * Synchronises the counter in the PMCCNTR. This must always be called twice,
 - * once before any action that might affect the timer and again afterwards.
 - * The function is used to swap the state of the register if required.
 - * This only happens when not in user mode (!CONFIG_USER_ONLY)
 + * Convert the counter in the PMCCNTR between its delta form (the typical mode
 + * when it's enabled) and the guest-visible value. These two calls must always
 + * surround any action which might affect the counter.
   */
--void pmccntr_sync(CPUARMState *env);
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+void pmccntr_op_start(CPUARMState *env);
+index XXXXXXX..XXXXXXX 100644
-+void pmccntr_op_finish(CPUARMState *env);
+--- a/target/arm/tcg/a64.decode
-+
++++ b/target/arm/tcg/a64.decode
-+/**
+@@ -XXX,XX +XXX,XX @@
-+ * pmu_op_start/finish
+ &qrrrr_e        q rd rn rm ra esz
-+ * @env: CPUARMState
-+ *
+ @rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
-+ * Convert all PMU counters between their delta form (the typical mode when
++@rr_d           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=3
-+ * they are enabled) and the guest-visible values. These two calls must
+ @rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
-+ * surround any action which might affect the counters.
-+ */
+ @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
-+void pmu_op_start(CPUARMState *env);
+@@ -XXX,XX +XXX,XX @@
-+void pmu_op_finish(CPUARMState *env);
+ @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
- /* SCTLR bit meanings. Several bits have been reused in newer
+ @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
-  * versions of the architecture; in that case we define constants
++@qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
+ @qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
---- a/target/arm/helper.c
+                 &qrrx_e esz=1 idx=%hlm
-+++ b/target/arm/helper.c
+@@ -XXX,XX +XXX,XX @@ FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
-@@ -XXX,XX +XXX,XX @@ static inline bool arm_ccnt_enabled(CPUARMState *env)
+ FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
+ FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
-     return true;
 +ADDP_s          0101 1110 1111 0001 1011 10 ..... ..... @rr_d
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
  FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
  FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/gengvec.c
 +++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      };
      tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
  }
--
++
--void pmccntr_sync(CPUARMState *env)
++void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+/*
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+ * Ensure c15_ccnt is the guest-visible count so that operations such as
++{
-+ * enabling/disabling the counter or filtering, modifying the count itself,
++    static gen_helper_gvec_3 * const fns[4] = {
-+ * etc. can be done logically. This is essentially a no-op if the counter is
++        gen_helper_gvec_addp_b,
-+ * not enabled at the time of the call.
++        gen_helper_gvec_addp_h,
-+ */
++        gen_helper_gvec_addp_s,
-+void pmccntr_op_start(CPUARMState *env)
++        gen_helper_gvec_addp_d,
- {
++    };
--    uint64_t temp_ticks;
++    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
--
++}
--    temp_ticks = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-+    uint64_t cycles = 0;
+index XXXXXXX..XXXXXXX 100644
-+    cycles = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
+--- a/target/arm/tcg/translate-a64.c
-                           ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
--    if (env->cp15.c9_pmcr & PMCRD) {
+ };
--        /* Increment once every 64 processor clock cycles */
+ TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
--        temp_ticks /= 64;
--    }
++TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
--
++
-     if (arm_ccnt_enabled(env)) {
+ /*
--        env->cp15.c15_ccnt = temp_ticks - env->cp15.c15_ccnt;
+  * Advanced SIMD scalar/vector x indexed element
-+        uint64_t eff_cycles = cycles;
+  */
-+        if (env->cp15.c9_pmcr & PMCRD) {
+@@ -XXX,XX +XXX,XX @@ TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
-+            /* Increment once every 64 processor clock cycles */
+ TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
-+            eff_cycles /= 64;
+ TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
-+        }
-+
++static bool trans_ADDP_s(DisasContext *s, arg_rr_e *a)
-+        env->cp15.c15_ccnt = eff_cycles - env->cp15.c15_ccnt_delta;
++{
 +    if (fp_access_check(s)) {
 +        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +        read_vec_element(s, t0, a->rn, 0, MO_64);
 +        read_vec_element(s, t1, a->rn, 1, MO_64);
 +        tcg_gen_add_i64(t0, t0, t1);
 +        write_fp_dreg(s, a->rd, t0);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
-+    env->cp15.c15_ccnt_delta = cycles;
-+}
-+
-+/*
-+ * If PMCCNTR is enabled, recalculate the delta between the clock and the
-+ * guest-visible count. A call to pmccntr_op_finish should follow every call to
-+ * pmccntr_op_start.
-+ */
-+void pmccntr_op_finish(CPUARMState *env)
-+{
-+    if (arm_ccnt_enabled(env)) {
-+        uint64_t prev_cycles = env->cp15.c15_ccnt_delta;
-+
-+        if (env->cp15.c9_pmcr & PMCRD) {
-+            /* Increment once every 64 processor clock cycles */
-+            prev_cycles /= 64;
-+        }
-+
-+        env->cp15.c15_ccnt_delta = prev_cycles - env->cp15.c15_ccnt;
-+    }
-+}
-+
-+void pmu_op_start(CPUARMState *env)
-+{
-+    pmccntr_op_start(env);
-+}
-+
-+void pmu_op_finish(CPUARMState *env)
-+{
-+    pmccntr_op_finish(env);
  }
- static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-/* AdvSIMD scalar pairwise
-                        uint64_t value)
+- *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
- {
+- * +-----+---+-----------+------+-----------+--------+-----+------+------+
--    pmccntr_sync(env);
+- * | 0 1 | U | 1 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
-+    pmu_op_start(env);
+- * +-----+---+-----------+------+-----------+--------+-----+------+------+
+- */
-     if (value & PMCRC) {
+-static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-         /* The counter has been reset */
+-{
-@@ -XXX,XX +XXX,XX @@ static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-    int u = extract32(insn, 29, 1);
-     env->cp15.c9_pmcr &= ~0x39;
+-    int size = extract32(insn, 22, 2);
-     env->cp15.c9_pmcr |= (value & 0x39);
+-    int opcode = extract32(insn, 12, 5);
+-    int rn = extract32(insn, 5, 5);
--    pmccntr_sync(env);
+-    int rd = extract32(insn, 0, 5);
-+    pmu_op_finish(env);
+-
- }
+-    /* For some ops (the FP ones), size[1] is part of the encoding.
+-     * For ADDP strictly it is not but size[1] is always 1 for valid
- static uint64_t pmccntr_read(CPUARMState *env, const ARMCPRegInfo *ri)
+-     * encodings.
- {
+-     */
--    uint64_t total_ticks;
+-    opcode |= (extract32(size, 1, 1) << 5);
 -
--    if (!arm_ccnt_enabled(env)) {
+-    switch (opcode) {
--        /* Counter is disabled, do not change value */
+-    case 0x3b: /* ADDP */
--        return env->cp15.c15_ccnt;
+-        if (u || size != 3) {
--    }
+-            unallocated_encoding(s);
--
+-            return;
--    total_ticks = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
+-        }
--                           ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
+-        if (!fp_access_check(s)) {
--
+-            return;
--    if (env->cp15.c9_pmcr & PMCRD) {
+-        }
--        /* Increment once every 64 processor clock cycles */
+-        break;
--        total_ticks /= 64;
+-    default:
--    }
+-    case 0xc: /* FMAXNMP */
--    return total_ticks - env->cp15.c15_ccnt;
+-    case 0xd: /* FADDP */
-+    uint64_t ret;
+-    case 0xf: /* FMAXP */
-+    pmccntr_op_start(env);
+-    case 0x2c: /* FMINNMP */
-+    ret = env->cp15.c15_ccnt;
+-    case 0x2f: /* FMINP */
-+    pmccntr_op_finish(env);
+-        unallocated_encoding(s);
 +    return ret;
  }
  static void pmselr_write(CPUARMState *env, const ARMCPRegInfo *ri,
@@ -XXX,XX +XXX,XX @@ static void pmselr_write(CPUARMState *env, const ARMCPRegInfo *ri,
  static void pmccntr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                          uint64_t value)
  {
 -    uint64_t total_ticks;
 -
 -    if (!arm_ccnt_enabled(env)) {
 -        /* Counter is disabled, set the absolute value */
 -        env->cp15.c15_ccnt = value;
 -        return;
 -    }
 -
--    total_ticks = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
+-    if (size == MO_64) {
--                           ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
+-        TCGv_i64 tcg_op1 = tcg_temp_new_i64();
--
+-        TCGv_i64 tcg_op2 = tcg_temp_new_i64();
--    if (env->cp15.c9_pmcr & PMCRD) {
+-        TCGv_i64 tcg_res = tcg_temp_new_i64();
--        /* Increment once every 64 processor clock cycles */
+-
--        total_ticks /= 64;
+-        read_vec_element(s, tcg_op1, rn, 0, MO_64);
 -        read_vec_element(s, tcg_op2, rn, 1, MO_64);
 -
 -        switch (opcode) {
 -        case 0x3b: /* ADDP */
 -            tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
 -            break;
 -        default:
 -        case 0xc: /* FMAXNMP */
 -        case 0xd: /* FADDP */
 -        case 0xf: /* FMAXP */
 -        case 0x2c: /* FMINNMP */
 -        case 0x2f: /* FMINP */
 -            g_assert_not_reached();
 -        }
 -
 -        write_fp_dreg(s, rd, tcg_res);
 -    } else {
 -        g_assert_not_reached();
 -    }
--    env->cp15.c15_ccnt = total_ticks - value;
+-}
-+    pmccntr_op_start(env);
+-
-+    env->cp15.c15_ccnt = value;
+ /*
-+    pmccntr_op_finish(env);
+  * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
   *
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
       * adjacent elements being operated on to produce an element in the result.
       */
      if (size == 3) {
 -        TCGv_i64 tcg_res[2];
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -            int passreg = (pass == 0) ? rn : rm;
 -
 -            read_vec_element(s, tcg_op1, passreg, 0, MO_64);
 -            read_vec_element(s, tcg_op2, passreg, 1, MO_64);
 -            tcg_res[pass] = tcg_temp_new_i64();
 -
 -            switch (opcode) {
 -            case 0x17: /* ADDP */
 -                tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
 -                break;
 -            default:
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
 -        }
 +        g_assert_not_reached();
      } else {
          int maxpass = is_q ? 4 : 2;
          TCGv_i32 tcg_res[4];
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
              tcg_res[pass] = tcg_temp_new_i32();
              switch (opcode) {
 -            case 0x17: /* ADDP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3] = {
 -                    gen_helper_neon_padd_u8,
 -                    gen_helper_neon_padd_u16,
 -                    tcg_gen_add_i32,
 -                };
 -                genfn = fns[size];
 -                break;
 -            }
              case 0x14: /* SMAXP, UMAXP */
              {
                  static NeonGenTwoOpFn * const fns[3][2] = {
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  break;
              }
              default:
 +            case 0x17: /* ADDP */
              case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
              case 0x5e: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x17: /* ADDP */
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      default:
          disas_simd_3same_int(s, insn);
          break;
 +    case 0x17: /* ADDP */
 +        unallocated_encoding(s);
 +        break;
      }
  }
- static void pmccntr_write32(CPUARMState *env, const ARMCPRegInfo *ri,
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-@@ -XXX,XX +XXX,XX @@ static void pmccntr_write32(CPUARMState *env, const ARMCPRegInfo *ri,
+     { 0x5e008400, 0xdf208400, disas_simd_scalar_three_reg_same_extra },
+     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
- #else /* CONFIG_USER_ONLY */
+     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
+-    { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
--void pmccntr_sync(CPUARMState *env)
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
-+void pmccntr_op_start(CPUARMState *env)
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-+{
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
  DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
  DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
 +#undef DO_3OP_PAIR
 +
 +#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
 +{                                                               \
 +    ARMVectorReg scratch;                                       \
 +    intptr_t oprsz = simd_oprsz(desc);                          \
 +    intptr_t half = oprsz / sizeof(TYPE) / 2;                   \
 +    TYPE *d = vd, *n = vn, *m = vm;                             \
 +    if (unlikely(d == m)) {                                     \
 +        m = memcpy(&scratch, m, oprsz);                         \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)]);           \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)]);    \
 +    }                                                           \
 +    clear_tail(d, oprsz, simd_maxsz(desc));                     \
 +}
 +
-+void pmccntr_op_finish(CPUARMState *env)
++#define ADD(A, B) (A + B)
-+{
++DO_3OP_PAIR(gvec_addp_b, ADD, uint8_t, H1)
-+}
++DO_3OP_PAIR(gvec_addp_h, ADD, uint16_t, H2)
-+
++DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
-+void pmu_op_start(CPUARMState *env)
++DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
-+{
++#undef  ADD
-+}
++
-+
++#undef DO_3OP_PAIR
-+void pmu_op_finish(CPUARMState *env)
++
- {
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
- }
+     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+     {                                                                   \
@@ -XXX,XX +XXX,XX @@ void pmccntr_sync(CPUARMState *env)
  static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                              uint64_t value)
  {
 -    pmccntr_sync(env);
 +    pmccntr_op_start(env);
      env->cp15.pmccfiltr_el0 = value & 0xfc000000;
 -    pmccntr_sync(env);
 +    pmccntr_op_finish(env);
  }
  static void pmcntenset_write(CPUARMState *env, const ARMCPRegInfo *ri,
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 24/49] target/arm: Export aa64_va_parameters to internals.h
+[PULL 38/42] target/arm: Use gvec for neon padd
 From: Richard Henderson <richard.henderson@linaro.org>
-We need to reuse this from helper-a64.c.  Provide a stub
-definition for CONFIG_USER_ONLY.  This matches the stub
-definitions that we removed for arm_regime_tbi{0,1} before.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-21-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h | 17 +++++++++++++++++
+ target/arm/helper.h             | 2 --
- target/arm/helper.c    |  4 ++--
+ target/arm/tcg/neon_helper.c    | 5 -----
-files changed, 19 insertions(+), 2 deletions(-)
+ target/arm/tcg/translate-neon.c | 3 +--
 files changed, 1 insertion(+), 9 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/helper.h
-+++ b/target/arm/internals.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ typedef struct ARMVAParameters {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
-     bool using64k   : 1;
- } ARMVAParameters;
+ DEF_HELPER_2(neon_add_u8, i32, i32, i32)
+ DEF_HELPER_2(neon_add_u16, i32, i32, i32)
-+#ifdef CONFIG_USER_ONLY
+-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
-+static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
+-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
-+                                                 uint64_t va,
+ DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
-+                                                 ARMMMUIdx mmu_idx, bool data)
+ DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
-+{
+ DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
-+    return (ARMVAParameters) {
+diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
 +        /* 48-bit address space */
 +        .tsz = 16,
 +        /* We can't handle tagged addresses properly in user-only mode */
 +        .tbi = false,
 +    };
 +}
 +#else
 +ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
 +                                   ARMMMUIdx mmu_idx, bool data);
 +#endif
 +
  #endif
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/neon_helper.c
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/neon_helper.c
-@@ -XXX,XX +XXX,XX @@ static uint8_t convert_stage2_attrs(CPUARMState *env, uint8_t s2attrs)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
-     return (hiattr << 6) | (hihint << 4) | (loattr << 2) | lohint;
+     return (a + b) ^ mask;
  }
--static ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+-#define NEON_FN(dest, src1, src2) dest = src1 + src2
--                                          ARMMMUIdx mmu_idx, bool data)
+-NEON_POP(padd_u8, neon_u8, 4)
-+ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+-NEON_POP(padd_u16, neon_u16, 2)
-+                                   ARMMMUIdx mmu_idx, bool data)
+-#undef NEON_FN
- {
+-
-     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
+ #define NEON_FN(dest, src1, src2) dest = src1 - src2
-     uint32_t el = regime_el(env, mmu_idx);
+ NEON_VOP(sub_u8, neon_u8, 4)
  NEON_VOP(sub_u16, neon_u16, 2)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-neon.c
 +++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
  DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
  DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
  DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
 +DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
  #define DO_3SAME_CMP(INSN, COND)                                        \
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
  #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
  #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
  #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -#define gen_helper_neon_padd_u32  tcg_gen_add_i32
  DO_3SAME_PAIR(VPMAX_S, pmax_s)
  DO_3SAME_PAIR(VPMIN_S, pmin_s)
  DO_3SAME_PAIR(VPMAX_U, pmax_u)
  DO_3SAME_PAIR(VPMIN_U, pmin_u)
 -DO_3SAME_PAIR(VPADD, padd_u)
  #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
      WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 27/49] target/arm: Reuse aa64_va_parameters for setting tbflags
+[PULL 39/42] target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-The arm_regime_tbi{0,1} functions are replacable with the new function
+These are the last instructions within handle_simd_3same_pair
-by giving the lowest and highest address.
+so remove it.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-24-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    | 35 -----------------------
+ target/arm/helper.h            |  16 +++++
- target/arm/helper.c | 70 ++++++++++++++++-----------------------------
+ target/arm/tcg/translate.h     |   8 +++
-files changed, 24 insertions(+), 81 deletions(-)
+ target/arm/tcg/a64.decode      |   4 ++
  target/arm/tcg/gengvec.c       |  48 +++++++++++++
  target/arm/tcg/translate-a64.c | 119 +++++----------------------------
  target/arm/tcg/vec_helper.c    |  16 +++++
 files changed, 109 insertions(+), 102 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static inline bool arm_cpu_bswap_data(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_smaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_smaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_smaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_sminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_sminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_sminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_umaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_umaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_umaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_uminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "tcg/helper-a64.h"
  #include "tcg/helper-sve.h"
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
  void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                     uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
  FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
  ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
 +SMAXP_v         0.00 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 +SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 +UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 +UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
  ### Advanced SIMD scalar x indexed element
 diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/gengvec.c
 +++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      };
      tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
  }
- #endif
++
++void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
--#ifndef CONFIG_USER_ONLY
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
--/**
++{
-- * arm_regime_tbi0:
++    static gen_helper_gvec_3 * const fns[4] = {
-- * @env: CPUARMState
++        gen_helper_gvec_smaxp_b,
-- * @mmu_idx: MMU index indicating required translation regime
++        gen_helper_gvec_smaxp_h,
 +        gen_helper_gvec_smaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_sminp_b,
 +        gen_helper_gvec_sminp_h,
 +        gen_helper_gvec_sminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_umaxp_b,
 +        gen_helper_gvec_umaxp_h,
 +        gen_helper_gvec_umaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_uminp_b,
 +        gen_helper_gvec_uminp_h,
 +        gen_helper_gvec_uminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
      return true;
  }
 +static bool do_gvec_fn3_no64(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
 +{
 +    if (a->esz == MO_64) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
 +    }
 +    return true;
 +}
 +
  static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
  {
      if (!a->q && a->esz == MO_64) {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
 +TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
 +TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 +TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 +TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
  /*
   * Advanced SIMD scalar/vector x indexed element
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
      }
  }
 -/* Pairwise op subgroup of C3.6.16.
 - *
-- * Extracts the TBI0 value from the appropriate TCR for the current EL
+- * This is called directly for float pairwise
-- *
+- * operations where the opcode and size are calculated differently.
 - * Returns: the TBI0 value.
 - */
--uint32_t arm_regime_tbi0(CPUARMState *env, ARMMMUIdx mmu_idx);
+-static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
--
+-                                   int size, int rn, int rm, int rd)
 -/**
 - * arm_regime_tbi1:
 - * @env: CPUARMState
 - * @mmu_idx: MMU index indicating required translation regime
 - *
 - * Extracts the TBI1 value from the appropriate TCR for the current EL
 - *
 - * Returns: the TBI1 value.
 - */
 -uint32_t arm_regime_tbi1(CPUARMState *env, ARMMMUIdx mmu_idx);
 -#else
 -/* We can't handle tagged addresses properly in user-only mode */
 -static inline uint32_t arm_regime_tbi0(CPUARMState *env, ARMMMUIdx mmu_idx)
 -{
--    return 0;
+-    int pass;
--}
+-
--
+-    if (!fp_access_check(s)) {
--static inline uint32_t arm_regime_tbi1(CPUARMState *env, ARMMMUIdx mmu_idx)
+-        return;
--{
+-    }
--    return 0;
+-
--}
+-    /* These operations work on the concatenated rm:rn, with each pair of
--#endif
+-     * adjacent elements being operated on to produce an element in the result.
 -
  void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                            target_ulong *cs_base, uint32_t *flags);
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static inline ARMMMUIdx stage_1_mmu_idx(ARMMMUIdx mmu_idx)
      return mmu_idx;
  }
 -/* Returns TBI0 value for current regime el */
 -uint32_t arm_regime_tbi0(CPUARMState *env, ARMMMUIdx mmu_idx)
 -{
 -    TCR *tcr;
 -    uint32_t el;
 -
 -    /* For EL0 and EL1, TBI is controlled by stage 1's TCR, so convert
 -     * a stage 1+2 mmu index into the appropriate stage 1 mmu index.
 -     */
--    mmu_idx = stage_1_mmu_idx(mmu_idx);
+-    if (size == 3) {
--
+-        g_assert_not_reached();
 -    tcr = regime_tcr(env, mmu_idx);
 -    el = regime_el(env, mmu_idx);
 -
 -    if (el > 1) {
 -        return extract64(tcr->raw_tcr, 20, 1);
 -    } else {
--        return extract64(tcr->raw_tcr, 37, 1);
+-        int maxpass = is_q ? 4 : 2;
 -        TCGv_i32 tcg_res[4];
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            NeonGenTwoOpFn *genfn = NULL;
 -            int passreg = pass < (maxpass / 2) ? rn : rm;
 -            int passelt = (is_q && (pass & 1)) ? 2 : 0;
 -
 -            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_32);
 -            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_32);
 -            tcg_res[pass] = tcg_temp_new_i32();
 -
 -            switch (opcode) {
 -            case 0x14: /* SMAXP, UMAXP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmax_s8, gen_helper_neon_pmax_u8 },
 -                    { gen_helper_neon_pmax_s16, gen_helper_neon_pmax_u16 },
 -                    { tcg_gen_smax_i32, tcg_gen_umax_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            case 0x15: /* SMINP, UMINP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmin_s8, gen_helper_neon_pmin_u8 },
 -                    { gen_helper_neon_pmin_s16, gen_helper_neon_pmin_u16 },
 -                    { tcg_gen_smin_i32, tcg_gen_umin_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            default:
 -            case 0x17: /* ADDP */
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -
 -            /* FP ops called directly, otherwise call now */
 -            if (genfn) {
 -                genfn(tcg_res[pass], tcg_op1, tcg_op2);
 -            }
 -        }
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
 -        }
 -        clear_vec_high(s, is_q, rd);
 -    }
 -}
 -
--/* Returns TBI1 value for current regime el */
+ /* Floating point op subgroup of C3.6.16. */
--uint32_t arm_regime_tbi1(CPUARMState *env, ARMMMUIdx mmu_idx)
+ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
--{
+ {
--    TCR *tcr;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
--    uint32_t el;
+     case 0x3: /* logic ops */
--
+         disas_simd_3same_logic(s, insn);
--    /* For EL0 and EL1, TBI is controlled by stage 1's TCR, so convert
+         break;
--     * a stage 1+2 mmu index into the appropriate stage 1 mmu index.
+-    case 0x14: /* SMAXP, UMAXP */
--     */
+-    case 0x15: /* SMINP, UMINP */
--    mmu_idx = stage_1_mmu_idx(mmu_idx);
+-    {
--
+-        /* Pairwise operations */
--    tcr = regime_tcr(env, mmu_idx);
+-        int is_q = extract32(insn, 30, 1);
--    el = regime_el(env, mmu_idx);
+-        int u = extract32(insn, 29, 1);
--
+-        int size = extract32(insn, 22, 2);
--    if (el > 1) {
+-        int rm = extract32(insn, 16, 5);
--        return 0;
+-        int rn = extract32(insn, 5, 5);
--    } else {
+-        int rd = extract32(insn, 0, 5);
--        return extract64(tcr->raw_tcr, 38, 1);
+-        if (opcode == 0x17) {
 -            if (u || (size == 3 && !is_q)) {
 -                unallocated_encoding(s);
 -                return;
 -            }
 -        } else {
 -            if (size == 3) {
 -                unallocated_encoding(s);
 -                return;
 -            }
 -        }
 -        handle_simd_3same_pair(s, is_q, u, opcode, size, rn, rm, rd);
 -        break;
 -    }
--}
+     case 0x18 ... 0x31:
--
+         /* floating point ops, sz[1] and U are part of opcode */
- /* Return the TTBR associated with this translation regime */
+         disas_simd_3same_float(s, insn);
- static inline uint64_t regime_ttbr(CPUARMState *env, ARMMMUIdx mmu_idx,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
-                                    int ttbrn)
+     default:
-@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
+         disas_simd_3same_int(s, insn);
+         break;
-         *pc = env->pc;
++    case 0x14: /* SMAXP, UMAXP */
-         flags = FIELD_DP32(flags, TBFLAG_ANY, AARCH64_STATE, 1);
++    case 0x15: /* SMINP, UMINP */
--        /* Get control bits for tagged addresses */
+     case 0x17: /* ADDP */
--        flags = FIELD_DP32(flags, TBFLAG_A64, TBII,
+         unallocated_encoding(s);
--                           (arm_regime_tbi1(env, mmu_idx) << 1) |
+         break;
--                           arm_regime_tbi0(env, mmu_idx));
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
-+
+index XXXXXXX..XXXXXXX 100644
-+#ifndef CONFIG_USER_ONLY
+--- a/target/arm/tcg/vec_helper.c
-+        /*
++++ b/target/arm/tcg/vec_helper.c
-+         * Get control bits for tagged addresses.  Note that the
+@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
-+         * translator only uses this for instruction addresses.
+ DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
-+         */
+ #undef  ADD
-+        {
-+            ARMMMUIdx stage1 = stage_1_mmu_idx(mmu_idx);
++DO_3OP_PAIR(gvec_smaxp_b, MAX, int8_t, H1)
-+            ARMVAParameters p0 = aa64_va_parameters_both(env, 0, stage1);
++DO_3OP_PAIR(gvec_smaxp_h, MAX, int16_t, H2)
-+            int tbii, tbid;
++DO_3OP_PAIR(gvec_smaxp_s, MAX, int32_t, H4)
 +
-+            /* FIXME: ARMv8.1-VHE S2 translation regime.  */
++DO_3OP_PAIR(gvec_umaxp_b, MAX, uint8_t, H1)
-+            if (regime_el(env, stage1) < 2) {
++DO_3OP_PAIR(gvec_umaxp_h, MAX, uint16_t, H2)
-+                ARMVAParameters p1 = aa64_va_parameters_both(env, -1, stage1);
++DO_3OP_PAIR(gvec_umaxp_s, MAX, uint32_t, H4)
-+                tbid = (p1.tbi << 1) | p0.tbi;
++
-+                tbii = tbid & ~((p1.tbid << 1) | p0.tbid);
++DO_3OP_PAIR(gvec_sminp_b, MIN, int8_t, H1)
-+            } else {
++DO_3OP_PAIR(gvec_sminp_h, MIN, int16_t, H2)
-+                tbid = p0.tbi;
++DO_3OP_PAIR(gvec_sminp_s, MIN, int32_t, H4)
-+                tbii = tbid & !p0.tbid;
++
-+            }
++DO_3OP_PAIR(gvec_uminp_b, MIN, uint8_t, H1)
-+
++DO_3OP_PAIR(gvec_uminp_h, MIN, uint16_t, H2)
-+            flags = FIELD_DP32(flags, TBFLAG_A64, TBII, tbii);
++DO_3OP_PAIR(gvec_uminp_s, MIN, uint32_t, H4)
-+        }
++
-+#endif
+ #undef DO_3OP_PAIR
-         if (cpu_isar_feature(aa64_sve, cpu)) {
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
              int sve_el = sve_exception_el(env, current_el);
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 13/49] target/arm: Decode PAuth within disas_data_proc_2src
+[PULL 40/42] target/arm: Use gvec for neon pmax, pmin
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-10-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 8 ++++++++
+ target/arm/tcg/translate-neon.c | 78 ++-------------------------------
-file changed, 8 insertions(+)
+file changed, 4 insertions(+), 74 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/translate-neon.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_2src(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
-     case 11: /* RORV */
+ DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
-         handle_shift_reg(s, A64_SHIFT_TYPE_ROR, sf, rm, rn, rd);
+ DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
-         break;
+ DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
-+    case 12: /* PACGA */
++DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
-+        if (sf == 0 || !dc_isar_feature(aa64_pauth, s)) {
++DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
-+            goto do_unallocated;
++DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
-+        }
++DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
-+        gen_helper_pacga(cpu_reg(s, rd), cpu_env,
-+                         cpu_reg(s, rn), cpu_reg_sp(s, rm));
+ #define DO_3SAME_CMP(INSN, COND)                                        \
-+        break;
+     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-     case 16:
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
-     case 17:
+ DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
-     case 18:
+ DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
-@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_2src(DisasContext *s, uint32_t insn)
-         break;
+-static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
-     }
+-{
-     default:
+-    /* Operations handled pairwise 32 bits at a time */
-+    do_unallocated:
+-    TCGv_i32 tmp, tmp2, tmp3;
-         unallocated_encoding(s);
+-
-         break;
+-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-     }
+-        return false;
 -    }
 -
 -    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vn | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
 -    if (a->size == 3) {
 -        return false;
 -    }
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    assert(a->q == 0); /* enforced by decode patterns */
 -
 -    /*
 -     * Note that we have to be careful not to clobber the source operands
 -     * in the "vm == vd" case by storing the result of the first pass too
 -     * early. Since Q is 0 there are always just two passes, so instead
 -     * of a complicated loop over each pass we just unroll.
 -     */
 -    tmp = tcg_temp_new_i32();
 -    tmp2 = tcg_temp_new_i32();
 -    tmp3 = tcg_temp_new_i32();
 -
 -    read_neon_element32(tmp, a->vn, 0, MO_32);
 -    read_neon_element32(tmp2, a->vn, 1, MO_32);
 -    fn(tmp, tmp, tmp2);
 -
 -    read_neon_element32(tmp3, a->vm, 0, MO_32);
 -    read_neon_element32(tmp2, a->vm, 1, MO_32);
 -    fn(tmp3, tmp3, tmp2);
 -
 -    write_neon_element32(tmp, a->vd, 0, MO_32);
 -    write_neon_element32(tmp3, a->vd, 1, MO_32);
 -
 -    return true;
 -}
 -
 -#define DO_3SAME_PAIR(INSN, func)                                       \
 -    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
 -    {                                                                   \
 -        static NeonGenTwoOpFn * const fns[] = {                         \
 -            gen_helper_neon_##func##8,                                  \
 -            gen_helper_neon_##func##16,                                 \
 -            gen_helper_neon_##func##32,                                 \
 -        };                                                              \
 -        if (a->size > 2) {                                              \
 -            return false;                                               \
 -        }                                                               \
 -        return do_3same_pair(s, a, fns[a->size]);                       \
 -    }
 -
 -/* 32-bit pairwise ops end up the same as the elementwise versions.  */
 -#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
 -#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 -#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 -#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -
 -DO_3SAME_PAIR(VPMAX_S, pmax_s)
 -DO_3SAME_PAIR(VPMIN_S, pmin_s)
 -DO_3SAME_PAIR(VPMAX_U, pmax_u)
 -DO_3SAME_PAIR(VPMIN_U, pmin_u)
 -
  #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
      WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
      WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 16/49] target/arm: Rearrange decode in disas_uncond_b_reg
+[PULL 41/42] target/arm: Convert FMLAL, FMLSL to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This will enable PAuth decode in a subsequent patch.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
 Message-id: 20190108223129.5570-13-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 47 +++++++++++++++++++++++++++++---------
+ target/arm/tcg/a64.decode      |  10 +++
-file changed, 36 insertions(+), 11 deletions(-)
+ target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
 files changed, 51 insertions(+), 103 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
-     rn = extract32(insn, 5, 5);
+ FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
-     op4 = extract32(insn, 0, 5);
+ FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
--    if (op4 != 0x0 || op3 != 0x0 || op2 != 0x1f) {
++FMLAL_v         0.00 1110 001 ..... 11101 1 ..... ..... @qrrr_h
 +FMLSL_v         0.00 1110 101 ..... 11101 1 ..... ..... @qrrr_h
 +FMLAL2_v        0.10 1110 001 ..... 11001 1 ..... ..... @qrrr_h
 +FMLSL2_v        0.10 1110 101 ..... 11001 1 ..... ..... @qrrr_h
 +
  FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
  FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
@@ -XXX,XX +XXX,XX @@ FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +
 +FMLAL_vi        0.00 1111 10 .. .... 0000 . 0 ..... .....   @qrrx_h
 +FMLSL_vi        0.00 1111 10 .. .... 0100 . 0 ..... .....   @qrrx_h
 +FMLAL2_vi       0.10 1111 10 .. .... 1000 . 0 ..... .....   @qrrx_h
 +FMLSL2_vi       0.10 1111 10 .. .... 1100 . 0 ..... .....   @qrrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  };
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +static bool do_fmlal(DisasContext *s, arg_qrrr_e *a, bool is_s, bool is_2)
 +{
 +    if (fp_access_check(s)) {
 +        int data = (is_2 << 1) | is_s;
 +        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_a64);
 +    }
 +    return true;
 +}
 +
 +TRANS_FEAT(FMLAL_v, aa64_fhm, do_fmlal, a, false, false)
 +TRANS_FEAT(FMLSL_v, aa64_fhm, do_fmlal, a, true, false)
 +TRANS_FEAT(FMLAL2_v, aa64_fhm, do_fmlal, a, false, true)
 +TRANS_FEAT(FMLSL2_v, aa64_fhm, do_fmlal, a, true, true)
 +
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
  TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
  TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
  TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
  TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
 +static bool do_fmlal_idx(DisasContext *s, arg_qrrx_e *a, bool is_s, bool is_2)
 +{
 +    if (fp_access_check(s)) {
 +        int data = (a->idx << 2) | (is_2 << 1) | is_s;
 +        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_idx_a64);
 +    }
 +    return true;
 +}
 +
 +TRANS_FEAT(FMLAL_vi, aa64_fhm, do_fmlal_idx, a, false, false)
 +TRANS_FEAT(FMLSL_vi, aa64_fhm, do_fmlal_idx, a, true, false)
 +TRANS_FEAT(FMLAL2_vi, aa64_fhm, do_fmlal_idx, a, false, true)
 +TRANS_FEAT(FMLSL2_vi, aa64_fhm, do_fmlal_idx, a, true, true)
 +
  /*
   * Advanced SIMD scalar pairwise
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
      }
  }
 -/* Floating point op subgroup of C3.6.16. */
 -static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
 -{
 -    /* For floating point ops, the U, size[1] and opcode bits
 -     * together indicate the operation. size[0] indicates single
 -     * or double.
 -     */
 -    int fpopcode = extract32(insn, 11, 5)
 -        | (extract32(insn, 23, 1) << 5)
 -        | (extract32(insn, 29, 1) << 6);
 -    int is_q = extract32(insn, 30, 1);
 -    int size = extract32(insn, 22, 1);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -
 -    if (size == 1 && !is_q) {
 -        unallocated_encoding(s);
 -        return;
-+    if (op2 != 0x1f) {
+-    }
-+        goto do_unallocated;
+-
-     }
+-    switch (fpopcode) {
+-    case 0x1d: /* FMLAL  */
-     switch (opc) {
+-    case 0x3d: /* FMLSL  */
-     case 0: /* BR */
+-    case 0x59: /* FMLAL2 */
-     case 1: /* BLR */
+-    case 0x79: /* FMLSL2 */
-     case 2: /* RET */
+-        if (size & 1 || !dc_isar_feature(aa64_fhm, s)) {
 -        gen_a64_set_pc(s, cpu_reg(s, rn));
 +        switch (op3) {
 +        case 0:
 +            if (op4 != 0) {
 +                goto do_unallocated;
 +            }
 +            dst = cpu_reg(s, rn);
 +            break;
 +
 +        default:
 +            goto do_unallocated;
 +        }
 +
 +        gen_a64_set_pc(s, dst);
          /* BLR also needs to load return address */
          if (opc == 1) {
              tcg_gen_movi_i64(cpu_reg(s, 30), s->pc);
          }
          break;
 +
      case 4: /* ERET */
          if (s->current_el == 0) {
 -            unallocated_encoding(s);
 -            return;
-+            goto do_unallocated;
+-        }
-+        }
+-        if (fp_access_check(s)) {
-+        switch (op3) {
+-            int is_s = extract32(insn, 23, 1);
-+        case 0:
+-            int is_2 = extract32(insn, 29, 1);
-+            if (op4 != 0) {
+-            int data = (is_2 << 1) | is_s;
-+                goto do_unallocated;
+-            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
-+            }
+-                               vec_full_reg_offset(s, rn),
-+            dst = tcg_temp_new_i64();
+-                               vec_full_reg_offset(s, rm), tcg_env,
-+            tcg_gen_ld_i64(dst, cpu_env,
+-                               is_q ? 16 : 8, vec_full_reg_size(s),
-+                           offsetof(CPUARMState, elr_el[s->current_el]));
+-                               data, gen_helper_gvec_fmlal_a64);
-+            break;
+-        }
-+
+-        return;
-+        default:
+-
-+            goto do_unallocated;
+-    default:
 -    case 0x18: /* FMAXNM */
 -    case 0x19: /* FMLA */
 -    case 0x1a: /* FADD */
 -    case 0x1b: /* FMULX */
 -    case 0x1c: /* FCMEQ */
 -    case 0x1e: /* FMAX */
 -    case 0x1f: /* FRECPS */
 -    case 0x38: /* FMINNM */
 -    case 0x39: /* FMLS */
 -    case 0x3a: /* FSUB */
 -    case 0x3e: /* FMIN */
 -    case 0x3f: /* FRSQRTS */
 -    case 0x58: /* FMAXNMP */
 -    case 0x5a: /* FADDP */
 -    case 0x5b: /* FMUL */
 -    case 0x5c: /* FCMGE */
 -    case 0x5d: /* FACGE */
 -    case 0x5e: /* FMAXP */
 -    case 0x5f: /* FDIV */
 -    case 0x78: /* FMINNMP */
 -    case 0x7a: /* FABD */
 -    case 0x7d: /* FACGT */
 -    case 0x7c: /* FCMGT */
 -    case 0x7e: /* FMINP */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -}
 -
  /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x18 ... 0x31:
 -        /* floating point ops, sz[1] and U are part of opcode */
 -        disas_simd_3same_float(s, insn);
 -        break;
      default:
          disas_simd_3same_int(s, insn);
          break;
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      case 0x17: /* ADDP */
 +    case 0x18 ... 0x31: /* floating point ops */
          unallocated_encoding(s);
          break;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          }
-         if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
+         is_fp = 2;
-             gen_io_start();
+         break;
-         }
+-    case 0x00: /* FMLAL */
--        dst = tcg_temp_new_i64();
+-    case 0x04: /* FMLSL */
--        tcg_gen_ld_i64(dst, cpu_env,
+-    case 0x18: /* FMLAL2 */
--                       offsetof(CPUARMState, elr_el[s->current_el]));
+-    case 0x1c: /* FMLSL2 */
-+
+-        if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_fhm, s)) {
          gen_helper_exception_return(cpu_env, dst);
          tcg_temp_free_i64(dst);
          if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
          /* Must exit loop to check un-masked IRQs */
          s->base.is_jmp = DISAS_EXIT;
          return;
 +
      case 5: /* DRPS */
 -        if (rn != 0x1f) {
 -            unallocated_encoding(s);
-+        if (op3 != 0 || op4 != 0 || rn != 0x1f) {
+-            return;
-+            goto do_unallocated;
+-        }
-         } else {
+-        size = MO_16;
-             unsupported_encoding(s, insn);
+-        /* is_fp, but we pass tcg_env not fp_status.  */
-         }
+-        break;
          return;
 +
      default:
-+    do_unallocated:
++    case 0x00: /* FMLAL */
      case 0x01: /* FMLA */
 +    case 0x04: /* FMLSL */
      case 0x05: /* FMLS */
      case 0x09: /* FMUL */
 +    case 0x18: /* FMLAL2 */
      case 0x19: /* FMULX */
 +    case 0x1c: /* FMLSL2 */
          unallocated_encoding(s);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+         }
+         return;
+-    case 0x00: /* FMLAL */
+-    case 0x04: /* FMLSL */
+-    case 0x18: /* FMLAL2 */
+-    case 0x1c: /* FMLSL2 */
+-        {
+-            int is_s = extract32(opcode, 2, 1);
+-            int is_2 = u;
+-            int data = (index << 2) | (is_2 << 1) | is_s;
+-            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
+-                               vec_full_reg_offset(s, rn),
+-                               vec_full_reg_offset(s, rm), tcg_env,
+-                               is_q ? 16 : 8, vec_full_reg_size(s),
+-                               data, gen_helper_gvec_fmlal_idx_a64);
+-        }
+-        return;
+-
+     case 0x08: /* MUL */
+         if (!is_long && !is_scalar) {
+             static gen_helper_gvec_3 * const fns[3] = {
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 20/49] target/arm: Introduce arm_mmu_idx
+[PULL 42/42] target/arm: Convert disas_simd_3same_logic to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-The pattern
+This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.
   ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
 is computing the full ARMMMUIdx, stripping off the ARM bits,
 and then putting them back.
 Avoid the extra two steps with the appropriate helper function.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20190108223129.5570-17-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h       |  9 ++++++++-
+ target/arm/tcg/a64.decode      | 10 +++++
- target/arm/internals.h |  8 ++++++++
+ target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
- target/arm/helper.c    | 27 ++++++++++++++++-----------
+files changed, 29 insertions(+), 49 deletions(-)
 files changed, 32 insertions(+), 12 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
+@@ -XXX,XX +XXX,XX @@
- /* Return the MMU index for a v7M CPU in the specified security state */
+ @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
- ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate);
+ @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
--/* Determine the current mmu_idx to use for normal loads/stores */
++@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
-+/**
+ @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
-+ * cpu_mmu_index:
+ @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
-+ * @env: The cpu environment
+ @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
-+ * @ifetch: True for code access, false for data access.
+@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
-+ *
+ UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
-+ * Return the core mmu index for the current translation regime.
+ UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
-+ * This function is used by generic TCG code paths.
-+ */
++AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
- int cpu_mmu_index(CPUARMState *env, bool ifetch);
++BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
++ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
- /* Indexes used when registering address spaces with cpu_address_space_init */
++ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
-diff --git a/target/arm/internals.h b/target/arm/internals.h
++EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
 +BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
 +BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
 +BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ void arm_cpu_update_virq(ARMCPU *cpu);
+@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
-  */
+ TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
- void arm_cpu_update_vfiq(ARMCPU *cpu);
+ TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
-+/**
++TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
-+ * arm_mmu_idx:
++TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
-+ * @env: The cpu environment
++TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
-+ *
++TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
-+ * Return the full ARMMMUIdx for the current translation regime.
++TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
 + */
 +ARMMMUIdx arm_mmu_idx(CPUARMState *env);
 +
- #endif
++static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
++{
-index XXXXXXX..XXXXXXX 100644
++    if (fp_access_check(s)) {
---- a/target/arm/helper.c
++        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
-+++ b/target/arm/helper.c
++    }
-@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
++    return true;
              limit = env->v7m.msplim[M_REG_S];
          }
      } else {
 -        mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
 +        mmu_idx = arm_mmu_idx(env);
          frame_sp_p = &env->regs[13];
          limit = v7m_sp_limit(env);
      }
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_stack(ARMCPU *cpu)
      CPUARMState *env = &cpu->env;
      uint32_t xpsr = xpsr_read(env);
      uint32_t frameptr = env->regs[13];
 -    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
 +    ARMMMUIdx mmu_idx = arm_mmu_idx(env);
      /* Align stack pointer if the guest wants that */
      if ((frameptr & 4) &&
@@ -XXX,XX +XXX,XX @@ hwaddr arm_cpu_get_phys_page_attrs_debug(CPUState *cs, vaddr addr,
      int prot;
      bool ret;
      ARMMMUFaultInfo fi = {};
 -    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
 +    ARMMMUIdx mmu_idx = arm_mmu_idx(env);
      *attrs = (MemTxAttrs) {};
@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate)
      return arm_v7m_mmu_idx_for_secstate_and_priv(env, secstate, priv);
  }
 -int cpu_mmu_index(CPUARMState *env, bool ifetch)
 +ARMMMUIdx arm_mmu_idx(CPUARMState *env)
  {
 -    int el = arm_current_el(env);
 +    int el;
      if (arm_feature(env, ARM_FEATURE_M)) {
 -        ARMMMUIdx mmu_idx = arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
 -
 -        return arm_to_core_mmu_idx(mmu_idx);
 +        return arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
      }
 +    el = arm_current_el(env);
      if (el < 2 && arm_is_secure_below_el3(env)) {
 -        return arm_to_core_mmu_idx(ARMMMUIdx_S1SE0 + el);
 +        return ARMMMUIdx_S1SE0 + el;
 +    } else {
 +        return ARMMMUIdx_S12NSE0 + el;
      }
 -    return el;
 +}
 +
-+int cpu_mmu_index(CPUARMState *env, bool ifetch)
++TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
-+{
++TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
-+    return arm_to_core_mmu_idx(arm_mmu_idx(env));
++TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
      }
  }
- void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
+-/* Logic op (opcode == 3) subgroup of C3.6.16. */
-                           target_ulong *cs_base, uint32_t *pflags)
+-static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rm = extract32(insn, 16, 5);
 -    int size = extract32(insn, 22, 2);
 -    bool is_u = extract32(insn, 29, 1);
 -    bool is_q = extract32(insn, 30, 1);
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    switch (size + 4 * is_u) {
 -    case 0: /* AND */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
 -        return;
 -    case 1: /* BIC */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
 -        return;
 -    case 2: /* ORR */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
 -        return;
 -    case 3: /* ORN */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
 -        return;
 -    case 4: /* EOR */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
 -        return;
 -
 -    case 5: /* BSL bitwise select */
 -        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 6: /* BIT, bitwise insert if true */
 -        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 7: /* BIF, bitwise insert if false */
 -        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
 -        return;
 -
 -    default:
 -        g_assert_not_reached();
 -    }
 -}
 -
  /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
--    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
-+    ARMMMUIdx mmu_idx = arm_mmu_idx(env);
+     int opcode = extract32(insn, 11, 5);
-     int current_el = arm_current_el(env);
-     int fp_el = fp_exception_el(env, current_el);
+     switch (opcode) {
-     uint32_t flags = 0;
+-    case 0x3: /* logic ops */
 -        disas_simd_3same_logic(s, insn);
 -        break;
      default:
          disas_simd_3same_int(s, insn);
          break;
 +    case 0x3: /* logic ops */
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      case 0x17: /* ADDP */
 --
-.20.1
+.34.1

-[Qemu-devel] [PULL 36/49] migration: Add post_save function to VMStateDescription
+Deleted patch
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
-In some cases it may be helpful to modify state before saving it for
-migration, and then modify the state back after it has been saved. The
-existing pre_save function provides half of this functionality. This
-patch adds a post_save function to provide the second half.
-Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Dr. David Alan Gilbert <dgilbert@redhat.com>
-Message-id: 20181211151945.29137-2-aaron@os.amperecomputing.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- include/migration/vmstate.h |  1 +
- migration/vmstate.c         | 13 ++++++++++++-
- docs/devel/migration.rst    |  9 +++++++--
-files changed, 20 insertions(+), 3 deletions(-)
-diff --git a/include/migration/vmstate.h b/include/migration/vmstate.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/migration/vmstate.h
-+++ b/include/migration/vmstate.h
-@@ -XXX,XX +XXX,XX @@ struct VMStateDescription {
-     int (*pre_load)(void *opaque);
-     int (*post_load)(void *opaque, int version_id);
-     int (*pre_save)(void *opaque);
-+    int (*post_save)(void *opaque);
-     bool (*needed)(void *opaque);
-     const VMStateField *fields;
-     const VMStateDescription **subsections;
-diff --git a/migration/vmstate.c b/migration/vmstate.c
-index XXXXXXX..XXXXXXX 100644
---- a/migration/vmstate.c
-+++ b/migration/vmstate.c
-@@ -XXX,XX +XXX,XX @@ int vmstate_save_state_v(QEMUFile *f, const VMStateDescription *vmsd,
-                 if (ret) {
-                     error_report("Save of field %s/%s failed",
-                                  vmsd->name, field->name);
-+                    if (vmsd->post_save) {
-+                        vmsd->post_save(opaque);
-+                    }
-                     return ret;
-                 }
-@@ -XXX,XX +XXX,XX @@ int vmstate_save_state_v(QEMUFile *f, const VMStateDescription *vmsd,
-         json_end_array(vmdesc);
-     }
--    return vmstate_subsection_save(f, vmsd, opaque, vmdesc);
-+    ret = vmstate_subsection_save(f, vmsd, opaque, vmdesc);
-+
-+    if (vmsd->post_save) {
-+        int ps_ret = vmsd->post_save(opaque);
-+        if (!ret) {
-+            ret = ps_ret;
-+        }
-+    }
-+    return ret;
- }
- static const VMStateDescription *
-diff --git a/docs/devel/migration.rst b/docs/devel/migration.rst
-index XXXXXXX..XXXXXXX 100644
---- a/docs/devel/migration.rst
-+++ b/docs/devel/migration.rst
-@@ -XXX,XX +XXX,XX @@ The functions to do that are inside a vmstate definition, and are called:
-   This function is called before we save the state of one device.
--Example: You can look at hpet.c, that uses the three function to
--massage the state that is transferred.
-+- ``int (*post_save)(void *opaque);``
-+
-+  This function is called after we save the state of one device
-+  (even upon failure, unless the call to pre_save returned an error).
-+
-+Example: You can look at hpet.c, that uses the first three functions
-+to massage the state that is transferred.
- The ``VMSTATE_WITH_TMP`` macro may be useful when the migration
- data doesn't match the stored device data well; it allows an
---
-.20.1

-[Qemu-devel] [PULL 40/49] target/arm: Allow AArch32 access for PMCCFILTR
+Deleted patch
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
-Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20181211151945.29137-6-aaron@os.amperecomputing.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/helper.c | 27 ++++++++++++++++++++++++++-
-file changed, 26 insertions(+), 1 deletion(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
-+++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
-                                PMXEVTYPER_M | PMXEVTYPER_MT | \
-                                PMXEVTYPER_EVTCOUNT)
-+#define PMCCFILTR             0xf8000000
-+#define PMCCFILTR_M           PMXEVTYPER_M
-+#define PMCCFILTR_EL0         (PMCCFILTR | PMCCFILTR_M)
-+
- static inline uint32_t pmu_num_counters(CPUARMState *env)
- {
-   return (env->cp15.c9_pmcr & PMCRN_MASK) >> PMCRN_SHIFT;
-@@ -XXX,XX +XXX,XX @@ static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                             uint64_t value)
- {
-     pmccntr_op_start(env);
--    env->cp15.pmccfiltr_el0 = value & 0xfc000000;
-+    env->cp15.pmccfiltr_el0 = value & PMCCFILTR_EL0;
-     pmccntr_op_finish(env);
- }
-+static void pmccfiltr_write_a32(CPUARMState *env, const ARMCPRegInfo *ri,
-+                            uint64_t value)
-+{
-+    pmccntr_op_start(env);
-+    /* M is not accessible from AArch32 */
-+    env->cp15.pmccfiltr_el0 = (env->cp15.pmccfiltr_el0 & PMCCFILTR_M) |
-+        (value & PMCCFILTR);
-+    pmccntr_op_finish(env);
-+}
-+
-+static uint64_t pmccfiltr_read_a32(CPUARMState *env, const ARMCPRegInfo *ri)
-+{
-+    /* M is not visible in AArch32 */
-+    return env->cp15.pmccfiltr_el0 & PMCCFILTR;
-+}
-+
- static void pmcntenset_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                             uint64_t value)
- {
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
-       .readfn = pmccntr_read, .writefn = pmccntr_write,
-       .raw_readfn = raw_read, .raw_writefn = raw_write, },
- #endif
-+    { .name = "PMCCFILTR", .cp = 15, .opc1 = 0, .crn = 14, .crm = 15, .opc2 = 7,
-+      .writefn = pmccfiltr_write_a32, .readfn = pmccfiltr_read_a32,
-+      .access = PL0_RW, .accessfn = pmreg_access,
-+      .type = ARM_CP_ALIAS | ARM_CP_IO,
-+      .resetvalue = 0, },
-     { .name = "PMCCFILTR_EL0", .state = ARM_CP_STATE_AA64,
-       .opc0 = 3, .opc1 = 3, .crn = 14, .crm = 15, .opc2 = 7,
-       .writefn = pmccfiltr_write, .raw_writefn = raw_write,
---
-.20.1

-[Qemu-devel] [PULL 42/49] target/arm: Define FIELDs for ID_DFR0
+Deleted patch
-From: Aaron Lindsay <aaron@os.amperecomputing.com>
-This is immediately necessary for the PMUv3 implementation to check
-ID_DFR0.PerfMon to enable/disable specific features, but defines the
-full complement of fields for possible future use elsewhere.
-Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20181211151945.29137-8-aaron@os.amperecomputing.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/cpu.h | 9 +++++++++
-file changed, 9 insertions(+)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@ FIELD(ID_AA64MMFR1, PAN, 20, 4)
- FIELD(ID_AA64MMFR1, SPECSEI, 24, 4)
- FIELD(ID_AA64MMFR1, XNX, 28, 4)
-+FIELD(ID_DFR0, COPDBG, 0, 4)
-+FIELD(ID_DFR0, COPSDBG, 4, 4)
-+FIELD(ID_DFR0, MMAPDBG, 8, 4)
-+FIELD(ID_DFR0, COPTRC, 12, 4)
-+FIELD(ID_DFR0, MMAPTRC, 16, 4)
-+FIELD(ID_DFR0, MPROFDBG, 20, 4)
-+FIELD(ID_DFR0, PERFMON, 24, 4)
-+FIELD(ID_DFR0, TRACEFILT, 28, 4)
-+
- QEMU_BUILD_BUG_ON(ARRAY_SIZE(((ARMCPU *)0)->ccsidr) <= R_V7M_CSSELR_INDEX_MASK);
- /* If adding a feature bit which corresponds to a Linux ELF
---
-.20.1

A largish pull request: the big things are Richard's PAuth work
and Aaron's PMU emulation improvements.

thanks
-- PMM

The following changes since commit 681d61362d3f766a00806b89d6581869041f73cb:

Merge remote-tracking branch 'remotes/jnsnow/tags/bitmaps-pull-request' into staging (2019-01-17 12:48:42 +0000)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20190118

for you to fetch changes up to 2a0ed2804e2c77a1c4e255f05ab739618e05c85d:

tests/libqtest: Introduce qtest_init_with_serial() (2019-01-18 14:17:38 +0000)

----------------------------------------------------------------
target-arm queue:
 * hw/char/stm32f2xx_usart: Do not update data register when device is disabled
 * hw/arm/virt-acpi-build: Set COHACC override flag in IORT SMMUv3 node
 * target/arm: Allow Aarch32 exception return to switch from Mon->Hyp
 * ftgmac100: implement the new MDIO interface on Aspeed SoC
 * implement the ARMv8.3-PAuth extension
 * improve emulation of the ARM PMU

----------------------------------------------------------------
Aaron Lindsay (13):
      migration: Add post_save function to VMStateDescription
      target/arm: Reorganize PMCCNTR accesses
      target/arm: Swap PMU values before/after migrations
      target/arm: Filter cycle counter based on PMCCFILTR_EL0
      target/arm: Allow AArch32 access for PMCCFILTR
      target/arm: Implement PMOVSSET
      target/arm: Define FIELDs for ID_DFR0
      target/arm: Make PMCEID[01]_EL0 64 bit registers, add PMCEID[23]
      target/arm: Add array for supported PMU events, generate PMCEID[01]_EL0
      target/arm: Finish implementation of PM[X]EVCNTR and PM[X]EVTYPER
      target/arm: PMU: Add instruction and cycle events
      target/arm: PMU: Set PMCR.N to 4
      target/arm: Implement PMSWINC

Alexander Graf (1):
      target/arm: Allow Aarch32 exception return to switch from Mon->Hyp

Cédric Le Goater (1):
      ftgmac100: implement the new MDIO interface on Aspeed SoC

Eric Auger (1):
      hw/arm/virt-acpi-build: Set COHACC override flag in IORT SMMUv3 node

Julia Suvorova (1):
      tests/libqtest: Introduce qtest_init_with_serial()

Philippe Mathieu-Daudé (1):
      hw/char/stm32f2xx_usart: Do not update data register when device is disabled

Richard Henderson (31):
      target/arm: Add state for the ARMv8.3-PAuth extension
      target/arm: Add SCTLR bits through ARMv8.5
      target/arm: Add PAuth active bit to tbflags
      target/arm: Introduce raise_exception_ra
      target/arm: Add PAuth helpers
      target/arm: Decode PAuth within system hint space
      target/arm: Rearrange decode in disas_data_proc_1src
      target/arm: Decode PAuth within disas_data_proc_1src
      target/arm: Decode PAuth within disas_data_proc_2src
      target/arm: Move helper_exception_return to helper-a64.c
      target/arm: Add new_pc argument to helper_exception_return
      target/arm: Rearrange decode in disas_uncond_b_reg
      target/arm: Decode PAuth within disas_uncond_b_reg
      target/arm: Decode Load/store register (pac)
      target/arm: Move cpu_mmu_index out of line
      target/arm: Introduce arm_mmu_idx
      target/arm: Introduce arm_stage1_mmu_idx
      target/arm: Create ARMVAParameters and helpers
      target/arm: Merge TBFLAG_AA_TB{0, 1} to TBII
      target/arm: Export aa64_va_parameters to internals.h
      target/arm: Add aa64_va_parameters_both
      target/arm: Decode TBID from TCR
      target/arm: Reuse aa64_va_parameters for setting tbflags
      target/arm: Implement pauth_strip
      target/arm: Implement pauth_auth
      target/arm: Implement pauth_addpac
      target/arm: Implement pauth_computepac
      target/arm: Add PAuth system registers
      target/arm: Enable PAuth for -cpu max
      target/arm: Enable PAuth for user-only
      target/arm: Tidy TBI handling in gen_a64_set_pc

From: Philippe Mathieu-Daudé <philmd@redhat.com>

When the device is disabled, the internal circuitry keeps the data
register loaded and doesn't update it.

Signed-off-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Reviewed-by: Alistair Francis <alistair.francis@wdc.com>
Message-id: 20190104182057.8778-1-philmd@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/char/stm32f2xx_usart.c | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/hw/char/stm32f2xx_usart.c b/hw/char/stm32f2xx_usart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/stm32f2xx_usart.c
+++ b/hw/char/stm32f2xx_usart.c
@@ -XXX,XX +XXX,XX @@ static void stm32f2xx_usart_receive(void *opaque, const uint8_t *buf, int size)
 {
     STM32F2XXUsartState *s = opaque;
 
-    s->usart_dr = *buf;
-
     if (!(s->usart_cr1 & USART_CR1_UE && s->usart_cr1 & USART_CR1_RE)) {
         /* USART not enabled - drop the chars */
         DB_PRINT("Dropping the chars\n");
         return;
     }
 
+    s->usart_dr = *buf;
     s->usart_sr |= USART_SR_RXNE;
 
     if (s->usart_cr1 & USART_CR1_RXNEIE) {
-- 
2.20.1

From: Eric Auger <eric.auger@redhat.com>

Let's report IO-coherent access is supported for translation
table walks, descriptor fetches and queues by setting the COHACC
override flag. Without that, we observe wrong command opcodes.
The DT description also advertises the dma coherency.

Fixes a703b4f6c1ee ("hw/arm/virt-acpi-build: Add smmuv3 node in IORT table")

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Reported-by: Shameerali Kolothum Thodi <shameerali.kolothum.thodi@huawei.com>
Tested-by: Shameer Kolothum <shameerali.kolothum.thodi@huawei.com>
Reviewed-by: Andrew Jones <drjones@redhat.com>
Message-id: 20190107101041.765-1-eric.auger@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/acpi/acpi-defs.h | 2 ++
 hw/arm/virt-acpi-build.c    | 1 +
 2 files changed, 3 insertions(+)

diff --git a/include/hw/acpi/acpi-defs.h b/include/hw/acpi/acpi-defs.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/acpi/acpi-defs.h
+++ b/include/hw/acpi/acpi-defs.h
@@ -XXX,XX +XXX,XX @@ struct AcpiIortItsGroup {
 } QEMU_PACKED;
 typedef struct AcpiIortItsGroup AcpiIortItsGroup;
 
+#define ACPI_IORT_SMMU_V3_COHACC_OVERRIDE 1
+
 struct AcpiIortSmmu3 {
     ACPI_IORT_NODE_HEADER_DEF
     uint64_t base_address;
diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt-acpi-build.c
+++ b/hw/arm/virt-acpi-build.c
@@ -XXX,XX +XXX,XX @@ build_iort(GArray *table_data, BIOSLinker *linker, VirtMachineState *vms)
         smmu->mapping_count = cpu_to_le32(1);
         smmu->mapping_offset = cpu_to_le32(sizeof(*smmu));
         smmu->base_address = cpu_to_le64(vms->memmap[VIRT_SMMU].base);
+        smmu->flags = cpu_to_le32(ACPI_IORT_SMMU_V3_COHACC_OVERRIDE);
         smmu->event_gsiv = cpu_to_le32(irq);
         smmu->pri_gsiv = cpu_to_le32(irq + 1);
         smmu->gerr_gsiv = cpu_to_le32(irq + 2);
-- 
2.20.1

From: Alexander Graf <agraf@suse.de>

In U-boot, we switch from S-SVC -> Mon -> Hyp mode when we want to
enter Hyp mode. The change into Hyp mode is done by doing an
exception return from Mon. This doesn't work with current QEMU.

The problem is that in bad_mode_switch() we refuse to allow
the change of mode.

Note that bad_mode_switch() is used to do validation for two situations:

(1) changes to mode by instructions writing to CPSR.M
     (ie not exception take/return) -- this corresponds to the
     Armv8 Arm ARM pseudocode Arch32.WriteModeByInstr
 (2) changes to mode by exception return

Attempting to enter or leave Hyp mode via case (1) is forbidden in
v8 and UNPREDICTABLE in v7, and QEMU is correct to disallow it
there. However, we're already doing that check at the top of the
bad_mode_switch() function, so if that passes then we should allow
the case (2) exception return mode changes to switch into Hyp mode.

We want to test whether we're trying to return to the nonexistent
"secure Hyp" mode, so we need to look at arm_is_secure_below_el3()
rather than arm_is_secure(), since the latter is always true if
we're in Mon (EL3).

Signed-off-by: Alexander Graf <agraf@suse.de>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190109152430.32359-1-agraf@suse.de
[PMM: rewrote commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static int bad_mode_switch(CPUARMState *env, int mode, CPSRWriteType write_type)
         return 0;
     case ARM_CPU_MODE_HYP:
         return !arm_feature(env, ARM_FEATURE_EL2)
-            || arm_current_el(env) < 2 || arm_is_secure(env);
+            || arm_current_el(env) < 2 || arm_is_secure_below_el3(env);
     case ARM_CPU_MODE_MON:
         return arm_current_el(env) < 3;
     default:
-- 
2.20.1

From: Cédric Le Goater <clg@kaod.org>

The PHY behind the MAC of an Aspeed SoC can be controlled using two
different MDC/MDIO interfaces. The same registers PHYCR (MAC60) and
PHYDATA (MAC64) are involved but they have a different layout.

BIT31 of the Feature Register (MAC40) controls which MDC/MDIO
interface is active.

Signed-off-by: Cédric Le Goater <clg@kaod.org>
Reviewed-by: Andrew Jeffery <andrew@aj.id.au>
Reviewed-by: Joel Stanley <joel@jms.id.au>
Message-id: 20190111125759.31577-1-clg@kaod.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/net/ftgmac100.c | 80 +++++++++++++++++++++++++++++++++++++++-------
 1 file changed, 68 insertions(+), 12 deletions(-)

diff --git a/hw/net/ftgmac100.c b/hw/net/ftgmac100.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/ftgmac100.c
+++ b/hw/net/ftgmac100.c
@@ -XXX,XX +XXX,XX @@
 #define FTGMAC100_PHYDATA_MIIWDATA(x)       ((x) & 0xffff)
 #define FTGMAC100_PHYDATA_MIIRDATA(x)       (((x) >> 16) & 0xffff)
 
+/*
+ * PHY control register - New MDC/MDIO interface
+ */
+#define FTGMAC100_PHYCR_NEW_DATA(x)     (((x) >> 16) & 0xffff)
+#define FTGMAC100_PHYCR_NEW_FIRE        (1 << 15)
+#define FTGMAC100_PHYCR_NEW_ST_22       (1 << 12)
+#define FTGMAC100_PHYCR_NEW_OP(x)       (((x) >> 10) & 3)
+#define   FTGMAC100_PHYCR_NEW_OP_WRITE    0x1
+#define   FTGMAC100_PHYCR_NEW_OP_READ     0x2
+#define FTGMAC100_PHYCR_NEW_DEV(x)      (((x) >> 5) & 0x1f)
+#define FTGMAC100_PHYCR_NEW_REG(x)      ((x) & 0x1f)
+
 /*
  * Feature Register
  */
@@ -XXX,XX +XXX,XX @@ static void phy_reset(FTGMAC100State *s)
     s->phy_int = 0;
 }
 
-static uint32_t do_phy_read(FTGMAC100State *s, int reg)
+static uint16_t do_phy_read(FTGMAC100State *s, uint8_t reg)
 {
-    uint32_t val;
+    uint16_t val;
 
     switch (reg) {
     case MII_BMCR: /* Basic Control */
@@ -XXX,XX +XXX,XX @@ static uint32_t do_phy_read(FTGMAC100State *s, int reg)
                        MII_BMCR_FD | MII_BMCR_CTST)
 #define MII_ANAR_MASK 0x2d7f
 
-static void do_phy_write(FTGMAC100State *s, int reg, uint32_t val)
+static void do_phy_write(FTGMAC100State *s, uint8_t reg, uint16_t val)
 {
     switch (reg) {
     case MII_BMCR:     /* Basic Control */
@@ -XXX,XX +XXX,XX @@ static void do_phy_write(FTGMAC100State *s, int reg, uint32_t val)
     }
 }
 
+static void do_phy_new_ctl(FTGMAC100State *s)
+{
+    uint8_t reg;
+    uint16_t data;
+
+    if (!(s->phycr & FTGMAC100_PHYCR_NEW_ST_22)) {
+        qemu_log_mask(LOG_UNIMP, "%s: unsupported ST code\n", __func__);
+        return;
+    }
+
+    /* Nothing to do */
+    if (!(s->phycr & FTGMAC100_PHYCR_NEW_FIRE)) {
+        return;
+    }
+
+    reg = FTGMAC100_PHYCR_NEW_REG(s->phycr);
+    data = FTGMAC100_PHYCR_NEW_DATA(s->phycr);
+
+    switch (FTGMAC100_PHYCR_NEW_OP(s->phycr)) {
+    case FTGMAC100_PHYCR_NEW_OP_WRITE:
+        do_phy_write(s, reg, data);
+        break;
+    case FTGMAC100_PHYCR_NEW_OP_READ:
+        s->phydata = do_phy_read(s, reg) & 0xffff;
+        break;
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: invalid OP code %08x\n",
+                      __func__, s->phycr);
+    }
+
+    s->phycr &= ~FTGMAC100_PHYCR_NEW_FIRE;
+}
+
+static void do_phy_ctl(FTGMAC100State *s)
+{
+    uint8_t reg = FTGMAC100_PHYCR_REG(s->phycr);
+
+    if (s->phycr & FTGMAC100_PHYCR_MIIWR) {
+        do_phy_write(s, reg, s->phydata & 0xffff);
+        s->phycr &= ~FTGMAC100_PHYCR_MIIWR;
+    } else if (s->phycr & FTGMAC100_PHYCR_MIIRD) {
+        s->phydata = do_phy_read(s, reg) << 16;
+        s->phycr &= ~FTGMAC100_PHYCR_MIIRD;
+    } else {
+        qemu_log_mask(LOG_GUEST_ERROR, "%s: no OP code %08x\n",
+                      __func__, s->phycr);
+    }
+}
+
 static int ftgmac100_read_bd(FTGMAC100Desc *bd, dma_addr_t addr)
 {
     if (dma_memory_read(&address_space_memory, addr, bd, sizeof(*bd))) {
@@ -XXX,XX +XXX,XX @@ static void ftgmac100_write(void *opaque, hwaddr addr,
                           uint64_t value, unsigned size)
 {
     FTGMAC100State *s = FTGMAC100(opaque);
-    int reg;
 
     switch (addr & 0xff) {
     case FTGMAC100_ISR: /* Interrupt status */
@@ -XXX,XX +XXX,XX @@ static void ftgmac100_write(void *opaque, hwaddr addr,
         break;
 
     case FTGMAC100_PHYCR:  /* PHY Device control */
-        reg = FTGMAC100_PHYCR_REG(value);
         s->phycr = value;
-        if (value & FTGMAC100_PHYCR_MIIWR) {
-            do_phy_write(s, reg, s->phydata & 0xffff);
-            s->phycr &= ~FTGMAC100_PHYCR_MIIWR;
+        if (s->revr & FTGMAC100_REVR_NEW_MDIO_INTERFACE) {
+            do_phy_new_ctl(s);
         } else {
-            s->phydata = do_phy_read(s, reg) << 16;
-            s->phycr &= ~FTGMAC100_PHYCR_MIIRD;
+            do_phy_ctl(s);
         }
         break;
     case FTGMAC100_PHYDATA:
@@ -XXX,XX +XXX,XX @@ static void ftgmac100_write(void *opaque, hwaddr addr,
         s->dblac = value;
         break;
     case FTGMAC100_REVR:  /* Feature Register */
-        /* TODO: Only Old MDIO interface is supported */
-        s->revr = value & ~FTGMAC100_REVR_NEW_MDIO_INTERFACE;
+        s->revr = value;
         break;
     case FTGMAC100_FEAR1: /* Feature Register 1 */
         s->fear1 = value;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Add storage space for the 5 encryption keys.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h | 30 +++++++++++++++++++++++++++++-
 1 file changed, 29 insertions(+), 1 deletion(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct ARMVectorReg {
     uint64_t d[2 * ARM_MAX_VQ] QEMU_ALIGNED(16);
 } ARMVectorReg;
 
-/* In AArch32 mode, predicate registers do not exist at all.  */
 #ifdef TARGET_AARCH64
+/* In AArch32 mode, predicate registers do not exist at all.  */
 typedef struct ARMPredicateReg {
     uint64_t p[2 * ARM_MAX_VQ / 8] QEMU_ALIGNED(16);
 } ARMPredicateReg;
+
+/* In AArch32 mode, PAC keys do not exist at all.  */
+typedef struct ARMPACKey {
+    uint64_t lo, hi;
+} ARMPACKey;
 #endif
 
 
@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
         uint32_t cregs[16];
     } iwmmxt;
 
+#ifdef TARGET_AARCH64
+    ARMPACKey apia_key;
+    ARMPACKey apib_key;
+    ARMPACKey apda_key;
+    ARMPACKey apdb_key;
+    ARMPACKey apga_key;
+#endif
+
 #if defined(CONFIG_USER_ONLY)
     /* For usermode syscall translation.  */
     int eabi;
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fcma(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64isar1, ID_AA64ISAR1, FCMA) != 0;
 }
 
+static inline bool isar_feature_aa64_pauth(const ARMISARegisters *id)
+{
+    /*
+     * Note that while QEMU will only implement the architected algorithm
+     * QARMA, and thus APA+GPA, the host cpu for kvm may use implementation
+     * defined algorithms, and thus API+GPI, and this predicate controls
+     * migration of the 128-bit keys.
+     */
+    return (id->id_aa64isar1 &
+            (FIELD_DP64(0, ID_AA64ISAR1, APA, -1) |
+             FIELD_DP64(0, ID_AA64ISAR1, API, -1) |
+             FIELD_DP64(0, ID_AA64ISAR1, GPA, -1) |
+             FIELD_DP64(0, ID_AA64ISAR1, GPI, -1))) != 0;
+}
+
 static inline bool isar_feature_aa64_fp16(const ARMISARegisters *id)
 {
     /* We always set the AdvSIMD and FP fields identically wrt FP16.  */
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Post v8.4 bits taken from SysReg_v85_xml-00bet8.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h | 45 +++++++++++++++++++++++++++++++++------------
 1 file changed, 33 insertions(+), 12 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ void pmccntr_sync(CPUARMState *env);
 #define SCTLR_A       (1U << 1)
 #define SCTLR_C       (1U << 2)
 #define SCTLR_W       (1U << 3) /* up to v6; RAO in v7 */
-#define SCTLR_SA      (1U << 3)
+#define SCTLR_nTLSMD_32 (1U << 3) /* v8.2-LSMAOC, AArch32 only */
+#define SCTLR_SA      (1U << 3) /* AArch64 only */
 #define SCTLR_P       (1U << 4) /* up to v5; RAO in v6 and v7 */
+#define SCTLR_LSMAOE_32 (1U << 4) /* v8.2-LSMAOC, AArch32 only */
 #define SCTLR_SA0     (1U << 4) /* v8 onward, AArch64 only */
 #define SCTLR_D       (1U << 5) /* up to v5; RAO in v6 */
 #define SCTLR_CP15BEN (1U << 5) /* v7 onward */
 #define SCTLR_L       (1U << 6) /* up to v5; RAO in v6 and v7; RAZ in v8 */
+#define SCTLR_nAA     (1U << 6) /* when v8.4-LSE is implemented */
 #define SCTLR_B       (1U << 7) /* up to v6; RAZ in v7 */
 #define SCTLR_ITD     (1U << 7) /* v8 onward */
 #define SCTLR_S       (1U << 8) /* up to v6; RAZ in v7 */
@@ -XXX,XX +XXX,XX @@ void pmccntr_sync(CPUARMState *env);
 #define SCTLR_R       (1U << 9) /* up to v6; RAZ in v7 */
 #define SCTLR_UMA     (1U << 9) /* v8 onward, AArch64 only */
 #define SCTLR_F       (1U << 10) /* up to v6 */
-#define SCTLR_SW      (1U << 10) /* v7 onward */
-#define SCTLR_Z       (1U << 11)
+#define SCTLR_SW      (1U << 10) /* v7, RES0 in v8 */
+#define SCTLR_Z       (1U << 11) /* in v7, RES1 in v8 */
+#define SCTLR_EOS     (1U << 11) /* v8.5-ExS */
 #define SCTLR_I       (1U << 12)
-#define SCTLR_V       (1U << 13)
+#define SCTLR_V       (1U << 13) /* AArch32 only */
+#define SCTLR_EnDB    (1U << 13) /* v8.3, AArch64 only */
 #define SCTLR_RR      (1U << 14) /* up to v7 */
 #define SCTLR_DZE     (1U << 14) /* v8 onward, AArch64 only */
 #define SCTLR_L4      (1U << 15) /* up to v6; RAZ in v7 */
 #define SCTLR_UCT     (1U << 15) /* v8 onward, AArch64 only */
 #define SCTLR_DT      (1U << 16) /* up to ??, RAO in v6 and v7 */
 #define SCTLR_nTWI    (1U << 16) /* v8 onward */
-#define SCTLR_HA      (1U << 17)
+#define SCTLR_HA      (1U << 17) /* up to v7, RES0 in v8 */
 #define SCTLR_BR      (1U << 17) /* PMSA only */
 #define SCTLR_IT      (1U << 18) /* up to ??, RAO in v6 and v7 */
 #define SCTLR_nTWE    (1U << 18) /* v8 onward */
 #define SCTLR_WXN     (1U << 19)
 #define SCTLR_ST      (1U << 20) /* up to ??, RAZ in v6 */
-#define SCTLR_UWXN    (1U << 20) /* v7 onward */
-#define SCTLR_FI      (1U << 21)
-#define SCTLR_U       (1U << 22)
+#define SCTLR_UWXN    (1U << 20) /* v7 onward, AArch32 only */
+#define SCTLR_FI      (1U << 21) /* up to v7, v8 RES0 */
+#define SCTLR_IESB    (1U << 21) /* v8.2-IESB, AArch64 only */
+#define SCTLR_U       (1U << 22) /* up to v6, RAO in v7 */
+#define SCTLR_EIS     (1U << 22) /* v8.5-ExS */
 #define SCTLR_XP      (1U << 23) /* up to v6; v7 onward RAO */
+#define SCTLR_SPAN    (1U << 23) /* v8.1-PAN */
 #define SCTLR_VE      (1U << 24) /* up to v7 */
 #define SCTLR_E0E     (1U << 24) /* v8 onward, AArch64 only */
 #define SCTLR_EE      (1U << 25)
 #define SCTLR_L2      (1U << 26) /* up to v6, RAZ in v7 */
 #define SCTLR_UCI     (1U << 26) /* v8 onward, AArch64 only */
-#define SCTLR_NMFI    (1U << 27)
-#define SCTLR_TRE     (1U << 28)
-#define SCTLR_AFE     (1U << 29)
-#define SCTLR_TE      (1U << 30)
+#define SCTLR_NMFI    (1U << 27) /* up to v7, RAZ in v7VE and v8 */
+#define SCTLR_EnDA    (1U << 27) /* v8.3, AArch64 only */
+#define SCTLR_TRE     (1U << 28) /* AArch32 only */
+#define SCTLR_nTLSMD_64 (1U << 28) /* v8.2-LSMAOC, AArch64 only */
+#define SCTLR_AFE     (1U << 29) /* AArch32 only */
+#define SCTLR_LSMAOE_64 (1U << 29) /* v8.2-LSMAOC, AArch64 only */
+#define SCTLR_TE      (1U << 30) /* AArch32 only */
+#define SCTLR_EnIB    (1U << 30) /* v8.3, AArch64 only */
+#define SCTLR_EnIA    (1U << 31) /* v8.3, AArch64 only */
+#define SCTLR_BT0     (1ULL << 35) /* v8.5-BTI */
+#define SCTLR_BT1     (1ULL << 36) /* v8.5-BTI */
+#define SCTLR_ITFSB   (1ULL << 37) /* v8.5-MemTag */
+#define SCTLR_TCF0    (3ULL << 38) /* v8.5-MemTag */
+#define SCTLR_TCF     (3ULL << 40) /* v8.5-MemTag */
+#define SCTLR_ATA0    (1ULL << 42) /* v8.5-MemTag */
+#define SCTLR_ATA     (1ULL << 43) /* v8.5-MemTag */
+#define SCTLR_DSSBS   (1ULL << 44) /* v8.5 */
 
 #define CPTR_TCPAC    (1U << 31)
 #define CPTR_TTA      (1U << 20)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

There are 5 bits of state that could be added, but to save
space within tbflags, add only a single enable bit.
Helpers will determine the rest of the state at runtime.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           |  1 +
 target/arm/translate.h     |  2 ++
 target/arm/helper.c        | 19 +++++++++++++++++++
 target/arm/translate-a64.c |  1 +
 4 files changed, 23 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A64, TBI0, 0, 1)
 FIELD(TBFLAG_A64, TBI1, 1, 1)
 FIELD(TBFLAG_A64, SVEEXC_EL, 2, 2)
 FIELD(TBFLAG_A64, ZCR_LEN, 4, 4)
+FIELD(TBFLAG_A64, PAUTH_ACTIVE, 8, 1)
 
 static inline bool bswap_code(bool sctlr_b)
 {
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     bool is_ldex;
     /* True if a single-step exception will be taken to the current EL */
     bool ss_same_el;
+    /* True if v8.3-PAuth is active.  */
+    bool pauth_active;
     /* Bottom two bits of XScale c15_cpar coprocessor access control reg */
     int c15_cpar;
     /* TCG op of the current insn_start.  */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
             flags = FIELD_DP32(flags, TBFLAG_A64, SVEEXC_EL, sve_el);
             flags = FIELD_DP32(flags, TBFLAG_A64, ZCR_LEN, zcr_len);
         }
+
+        if (cpu_isar_feature(aa64_pauth, cpu)) {
+            /*
+             * In order to save space in flags, we record only whether
+             * pauth is "inactive", meaning all insns are implemented as
+             * a nop, or "active" when some action must be performed.
+             * The decision of which action to take is left to a helper.
+             */
+            uint64_t sctlr;
+            if (current_el == 0) {
+                /* FIXME: ARMv8.1-VHE S2 translation regime.  */
+                sctlr = env->cp15.sctlr_el[1];
+            } else {
+                sctlr = env->cp15.sctlr_el[current_el];
+            }
+            if (sctlr & (SCTLR_EnIA | SCTLR_EnIB | SCTLR_EnDA | SCTLR_EnDB)) {
+                flags = FIELD_DP32(flags, TBFLAG_A64, PAUTH_ACTIVE, 1);
+            }
+        }
     } else {
         *pc = env->regs[15];
         flags = FIELD_DP32(flags, TBFLAG_A32, THUMB, env->thumb);
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
     dc->fp_excp_el = FIELD_EX32(tb_flags, TBFLAG_ANY, FPEXC_EL);
     dc->sve_excp_el = FIELD_EX32(tb_flags, TBFLAG_A64, SVEEXC_EL);
     dc->sve_len = (FIELD_EX32(tb_flags, TBFLAG_A64, ZCR_LEN) + 1) * 16;
+    dc->pauth_active = FIELD_EX32(tb_flags, TBFLAG_A64, PAUTH_ACTIVE);
     dc->vec_len = 0;
     dc->vec_stride = 0;
     dc->cp_regs = arm_cpu->cp_regs;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This path uses cpu_loop_exit_restore to unwind current processor state.

Suggested-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h |  7 +++++++
 target/arm/op_helper.c | 19 +++++++++++++++++--
 2 files changed, 24 insertions(+), 2 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ FIELD(V7M_EXCRET, RES1, 7, 25) /* including the must-be-1 prefix */
 void QEMU_NORETURN raise_exception(CPUARMState *env, uint32_t excp,
                                    uint32_t syndrome, uint32_t target_el);
 
+/*
+ * Similarly, but also use unwinding to restore cpu state.
+ */
+void QEMU_NORETURN raise_exception_ra(CPUARMState *env, uint32_t excp,
+                                      uint32_t syndrome, uint32_t target_el,
+                                      uintptr_t ra);
+
 /*
  * For AArch64, map a given EL to an index in the banked_spsr array.
  * Note that this mapping and the AArch32 mapping defined in bank_number()
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@
 #define SIGNBIT (uint32_t)0x80000000
 #define SIGNBIT64 ((uint64_t)1 << 63)
 
-void raise_exception(CPUARMState *env, uint32_t excp,
-                     uint32_t syndrome, uint32_t target_el)
+static CPUState *do_raise_exception(CPUARMState *env, uint32_t excp,
+                                    uint32_t syndrome, uint32_t target_el)
 {
     CPUState *cs = CPU(arm_env_get_cpu(env));
 
@@ -XXX,XX +XXX,XX @@ void raise_exception(CPUARMState *env, uint32_t excp,
     cs->exception_index = excp;
     env->exception.syndrome = syndrome;
     env->exception.target_el = target_el;
+
+    return cs;
+}
+
+void raise_exception(CPUARMState *env, uint32_t excp,
+                     uint32_t syndrome, uint32_t target_el)
+{
+    CPUState *cs = do_raise_exception(env, excp, syndrome, target_el);
     cpu_loop_exit(cs);
 }
 
+void raise_exception_ra(CPUARMState *env, uint32_t excp, uint32_t syndrome,
+                        uint32_t target_el, uintptr_t ra)
+{
+    CPUState *cs = do_raise_exception(env, excp, syndrome, target_el);
+    cpu_loop_exit_restore(cs, ra);
+}
+
 static int exception_target_el(CPUARMState *env)
 {
     int target_el = MAX(1, arm_current_el(env));
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The cryptographic internals are stubbed out for now,
but the enable and trap bits are checked.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/Makefile.objs  |   1 +
 target/arm/helper-a64.h   |  12 +++
 target/arm/internals.h    |   6 ++
 target/arm/pauth_helper.c | 186 ++++++++++++++++++++++++++++++++++++++
 4 files changed, 205 insertions(+)
 create mode 100644 target/arm/pauth_helper.c

diff --git a/target/arm/Makefile.objs b/target/arm/Makefile.objs
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/Makefile.objs
+++ b/target/arm/Makefile.objs
@@ -XXX,XX +XXX,XX @@ obj-y += translate.o op_helper.o helper.o cpu.o
 obj-y += neon_helper.o iwmmxt_helper.o vec_helper.o
 obj-y += gdbstub.o
 obj-$(TARGET_AARCH64) += cpu64.o translate-a64.o helper-a64.o gdbstub64.o
+obj-$(TARGET_AARCH64) += pauth_helper.o
 obj-y += crypto_helper.o
 obj-$(CONFIG_SOFTMMU) += arm-powerctl.o
 
diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.h
+++ b/target/arm/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(advsimd_rinth, f16, f16, ptr)
 DEF_HELPER_2(advsimd_f16tosinth, i32, f16, ptr)
 DEF_HELPER_2(advsimd_f16touinth, i32, f16, ptr)
 DEF_HELPER_2(sqrt_f16, f16, f16, ptr)
+
+DEF_HELPER_FLAGS_3(pacia, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(pacib, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(pacda, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(pacdb, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(pacga, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(autia, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(autib, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(autda, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_3(autdb, TCG_CALL_NO_WG, i64, env, i64, i64)
+DEF_HELPER_FLAGS_2(xpaci, TCG_CALL_NO_RWG_SE, i64, env, i64)
+DEF_HELPER_FLAGS_2(xpacd, TCG_CALL_NO_RWG_SE, i64, env, i64)
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ enum arm_exception_class {
     EC_CP14DTTRAP             = 0x06,
     EC_ADVSIMDFPACCESSTRAP    = 0x07,
     EC_FPIDTRAP               = 0x08,
+    EC_PACTRAP                = 0x09,
     EC_CP14RRTTRAP            = 0x0c,
     EC_ILLEGALSTATE           = 0x0e,
     EC_AA32_SVC               = 0x11,
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_sve_access_trap(void)
     return EC_SVEACCESSTRAP << ARM_EL_EC_SHIFT;
 }
 
+static inline uint32_t syn_pactrap(void)
+{
+    return EC_PACTRAP << ARM_EL_EC_SHIFT;
+}
+
 static inline uint32_t syn_insn_abort(int same_el, int ea, int s1ptw, int fsc)
 {
     return (EC_INSNABORT << ARM_EL_EC_SHIFT) | (same_el << ARM_EL_EC_SHIFT)
diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/pauth_helper.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * ARM v8.3-PAuth Operations
+ *
+ * Copyright (c) 2019 Linaro, Ltd.
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "cpu.h"
+#include "internals.h"
+#include "exec/exec-all.h"
+#include "exec/cpu_ldst.h"
+#include "exec/helper-proto.h"
+#include "tcg/tcg-gvec-desc.h"
+
+
+static uint64_t pauth_computepac(uint64_t data, uint64_t modifier,
+                                 ARMPACKey key)
+{
+    g_assert_not_reached(); /* FIXME */
+}
+
+static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
+                             ARMPACKey *key, bool data)
+{
+    g_assert_not_reached(); /* FIXME */
+}
+
+static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
+                           ARMPACKey *key, bool data, int keynumber)
+{
+    g_assert_not_reached(); /* FIXME */
+}
+
+static uint64_t pauth_strip(CPUARMState *env, uint64_t ptr, bool data)
+{
+    g_assert_not_reached(); /* FIXME */
+}
+
+static void QEMU_NORETURN pauth_trap(CPUARMState *env, int target_el,
+                                     uintptr_t ra)
+{
+    raise_exception_ra(env, EXCP_UDEF, syn_pactrap(), target_el, ra);
+}
+
+static void pauth_check_trap(CPUARMState *env, int el, uintptr_t ra)
+{
+    if (el < 2 && arm_feature(env, ARM_FEATURE_EL2)) {
+        uint64_t hcr = arm_hcr_el2_eff(env);
+        bool trap = !(hcr & HCR_API);
+        /* FIXME: ARMv8.1-VHE: trap only applies to EL1&0 regime.  */
+        /* FIXME: ARMv8.3-NV: HCR_NV trap takes precedence for ERETA[AB].  */
+        if (trap) {
+            pauth_trap(env, 2, ra);
+        }
+    }
+    if (el < 3 && arm_feature(env, ARM_FEATURE_EL3)) {
+        if (!(env->cp15.scr_el3 & SCR_API)) {
+            pauth_trap(env, 3, ra);
+        }
+    }
+}
+
+static bool pauth_key_enabled(CPUARMState *env, int el, uint32_t bit)
+{
+    uint32_t sctlr;
+    if (el == 0) {
+        /* FIXME: ARMv8.1-VHE S2 translation regime.  */
+        sctlr = env->cp15.sctlr_el[1];
+    } else {
+        sctlr = env->cp15.sctlr_el[el];
+    }
+    return (sctlr & bit) != 0;
+}
+
+uint64_t HELPER(pacia)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnIA)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_addpac(env, x, y, &env->apia_key, false);
+}
+
+uint64_t HELPER(pacib)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnIB)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_addpac(env, x, y, &env->apib_key, false);
+}
+
+uint64_t HELPER(pacda)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnDA)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_addpac(env, x, y, &env->apda_key, true);
+}
+
+uint64_t HELPER(pacdb)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnDB)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_addpac(env, x, y, &env->apdb_key, true);
+}
+
+uint64_t HELPER(pacga)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    uint64_t pac;
+
+    pauth_check_trap(env, arm_current_el(env), GETPC());
+    pac = pauth_computepac(x, y, env->apga_key);
+
+    return pac & 0xffffffff00000000ull;
+}
+
+uint64_t HELPER(autia)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnIA)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_auth(env, x, y, &env->apia_key, false, 0);
+}
+
+uint64_t HELPER(autib)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnIB)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_auth(env, x, y, &env->apib_key, false, 1);
+}
+
+uint64_t HELPER(autda)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnDA)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_auth(env, x, y, &env->apda_key, true, 0);
+}
+
+uint64_t HELPER(autdb)(CPUARMState *env, uint64_t x, uint64_t y)
+{
+    int el = arm_current_el(env);
+    if (!pauth_key_enabled(env, el, SCTLR_EnDB)) {
+        return x;
+    }
+    pauth_check_trap(env, el, GETPC());
+    return pauth_auth(env, x, y, &env->apdb_key, true, 1);
+}
+
+uint64_t HELPER(xpaci)(CPUARMState *env, uint64_t a)
+{
+    return pauth_strip(env, a, false);
+}
+
+uint64_t HELPER(xpacd)(CPUARMState *env, uint64_t a)
+{
+    return pauth_strip(env, a, true);
+}
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 93 +++++++++++++++++++++++++++++++++-----
 1 file changed, 81 insertions(+), 12 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_hint(DisasContext *s, uint32_t insn,
     }
 
     switch (selector) {
-    case 0: /* NOP */
-        return;
-    case 3: /* WFI */
+    case 0b00000: /* NOP */
+        break;
+    case 0b00011: /* WFI */
         s->base.is_jmp = DISAS_WFI;
-        return;
+        break;
+    case 0b00001: /* YIELD */
         /* When running in MTTCG we don't generate jumps to the yield and
          * WFE helpers as it won't affect the scheduling of other vCPUs.
          * If we wanted to more completely model WFE/SEV so we don't busy
          * spin unnecessarily we would need to do something more involved.
          */
-    case 1: /* YIELD */
         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
             s->base.is_jmp = DISAS_YIELD;
         }
-        return;
-    case 2: /* WFE */
+        break;
+    case 0b00010: /* WFE */
         if (!(tb_cflags(s->base.tb) & CF_PARALLEL)) {
             s->base.is_jmp = DISAS_WFE;
         }
-        return;
-    case 4: /* SEV */
-    case 5: /* SEVL */
+        break;
+    case 0b00100: /* SEV */
+    case 0b00101: /* SEVL */
         /* we treat all as NOP at least for now */
-        return;
+        break;
+    case 0b00111: /* XPACLRI */
+        if (s->pauth_active) {
+            gen_helper_xpaci(cpu_X[30], cpu_env, cpu_X[30]);
+        }
+        break;
+    case 0b01000: /* PACIA1716 */
+        if (s->pauth_active) {
+            gen_helper_pacia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
+        }
+        break;
+    case 0b01010: /* PACIB1716 */
+        if (s->pauth_active) {
+            gen_helper_pacib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
+        }
+        break;
+    case 0b01100: /* AUTIA1716 */
+        if (s->pauth_active) {
+            gen_helper_autia(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
+        }
+        break;
+    case 0b01110: /* AUTIB1716 */
+        if (s->pauth_active) {
+            gen_helper_autib(cpu_X[17], cpu_env, cpu_X[17], cpu_X[16]);
+        }
+        break;
+    case 0b11000: /* PACIAZ */
+        if (s->pauth_active) {
+            gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30],
+                                new_tmp_a64_zero(s));
+        }
+        break;
+    case 0b11001: /* PACIASP */
+        if (s->pauth_active) {
+            gen_helper_pacia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
+        }
+        break;
+    case 0b11010: /* PACIBZ */
+        if (s->pauth_active) {
+            gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30],
+                                new_tmp_a64_zero(s));
+        }
+        break;
+    case 0b11011: /* PACIBSP */
+        if (s->pauth_active) {
+            gen_helper_pacib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
+        }
+        break;
+    case 0b11100: /* AUTIAZ */
+        if (s->pauth_active) {
+            gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30],
+                              new_tmp_a64_zero(s));
+        }
+        break;
+    case 0b11101: /* AUTIASP */
+        if (s->pauth_active) {
+            gen_helper_autia(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
+        }
+        break;
+    case 0b11110: /* AUTIBZ */
+        if (s->pauth_active) {
+            gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30],
+                              new_tmp_a64_zero(s));
+        }
+        break;
+    case 0b11111: /* AUTIBSP */
+        if (s->pauth_active) {
+            gen_helper_autib(cpu_X[30], cpu_env, cpu_X[30], cpu_X[31]);
+        }
+        break;
     default:
         /* default specified as NOP equivalent */
-        return;
+        break;
     }
 }
 
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Now properly signals unallocated for REV64 with SF=0.
Allows for the opcode2 field to be decoded shortly.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 31 ++++++++++++++++++++++---------
 1 file changed, 22 insertions(+), 9 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 146 +++++++++++++++++++++++++++++++++++++
 1 file changed, 146 insertions(+)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_rev16(DisasContext *s, unsigned int sf,
 static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
 {
     unsigned int sf, opcode, opcode2, rn, rd;
+    TCGv_i64 tcg_rd;
 
     if (extract32(insn, 29, 1)) {
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_1src(DisasContext *s, uint32_t insn)
     case MAP(1, 0x00, 0x05):
         handle_cls(s, sf, rn, rd);
         break;
+    case MAP(1, 0x01, 0x00): /* PACIA */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x01): /* PACIB */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x02): /* PACDA */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x03): /* PACDB */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x04): /* AUTIA */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autia(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x05): /* AUTIB */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autib(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x06): /* AUTDA */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autda(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x07): /* AUTDB */
+        if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, cpu_reg_sp(s, rn));
+        } else if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        break;
+    case MAP(1, 0x01, 0x08): /* PACIZA */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x09): /* PACIZB */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x0a): /* PACDZA */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x0b): /* PACDZB */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_pacdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x0c): /* AUTIZA */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autia(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x0d): /* AUTIZB */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autib(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x0e): /* AUTDZA */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autda(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x0f): /* AUTDZB */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_autdb(tcg_rd, cpu_env, tcg_rd, new_tmp_a64_zero(s));
+        }
+        break;
+    case MAP(1, 0x01, 0x10): /* XPACI */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_xpaci(tcg_rd, cpu_env, tcg_rd);
+        }
+        break;
+    case MAP(1, 0x01, 0x11): /* XPACD */
+        if (!dc_isar_feature(aa64_pauth, s) || rn != 31) {
+            goto do_unallocated;
+        } else if (s->pauth_active) {
+            tcg_rd = cpu_reg(s, rd);
+            gen_helper_xpacd(tcg_rd, cpu_env, tcg_rd);
+        }
+        break;
     default:
+    do_unallocated:
         unallocated_encoding(s);
         break;
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_2src(DisasContext *s, uint32_t insn)
     case 11: /* RORV */
         handle_shift_reg(s, A64_SHIFT_TYPE_ROR, sf, rm, rn, rd);
         break;
+    case 12: /* PACGA */
+        if (sf == 0 || !dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        gen_helper_pacga(cpu_reg(s, rd), cpu_env,
+                         cpu_reg(s, rn), cpu_reg_sp(s, rm));
+        break;
     case 16:
     case 17:
     case 18:
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_2src(DisasContext *s, uint32_t insn)
         break;
     }
     default:
+    do_unallocated:
         unallocated_encoding(s);
         break;
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This function is only used by AArch64.  Code movement only.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-a64.h |   2 +
 target/arm/helper.h     |   1 -
 target/arm/helper-a64.c | 155 ++++++++++++++++++++++++++++++++++++++++
 target/arm/op_helper.c  | 155 ----------------------------------------
 4 files changed, 157 insertions(+), 156 deletions(-)

diff --git a/target/arm/helper-a64.h b/target/arm/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.h
+++ b/target/arm/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(advsimd_f16tosinth, i32, f16, ptr)
 DEF_HELPER_2(advsimd_f16touinth, i32, f16, ptr)
 DEF_HELPER_2(sqrt_f16, f16, f16, ptr)
 
+DEF_HELPER_1(exception_return, void, env)
+
 DEF_HELPER_FLAGS_3(pacia, TCG_CALL_NO_WG, i64, env, i64, i64)
 DEF_HELPER_FLAGS_3(pacib, TCG_CALL_NO_WG, i64, env, i64, i64)
 DEF_HELPER_FLAGS_3(pacda, TCG_CALL_NO_WG, i64, env, i64, i64)
diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(get_cp_reg64, i64, env, ptr)
 
 DEF_HELPER_3(msr_i_pstate, void, env, i32, i32)
 DEF_HELPER_1(clear_pstate_ss, void, env)
-DEF_HELPER_1(exception_return, void, env)
 
 DEF_HELPER_2(get_r13_banked, i32, env, i32)
 DEF_HELPER_3(set_r13_banked, void, env, i32, i32)
diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.c
+++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(advsimd_f16touinth)(uint32_t a, void *fpstp)
     return float16_to_uint16(a, fpst);
 }
 
+static int el_from_spsr(uint32_t spsr)
+{
+    /* Return the exception level that this SPSR is requesting a return to,
+     * or -1 if it is invalid (an illegal return)
+     */
+    if (spsr & PSTATE_nRW) {
+        switch (spsr & CPSR_M) {
+        case ARM_CPU_MODE_USR:
+            return 0;
+        case ARM_CPU_MODE_HYP:
+            return 2;
+        case ARM_CPU_MODE_FIQ:
+        case ARM_CPU_MODE_IRQ:
+        case ARM_CPU_MODE_SVC:
+        case ARM_CPU_MODE_ABT:
+        case ARM_CPU_MODE_UND:
+        case ARM_CPU_MODE_SYS:
+            return 1;
+        case ARM_CPU_MODE_MON:
+            /* Returning to Mon from AArch64 is never possible,
+             * so this is an illegal return.
+             */
+        default:
+            return -1;
+        }
+    } else {
+        if (extract32(spsr, 1, 1)) {
+            /* Return with reserved M[1] bit set */
+            return -1;
+        }
+        if (extract32(spsr, 0, 4) == 1) {
+            /* return to EL0 with M[0] bit set */
+            return -1;
+        }
+        return extract32(spsr, 2, 2);
+    }
+}
+
+void HELPER(exception_return)(CPUARMState *env)
+{
+    int cur_el = arm_current_el(env);
+    unsigned int spsr_idx = aarch64_banked_spsr_index(cur_el);
+    uint32_t spsr = env->banked_spsr[spsr_idx];
+    int new_el;
+    bool return_to_aa64 = (spsr & PSTATE_nRW) == 0;
+
+    aarch64_save_sp(env, cur_el);
+
+    arm_clear_exclusive(env);
+
+    /* We must squash the PSTATE.SS bit to zero unless both of the
+     * following hold:
+     *  1. debug exceptions are currently disabled
+     *  2. singlestep will be active in the EL we return to
+     * We check 1 here and 2 after we've done the pstate/cpsr write() to
+     * transition to the EL we're going to.
+     */
+    if (arm_generate_debug_exceptions(env)) {
+        spsr &= ~PSTATE_SS;
+    }
+
+    new_el = el_from_spsr(spsr);
+    if (new_el == -1) {
+        goto illegal_return;
+    }
+    if (new_el > cur_el
+        || (new_el == 2 && !arm_feature(env, ARM_FEATURE_EL2))) {
+        /* Disallow return to an EL which is unimplemented or higher
+         * than the current one.
+         */
+        goto illegal_return;
+    }
+
+    if (new_el != 0 && arm_el_is_aa64(env, new_el) != return_to_aa64) {
+        /* Return to an EL which is configured for a different register width */
+        goto illegal_return;
+    }
+
+    if (new_el == 2 && arm_is_secure_below_el3(env)) {
+        /* Return to the non-existent secure-EL2 */
+        goto illegal_return;
+    }
+
+    if (new_el == 1 && (arm_hcr_el2_eff(env) & HCR_TGE)) {
+        goto illegal_return;
+    }
+
+    qemu_mutex_lock_iothread();
+    arm_call_pre_el_change_hook(arm_env_get_cpu(env));
+    qemu_mutex_unlock_iothread();
+
+    if (!return_to_aa64) {
+        env->aarch64 = 0;
+        /* We do a raw CPSR write because aarch64_sync_64_to_32()
+         * will sort the register banks out for us, and we've already
+         * caught all the bad-mode cases in el_from_spsr().
+         */
+        cpsr_write(env, spsr, ~0, CPSRWriteRaw);
+        if (!arm_singlestep_active(env)) {
+            env->uncached_cpsr &= ~PSTATE_SS;
+        }
+        aarch64_sync_64_to_32(env);
+
+        if (spsr & CPSR_T) {
+            env->regs[15] = env->elr_el[cur_el] & ~0x1;
+        } else {
+            env->regs[15] = env->elr_el[cur_el] & ~0x3;
+        }
+        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
+                      "AArch32 EL%d PC 0x%" PRIx32 "\n",
+                      cur_el, new_el, env->regs[15]);
+    } else {
+        env->aarch64 = 1;
+        pstate_write(env, spsr);
+        if (!arm_singlestep_active(env)) {
+            env->pstate &= ~PSTATE_SS;
+        }
+        aarch64_restore_sp(env, new_el);
+        env->pc = env->elr_el[cur_el];
+        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
+                      "AArch64 EL%d PC 0x%" PRIx64 "\n",
+                      cur_el, new_el, env->pc);
+    }
+    /*
+     * Note that cur_el can never be 0.  If new_el is 0, then
+     * el0_a64 is return_to_aa64, else el0_a64 is ignored.
+     */
+    aarch64_sve_change_el(env, cur_el, new_el, return_to_aa64);
+
+    qemu_mutex_lock_iothread();
+    arm_call_el_change_hook(arm_env_get_cpu(env));
+    qemu_mutex_unlock_iothread();
+
+    return;
+
+illegal_return:
+    /* Illegal return events of various kinds have architecturally
+     * mandated behaviour:
+     * restore NZCV and DAIF from SPSR_ELx
+     * set PSTATE.IL
+     * restore PC from ELR_ELx
+     * no change to exception level, execution state or stack pointer
+     */
+    env->pstate |= PSTATE_IL;
+    env->pc = env->elr_el[cur_el];
+    spsr &= PSTATE_NZCV | PSTATE_DAIF;
+    spsr |= pstate_read(env) & ~(PSTATE_NZCV | PSTATE_DAIF);
+    pstate_write(env, spsr);
+    if (!arm_singlestep_active(env)) {
+        env->pstate &= ~PSTATE_SS;
+    }
+    qemu_log_mask(LOG_GUEST_ERROR, "Illegal exception return at EL%d: "
+                  "resuming execution at 0x%" PRIx64 "\n", cur_el, env->pc);
+}
+
 /*
  * Square Root and Reciprocal square root
  */
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(pre_smc)(CPUARMState *env, uint32_t syndrome)
     }
 }
 
-static int el_from_spsr(uint32_t spsr)
-{
-    /* Return the exception level that this SPSR is requesting a return to,
-     * or -1 if it is invalid (an illegal return)
-     */
-    if (spsr & PSTATE_nRW) {
-        switch (spsr & CPSR_M) {
-        case ARM_CPU_MODE_USR:
-            return 0;
-        case ARM_CPU_MODE_HYP:
-            return 2;
-        case ARM_CPU_MODE_FIQ:
-        case ARM_CPU_MODE_IRQ:
-        case ARM_CPU_MODE_SVC:
-        case ARM_CPU_MODE_ABT:
-        case ARM_CPU_MODE_UND:
-        case ARM_CPU_MODE_SYS:
-            return 1;
-        case ARM_CPU_MODE_MON:
-            /* Returning to Mon from AArch64 is never possible,
-             * so this is an illegal return.
-             */
-        default:
-            return -1;
-        }
-    } else {
-        if (extract32(spsr, 1, 1)) {
-            /* Return with reserved M[1] bit set */
-            return -1;
-        }
-        if (extract32(spsr, 0, 4) == 1) {
-            /* return to EL0 with M[0] bit set */
-            return -1;
-        }
-        return extract32(spsr, 2, 2);
-    }
-}
-
-void HELPER(exception_return)(CPUARMState *env)
-{
-    int cur_el = arm_current_el(env);
-    unsigned int spsr_idx = aarch64_banked_spsr_index(cur_el);
-    uint32_t spsr = env->banked_spsr[spsr_idx];
-    int new_el;
-    bool return_to_aa64 = (spsr & PSTATE_nRW) == 0;
-
-    aarch64_save_sp(env, cur_el);
-
-    arm_clear_exclusive(env);
-
-    /* We must squash the PSTATE.SS bit to zero unless both of the
-     * following hold:
-     *  1. debug exceptions are currently disabled
-     *  2. singlestep will be active in the EL we return to
-     * We check 1 here and 2 after we've done the pstate/cpsr write() to
-     * transition to the EL we're going to.
-     */
-    if (arm_generate_debug_exceptions(env)) {
-        spsr &= ~PSTATE_SS;
-    }
-
-    new_el = el_from_spsr(spsr);
-    if (new_el == -1) {
-        goto illegal_return;
-    }
-    if (new_el > cur_el
-        || (new_el == 2 && !arm_feature(env, ARM_FEATURE_EL2))) {
-        /* Disallow return to an EL which is unimplemented or higher
-         * than the current one.
-         */
-        goto illegal_return;
-    }
-
-    if (new_el != 0 && arm_el_is_aa64(env, new_el) != return_to_aa64) {
-        /* Return to an EL which is configured for a different register width */
-        goto illegal_return;
-    }
-
-    if (new_el == 2 && arm_is_secure_below_el3(env)) {
-        /* Return to the non-existent secure-EL2 */
-        goto illegal_return;
-    }
-
-    if (new_el == 1 && (arm_hcr_el2_eff(env) & HCR_TGE)) {
-        goto illegal_return;
-    }
-
-    qemu_mutex_lock_iothread();
-    arm_call_pre_el_change_hook(arm_env_get_cpu(env));
-    qemu_mutex_unlock_iothread();
-
-    if (!return_to_aa64) {
-        env->aarch64 = 0;
-        /* We do a raw CPSR write because aarch64_sync_64_to_32()
-         * will sort the register banks out for us, and we've already
-         * caught all the bad-mode cases in el_from_spsr().
-         */
-        cpsr_write(env, spsr, ~0, CPSRWriteRaw);
-        if (!arm_singlestep_active(env)) {
-            env->uncached_cpsr &= ~PSTATE_SS;
-        }
-        aarch64_sync_64_to_32(env);
-
-        if (spsr & CPSR_T) {
-            env->regs[15] = env->elr_el[cur_el] & ~0x1;
-        } else {
-            env->regs[15] = env->elr_el[cur_el] & ~0x3;
-        }
-        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
-                      "AArch32 EL%d PC 0x%" PRIx32 "\n",
-                      cur_el, new_el, env->regs[15]);
-    } else {
-        env->aarch64 = 1;
-        pstate_write(env, spsr);
-        if (!arm_singlestep_active(env)) {
-            env->pstate &= ~PSTATE_SS;
-        }
-        aarch64_restore_sp(env, new_el);
-        env->pc = env->elr_el[cur_el];
-        qemu_log_mask(CPU_LOG_INT, "Exception return from AArch64 EL%d to "
-                      "AArch64 EL%d PC 0x%" PRIx64 "\n",
-                      cur_el, new_el, env->pc);
-    }
-    /*
-     * Note that cur_el can never be 0.  If new_el is 0, then
-     * el0_a64 is return_to_aa64, else el0_a64 is ignored.
-     */
-    aarch64_sve_change_el(env, cur_el, new_el, return_to_aa64);
-
-    qemu_mutex_lock_iothread();
-    arm_call_el_change_hook(arm_env_get_cpu(env));
-    qemu_mutex_unlock_iothread();
-
-    return;
-
-illegal_return:
-    /* Illegal return events of various kinds have architecturally
-     * mandated behaviour:
-     * restore NZCV and DAIF from SPSR_ELx
-     * set PSTATE.IL
-     * restore PC from ELR_ELx
-     * no change to exception level, execution state or stack pointer
-     */
-    env->pstate |= PSTATE_IL;
-    env->pc = env->elr_el[cur_el];
-    spsr &= PSTATE_NZCV | PSTATE_DAIF;
-    spsr |= pstate_read(env) & ~(PSTATE_NZCV | PSTATE_DAIF);
-    pstate_write(env, spsr);
-    if (!arm_singlestep_active(env)) {
-        env->pstate &= ~PSTATE_SS;
-    }
-    qemu_log_mask(LOG_GUEST_ERROR, "Illegal exception return at EL%d: "
-                  "resuming execution at 0x%" PRIx64 "\n", cur_el, env->pc);
-}
-
 /* Return true if the linked breakpoint entry lbn passes its checks */
 static bool linked_bp_matches(ARMCPU *cpu, int lbn)
 {
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-a64.h    |  2 +-
 target/arm/helper-a64.c    | 10 +++++-----
 target/arm/translate-a64.c |  7 ++++++-
 3 files changed, 12 insertions(+), 7 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This will enable PAuth decode in a subsequent patch.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 47 +++++++++++++++++++++++++++++---------
 1 file changed, 36 insertions(+), 11 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
     rn = extract32(insn, 5, 5);
     op4 = extract32(insn, 0, 5);
 
-    if (op4 != 0x0 || op3 != 0x0 || op2 != 0x1f) {
-        unallocated_encoding(s);
-        return;
+    if (op2 != 0x1f) {
+        goto do_unallocated;
     }
 
     switch (opc) {
     case 0: /* BR */
     case 1: /* BLR */
     case 2: /* RET */
-        gen_a64_set_pc(s, cpu_reg(s, rn));
+        switch (op3) {
+        case 0:
+            if (op4 != 0) {
+                goto do_unallocated;
+            }
+            dst = cpu_reg(s, rn);
+            break;
+
+        default:
+            goto do_unallocated;
+        }
+
+        gen_a64_set_pc(s, dst);
         /* BLR also needs to load return address */
         if (opc == 1) {
             tcg_gen_movi_i64(cpu_reg(s, 30), s->pc);
         }
         break;
+
     case 4: /* ERET */
         if (s->current_el == 0) {
-            unallocated_encoding(s);
-            return;
+            goto do_unallocated;
+        }
+        switch (op3) {
+        case 0:
+            if (op4 != 0) {
+                goto do_unallocated;
+            }
+            dst = tcg_temp_new_i64();
+            tcg_gen_ld_i64(dst, cpu_env,
+                           offsetof(CPUARMState, elr_el[s->current_el]));
+            break;
+
+        default:
+            goto do_unallocated;
         }
         if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
             gen_io_start();
         }
-        dst = tcg_temp_new_i64();
-        tcg_gen_ld_i64(dst, cpu_env,
-                       offsetof(CPUARMState, elr_el[s->current_el]));
+
         gen_helper_exception_return(cpu_env, dst);
         tcg_temp_free_i64(dst);
         if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
         /* Must exit loop to check un-masked IRQs */
         s->base.is_jmp = DISAS_EXIT;
         return;
+
     case 5: /* DRPS */
-        if (rn != 0x1f) {
-            unallocated_encoding(s);
+        if (op3 != 0 || op4 != 0 || rn != 0x1f) {
+            goto do_unallocated;
         } else {
             unsupported_encoding(s, insn);
         }
         return;
+
     default:
+    do_unallocated:
         unallocated_encoding(s);
         return;
     }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 82 +++++++++++++++++++++++++++++++++++++-
 1 file changed, 81 insertions(+), 1 deletion(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
 {
     unsigned int opc, op2, op3, rn, op4;
     TCGv_i64 dst;
+    TCGv_i64 modifier;
 
     opc = extract32(insn, 21, 4);
     op2 = extract32(insn, 16, 5);
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
     case 2: /* RET */
         switch (op3) {
         case 0:
+            /* BR, BLR, RET */
             if (op4 != 0) {
                 goto do_unallocated;
             }
             dst = cpu_reg(s, rn);
             break;
 
+        case 2:
+        case 3:
+            if (!dc_isar_feature(aa64_pauth, s)) {
+                goto do_unallocated;
+            }
+            if (opc == 2) {
+                /* RETAA, RETAB */
+                if (rn != 0x1f || op4 != 0x1f) {
+                    goto do_unallocated;
+                }
+                rn = 30;
+                modifier = cpu_X[31];
+            } else {
+                /* BRAAZ, BRABZ, BLRAAZ, BLRABZ */
+                if (op4 != 0x1f) {
+                    goto do_unallocated;
+                }
+                modifier = new_tmp_a64_zero(s);
+            }
+            if (s->pauth_active) {
+                dst = new_tmp_a64(s);
+                if (op3 == 2) {
+                    gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
+                } else {
+                    gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
+                }
+            } else {
+                dst = cpu_reg(s, rn);
+            }
+            break;
+
         default:
             goto do_unallocated;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
         }
         break;
 
+    case 8: /* BRAA */
+    case 9: /* BLRAA */
+        if (!dc_isar_feature(aa64_pauth, s)) {
+            goto do_unallocated;
+        }
+        if (op3 != 2 || op3 != 3) {
+            goto do_unallocated;
+        }
+        if (s->pauth_active) {
+            dst = new_tmp_a64(s);
+            modifier = cpu_reg_sp(s, op4);
+            if (op3 == 2) {
+                gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
+            } else {
+                gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
+            }
+        } else {
+            dst = cpu_reg(s, rn);
+        }
+        gen_a64_set_pc(s, dst);
+        /* BLRAA also needs to load return address */
+        if (opc == 9) {
+            tcg_gen_movi_i64(cpu_reg(s, 30), s->pc);
+        }
+        break;
+
     case 4: /* ERET */
         if (s->current_el == 0) {
             goto do_unallocated;
         }
         switch (op3) {
-        case 0:
+        case 0: /* ERET */
             if (op4 != 0) {
                 goto do_unallocated;
             }
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
                            offsetof(CPUARMState, elr_el[s->current_el]));
             break;
 
+        case 2: /* ERETAA */
+        case 3: /* ERETAB */
+            if (!dc_isar_feature(aa64_pauth, s)) {
+                goto do_unallocated;
+            }
+            if (rn != 0x1f || op4 != 0x1f) {
+                goto do_unallocated;
+            }
+            dst = tcg_temp_new_i64();
+            tcg_gen_ld_i64(dst, cpu_env,
+                           offsetof(CPUARMState, elr_el[s->current_el]));
+            if (s->pauth_active) {
+                modifier = cpu_X[31];
+                if (op3 == 2) {
+                    gen_helper_autia(dst, cpu_env, dst, modifier);
+                } else {
+                    gen_helper_autib(dst, cpu_env, dst, modifier);
+                }
+            }
+            break;
+
         default:
             goto do_unallocated;
         }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Not that there are any stores involved, but why argue with ARM's
naming convention.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-15-richard.henderson@linaro.org
[fixed trivial comment nit]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 61 ++++++++++++++++++++++++++++++++++++++
 1 file changed, 61 insertions(+)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_atomic(DisasContext *s, uint32_t insn,
        s->be_data | size | MO_ALIGN);
 }
 
+/*
+ * PAC memory operations
+ *
+ *  31  30      27  26    24    22  21       12  11  10    5     0
+ * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
+ * | size | 1 1 1 | V | 0 0 | M S | 1 |  imm9  | W | 1 | Rn |  Rt |
+ * +------+-------+---+-----+-----+---+--------+---+---+----+-----+
+ *
+ * Rt: the result register
+ * Rn: base address or SP
+ * V: vector flag (always 0 as of v8.3)
+ * M: clear for key DA, set for key DB
+ * W: pre-indexing flag
+ * S: sign for imm9.
+ */
+static void disas_ldst_pac(DisasContext *s, uint32_t insn,
+                           int size, int rt, bool is_vector)
+{
+    int rn = extract32(insn, 5, 5);
+    bool is_wback = extract32(insn, 11, 1);
+    bool use_key_a = !extract32(insn, 23, 1);
+    int offset;
+    TCGv_i64 tcg_addr, tcg_rt;
+
+    if (size != 3 || is_vector || !dc_isar_feature(aa64_pauth, s)) {
+        unallocated_encoding(s);
+        return;
+    }
+
+    if (rn == 31) {
+        gen_check_sp_alignment(s);
+    }
+    tcg_addr = read_cpu_reg_sp(s, rn, 1);
+
+    if (s->pauth_active) {
+        if (use_key_a) {
+            gen_helper_autda(tcg_addr, cpu_env, tcg_addr, cpu_X[31]);
+        } else {
+            gen_helper_autdb(tcg_addr, cpu_env, tcg_addr, cpu_X[31]);
+        }
+    }
+
+    /* Form the 10-bit signed, scaled offset.  */
+    offset = (extract32(insn, 22, 1) << 9) | extract32(insn, 12, 9);
+    offset = sextract32(offset << size, 0, 10 + size);
+    tcg_gen_addi_i64(tcg_addr, tcg_addr, offset);
+
+    tcg_rt = cpu_reg(s, rt);
+
+    do_gpr_ld(s, tcg_rt, tcg_addr, size, /* is_signed */ false,
+              /* extend */ false, /* iss_valid */ !is_wback,
+              /* iss_srt */ rt, /* iss_sf */ true, /* iss_ar */ false);
+
+    if (is_wback) {
+        tcg_gen_mov_i64(cpu_reg_sp(s, rn), tcg_addr);
+    }
+}
+
 /* Load/store register (all forms) */
 static void disas_ldst_reg(DisasContext *s, uint32_t insn)
 {
@@ -XXX,XX +XXX,XX @@ static void disas_ldst_reg(DisasContext *s, uint32_t insn)
         case 2:
             disas_ldst_reg_roffset(s, insn, opc, size, rt, is_vector);
             return;
+        default:
+            disas_ldst_pac(s, insn, size, rt, is_vector);
+            return;
         }
         break;
     case 1:
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This function is, or will shortly become, too big to inline.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 48 +++++----------------------------------------
 target/arm/helper.c | 44 +++++++++++++++++++++++++++++++++++++++++
 2 files changed, 49 insertions(+), 43 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline int arm_mmu_idx_to_el(ARMMMUIdx mmu_idx)
 }
 
 /* Return the MMU index for a v7M CPU in the specified security and
- * privilege state
+ * privilege state.
  */
-static inline ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
-                                                              bool secstate,
-                                                              bool priv)
-{
-    ARMMMUIdx mmu_idx = ARM_MMU_IDX_M;
-
-    if (priv) {
-        mmu_idx |= ARM_MMU_IDX_M_PRIV;
-    }
-
-    if (armv7m_nvic_neg_prio_requested(env->nvic, secstate)) {
-        mmu_idx |= ARM_MMU_IDX_M_NEGPRI;
-    }
-
-    if (secstate) {
-        mmu_idx |= ARM_MMU_IDX_M_S;
-    }
-
-    return mmu_idx;
-}
+ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
+                                                bool secstate, bool priv);
 
 /* Return the MMU index for a v7M CPU in the specified security state */
-static inline ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env,
-                                                     bool secstate)
-{
-    bool priv = arm_current_el(env) != 0;
-
-    return arm_v7m_mmu_idx_for_secstate_and_priv(env, secstate, priv);
-}
+ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate);
 
 /* Determine the current mmu_idx to use for normal loads/stores */
-static inline int cpu_mmu_index(CPUARMState *env, bool ifetch)
-{
-    int el = arm_current_el(env);
-
-    if (arm_feature(env, ARM_FEATURE_M)) {
-        ARMMMUIdx mmu_idx = arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
-
-        return arm_to_core_mmu_idx(mmu_idx);
-    }
-
-    if (el < 2 && arm_is_secure_below_el3(env)) {
-        return arm_to_core_mmu_idx(ARMMMUIdx_S1SE0 + el);
-    }
-    return el;
-}
+int cpu_mmu_index(CPUARMState *env, bool ifetch);
 
 /* Indexes used when registering address spaces with cpu_address_space_init */
 typedef enum ARMASIdx {
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
     return 0;
 }
 
+ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
+                                                bool secstate, bool priv)
+{
+    ARMMMUIdx mmu_idx = ARM_MMU_IDX_M;
+
+    if (priv) {
+        mmu_idx |= ARM_MMU_IDX_M_PRIV;
+    }
+
+    if (armv7m_nvic_neg_prio_requested(env->nvic, secstate)) {
+        mmu_idx |= ARM_MMU_IDX_M_NEGPRI;
+    }
+
+    if (secstate) {
+        mmu_idx |= ARM_MMU_IDX_M_S;
+    }
+
+    return mmu_idx;
+}
+
+/* Return the MMU index for a v7M CPU in the specified security state */
+ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate)
+{
+    bool priv = arm_current_el(env) != 0;
+
+    return arm_v7m_mmu_idx_for_secstate_and_priv(env, secstate, priv);
+}
+
+int cpu_mmu_index(CPUARMState *env, bool ifetch)
+{
+    int el = arm_current_el(env);
+
+    if (arm_feature(env, ARM_FEATURE_M)) {
+        ARMMMUIdx mmu_idx = arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
+
+        return arm_to_core_mmu_idx(mmu_idx);
+    }
+
+    if (el < 2 && arm_is_secure_below_el3(env)) {
+        return arm_to_core_mmu_idx(ARMMMUIdx_S1SE0 + el);
+    }
+    return el;
+}
+
 void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                           target_ulong *cs_base, uint32_t *pflags)
 {
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The pattern

ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));

is computing the full ARMMMUIdx, stripping off the ARM bits,
and then putting them back.

Avoid the extra two steps with the appropriate helper function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h       |  9 ++++++++-
 target/arm/internals.h |  8 ++++++++
 target/arm/helper.c    | 27 ++++++++++++++++-----------
 3 files changed, 32 insertions(+), 12 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_v7m_mmu_idx_for_secstate_and_priv(CPUARMState *env,
 /* Return the MMU index for a v7M CPU in the specified security state */
 ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate);
 
-/* Determine the current mmu_idx to use for normal loads/stores */
+/**
+ * cpu_mmu_index:
+ * @env: The cpu environment
+ * @ifetch: True for code access, false for data access.
+ *
+ * Return the core mmu index for the current translation regime.
+ * This function is used by generic TCG code paths.
+ */
 int cpu_mmu_index(CPUARMState *env, bool ifetch);
 
 /* Indexes used when registering address spaces with cpu_address_space_init */
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void arm_cpu_update_virq(ARMCPU *cpu);
  */
 void arm_cpu_update_vfiq(ARMCPU *cpu);
 
+/**
+ * arm_mmu_idx:
+ * @env: The cpu environment
+ *
+ * Return the full ARMMMUIdx for the current translation regime.
+ */
+ARMMMUIdx arm_mmu_idx(CPUARMState *env);
+
 #endif
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_callee_stack(ARMCPU *cpu, uint32_t lr, bool dotailchain,
             limit = env->v7m.msplim[M_REG_S];
         }
     } else {
-        mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
+        mmu_idx = arm_mmu_idx(env);
         frame_sp_p = &env->regs[13];
         limit = v7m_sp_limit(env);
     }
@@ -XXX,XX +XXX,XX @@ static bool v7m_push_stack(ARMCPU *cpu)
     CPUARMState *env = &cpu->env;
     uint32_t xpsr = xpsr_read(env);
     uint32_t frameptr = env->regs[13];
-    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
+    ARMMMUIdx mmu_idx = arm_mmu_idx(env);
 
     /* Align stack pointer if the guest wants that */
     if ((frameptr & 4) &&
@@ -XXX,XX +XXX,XX @@ hwaddr arm_cpu_get_phys_page_attrs_debug(CPUState *cs, vaddr addr,
     int prot;
     bool ret;
     ARMMMUFaultInfo fi = {};
-    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
+    ARMMMUIdx mmu_idx = arm_mmu_idx(env);
 
     *attrs = (MemTxAttrs) {};
 
@@ -XXX,XX +XXX,XX @@ ARMMMUIdx arm_v7m_mmu_idx_for_secstate(CPUARMState *env, bool secstate)
     return arm_v7m_mmu_idx_for_secstate_and_priv(env, secstate, priv);
 }
 
-int cpu_mmu_index(CPUARMState *env, bool ifetch)
+ARMMMUIdx arm_mmu_idx(CPUARMState *env)
 {
-    int el = arm_current_el(env);
+    int el;
 
     if (arm_feature(env, ARM_FEATURE_M)) {
-        ARMMMUIdx mmu_idx = arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
-
-        return arm_to_core_mmu_idx(mmu_idx);
+        return arm_v7m_mmu_idx_for_secstate(env, env->v7m.secure);
     }
 
+    el = arm_current_el(env);
     if (el < 2 && arm_is_secure_below_el3(env)) {
-        return arm_to_core_mmu_idx(ARMMMUIdx_S1SE0 + el);
+        return ARMMMUIdx_S1SE0 + el;
+    } else {
+        return ARMMMUIdx_S12NSE0 + el;
     }
-    return el;
+}
+
+int cpu_mmu_index(CPUARMState *env, bool ifetch)
+{
+    return arm_to_core_mmu_idx(arm_mmu_idx(env));
 }
 
 void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                           target_ulong *cs_base, uint32_t *pflags)
 {
-    ARMMMUIdx mmu_idx = core_to_arm_mmu_idx(env, cpu_mmu_index(env, false));
+    ARMMMUIdx mmu_idx = arm_mmu_idx(env);
     int current_el = arm_current_el(env);
     int fp_el = fp_exception_el(env, current_el);
     uint32_t flags = 0;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

While we could expose stage_1_mmu_idx, the combination is
probably going to be more useful.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h | 15 +++++++++++++++
 target/arm/helper.c    |  7 +++++++
 2 files changed, 22 insertions(+)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ void arm_cpu_update_vfiq(ARMCPU *cpu);
  */
 ARMMMUIdx arm_mmu_idx(CPUARMState *env);
 
+/**
+ * arm_stage1_mmu_idx:
+ * @env: The cpu environment
+ *
+ * Return the ARMMMUIdx for the stage1 traversal for the current regime.
+ */
+#ifdef CONFIG_USER_ONLY
+static inline ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
+{
+    return ARMMMUIdx_S1NSE0;
+}
+#else
+ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env);
+#endif
+
 #endif
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ int cpu_mmu_index(CPUARMState *env, bool ifetch)
     return arm_to_core_mmu_idx(arm_mmu_idx(env));
 }
 
+#ifndef CONFIG_USER_ONLY
+ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
+{
+    return stage_1_mmu_idx(arm_mmu_idx(env));
+}
+#endif
+
 void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                           target_ulong *cs_base, uint32_t *pflags)
 {
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Split out functions to extract the virtual address parameters.
Let the functions choose T0 or T1 address space half, if present.
Extract (most of) the control bits that vary between EL or Tx.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-19-richard.henderson@linaro.org
[PMM: fixed minor checkpatch comment nits]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h |  14 +++
 target/arm/helper.c    | 278 ++++++++++++++++++++++-------------------
 2 files changed, 164 insertions(+), 128 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env)
 ARMMMUIdx arm_stage1_mmu_idx(CPUARMState *env);
 #endif
 
+/*
+ * Parameters of a given virtual address, as extracted from the
+ * translation control register (TCR) for a given regime.
+ */
+typedef struct ARMVAParameters {
+    unsigned tsz    : 8;
+    unsigned select : 1;
+    bool tbi        : 1;
+    bool epd        : 1;
+    bool hpd        : 1;
+    bool using16k   : 1;
+    bool using64k   : 1;
+} ARMVAParameters;
+
 #endif
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint8_t convert_stage2_attrs(CPUARMState *env, uint8_t s2attrs)
     return (hiattr << 6) | (hihint << 4) | (loattr << 2) | lohint;
 }
 
+static ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+                                          ARMMMUIdx mmu_idx, bool data)
+{
+    uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
+    uint32_t el = regime_el(env, mmu_idx);
+    bool tbi, epd, hpd, using16k, using64k;
+    int select, tsz;
+
+    /*
+     * Bit 55 is always between the two regions, and is canonical for
+     * determining if address tagging is enabled.
+     */
+    select = extract64(va, 55, 1);
+
+    if (el > 1) {
+        tsz = extract32(tcr, 0, 6);
+        using64k = extract32(tcr, 14, 1);
+        using16k = extract32(tcr, 15, 1);
+        if (mmu_idx == ARMMMUIdx_S2NS) {
+            /* VTCR_EL2 */
+            tbi = hpd = false;
+        } else {
+            tbi = extract32(tcr, 20, 1);
+            hpd = extract32(tcr, 24, 1);
+        }
+        epd = false;
+    } else if (!select) {
+        tsz = extract32(tcr, 0, 6);
+        epd = extract32(tcr, 7, 1);
+        using64k = extract32(tcr, 14, 1);
+        using16k = extract32(tcr, 15, 1);
+        tbi = extract64(tcr, 37, 1);
+        hpd = extract64(tcr, 41, 1);
+    } else {
+        int tg = extract32(tcr, 30, 2);
+        using16k = tg == 1;
+        using64k = tg == 3;
+        tsz = extract32(tcr, 16, 6);
+        epd = extract32(tcr, 23, 1);
+        tbi = extract64(tcr, 38, 1);
+        hpd = extract64(tcr, 42, 1);
+    }
+    tsz = MIN(tsz, 39);  /* TODO: ARMv8.4-TTST */
+    tsz = MAX(tsz, 16);  /* TODO: ARMv8.2-LVA  */
+
+    return (ARMVAParameters) {
+        .tsz = tsz,
+        .select = select,
+        .tbi = tbi,
+        .epd = epd,
+        .hpd = hpd,
+        .using16k = using16k,
+        .using64k = using64k,
+    };
+}
+
+static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
+                                          ARMMMUIdx mmu_idx)
+{
+    uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
+    uint32_t el = regime_el(env, mmu_idx);
+    int select, tsz;
+    bool epd, hpd;
+
+    if (mmu_idx == ARMMMUIdx_S2NS) {
+        /* VTCR */
+        bool sext = extract32(tcr, 4, 1);
+        bool sign = extract32(tcr, 3, 1);
+
+        /*
+         * If the sign-extend bit is not the same as t0sz[3], the result
+         * is unpredictable. Flag this as a guest error.
+         */
+        if (sign != sext) {
+            qemu_log_mask(LOG_GUEST_ERROR,
+                          "AArch32: VTCR.S / VTCR.T0SZ[3] mismatch\n");
+        }
+        tsz = sextract32(tcr, 0, 4) + 8;
+        select = 0;
+        hpd = false;
+        epd = false;
+    } else if (el == 2) {
+        /* HTCR */
+        tsz = extract32(tcr, 0, 3);
+        select = 0;
+        hpd = extract64(tcr, 24, 1);
+        epd = false;
+    } else {
+        int t0sz = extract32(tcr, 0, 3);
+        int t1sz = extract32(tcr, 16, 3);
+
+        if (t1sz == 0) {
+            select = va > (0xffffffffu >> t0sz);
+        } else {
+            /* Note that we will detect errors later.  */
+            select = va >= ~(0xffffffffu >> t1sz);
+        }
+        if (!select) {
+            tsz = t0sz;
+            epd = extract32(tcr, 7, 1);
+            hpd = extract64(tcr, 41, 1);
+        } else {
+            tsz = t1sz;
+            epd = extract32(tcr, 23, 1);
+            hpd = extract64(tcr, 42, 1);
+        }
+        /* For aarch32, hpd0 is not enabled without t2e as well.  */
+        hpd &= extract32(tcr, 6, 1);
+    }
+
+    return (ARMVAParameters) {
+        .tsz = tsz,
+        .select = select,
+        .epd = epd,
+        .hpd = hpd,
+    };
+}
+
 static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
                                MMUAccessType access_type, ARMMMUIdx mmu_idx,
                                hwaddr *phys_ptr, MemTxAttrs *txattrs, int *prot,
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
     /* Read an LPAE long-descriptor translation table. */
     ARMFaultType fault_type = ARMFault_Translation;
     uint32_t level;
-    uint32_t epd = 0;
-    int32_t t0sz, t1sz;
-    uint32_t tg;
+    ARMVAParameters param;
     uint64_t ttbr;
-    int ttbr_select;
     hwaddr descaddr, indexmask, indexmask_grainsize;
     uint32_t tableattrs;
-    target_ulong page_size;
+    target_ulong page_size, top_bits;
     uint32_t attrs;
-    int32_t stride = 9;
-    int32_t addrsize;
-    int inputsize;
-    int32_t tbi = 0;
+    int32_t stride;
+    int addrsize, inputsize;
     TCR *tcr = regime_tcr(env, mmu_idx);
     int ap, ns, xn, pxn;
     uint32_t el = regime_el(env, mmu_idx);
-    bool ttbr1_valid = true;
+    bool ttbr1_valid;
     uint64_t descaddrmask;
     bool aarch64 = arm_el_is_aa64(env, el);
-    bool hpd = false;
 
     /* TODO:
      * This code does not handle the different format TCR for VTCR_EL2.
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
      * support for those page table walks.
      */
     if (aarch64) {
+        param = aa64_va_parameters(env, address, mmu_idx,
+                                   access_type != MMU_INST_FETCH);
         level = 0;
-        addrsize = 64;
-        if (el > 1) {
-            if (mmu_idx != ARMMMUIdx_S2NS) {
-                tbi = extract64(tcr->raw_tcr, 20, 1);
-            }
-        } else {
-            if (extract64(address, 55, 1)) {
-                tbi = extract64(tcr->raw_tcr, 38, 1);
-            } else {
-                tbi = extract64(tcr->raw_tcr, 37, 1);
-            }
-        }
-        tbi *= 8;
-
         /* If we are in 64-bit EL2 or EL3 then there is no TTBR1, so mark it
          * invalid.
          */
-        if (el > 1) {
-            ttbr1_valid = false;
-        }
+        ttbr1_valid = (el < 2);
+        addrsize = 64 - 8 * param.tbi;
+        inputsize = 64 - param.tsz;
     } else {
+        param = aa32_va_parameters(env, address, mmu_idx);
         level = 1;
-        addrsize = 32;
         /* There is no TTBR1 for EL2 */
-        if (el == 2) {
-            ttbr1_valid = false;
-        }
+        ttbr1_valid = (el != 2);
+        addrsize = (mmu_idx == ARMMMUIdx_S2NS ? 40 : 32);
+        inputsize = addrsize - param.tsz;
     }
 
-    /* Determine whether this address is in the region controlled by
-     * TTBR0 or TTBR1 (or if it is in neither region and should fault).
-     * This is a Non-secure PL0/1 stage 1 translation, so controlled by
-     * TTBCR/TTBR0/TTBR1 in accordance with ARM ARM DDI0406C table B-32:
+    /*
+     * We determined the region when collecting the parameters, but we
+     * have not yet validated that the address is valid for the region.
+     * Extract the top bits and verify that they all match select.
      */
-    if (aarch64) {
-        /* AArch64 translation.  */
-        t0sz = extract32(tcr->raw_tcr, 0, 6);
-        t0sz = MIN(t0sz, 39);
-        t0sz = MAX(t0sz, 16);
-    } else if (mmu_idx != ARMMMUIdx_S2NS) {
-        /* AArch32 stage 1 translation.  */
-        t0sz = extract32(tcr->raw_tcr, 0, 3);
-    } else {
-        /* AArch32 stage 2 translation.  */
-        bool sext = extract32(tcr->raw_tcr, 4, 1);
-        bool sign = extract32(tcr->raw_tcr, 3, 1);
-        /* Address size is 40-bit for a stage 2 translation,
-         * and t0sz can be negative (from -8 to 7),
-         * so we need to adjust it to use the TTBR selecting logic below.
-         */
-        addrsize = 40;
-        t0sz = sextract32(tcr->raw_tcr, 0, 4) + 8;
-
-        /* If the sign-extend bit is not the same as t0sz[3], the result
-         * is unpredictable. Flag this as a guest error.  */
-        if (sign != sext) {
-            qemu_log_mask(LOG_GUEST_ERROR,
-                          "AArch32: VTCR.S / VTCR.T0SZ[3] mismatch\n");
-        }
-    }
-    t1sz = extract32(tcr->raw_tcr, 16, 6);
-    if (aarch64) {
-        t1sz = MIN(t1sz, 39);
-        t1sz = MAX(t1sz, 16);
-    }
-    if (t0sz && !extract64(address, addrsize - t0sz, t0sz - tbi)) {
-        /* there is a ttbr0 region and we are in it (high bits all zero) */
-        ttbr_select = 0;
-    } else if (ttbr1_valid && t1sz &&
-               !extract64(~address, addrsize - t1sz, t1sz - tbi)) {
-        /* there is a ttbr1 region and we are in it (high bits all one) */
-        ttbr_select = 1;
-    } else if (!t0sz) {
-        /* ttbr0 region is "everything not in the ttbr1 region" */
-        ttbr_select = 0;
-    } else if (!t1sz && ttbr1_valid) {
-        /* ttbr1 region is "everything not in the ttbr0 region" */
-        ttbr_select = 1;
-    } else {
-        /* in the gap between the two regions, this is a Translation fault */
+    top_bits = sextract64(address, inputsize, addrsize - inputsize);
+    if (-top_bits != param.select || (param.select && !ttbr1_valid)) {
+        /* In the gap between the two regions, this is a Translation fault */
         fault_type = ARMFault_Translation;
         goto do_fault;
     }
 
+    if (param.using64k) {
+        stride = 13;
+    } else if (param.using16k) {
+        stride = 11;
+    } else {
+        stride = 9;
+    }
+
     /* Note that QEMU ignores shareability and cacheability attributes,
      * so we don't need to do anything with the SH, ORGN, IRGN fields
      * in the TTBCR.  Similarly, TTBCR:A1 selects whether we get the
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
      * implement any ASID-like capability so we can ignore it (instead
      * we will always flush the TLB any time the ASID is changed).
      */
-    if (ttbr_select == 0) {
-        ttbr = regime_ttbr(env, mmu_idx, 0);
-        if (el < 2) {
-            epd = extract32(tcr->raw_tcr, 7, 1);
-        }
-        inputsize = addrsize - t0sz;
-
-        tg = extract32(tcr->raw_tcr, 14, 2);
-        if (tg == 1) { /* 64KB pages */
-            stride = 13;
-        }
-        if (tg == 2) { /* 16KB pages */
-            stride = 11;
-        }
-        if (aarch64 && el > 1) {
-            hpd = extract64(tcr->raw_tcr, 24, 1);
-        } else {
-            hpd = extract64(tcr->raw_tcr, 41, 1);
-        }
-        if (!aarch64) {
-            /* For aarch32, hpd0 is not enabled without t2e as well.  */
-            hpd &= extract64(tcr->raw_tcr, 6, 1);
-        }
-    } else {
-        /* We should only be here if TTBR1 is valid */
-        assert(ttbr1_valid);
-
-        ttbr = regime_ttbr(env, mmu_idx, 1);
-        epd = extract32(tcr->raw_tcr, 23, 1);
-        inputsize = addrsize - t1sz;
-
-        tg = extract32(tcr->raw_tcr, 30, 2);
-        if (tg == 3)  { /* 64KB pages */
-            stride = 13;
-        }
-        if (tg == 1) { /* 16KB pages */
-            stride = 11;
-        }
-        hpd = extract64(tcr->raw_tcr, 42, 1);
-        if (!aarch64) {
-            /* For aarch32, hpd1 is not enabled without t2e as well.  */
-            hpd &= extract64(tcr->raw_tcr, 6, 1);
-        }
-    }
+    ttbr = regime_ttbr(env, mmu_idx, param.select);
 
     /* Here we should have set up all the parameters for the translation:
      * inputsize, ttbr, epd, stride, tbi
      */
 
-    if (epd) {
+    if (param.epd) {
         /* Translation table walk disabled => Translation fault on TLB miss
          * Note: This is always 0 on 64-bit EL2 and EL3.
          */
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, target_ulong address,
         }
         /* Merge in attributes from table descriptors */
         attrs |= nstable << 3; /* NS */
-        if (hpd) {
+        if (param.hpd) {
             /* HPD disables all the table attributes except NSTable.  */
             break;
         }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We will shortly want to talk about TBI as it relates to data.
Passing around a pair of variables is less convenient than a
single variable.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           |  3 +--
 target/arm/translate.h     |  3 +--
 target/arm/helper.c        |  5 ++---
 target/arm/translate-a64.c | 13 +++++++------
 4 files changed, 11 insertions(+), 13 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_A32, HANDLER, 21, 1)
 FIELD(TBFLAG_A32, STACKCHECK, 22, 1)
 
 /* Bit usage when in AArch64 state */
-FIELD(TBFLAG_A64, TBI0, 0, 1)
-FIELD(TBFLAG_A64, TBI1, 1, 1)
+FIELD(TBFLAG_A64, TBII, 0, 2)
 FIELD(TBFLAG_A64, SVEEXC_EL, 2, 2)
 FIELD(TBFLAG_A64, ZCR_LEN, 4, 4)
 FIELD(TBFLAG_A64, PAUTH_ACTIVE, 8, 1)
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     int user;
 #endif
     ARMMMUIdx mmu_idx; /* MMU index to use for normal loads/stores */
-    bool tbi0;         /* TBI0 for EL0/1 or TBI for EL2/3 */
-    bool tbi1;         /* TBI1 for EL0/1, not used for EL2/3 */
+    uint8_t tbii;      /* TBI1|TBI0 for EL0/1 or TBI for EL2/3 */
     bool ns;        /* Use non-secure CPREG bank on access */
     int fp_excp_el; /* FP exception EL or 0 if enabled */
     int sve_excp_el; /* SVE exception EL or 0 if enabled */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
         *pc = env->pc;
         flags = FIELD_DP32(flags, TBFLAG_ANY, AARCH64_STATE, 1);
         /* Get control bits for tagged addresses */
-        flags = FIELD_DP32(flags, TBFLAG_A64, TBI0,
+        flags = FIELD_DP32(flags, TBFLAG_A64, TBII,
+                           (arm_regime_tbi1(env, mmu_idx) << 1) |
                            arm_regime_tbi0(env, mmu_idx));
-        flags = FIELD_DP32(flags, TBFLAG_A64, TBI1,
-                           arm_regime_tbi1(env, mmu_idx));
 
         if (cpu_isar_feature(aa64_sve, cpu)) {
             int sve_el = sve_exception_el(env, current_el);
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ void gen_a64_set_pc_im(uint64_t val)
  */
 static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
 {
+    /* Note that TBII is TBI1:TBI0.  */
+    int tbi = s->tbii;
 
     if (s->current_el <= 1) {
         /* Test if NEITHER or BOTH TBI values are set.  If so, no need to
          * examine bit 55 of address, can just generate code.
          * If mixed, then test via generated code
          */
-        if (s->tbi0 && s->tbi1) {
+        if (tbi == 3) {
             TCGv_i64 tmp_reg = tcg_temp_new_i64();
             /* Both bits set, sign extension from bit 55 into [63:56] will
              * cover both cases
@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
             tcg_gen_shli_i64(tmp_reg, src, 8);
             tcg_gen_sari_i64(cpu_pc, tmp_reg, 8);
             tcg_temp_free_i64(tmp_reg);
-        } else if (!s->tbi0 && !s->tbi1) {
+        } else if (tbi == 0) {
             /* Neither bit set, just load it as-is */
             tcg_gen_mov_i64(cpu_pc, src);
         } else {
@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
 
             tcg_gen_andi_i64(tcg_bit55, src, (1ull << 55));
 
-            if (s->tbi0) {
+            if (tbi == 1) {
                 /* tbi0==1, tbi1==0, so 0-fill upper byte if bit 55 = 0 */
                 tcg_gen_andi_i64(tcg_tmpval, src,
                                  0x00FFFFFFFFFFFFFFull);
@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
             tcg_temp_free_i64(tcg_tmpval);
         }
     } else {  /* EL > 1 */
-        if (s->tbi0) {
+        if (tbi != 0) {
             /* Force tag byte to all zero */
             tcg_gen_andi_i64(cpu_pc, src, 0x00FFFFFFFFFFFFFFull);
         } else {
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
     dc->condexec_cond = 0;
     core_mmu_idx = FIELD_EX32(tb_flags, TBFLAG_ANY, MMUIDX);
     dc->mmu_idx = core_to_arm_mmu_idx(env, core_mmu_idx);
-    dc->tbi0 = FIELD_EX32(tb_flags, TBFLAG_A64, TBI0);
-    dc->tbi1 = FIELD_EX32(tb_flags, TBFLAG_A64, TBI1);
+    dc->tbii = FIELD_EX32(tb_flags, TBFLAG_A64, TBII);
     dc->current_el = arm_mmu_idx_to_el(dc->mmu_idx);
 #if !defined(CONFIG_USER_ONLY)
     dc->user = (dc->current_el == 0);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We need to reuse this from helper-a64.c.  Provide a stub
definition for CONFIG_USER_ONLY.  This matches the stub
definitions that we removed for arm_regime_tbi{0,1} before.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h | 17 +++++++++++++++++
 target/arm/helper.c    |  4 ++--
 2 files changed, 19 insertions(+), 2 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ typedef struct ARMVAParameters {
     bool using64k   : 1;
 } ARMVAParameters;
 
+#ifdef CONFIG_USER_ONLY
+static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
+                                                 uint64_t va,
+                                                 ARMMMUIdx mmu_idx, bool data)
+{
+    return (ARMVAParameters) {
+        /* 48-bit address space */
+        .tsz = 16,
+        /* We can't handle tagged addresses properly in user-only mode */
+        .tbi = false,
+    };
+}
+#else
+ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+                                   ARMMMUIdx mmu_idx, bool data);
+#endif
+
 #endif
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint8_t convert_stage2_attrs(CPUARMState *env, uint8_t s2attrs)
     return (hiattr << 6) | (hihint << 4) | (loattr << 2) | lohint;
 }
 
-static ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
-                                          ARMMMUIdx mmu_idx, bool data)
+ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+                                   ARMMMUIdx mmu_idx, bool data)
 {
     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
     uint32_t el = regime_el(env, mmu_idx);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We will want to check TBI for I and D simultaneously.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h | 15 ++++++++++++---
 target/arm/helper.c    | 10 ++++++++--
 2 files changed, 20 insertions(+), 5 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ typedef struct ARMVAParameters {
 } ARMVAParameters;
 
 #ifdef CONFIG_USER_ONLY
-static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
-                                                 uint64_t va,
-                                                 ARMMMUIdx mmu_idx, bool data)
+static inline ARMVAParameters aa64_va_parameters_both(CPUARMState *env,
+                                                      uint64_t va,
+                                                      ARMMMUIdx mmu_idx)
 {
     return (ARMVAParameters) {
         /* 48-bit address space */
@@ -XXX,XX +XXX,XX @@ static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
         .tbi = false,
     };
 }
+
+static inline ARMVAParameters aa64_va_parameters(CPUARMState *env,
+                                                 uint64_t va,
+                                                 ARMMMUIdx mmu_idx, bool data)
+{
+    return aa64_va_parameters_both(env, va, mmu_idx);
+}
 #else
+ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
+                                        ARMMMUIdx mmu_idx);
 ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
                                    ARMMMUIdx mmu_idx, bool data);
 #endif
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint8_t convert_stage2_attrs(CPUARMState *env, uint8_t s2attrs)
     return (hiattr << 6) | (hihint << 4) | (loattr << 2) | lohint;
 }
 
-ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
-                                   ARMMMUIdx mmu_idx, bool data)
+ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
+                                        ARMMMUIdx mmu_idx)
 {
     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
     uint32_t el = regime_el(env, mmu_idx);
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
     };
 }
 
+ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+                                   ARMMMUIdx mmu_idx, bool data)
+{
+    return aa64_va_parameters_both(env, va, mmu_idx);
+}
+
 static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
                                           ARMMMUIdx mmu_idx)
 {
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Use TBID in aa64_va_parameters depending on the data parameter.
This automatically updates all existing users of the function.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h |  1 +
 target/arm/helper.c    | 14 +++++++++++---
 2 files changed, 12 insertions(+), 3 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ typedef struct ARMVAParameters {
     unsigned tsz    : 8;
     unsigned select : 1;
     bool tbi        : 1;
+    bool tbid       : 1;
     bool epd        : 1;
     bool hpd        : 1;
     bool using16k   : 1;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
 {
     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
     uint32_t el = regime_el(env, mmu_idx);
-    bool tbi, epd, hpd, using16k, using64k;
+    bool tbi, tbid, epd, hpd, using16k, using64k;
     int select, tsz;
 
     /*
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
         using16k = extract32(tcr, 15, 1);
         if (mmu_idx == ARMMMUIdx_S2NS) {
             /* VTCR_EL2 */
-            tbi = hpd = false;
+            tbi = tbid = hpd = false;
         } else {
             tbi = extract32(tcr, 20, 1);
             hpd = extract32(tcr, 24, 1);
+            tbid = extract32(tcr, 29, 1);
         }
         epd = false;
     } else if (!select) {
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
         using16k = extract32(tcr, 15, 1);
         tbi = extract64(tcr, 37, 1);
         hpd = extract64(tcr, 41, 1);
+        tbid = extract64(tcr, 51, 1);
     } else {
         int tg = extract32(tcr, 30, 2);
         using16k = tg == 1;
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
         epd = extract32(tcr, 23, 1);
         tbi = extract64(tcr, 38, 1);
         hpd = extract64(tcr, 42, 1);
+        tbid = extract64(tcr, 52, 1);
     }
     tsz = MIN(tsz, 39);  /* TODO: ARMv8.4-TTST */
     tsz = MAX(tsz, 16);  /* TODO: ARMv8.2-LVA  */
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
         .tsz = tsz,
         .select = select,
         .tbi = tbi,
+        .tbid = tbid,
         .epd = epd,
         .hpd = hpd,
         .using16k = using16k,
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters_both(CPUARMState *env, uint64_t va,
 ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
                                    ARMMMUIdx mmu_idx, bool data)
 {
-    return aa64_va_parameters_both(env, va, mmu_idx);
+    ARMVAParameters ret = aa64_va_parameters_both(env, va, mmu_idx);
+
+    /* Present TBI as a composite with TBID.  */
+    ret.tbi &= (data || !ret.tbid);
+    return ret;
 }
 
 static ARMVAParameters aa32_va_parameters(CPUARMState *env, uint32_t va,
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The arm_regime_tbi{0,1} functions are replacable with the new function
by giving the lowest and highest address.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 35 -----------------------
 target/arm/helper.c | 70 ++++++++++++++++-----------------------------
 2 files changed, 24 insertions(+), 81 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool arm_cpu_bswap_data(CPUARMState *env)
 }
 #endif
 
-#ifndef CONFIG_USER_ONLY
-/**
- * arm_regime_tbi0:
- * @env: CPUARMState
- * @mmu_idx: MMU index indicating required translation regime
- *
- * Extracts the TBI0 value from the appropriate TCR for the current EL
- *
- * Returns: the TBI0 value.
- */
-uint32_t arm_regime_tbi0(CPUARMState *env, ARMMMUIdx mmu_idx);
-
-/**
- * arm_regime_tbi1:
- * @env: CPUARMState
- * @mmu_idx: MMU index indicating required translation regime
- *
- * Extracts the TBI1 value from the appropriate TCR for the current EL
- *
- * Returns: the TBI1 value.
- */
-uint32_t arm_regime_tbi1(CPUARMState *env, ARMMMUIdx mmu_idx);
-#else
-/* We can't handle tagged addresses properly in user-only mode */
-static inline uint32_t arm_regime_tbi0(CPUARMState *env, ARMMMUIdx mmu_idx)
-{
-    return 0;
-}
-
-static inline uint32_t arm_regime_tbi1(CPUARMState *env, ARMMMUIdx mmu_idx)
-{
-    return 0;
-}
-#endif
-
 void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
                           target_ulong *cs_base, uint32_t *flags);
 
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static inline ARMMMUIdx stage_1_mmu_idx(ARMMMUIdx mmu_idx)
     return mmu_idx;
 }
 
-/* Returns TBI0 value for current regime el */
-uint32_t arm_regime_tbi0(CPUARMState *env, ARMMMUIdx mmu_idx)
-{
-    TCR *tcr;
-    uint32_t el;
-
-    /* For EL0 and EL1, TBI is controlled by stage 1's TCR, so convert
-     * a stage 1+2 mmu index into the appropriate stage 1 mmu index.
-     */
-    mmu_idx = stage_1_mmu_idx(mmu_idx);
-
-    tcr = regime_tcr(env, mmu_idx);
-    el = regime_el(env, mmu_idx);
-
-    if (el > 1) {
-        return extract64(tcr->raw_tcr, 20, 1);
-    } else {
-        return extract64(tcr->raw_tcr, 37, 1);
-    }
-}
-
-/* Returns TBI1 value for current regime el */
-uint32_t arm_regime_tbi1(CPUARMState *env, ARMMMUIdx mmu_idx)
-{
-    TCR *tcr;
-    uint32_t el;
-
-    /* For EL0 and EL1, TBI is controlled by stage 1's TCR, so convert
-     * a stage 1+2 mmu index into the appropriate stage 1 mmu index.
-     */
-    mmu_idx = stage_1_mmu_idx(mmu_idx);
-
-    tcr = regime_tcr(env, mmu_idx);
-    el = regime_el(env, mmu_idx);
-
-    if (el > 1) {
-        return 0;
-    } else {
-        return extract64(tcr->raw_tcr, 38, 1);
-    }
-}
-
 /* Return the TTBR associated with this translation regime */
 static inline uint64_t regime_ttbr(CPUARMState *env, ARMMMUIdx mmu_idx,
                                    int ttbrn)
@@ -XXX,XX +XXX,XX @@ void cpu_get_tb_cpu_state(CPUARMState *env, target_ulong *pc,
 
         *pc = env->pc;
         flags = FIELD_DP32(flags, TBFLAG_ANY, AARCH64_STATE, 1);
-        /* Get control bits for tagged addresses */
-        flags = FIELD_DP32(flags, TBFLAG_A64, TBII,
-                           (arm_regime_tbi1(env, mmu_idx) << 1) |
-                           arm_regime_tbi0(env, mmu_idx));
+
+#ifndef CONFIG_USER_ONLY
+        /*
+         * Get control bits for tagged addresses.  Note that the
+         * translator only uses this for instruction addresses.
+         */
+        {
+            ARMMMUIdx stage1 = stage_1_mmu_idx(mmu_idx);
+            ARMVAParameters p0 = aa64_va_parameters_both(env, 0, stage1);
+            int tbii, tbid;
+
+            /* FIXME: ARMv8.1-VHE S2 translation regime.  */
+            if (regime_el(env, stage1) < 2) {
+                ARMVAParameters p1 = aa64_va_parameters_both(env, -1, stage1);
+                tbid = (p1.tbi << 1) | p0.tbi;
+                tbii = tbid & ~((p1.tbid << 1) | p0.tbid);
+            } else {
+                tbid = p0.tbi;
+                tbii = tbid & !p0.tbid;
+            }
+
+            flags = FIELD_DP32(flags, TBFLAG_A64, TBII, tbii);
+        }
+#endif
 
         if (cpu_isar_feature(aa64_sve, cpu)) {
             int sve_el = sve_exception_el(env, current_el);
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Stripping out the authentication data does not require any crypto,
it merely requires the virtual address parameters.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-25-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/pauth_helper.c | 14 +++++++++++++-
 1 file changed, 13 insertions(+), 1 deletion(-)

diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/pauth_helper.c
+++ b/target/arm/pauth_helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
     g_assert_not_reached(); /* FIXME */
 }
 
+static uint64_t pauth_original_ptr(uint64_t ptr, ARMVAParameters param)
+{
+    uint64_t extfield = -param.select;
+    int bot_pac_bit = 64 - param.tsz;
+    int top_pac_bit = 64 - 8 * param.tbi;
+
+    return deposit64(ptr, bot_pac_bit, top_pac_bit - bot_pac_bit, extfield);
+}
+
 static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
                            ARMPACKey *key, bool data, int keynumber)
 {
@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
 
 static uint64_t pauth_strip(CPUARMState *env, uint64_t ptr, bool data)
 {
-    g_assert_not_reached(); /* FIXME */
+    ARMMMUIdx mmu_idx = arm_stage1_mmu_idx(env);
+    ARMVAParameters param = aa64_va_parameters(env, ptr, mmu_idx, data);
+
+    return pauth_original_ptr(ptr, param);
 }
 
 static void QEMU_NORETURN pauth_trap(CPUARMState *env, int target_el,
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This is not really functional yet, because the crypto is not yet
implemented.  This, however follows the Auth pseudo function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-26-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/pauth_helper.c | 21 ++++++++++++++++++++-
 1 file changed, 20 insertions(+), 1 deletion(-)

diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/pauth_helper.c
+++ b/target/arm/pauth_helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_original_ptr(uint64_t ptr, ARMVAParameters param)
 static uint64_t pauth_auth(CPUARMState *env, uint64_t ptr, uint64_t modifier,
                            ARMPACKey *key, bool data, int keynumber)
 {
-    g_assert_not_reached(); /* FIXME */
+    ARMMMUIdx mmu_idx = arm_stage1_mmu_idx(env);
+    ARMVAParameters param = aa64_va_parameters(env, ptr, mmu_idx, data);
+    int bot_bit, top_bit;
+    uint64_t pac, orig_ptr, test;
+
+    orig_ptr = pauth_original_ptr(ptr, param);
+    pac = pauth_computepac(orig_ptr, modifier, *key);
+    bot_bit = 64 - param.tsz;
+    top_bit = 64 - 8 * param.tbi;
+
+    test = (pac ^ ptr) & ~MAKE_64BIT_MASK(55, 1);
+    if (unlikely(extract64(test, bot_bit, top_bit - bot_bit))) {
+        int error_code = (keynumber << 1) | (keynumber ^ 1);
+        if (param.tbi) {
+            return deposit64(ptr, 53, 2, error_code);
+        } else {
+            return deposit64(ptr, 61, 2, error_code);
+        }
+    }
+    return orig_ptr;
 }
 
 static uint64_t pauth_strip(CPUARMState *env, uint64_t ptr, bool data)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This is not really functional yet, because the crypto is not yet
implemented.  This, however follows the AddPAC pseudo function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-27-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/pauth_helper.c | 42 ++++++++++++++++++++++++++++++++++++++-
 1 file changed, 41 insertions(+), 1 deletion(-)

diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/pauth_helper.c
+++ b/target/arm/pauth_helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t pauth_computepac(uint64_t data, uint64_t modifier,
 static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
                              ARMPACKey *key, bool data)
 {
-    g_assert_not_reached(); /* FIXME */
+    ARMMMUIdx mmu_idx = arm_stage1_mmu_idx(env);
+    ARMVAParameters param = aa64_va_parameters(env, ptr, mmu_idx, data);
+    uint64_t pac, ext_ptr, ext, test;
+    int bot_bit, top_bit;
+
+    /* If tagged pointers are in use, use ptr<55>, otherwise ptr<63>.  */
+    if (param.tbi) {
+        ext = sextract64(ptr, 55, 1);
+    } else {
+        ext = sextract64(ptr, 63, 1);
+    }
+
+    /* Build a pointer with known good extension bits.  */
+    top_bit = 64 - 8 * param.tbi;
+    bot_bit = 64 - param.tsz;
+    ext_ptr = deposit64(ptr, bot_bit, top_bit - bot_bit, ext);
+
+    pac = pauth_computepac(ext_ptr, modifier, *key);
+
+    /*
+     * Check if the ptr has good extension bits and corrupt the
+     * pointer authentication code if not.
+     */
+    test = sextract64(ptr, bot_bit, top_bit - bot_bit);
+    if (test != 0 && test != -1) {
+        pac ^= MAKE_64BIT_MASK(top_bit - 1, 1);
+    }
+
+    /*
+     * Preserve the determination between upper and lower at bit 55,
+     * and insert pointer authentication code.
+     */
+    if (param.tbi) {
+        ptr &= ~MAKE_64BIT_MASK(bot_bit, 55 - bot_bit + 1);
+        pac &= MAKE_64BIT_MASK(bot_bit, 54 - bot_bit + 1);
+    } else {
+        ptr &= MAKE_64BIT_MASK(0, bot_bit);
+        pac &= ~(MAKE_64BIT_MASK(55, 1) | MAKE_64BIT_MASK(0, bot_bit));
+    }
+    ext &= MAKE_64BIT_MASK(55, 1);
+    return pac | ext | ptr;
 }
 
 static uint64_t pauth_original_ptr(uint64_t ptr, ARMVAParameters param)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

This is the main crypto routine, an implementation of QARMA.
This matches, as much as possible, ARM pseudocode.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-28-richard.henderson@linaro.org
[PMM: fixed minor checkpatch nits]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/pauth_helper.c | 242 +++++++++++++++++++++++++++++++++++++-
 1 file changed, 241 insertions(+), 1 deletion(-)

diff --git a/target/arm/pauth_helper.c b/target/arm/pauth_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/pauth_helper.c
+++ b/target/arm/pauth_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "tcg/tcg-gvec-desc.h"
 
 
+static uint64_t pac_cell_shuffle(uint64_t i)
+{
+    uint64_t o = 0;
+
+    o |= extract64(i, 52, 4);
+    o |= extract64(i, 24, 4) << 4;
+    o |= extract64(i, 44, 4) << 8;
+    o |= extract64(i,  0, 4) << 12;
+
+    o |= extract64(i, 28, 4) << 16;
+    o |= extract64(i, 48, 4) << 20;
+    o |= extract64(i,  4, 4) << 24;
+    o |= extract64(i, 40, 4) << 28;
+
+    o |= extract64(i, 32, 4) << 32;
+    o |= extract64(i, 12, 4) << 36;
+    o |= extract64(i, 56, 4) << 40;
+    o |= extract64(i, 20, 4) << 44;
+
+    o |= extract64(i,  8, 4) << 48;
+    o |= extract64(i, 36, 4) << 52;
+    o |= extract64(i, 16, 4) << 56;
+    o |= extract64(i, 60, 4) << 60;
+
+    return o;
+}
+
+static uint64_t pac_cell_inv_shuffle(uint64_t i)
+{
+    uint64_t o = 0;
+
+    o |= extract64(i, 12, 4);
+    o |= extract64(i, 24, 4) << 4;
+    o |= extract64(i, 48, 4) << 8;
+    o |= extract64(i, 36, 4) << 12;
+
+    o |= extract64(i, 56, 4) << 16;
+    o |= extract64(i, 44, 4) << 20;
+    o |= extract64(i,  4, 4) << 24;
+    o |= extract64(i, 16, 4) << 28;
+
+    o |= i & MAKE_64BIT_MASK(32, 4);
+    o |= extract64(i, 52, 4) << 36;
+    o |= extract64(i, 28, 4) << 40;
+    o |= extract64(i,  8, 4) << 44;
+
+    o |= extract64(i, 20, 4) << 48;
+    o |= extract64(i,  0, 4) << 52;
+    o |= extract64(i, 40, 4) << 56;
+    o |= i & MAKE_64BIT_MASK(60, 4);
+
+    return o;
+}
+
+static uint64_t pac_sub(uint64_t i)
+{
+    static const uint8_t sub[16] = {
+        0xb, 0x6, 0x8, 0xf, 0xc, 0x0, 0x9, 0xe,
+        0x3, 0x7, 0x4, 0x5, 0xd, 0x2, 0x1, 0xa,
+    };
+    uint64_t o = 0;
+    int b;
+
+    for (b = 0; b < 64; b += 16) {
+        o |= (uint64_t)sub[(i >> b) & 0xf] << b;
+    }
+    return o;
+}
+
+static uint64_t pac_inv_sub(uint64_t i)
+{
+    static const uint8_t inv_sub[16] = {
+        0x5, 0xe, 0xd, 0x8, 0xa, 0xb, 0x1, 0x9,
+        0x2, 0x6, 0xf, 0x0, 0x4, 0xc, 0x7, 0x3,
+    };
+    uint64_t o = 0;
+    int b;
+
+    for (b = 0; b < 64; b += 16) {
+        o |= (uint64_t)inv_sub[(i >> b) & 0xf] << b;
+    }
+    return o;
+}
+
+static int rot_cell(int cell, int n)
+{
+    /* 4-bit rotate left by n.  */
+    cell |= cell << 4;
+    return extract32(cell, 4 - n, 4);
+}
+
+static uint64_t pac_mult(uint64_t i)
+{
+    uint64_t o = 0;
+    int b;
+
+    for (b = 0; b < 4 * 4; b += 4) {
+        int i0, i4, i8, ic, t0, t1, t2, t3;
+
+        i0 = extract64(i, b, 4);
+        i4 = extract64(i, b + 4 * 4, 4);
+        i8 = extract64(i, b + 8 * 4, 4);
+        ic = extract64(i, b + 12 * 4, 4);
+
+        t0 = rot_cell(i8, 1) ^ rot_cell(i4, 2) ^ rot_cell(i0, 1);
+        t1 = rot_cell(ic, 1) ^ rot_cell(i4, 1) ^ rot_cell(i0, 2);
+        t2 = rot_cell(ic, 2) ^ rot_cell(i8, 1) ^ rot_cell(i0, 1);
+        t3 = rot_cell(ic, 1) ^ rot_cell(i8, 2) ^ rot_cell(i4, 1);
+
+        o |= (uint64_t)t3 << b;
+        o |= (uint64_t)t2 << (b + 4 * 4);
+        o |= (uint64_t)t1 << (b + 8 * 4);
+        o |= (uint64_t)t0 << (b + 12 * 4);
+    }
+    return o;
+}
+
+static uint64_t tweak_cell_rot(uint64_t cell)
+{
+    return (cell >> 1) | (((cell ^ (cell >> 1)) & 1) << 3);
+}
+
+static uint64_t tweak_shuffle(uint64_t i)
+{
+    uint64_t o = 0;
+
+    o |= extract64(i, 16, 4) << 0;
+    o |= extract64(i, 20, 4) << 4;
+    o |= tweak_cell_rot(extract64(i, 24, 4)) << 8;
+    o |= extract64(i, 28, 4) << 12;
+
+    o |= tweak_cell_rot(extract64(i, 44, 4)) << 16;
+    o |= extract64(i,  8, 4) << 20;
+    o |= extract64(i, 12, 4) << 24;
+    o |= tweak_cell_rot(extract64(i, 32, 4)) << 28;
+
+    o |= extract64(i, 48, 4) << 32;
+    o |= extract64(i, 52, 4) << 36;
+    o |= extract64(i, 56, 4) << 40;
+    o |= tweak_cell_rot(extract64(i, 60, 4)) << 44;
+
+    o |= tweak_cell_rot(extract64(i,  0, 4)) << 48;
+    o |= extract64(i,  4, 4) << 52;
+    o |= tweak_cell_rot(extract64(i, 40, 4)) << 56;
+    o |= tweak_cell_rot(extract64(i, 36, 4)) << 60;
+
+    return o;
+}
+
+static uint64_t tweak_cell_inv_rot(uint64_t cell)
+{
+    return ((cell << 1) & 0xf) | ((cell & 1) ^ (cell >> 3));
+}
+
+static uint64_t tweak_inv_shuffle(uint64_t i)
+{
+    uint64_t o = 0;
+
+    o |= tweak_cell_inv_rot(extract64(i, 48, 4));
+    o |= extract64(i, 52, 4) << 4;
+    o |= extract64(i, 20, 4) << 8;
+    o |= extract64(i, 24, 4) << 12;
+
+    o |= extract64(i,  0, 4) << 16;
+    o |= extract64(i,  4, 4) << 20;
+    o |= tweak_cell_inv_rot(extract64(i,  8, 4)) << 24;
+    o |= extract64(i, 12, 4) << 28;
+
+    o |= tweak_cell_inv_rot(extract64(i, 28, 4)) << 32;
+    o |= tweak_cell_inv_rot(extract64(i, 60, 4)) << 36;
+    o |= tweak_cell_inv_rot(extract64(i, 56, 4)) << 40;
+    o |= tweak_cell_inv_rot(extract64(i, 16, 4)) << 44;
+
+    o |= extract64(i, 32, 4) << 48;
+    o |= extract64(i, 36, 4) << 52;
+    o |= extract64(i, 40, 4) << 56;
+    o |= tweak_cell_inv_rot(extract64(i, 44, 4)) << 60;
+
+    return o;
+}
+
 static uint64_t pauth_computepac(uint64_t data, uint64_t modifier,
                                  ARMPACKey key)
 {
-    g_assert_not_reached(); /* FIXME */
+    static const uint64_t RC[5] = {
+        0x0000000000000000ull,
+        0x13198A2E03707344ull,
+        0xA4093822299F31D0ull,
+        0x082EFA98EC4E6C89ull,
+        0x452821E638D01377ull,
+    };
+    const uint64_t alpha = 0xC0AC29B7C97C50DDull;
+    /*
+     * Note that in the ARM pseudocode, key0 contains bits <127:64>
+     * and key1 contains bits <63:0> of the 128-bit key.
+     */
+    uint64_t key0 = key.hi, key1 = key.lo;
+    uint64_t workingval, runningmod, roundkey, modk0;
+    int i;
+
+    modk0 = (key0 << 63) | ((key0 >> 1) ^ (key0 >> 63));
+    runningmod = modifier;
+    workingval = data ^ key0;
+
+    for (i = 0; i <= 4; ++i) {
+        roundkey = key1 ^ runningmod;
+        workingval ^= roundkey;
+        workingval ^= RC[i];
+        if (i > 0) {
+            workingval = pac_cell_shuffle(workingval);
+            workingval = pac_mult(workingval);
+        }
+        workingval = pac_sub(workingval);
+        runningmod = tweak_shuffle(runningmod);
+    }
+    roundkey = modk0 ^ runningmod;
+    workingval ^= roundkey;
+    workingval = pac_cell_shuffle(workingval);
+    workingval = pac_mult(workingval);
+    workingval = pac_sub(workingval);
+    workingval = pac_cell_shuffle(workingval);
+    workingval = pac_mult(workingval);
+    workingval ^= key1;
+    workingval = pac_cell_inv_shuffle(workingval);
+    workingval = pac_inv_sub(workingval);
+    workingval = pac_mult(workingval);
+    workingval = pac_cell_inv_shuffle(workingval);
+    workingval ^= key0;
+    workingval ^= runningmod;
+    for (i = 0; i <= 4; ++i) {
+        workingval = pac_inv_sub(workingval);
+        if (i < 4) {
+            workingval = pac_mult(workingval);
+            workingval = pac_cell_inv_shuffle(workingval);
+        }
+        runningmod = tweak_inv_shuffle(runningmod);
+        roundkey = key1 ^ runningmod;
+        workingval ^= RC[4 - i];
+        workingval ^= roundkey;
+        workingval ^= alpha;
+    }
+    workingval ^= modk0;
+
+    return workingval;
 }
 
 static uint64_t pauth_addpac(CPUARMState *env, uint64_t ptr, uint64_t modifier,
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-29-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 70 +++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 70 insertions(+)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static CPAccessResult access_lor_other(CPUARMState *env,
     return access_lor_ns(env);
 }
 
+#ifdef TARGET_AARCH64
+static CPAccessResult access_pauth(CPUARMState *env, const ARMCPRegInfo *ri,
+                                   bool isread)
+{
+    int el = arm_current_el(env);
+
+    if (el < 2 &&
+        arm_feature(env, ARM_FEATURE_EL2) &&
+        !(arm_hcr_el2_eff(env) & HCR_APK)) {
+        return CP_ACCESS_TRAP_EL2;
+    }
+    if (el < 3 &&
+        arm_feature(env, ARM_FEATURE_EL3) &&
+        !(env->cp15.scr_el3 & SCR_APK)) {
+        return CP_ACCESS_TRAP_EL3;
+    }
+    return CP_ACCESS_OK;
+}
+
+static const ARMCPRegInfo pauth_reginfo[] = {
+    { .name = "APDAKEYLO_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 0,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apda_key.lo) },
+    { .name = "APDAKEYHI_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 1,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apda_key.hi) },
+    { .name = "APDBKEYLO_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 2,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apdb_key.lo) },
+    { .name = "APDBKEYHI_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 2, .opc2 = 3,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apdb_key.hi) },
+    { .name = "APGAKEYLO_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 3, .opc2 = 0,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apga_key.lo) },
+    { .name = "APGAKEYHI_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 3, .opc2 = 1,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apga_key.hi) },
+    { .name = "APIAKEYLO_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 0,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apia_key.lo) },
+    { .name = "APIAKEYHI_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 1,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apia_key.hi) },
+    { .name = "APIBKEYLO_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 2,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apib_key.lo) },
+    { .name = "APIBKEYHI_EL1", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 0, .crn = 2, .crm = 1, .opc2 = 3,
+      .access = PL1_RW, .accessfn = access_pauth,
+      .fieldoffset = offsetof(CPUARMState, apib_key.hi) },
+    REGINFO_SENTINEL
+};
+#endif
+
 void register_cp_regs_for_features(ARMCPU *cpu)
 {
     /* Register all the coprocessor registers based on feature bits */
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             define_one_arm_cp_reg(cpu, &zcr_el3_reginfo);
         }
     }
+
+#ifdef TARGET_AARCH64
+    if (cpu_isar_feature(aa64_pauth, cpu)) {
+        define_arm_cp_regs(cpu, pauth_reginfo);
+    }
+#endif
 }
 
 void arm_cpu_register_gdb_regs_for_features(ARMCPU *cpu)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Add 4 attributes that controls the EL1 enable bits, as we may not
always want to turn on pointer authentication with -cpu max.
However, by default they are enabled.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20190108223129.5570-31-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.c   |  3 +++
 target/arm/cpu64.c | 60 ++++++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 63 insertions(+)

diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(CPUState *s)
         env->pstate = PSTATE_MODE_EL0t;
         /* Userspace expects access to DC ZVA, CTL_EL0 and the cache ops */
         env->cp15.sctlr_el[1] |= SCTLR_UCT | SCTLR_UCI | SCTLR_DZE;
+        /* Enable all PAC instructions */
+        env->cp15.hcr_el2 |= HCR_API;
+        env->cp15.scr_el3 |= SCR_API;
         /* and to the FP/Neon instructions */
         env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 20, 2, 3);
         /* and to the SVE instructions */
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void cpu_max_set_sve_vq(Object *obj, Visitor *v, const char *name,
     error_propagate(errp, err);
 }
 
+#ifdef CONFIG_USER_ONLY
+static void cpu_max_get_packey(Object *obj, Visitor *v, const char *name,
+                               void *opaque, Error **errp)
+{
+    ARMCPU *cpu = ARM_CPU(obj);
+    const uint64_t *bit = opaque;
+    bool enabled = (cpu->env.cp15.sctlr_el[1] & *bit) != 0;
+
+    visit_type_bool(v, name, &enabled, errp);
+}
+
+static void cpu_max_set_packey(Object *obj, Visitor *v, const char *name,
+                               void *opaque, Error **errp)
+{
+    ARMCPU *cpu = ARM_CPU(obj);
+    Error *err = NULL;
+    const uint64_t *bit = opaque;
+    bool enabled;
+
+    visit_type_bool(v, name, &enabled, errp);
+
+    if (!err) {
+        if (enabled) {
+            cpu->env.cp15.sctlr_el[1] |= *bit;
+        } else {
+            cpu->env.cp15.sctlr_el[1] &= ~*bit;
+        }
+    }
+    error_propagate(errp, err);
+}
+#endif
+
 /* -cpu max: if KVM is enabled, like -cpu host (best possible with this host);
  * otherwise, a CPU with as many features enabled as our emulation supports.
  * The version of '-cpu max' for qemu-system-arm is defined in cpu.c;
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
          */
         cpu->ctr = 0x80038003; /* 32 byte I and D cacheline size, VIPT icache */
         cpu->dcz_blocksize = 7; /*  512 bytes */
+
+        /*
+         * Note that Linux will enable enable all of the keys at once.
+         * But doing it this way will allow experimentation beyond that.
+         */
+        {
+            static const uint64_t apia_bit = SCTLR_EnIA;
+            static const uint64_t apib_bit = SCTLR_EnIB;
+            static const uint64_t apda_bit = SCTLR_EnDA;
+            static const uint64_t apdb_bit = SCTLR_EnDB;
+
+            object_property_add(obj, "apia", "bool", cpu_max_get_packey,
+                                cpu_max_set_packey, NULL,
+                                (void *)&apia_bit, &error_fatal);
+            object_property_add(obj, "apib", "bool", cpu_max_get_packey,
+                                cpu_max_set_packey, NULL,
+                                (void *)&apib_bit, &error_fatal);
+            object_property_add(obj, "apda", "bool", cpu_max_get_packey,
+                                cpu_max_set_packey, NULL,
+                                (void *)&apda_bit, &error_fatal);
+            object_property_add(obj, "apdb", "bool", cpu_max_get_packey,
+                                cpu_max_set_packey, NULL,
+                                (void *)&apdb_bit, &error_fatal);
+
+            /* Enable all PAC keys by default.  */
+            cpu->env.cp15.sctlr_el[1] |= SCTLR_EnIA | SCTLR_EnIB;
+            cpu->env.cp15.sctlr_el[1] |= SCTLR_EnDA | SCTLR_EnDB;
+        }
 #endif
 
         cpu->sve_max_vq = ARM_MAX_VQ;
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

We can perform this with fewer operations.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20190108223129.5570-32-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 62 +++++++++++++-------------------------
 1 file changed, 21 insertions(+), 41 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ void gen_a64_set_pc_im(uint64_t val)
 /* Load the PC from a generic TCG variable.
  *
  * If address tagging is enabled via the TCR TBI bits, then loading
- * an address into the PC will clear out any tag in the it:
+ * an address into the PC will clear out any tag in it:
  *  + for EL2 and EL3 there is only one TBI bit, and if it is set
  *    then the address is zero-extended, clearing bits [63:56]
  *  + for EL0 and EL1, TBI0 controls addresses with bit 55 == 0
@@ -XXX,XX +XXX,XX @@ static void gen_a64_set_pc(DisasContext *s, TCGv_i64 src)
     int tbi = s->tbii;
 
     if (s->current_el <= 1) {
-        /* Test if NEITHER or BOTH TBI values are set.  If so, no need to
-         * examine bit 55 of address, can just generate code.
-         * If mixed, then test via generated code
-         */
-        if (tbi == 3) {
-            TCGv_i64 tmp_reg = tcg_temp_new_i64();
-            /* Both bits set, sign extension from bit 55 into [63:56] will
-             * cover both cases
-             */
-            tcg_gen_shli_i64(tmp_reg, src, 8);
-            tcg_gen_sari_i64(cpu_pc, tmp_reg, 8);
-            tcg_temp_free_i64(tmp_reg);
-        } else if (tbi == 0) {
-            /* Neither bit set, just load it as-is */
-            tcg_gen_mov_i64(cpu_pc, src);
-        } else {
-            TCGv_i64 tcg_tmpval = tcg_temp_new_i64();
-            TCGv_i64 tcg_bit55  = tcg_temp_new_i64();
-            TCGv_i64 tcg_zero   = tcg_const_i64(0);
+        if (tbi != 0) {
+            /* Sign-extend from bit 55.  */
+            tcg_gen_sextract_i64(cpu_pc, src, 0, 56);
 
-            tcg_gen_andi_i64(tcg_bit55, src, (1ull << 55));
+            if (tbi != 3) {
+                TCGv_i64 tcg_zero = tcg_const_i64(0);
 
-            if (tbi == 1) {
-                /* tbi0==1, tbi1==0, so 0-fill upper byte if bit 55 = 0 */
-                tcg_gen_andi_i64(tcg_tmpval, src,
-                                 0x00FFFFFFFFFFFFFFull);
-                tcg_gen_movcond_i64(TCG_COND_EQ, cpu_pc, tcg_bit55, tcg_zero,
-                                    tcg_tmpval, src);
-            } else {
-                /* tbi0==0, tbi1==1, so 1-fill upper byte if bit 55 = 1 */
-                tcg_gen_ori_i64(tcg_tmpval, src,
-                                0xFF00000000000000ull);
-                tcg_gen_movcond_i64(TCG_COND_NE, cpu_pc, tcg_bit55, tcg_zero,
-                                    tcg_tmpval, src);
+                /*
+                 * The two TBI bits differ.
+                 * If tbi0, then !tbi1: only use the extension if positive.
+                 * if !tbi0, then tbi1: only use the extension if negative.
+                 */
+                tcg_gen_movcond_i64(tbi == 1 ? TCG_COND_GE : TCG_COND_LT,
+                                    cpu_pc, cpu_pc, tcg_zero, cpu_pc, src);
+                tcg_temp_free_i64(tcg_zero);
             }
-            tcg_temp_free_i64(tcg_zero);
-            tcg_temp_free_i64(tcg_bit55);
-            tcg_temp_free_i64(tcg_tmpval);
+            return;
         }
-    } else {  /* EL > 1 */
+    } else {
         if (tbi != 0) {
             /* Force tag byte to all zero */
-            tcg_gen_andi_i64(cpu_pc, src, 0x00FFFFFFFFFFFFFFull);
-        } else {
-            /* Load unmodified address */
-            tcg_gen_mov_i64(cpu_pc, src);
+            tcg_gen_extract_i64(cpu_pc, src, 0, 56);
+            return;
         }
     }
+
+    /* Load unmodified address */
+    tcg_gen_mov_i64(cpu_pc, src);
 }
 
 typedef struct DisasCompare64 {
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

In some cases it may be helpful to modify state before saving it for
migration, and then modify the state back after it has been saved. The
existing pre_save function provides half of this functionality. This
patch adds a post_save function to provide the second half.

Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Dr. David Alan Gilbert <dgilbert@redhat.com>
Message-id: 20181211151945.29137-2-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/migration/vmstate.h |  1 +
 migration/vmstate.c         | 13 ++++++++++++-
 docs/devel/migration.rst    |  9 +++++++--
 3 files changed, 20 insertions(+), 3 deletions(-)

diff --git a/include/migration/vmstate.h b/include/migration/vmstate.h
index XXXXXXX..XXXXXXX 100644
--- a/include/migration/vmstate.h
+++ b/include/migration/vmstate.h
@@ -XXX,XX +XXX,XX @@ struct VMStateDescription {
     int (*pre_load)(void *opaque);
     int (*post_load)(void *opaque, int version_id);
     int (*pre_save)(void *opaque);
+    int (*post_save)(void *opaque);
     bool (*needed)(void *opaque);
     const VMStateField *fields;
     const VMStateDescription **subsections;
diff --git a/migration/vmstate.c b/migration/vmstate.c
index XXXXXXX..XXXXXXX 100644
--- a/migration/vmstate.c
+++ b/migration/vmstate.c
@@ -XXX,XX +XXX,XX @@ int vmstate_save_state_v(QEMUFile *f, const VMStateDescription *vmsd,
                 if (ret) {
                     error_report("Save of field %s/%s failed",
                                  vmsd->name, field->name);
+                    if (vmsd->post_save) {
+                        vmsd->post_save(opaque);
+                    }
                     return ret;
                 }
 
@@ -XXX,XX +XXX,XX @@ int vmstate_save_state_v(QEMUFile *f, const VMStateDescription *vmsd,
         json_end_array(vmdesc);
     }
 
-    return vmstate_subsection_save(f, vmsd, opaque, vmdesc);
+    ret = vmstate_subsection_save(f, vmsd, opaque, vmdesc);
+
+    if (vmsd->post_save) {
+        int ps_ret = vmsd->post_save(opaque);
+        if (!ret) {
+            ret = ps_ret;
+        }
+    }
+    return ret;
 }
 
 static const VMStateDescription *
diff --git a/docs/devel/migration.rst b/docs/devel/migration.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/devel/migration.rst
+++ b/docs/devel/migration.rst
@@ -XXX,XX +XXX,XX @@ The functions to do that are inside a vmstate definition, and are called:
 
   This function is called before we save the state of one device.
 
-Example: You can look at hpet.c, that uses the three function to
-massage the state that is transferred.
+- ``int (*post_save)(void *opaque);``
+
+  This function is called after we save the state of one device
+  (even upon failure, unless the call to pre_save returned an error).
+
+Example: You can look at hpet.c, that uses the first three functions
+to massage the state that is transferred.
 
 The ``VMSTATE_WITH_TMP`` macro may be useful when the migration
 data doesn't match the stored device data well; it allows an
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

pmccntr_read and pmccntr_write contained duplicate code that was already
being handled by pmccntr_sync. Consolidate the duplicated code into two
functions: pmccntr_op_start and pmccntr_op_finish. Add a companion to
c15_ccnt in CPUARMState so that we can simultaneously save both the
architectural register value and the last underlying cycle count - this
ensures time isn't lost and will also allow us to access the 'old'
architectural register value in order to detect overflows in later
patches.

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181211151945.29137-3-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    |  37 +++++++++++---
 target/arm/helper.c | 118 ++++++++++++++++++++++++++------------------
 2 files changed, 100 insertions(+), 55 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
         uint64_t oslsr_el1; /* OS Lock Status */
         uint64_t mdcr_el2;
         uint64_t mdcr_el3;
-        /* If the counter is enabled, this stores the last time the counter
-         * was reset. Otherwise it stores the counter value
+        /* Stores the architectural value of the counter *the last time it was
+         * updated* by pmccntr_op_start. Accesses should always be surrounded
+         * by pmccntr_op_start/pmccntr_op_finish to guarantee the latest
+         * architecturally-correct value is being read/set.
          */
         uint64_t c15_ccnt;
+        /* Stores the delta between the architectural value and the underlying
+         * cycle count during normal operation. It is used to update c15_ccnt
+         * to be the correct architectural value before accesses. During
+         * accesses, c15_ccnt_delta contains the underlying count being used
+         * for the access, after which it reverts to the delta value in
+         * pmccntr_op_finish.
+         */
+        uint64_t c15_ccnt_delta;
         uint64_t pmccfiltr_el0; /* Performance Monitor Filter Register */
         uint64_t vpidr_el2; /* Virtualization Processor ID Register */
         uint64_t vmpidr_el2; /* Virtualization Multiprocessor ID Register */
@@ -XXX,XX +XXX,XX @@ int cpu_arm_signal_handler(int host_signum, void *pinfo,
                            void *puc);
 
 /**
- * pmccntr_sync
+ * pmccntr_op_start/finish
  * @env: CPUARMState
  *
- * Synchronises the counter in the PMCCNTR. This must always be called twice,
- * once before any action that might affect the timer and again afterwards.
- * The function is used to swap the state of the register if required.
- * This only happens when not in user mode (!CONFIG_USER_ONLY)
+ * Convert the counter in the PMCCNTR between its delta form (the typical mode
+ * when it's enabled) and the guest-visible value. These two calls must always
+ * surround any action which might affect the counter.
  */
-void pmccntr_sync(CPUARMState *env);
+void pmccntr_op_start(CPUARMState *env);
+void pmccntr_op_finish(CPUARMState *env);
+
+/**
+ * pmu_op_start/finish
+ * @env: CPUARMState
+ *
+ * Convert all PMU counters between their delta form (the typical mode when
+ * they are enabled) and the guest-visible values. These two calls must
+ * surround any action which might affect the counters.
+ */
+void pmu_op_start(CPUARMState *env);
+void pmu_op_finish(CPUARMState *env);
 
 /* SCTLR bit meanings. Several bits have been reused in newer
  * versions of the architecture; in that case we define constants
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static inline bool arm_ccnt_enabled(CPUARMState *env)
 
     return true;
 }
-
-void pmccntr_sync(CPUARMState *env)
+/*
+ * Ensure c15_ccnt is the guest-visible count so that operations such as
+ * enabling/disabling the counter or filtering, modifying the count itself,
+ * etc. can be done logically. This is essentially a no-op if the counter is
+ * not enabled at the time of the call.
+ */
+void pmccntr_op_start(CPUARMState *env)
 {
-    uint64_t temp_ticks;
-
-    temp_ticks = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
+    uint64_t cycles = 0;
+    cycles = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
                           ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
 
-    if (env->cp15.c9_pmcr & PMCRD) {
-        /* Increment once every 64 processor clock cycles */
-        temp_ticks /= 64;
-    }
-
     if (arm_ccnt_enabled(env)) {
-        env->cp15.c15_ccnt = temp_ticks - env->cp15.c15_ccnt;
+        uint64_t eff_cycles = cycles;
+        if (env->cp15.c9_pmcr & PMCRD) {
+            /* Increment once every 64 processor clock cycles */
+            eff_cycles /= 64;
+        }
+
+        env->cp15.c15_ccnt = eff_cycles - env->cp15.c15_ccnt_delta;
     }
+    env->cp15.c15_ccnt_delta = cycles;
+}
+
+/*
+ * If PMCCNTR is enabled, recalculate the delta between the clock and the
+ * guest-visible count. A call to pmccntr_op_finish should follow every call to
+ * pmccntr_op_start.
+ */
+void pmccntr_op_finish(CPUARMState *env)
+{
+    if (arm_ccnt_enabled(env)) {
+        uint64_t prev_cycles = env->cp15.c15_ccnt_delta;
+
+        if (env->cp15.c9_pmcr & PMCRD) {
+            /* Increment once every 64 processor clock cycles */
+            prev_cycles /= 64;
+        }
+
+        env->cp15.c15_ccnt_delta = prev_cycles - env->cp15.c15_ccnt;
+    }
+}
+
+void pmu_op_start(CPUARMState *env)
+{
+    pmccntr_op_start(env);
+}
+
+void pmu_op_finish(CPUARMState *env)
+{
+    pmccntr_op_finish(env);
 }
 
 static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                        uint64_t value)
 {
-    pmccntr_sync(env);
+    pmu_op_start(env);
 
     if (value & PMCRC) {
         /* The counter has been reset */
@@ -XXX,XX +XXX,XX @@ static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
     env->cp15.c9_pmcr &= ~0x39;
     env->cp15.c9_pmcr |= (value & 0x39);
 
-    pmccntr_sync(env);
+    pmu_op_finish(env);
 }
 
 static uint64_t pmccntr_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
-    uint64_t total_ticks;
-
-    if (!arm_ccnt_enabled(env)) {
-        /* Counter is disabled, do not change value */
-        return env->cp15.c15_ccnt;
-    }
-
-    total_ticks = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
-                           ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
-
-    if (env->cp15.c9_pmcr & PMCRD) {
-        /* Increment once every 64 processor clock cycles */
-        total_ticks /= 64;
-    }
-    return total_ticks - env->cp15.c15_ccnt;
+    uint64_t ret;
+    pmccntr_op_start(env);
+    ret = env->cp15.c15_ccnt;
+    pmccntr_op_finish(env);
+    return ret;
 }
 
 static void pmselr_write(CPUARMState *env, const ARMCPRegInfo *ri,
@@ -XXX,XX +XXX,XX @@ static void pmselr_write(CPUARMState *env, const ARMCPRegInfo *ri,
 static void pmccntr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                         uint64_t value)
 {
-    uint64_t total_ticks;
-
-    if (!arm_ccnt_enabled(env)) {
-        /* Counter is disabled, set the absolute value */
-        env->cp15.c15_ccnt = value;
-        return;
-    }
-
-    total_ticks = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
-                           ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
-
-    if (env->cp15.c9_pmcr & PMCRD) {
-        /* Increment once every 64 processor clock cycles */
-        total_ticks /= 64;
-    }
-    env->cp15.c15_ccnt = total_ticks - value;
+    pmccntr_op_start(env);
+    env->cp15.c15_ccnt = value;
+    pmccntr_op_finish(env);
 }
 
 static void pmccntr_write32(CPUARMState *env, const ARMCPRegInfo *ri,
@@ -XXX,XX +XXX,XX @@ static void pmccntr_write32(CPUARMState *env, const ARMCPRegInfo *ri,
 
 #else /* CONFIG_USER_ONLY */
 
-void pmccntr_sync(CPUARMState *env)
+void pmccntr_op_start(CPUARMState *env)
+{
+}
+
+void pmccntr_op_finish(CPUARMState *env)
+{
+}
+
+void pmu_op_start(CPUARMState *env)
+{
+}
+
+void pmu_op_finish(CPUARMState *env)
 {
 }
 
@@ -XXX,XX +XXX,XX @@ void pmccntr_sync(CPUARMState *env)
 static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                             uint64_t value)
 {
-    pmccntr_sync(env);
+    pmccntr_op_start(env);
     env->cp15.pmccfiltr_el0 = value & 0xfc000000;
-    pmccntr_sync(env);
+    pmccntr_op_finish(env);
 }
 
 static void pmcntenset_write(CPUARMState *env, const ARMCPRegInfo *ri,
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

Because of the PMU's design, many register accesses have side effects
which are inter-related, meaning that the normal method of saving CP
registers can result in inconsistent state. These side-effects are
largely handled in pmu_op_start/finish functions which can be called
before and after the state is saved/restored. By doing this and adding
raw read/write functions for the affected registers, we avoid
migration-related inconsistencies.

Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181211151945.29137-4-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c  |  6 ++++--
 target/arm/machine.c | 24 ++++++++++++++++++++++++
 2 files changed, 28 insertions(+), 2 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
       .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 13, .opc2 = 0,
       .access = PL0_RW, .accessfn = pmreg_access_ccntr,
       .type = ARM_CP_IO,
-      .readfn = pmccntr_read, .writefn = pmccntr_write, },
+      .fieldoffset = offsetof(CPUARMState, cp15.c15_ccnt),
+      .readfn = pmccntr_read, .writefn = pmccntr_write,
+      .raw_readfn = raw_read, .raw_writefn = raw_write, },
 #endif
     { .name = "PMCCFILTR_EL0", .state = ARM_CP_STATE_AA64,
       .opc0 = 3, .opc1 = 3, .crn = 14, .crm = 15, .opc2 = 7,
-      .writefn = pmccfiltr_write,
+      .writefn = pmccfiltr_write, .raw_writefn = raw_write,
       .access = PL0_RW, .accessfn = pmreg_access,
       .type = ARM_CP_IO,
       .fieldoffset = offsetof(CPUARMState, cp15.pmccfiltr_el0),
diff --git a/target/arm/machine.c b/target/arm/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/machine.c
+++ b/target/arm/machine.c
@@ -XXX,XX +XXX,XX @@ static int cpu_pre_save(void *opaque)
 {
     ARMCPU *cpu = opaque;
 
+    if (!kvm_enabled()) {
+        pmu_op_start(&cpu->env);
+    }
+
     if (kvm_enabled()) {
         if (!write_kvmstate_to_list(cpu)) {
             /* This should never fail */
@@ -XXX,XX +XXX,XX @@ static int cpu_pre_save(void *opaque)
     return 0;
 }
 
+static int cpu_post_save(void *opaque)
+{
+    ARMCPU *cpu = opaque;
+
+    if (!kvm_enabled()) {
+        pmu_op_finish(&cpu->env);
+    }
+
+    return 0;
+}
+
 static int cpu_pre_load(void *opaque)
 {
     ARMCPU *cpu = opaque;
@@ -XXX,XX +XXX,XX @@ static int cpu_pre_load(void *opaque)
      */
     env->irq_line_state = UINT32_MAX;
 
+    if (!kvm_enabled()) {
+        pmu_op_start(&cpu->env);
+    }
+
     return 0;
 }
 
@@ -XXX,XX +XXX,XX @@ static int cpu_post_load(void *opaque, int version_id)
     hw_breakpoint_update_all(cpu);
     hw_watchpoint_update_all(cpu);
 
+    if (!kvm_enabled()) {
+        pmu_op_finish(&cpu->env);
+    }
+
     return 0;
 }
 
@@ -XXX,XX +XXX,XX @@ const VMStateDescription vmstate_arm_cpu = {
     .version_id = 22,
     .minimum_version_id = 22,
     .pre_save = cpu_pre_save,
+    .post_save = cpu_post_save,
     .pre_load = cpu_pre_load,
     .post_load = cpu_post_load,
     .fields = (VMStateField[]) {
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

Rename arm_ccnt_enabled to pmu_counter_enabled, and add logic to only
return 'true' if the specified counter is enabled and neither prohibited
or filtered.

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Signed-off-by: Aaron Lindsay <aclindsa@gmail.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181211151945.29137-5-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 10 ++++-
 target/arm/cpu.c    |  3 ++
 target/arm/helper.c | 96 +++++++++++++++++++++++++++++++++++++++++----
 3 files changed, 101 insertions(+), 8 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_finish(CPUARMState *env);
 void pmu_op_start(CPUARMState *env);
 void pmu_op_finish(CPUARMState *env);
 
+/**
+ * Functions to register as EL change hooks for PMU mode filtering
+ */
+void pmu_pre_el_change(ARMCPU *cpu, void *ignored);
+void pmu_post_el_change(ARMCPU *cpu, void *ignored);
+
 /* SCTLR bit meanings. Several bits have been reused in newer
  * versions of the architecture; in that case we define constants
  * for both old and new bit meanings. Code which tests against those
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env);
 
 #define MDCR_EPMAD    (1U << 21)
 #define MDCR_EDAD     (1U << 20)
-#define MDCR_SPME     (1U << 17)
+#define MDCR_SPME     (1U << 17)  /* MDCR_EL3 */
+#define MDCR_HPMD     (1U << 17)  /* MDCR_EL2 */
 #define MDCR_SDD      (1U << 16)
 #define MDCR_SPD      (3U << 14)
 #define MDCR_TDRA     (1U << 11)
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env);
 #define MDCR_HPME     (1U << 7)
 #define MDCR_TPM      (1U << 6)
 #define MDCR_TPMCR    (1U << 5)
+#define MDCR_HPMN     (0x1fU)
 
 /* Not all of the MDCR_EL3 bits are present in the 32-bit SDCR */
 #define SDCR_VALID_MASK (MDCR_EPMAD | MDCR_EDAD | MDCR_SPME | MDCR_SPD)
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
     if (!cpu->has_pmu) {
         unset_feature(env, ARM_FEATURE_PMU);
         cpu->id_aa64dfr0 &= ~0xf00;
+    } else if (!kvm_enabled()) {
+        arm_register_pre_el_change_hook(cpu, &pmu_pre_el_change, 0);
+        arm_register_el_change_hook(cpu, &pmu_post_el_change, 0);
     }
 
     if (!arm_feature(env, ARM_FEATURE_EL2)) {
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
 /* Definitions for the PMU registers */
 #define PMCRN_MASK  0xf800
 #define PMCRN_SHIFT 11
+#define PMCRDP  0x10
 #define PMCRD   0x8
 #define PMCRC   0x4
 #define PMCRE   0x1
 
+#define PMXEVTYPER_P          0x80000000
+#define PMXEVTYPER_U          0x40000000
+#define PMXEVTYPER_NSK        0x20000000
+#define PMXEVTYPER_NSU        0x10000000
+#define PMXEVTYPER_NSH        0x08000000
+#define PMXEVTYPER_M          0x04000000
+#define PMXEVTYPER_MT         0x02000000
+#define PMXEVTYPER_EVTCOUNT   0x0000ffff
+#define PMXEVTYPER_MASK       (PMXEVTYPER_P | PMXEVTYPER_U | PMXEVTYPER_NSK | \
+                               PMXEVTYPER_NSU | PMXEVTYPER_NSH | \
+                               PMXEVTYPER_M | PMXEVTYPER_MT | \
+                               PMXEVTYPER_EVTCOUNT)
+
 static inline uint32_t pmu_num_counters(CPUARMState *env)
 {
   return (env->cp15.c9_pmcr & PMCRN_MASK) >> PMCRN_SHIFT;
@@ -XXX,XX +XXX,XX @@ static CPAccessResult pmreg_access_ccntr(CPUARMState *env,
     return pmreg_access(env, ri, isread);
 }
 
-static inline bool arm_ccnt_enabled(CPUARMState *env)
+/* Returns true if the counter (pass 31 for PMCCNTR) should count events using
+ * the current EL, security state, and register configuration.
+ */
+static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
 {
-    /* This does not support checking PMCCFILTR_EL0 register */
+    uint64_t filter;
+    bool e, p, u, nsk, nsu, nsh, m;
+    bool enabled, prohibited, filtered;
+    bool secure = arm_is_secure(env);
+    int el = arm_current_el(env);
+    uint8_t hpmn = env->cp15.mdcr_el2 & MDCR_HPMN;
 
-    if (!(env->cp15.c9_pmcr & PMCRE) || !(env->cp15.c9_pmcnten & (1 << 31))) {
-        return false;
+    if (!arm_feature(env, ARM_FEATURE_EL2) ||
+            (counter < hpmn || counter == 31)) {
+        e = env->cp15.c9_pmcr & PMCRE;
+    } else {
+        e = env->cp15.mdcr_el2 & MDCR_HPME;
+    }
+    enabled = e && (env->cp15.c9_pmcnten & (1 << counter));
+
+    if (!secure) {
+        if (el == 2 && (counter < hpmn || counter == 31)) {
+            prohibited = env->cp15.mdcr_el2 & MDCR_HPMD;
+        } else {
+            prohibited = false;
+        }
+    } else {
+        prohibited = arm_feature(env, ARM_FEATURE_EL3) &&
+           (env->cp15.mdcr_el3 & MDCR_SPME);
     }
 
-    return true;
+    if (prohibited && counter == 31) {
+        prohibited = env->cp15.c9_pmcr & PMCRDP;
+    }
+
+    /* TODO Remove assert, set filter to correct PMEVTYPER */
+    assert(counter == 31);
+    filter = env->cp15.pmccfiltr_el0;
+
+    p   = filter & PMXEVTYPER_P;
+    u   = filter & PMXEVTYPER_U;
+    nsk = arm_feature(env, ARM_FEATURE_EL3) && (filter & PMXEVTYPER_NSK);
+    nsu = arm_feature(env, ARM_FEATURE_EL3) && (filter & PMXEVTYPER_NSU);
+    nsh = arm_feature(env, ARM_FEATURE_EL2) && (filter & PMXEVTYPER_NSH);
+    m   = arm_el_is_aa64(env, 1) &&
+              arm_feature(env, ARM_FEATURE_EL3) && (filter & PMXEVTYPER_M);
+
+    if (el == 0) {
+        filtered = secure ? u : u != nsu;
+    } else if (el == 1) {
+        filtered = secure ? p : p != nsk;
+    } else if (el == 2) {
+        filtered = !nsh;
+    } else { /* EL3 */
+        filtered = m != p;
+    }
+
+    return enabled && !prohibited && !filtered;
 }
+
 /*
  * Ensure c15_ccnt is the guest-visible count so that operations such as
  * enabling/disabling the counter or filtering, modifying the count itself,
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_start(CPUARMState *env)
     cycles = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
                           ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
 
-    if (arm_ccnt_enabled(env)) {
+    if (pmu_counter_enabled(env, 31)) {
         uint64_t eff_cycles = cycles;
         if (env->cp15.c9_pmcr & PMCRD) {
             /* Increment once every 64 processor clock cycles */
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_start(CPUARMState *env)
  */
 void pmccntr_op_finish(CPUARMState *env)
 {
-    if (arm_ccnt_enabled(env)) {
+    if (pmu_counter_enabled(env, 31)) {
         uint64_t prev_cycles = env->cp15.c15_ccnt_delta;
 
         if (env->cp15.c9_pmcr & PMCRD) {
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env)
     pmccntr_op_finish(env);
 }
 
+void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
+{
+    pmu_op_start(&cpu->env);
+}
+
+void pmu_post_el_change(ARMCPU *cpu, void *ignored)
+{
+    pmu_op_finish(&cpu->env);
+}
+
 static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                        uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env)
 {
 }
 
+void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
+{
+}
+
+void pmu_post_el_change(ARMCPU *cpu, void *ignored)
+{
+}
+
 #endif
 
 static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181211151945.29137-6-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 27 ++++++++++++++++++++++++++-
 1 file changed, 26 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
                                PMXEVTYPER_M | PMXEVTYPER_MT | \
                                PMXEVTYPER_EVTCOUNT)
 
+#define PMCCFILTR             0xf8000000
+#define PMCCFILTR_M           PMXEVTYPER_M
+#define PMCCFILTR_EL0         (PMCCFILTR | PMCCFILTR_M)
+
 static inline uint32_t pmu_num_counters(CPUARMState *env)
 {
   return (env->cp15.c9_pmcr & PMCRN_MASK) >> PMCRN_SHIFT;
@@ -XXX,XX +XXX,XX @@ static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                             uint64_t value)
 {
     pmccntr_op_start(env);
-    env->cp15.pmccfiltr_el0 = value & 0xfc000000;
+    env->cp15.pmccfiltr_el0 = value & PMCCFILTR_EL0;
     pmccntr_op_finish(env);
 }
 
+static void pmccfiltr_write_a32(CPUARMState *env, const ARMCPRegInfo *ri,
+                            uint64_t value)
+{
+    pmccntr_op_start(env);
+    /* M is not accessible from AArch32 */
+    env->cp15.pmccfiltr_el0 = (env->cp15.pmccfiltr_el0 & PMCCFILTR_M) |
+        (value & PMCCFILTR);
+    pmccntr_op_finish(env);
+}
+
+static uint64_t pmccfiltr_read_a32(CPUARMState *env, const ARMCPRegInfo *ri)
+{
+    /* M is not visible in AArch32 */
+    return env->cp15.pmccfiltr_el0 & PMCCFILTR;
+}
+
 static void pmcntenset_write(CPUARMState *env, const ARMCPRegInfo *ri,
                             uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
       .readfn = pmccntr_read, .writefn = pmccntr_write,
       .raw_readfn = raw_read, .raw_writefn = raw_write, },
 #endif
+    { .name = "PMCCFILTR", .cp = 15, .opc1 = 0, .crn = 14, .crm = 15, .opc2 = 7,
+      .writefn = pmccfiltr_write_a32, .readfn = pmccfiltr_read_a32,
+      .access = PL0_RW, .accessfn = pmreg_access,
+      .type = ARM_CP_ALIAS | ARM_CP_IO,
+      .resetvalue = 0, },
     { .name = "PMCCFILTR_EL0", .state = ARM_CP_STATE_AA64,
       .opc0 = 3, .opc1 = 3, .crn = 14, .crm = 15, .opc2 = 7,
       .writefn = pmccfiltr_write, .raw_writefn = raw_write,
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

Add an array for PMOVSSET so we only define it for v7ve+ platforms

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181211151945.29137-7-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 28 ++++++++++++++++++++++++++++
 1 file changed, 28 insertions(+)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void pmovsr_write(CPUARMState *env, const ARMCPRegInfo *ri,
     env->cp15.c9_pmovsr &= ~value;
 }
 
+static void pmovsset_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                         uint64_t value)
+{
+    value &= pmu_counter_mask(env);
+    env->cp15.c9_pmovsr |= value;
+}
+
 static void pmxevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
                              uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7mp_cp_reginfo[] = {
     REGINFO_SENTINEL
 };
 
+static const ARMCPRegInfo pmovsset_cp_reginfo[] = {
+    /* PMOVSSET is not implemented in v7 before v7ve */
+    { .name = "PMOVSSET", .cp = 15, .opc1 = 0, .crn = 9, .crm = 14, .opc2 = 3,
+      .access = PL0_RW, .accessfn = pmreg_access,
+      .type = ARM_CP_ALIAS,
+      .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmovsr),
+      .writefn = pmovsset_write,
+      .raw_writefn = raw_write },
+    { .name = "PMOVSSET_EL0", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 14, .opc2 = 3,
+      .access = PL0_RW, .accessfn = pmreg_access,
+      .type = ARM_CP_ALIAS,
+      .fieldoffset = offsetof(CPUARMState, cp15.c9_pmovsr),
+      .writefn = pmovsset_write,
+      .raw_writefn = raw_write },
+    REGINFO_SENTINEL
+};
+
 static void teecr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                         uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
         !arm_feature(env, ARM_FEATURE_PMSA)) {
         define_arm_cp_regs(cpu, v7mp_cp_reginfo);
     }
+    if (arm_feature(env, ARM_FEATURE_V7VE)) {
+        define_arm_cp_regs(cpu, pmovsset_cp_reginfo);
+    }
     if (arm_feature(env, ARM_FEATURE_V7)) {
         /* v7 performance monitor control register: same implementor
          * field as main ID register, and we implement only the cycle
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

This is immediately necessary for the PMUv3 implementation to check
ID_DFR0.PerfMon to enable/disable specific features, but defines the
full complement of fields for possible future use elsewhere.

Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181211151945.29137-8-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(ID_AA64MMFR1, PAN, 20, 4)
 FIELD(ID_AA64MMFR1, SPECSEI, 24, 4)
 FIELD(ID_AA64MMFR1, XNX, 28, 4)
 
+FIELD(ID_DFR0, COPDBG, 0, 4)
+FIELD(ID_DFR0, COPSDBG, 4, 4)
+FIELD(ID_DFR0, MMAPDBG, 8, 4)
+FIELD(ID_DFR0, COPTRC, 12, 4)
+FIELD(ID_DFR0, MMAPTRC, 16, 4)
+FIELD(ID_DFR0, MPROFDBG, 20, 4)
+FIELD(ID_DFR0, PERFMON, 24, 4)
+FIELD(ID_DFR0, TRACEFILT, 28, 4)
+
 QEMU_BUILD_BUG_ON(ARRAY_SIZE(((ARMCPU *)0)->ccsidr) <= R_V7M_CSSELR_INDEX_MASK);
 
 /* If adding a feature bit which corresponds to a Linux ELF
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181211151945.29137-9-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    |  4 ++--
 target/arm/helper.c | 19 +++++++++++++++++--
 2 files changed, 19 insertions(+), 4 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ struct ARMCPU {
     uint32_t id_pfr0;
     uint32_t id_pfr1;
     uint32_t id_dfr0;
-    uint32_t pmceid0;
-    uint32_t pmceid1;
+    uint64_t pmceid0;
+    uint64_t pmceid1;
     uint32_t id_afr0;
     uint32_t id_mmfr0;
     uint32_t id_mmfr1;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
     } else {
         define_arm_cp_regs(cpu, not_v7_cp_reginfo);
     }
+    if (FIELD_EX32(cpu->id_dfr0, ID_DFR0, PERFMON) >= 4 &&
+            FIELD_EX32(cpu->id_dfr0, ID_DFR0, PERFMON) != 0xf) {
+        ARMCPRegInfo v81_pmu_regs[] = {
+            { .name = "PMCEID2", .state = ARM_CP_STATE_AA32,
+              .cp = 15, .opc1 = 0, .crn = 9, .crm = 14, .opc2 = 4,
+              .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
+              .resetvalue = extract64(cpu->pmceid0, 32, 32) },
+            { .name = "PMCEID3", .state = ARM_CP_STATE_AA32,
+              .cp = 15, .opc1 = 0, .crn = 9, .crm = 14, .opc2 = 5,
+              .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
+              .resetvalue = extract64(cpu->pmceid1, 32, 32) },
+            REGINFO_SENTINEL
+        };
+        define_arm_cp_regs(cpu, v81_pmu_regs);
+    }
     if (arm_feature(env, ARM_FEATURE_V8)) {
         /* AArch64 ID registers, which all have impdef reset values.
          * Note that within the ID register ranges the unused slots
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             { .name = "PMCEID0", .state = ARM_CP_STATE_AA32,
               .cp = 15, .opc1 = 0, .crn = 9, .crm = 12, .opc2 = 6,
               .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
-              .resetvalue = cpu->pmceid0 },
+              .resetvalue = extract64(cpu->pmceid0, 0, 32) },
             { .name = "PMCEID0_EL0", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 12, .opc2 = 6,
               .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             { .name = "PMCEID1", .state = ARM_CP_STATE_AA32,
               .cp = 15, .opc1 = 0, .crn = 9, .crm = 12, .opc2 = 7,
               .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
-              .resetvalue = cpu->pmceid1 },
+              .resetvalue = extract64(cpu->pmceid1, 0, 32) },
             { .name = "PMCEID1_EL0", .state = ARM_CP_STATE_AA64,
               .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 12, .opc2 = 7,
               .access = PL0_R, .accessfn = pmreg_access, .type = ARM_CP_CONST,
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

This commit doesn't add any supported events, but provides the framework
for adding them. We store the pm_event structs in a simple array, and
provide the mapping from the event numbers to array indexes in the
supported_event_map array. Because the value of PMCEID[01] depends upon
which events are supported at runtime, generate it dynamically.

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181211151945.29137-10-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 10 ++++++++
 target/arm/cpu.c    | 19 +++++++++------
 target/arm/cpu64.c  |  4 ----
 target/arm/helper.c | 57 +++++++++++++++++++++++++++++++++++++++++++++
 4 files changed, 79 insertions(+), 11 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ void pmu_op_finish(CPUARMState *env);
 void pmu_pre_el_change(ARMCPU *cpu, void *ignored);
 void pmu_post_el_change(ARMCPU *cpu, void *ignored);
 
+/*
+ * get_pmceid
+ * @env: CPUARMState
+ * @which: which PMCEID register to return (0 or 1)
+ *
+ * Return the PMCEID[01]_EL0 register values corresponding to the counters
+ * which are supported given the current configuration
+ */
+uint64_t get_pmceid(CPUARMState *env, unsigned which);
+
 /* SCTLR bit meanings. Several bits have been reused in newer
  * versions of the architecture; in that case we define constants
  * for both old and new bit meanings. Code which tests against those
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
 
     if (!cpu->has_pmu) {
         unset_feature(env, ARM_FEATURE_PMU);
+    }
+    if (arm_feature(env, ARM_FEATURE_PMU)) {
+        cpu->pmceid0 = get_pmceid(&cpu->env, 0);
+        cpu->pmceid1 = get_pmceid(&cpu->env, 1);
+
+        if (!kvm_enabled()) {
+            arm_register_pre_el_change_hook(cpu, &pmu_pre_el_change, 0);
+            arm_register_el_change_hook(cpu, &pmu_post_el_change, 0);
+        }
+    } else {
         cpu->id_aa64dfr0 &= ~0xf00;
-    } else if (!kvm_enabled()) {
-        arm_register_pre_el_change_hook(cpu, &pmu_pre_el_change, 0);
-        arm_register_el_change_hook(cpu, &pmu_post_el_change, 0);
+        cpu->pmceid0 = 0;
+        cpu->pmceid1 = 0;
     }
 
     if (!arm_feature(env, ARM_FEATURE_EL2)) {
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
     cpu->id_pfr0 = 0x00001131;
     cpu->id_pfr1 = 0x00011011;
     cpu->id_dfr0 = 0x02010555;
-    cpu->pmceid0 = 0x00000000;
-    cpu->pmceid1 = 0x00000000;
     cpu->id_afr0 = 0x00000000;
     cpu->id_mmfr0 = 0x10101105;
     cpu->id_mmfr1 = 0x40000000;
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
     cpu->id_pfr0 = 0x00001131;
     cpu->id_pfr1 = 0x00011011;
     cpu->id_dfr0 = 0x02010555;
-    cpu->pmceid0 = 0x0000000;
-    cpu->pmceid1 = 0x00000000;
     cpu->id_afr0 = 0x00000000;
     cpu->id_mmfr0 = 0x10201105;
     cpu->id_mmfr1 = 0x20000000;
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
     cpu->isar.id_isar6 = 0;
     cpu->isar.id_aa64pfr0 = 0x00002222;
     cpu->id_aa64dfr0 = 0x10305106;
-    cpu->pmceid0 = 0x00000000;
-    cpu->pmceid1 = 0x00000000;
     cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->isar.id_aa64mmfr0 = 0x00001124;
     cpu->dbgdidr = 0x3516d000;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
     cpu->isar.id_isar5 = 0x00011121;
     cpu->isar.id_aa64pfr0 = 0x00002222;
     cpu->id_aa64dfr0 = 0x10305106;
-    cpu->pmceid0 = 0x00000000;
-    cpu->pmceid1 = 0x00000000;
     cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->isar.id_aa64mmfr0 = 0x00001124;
     cpu->dbgdidr = 0x3516d000;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t pmu_counter_mask(CPUARMState *env)
   return (1 << 31) | ((1 << pmu_num_counters(env)) - 1);
 }
 
+typedef struct pm_event {
+    uint16_t number; /* PMEVTYPER.evtCount is 16 bits wide */
+    /* If the event is supported on this CPU (used to generate PMCEID[01]) */
+    bool (*supported)(CPUARMState *);
+    /*
+     * Retrieve the current count of the underlying event. The programmed
+     * counters hold a difference from the return value from this function
+     */
+    uint64_t (*get_count)(CPUARMState *);
+} pm_event;
+
+static const pm_event pm_events[] = {
+};
+
+/*
+ * Note: Before increasing MAX_EVENT_ID beyond 0x3f into the 0x40xx range of
+ * events (i.e. the statistical profiling extension), this implementation
+ * should first be updated to something sparse instead of the current
+ * supported_event_map[] array.
+ */
+#define MAX_EVENT_ID 0x0
+#define UNSUPPORTED_EVENT UINT16_MAX
+static uint16_t supported_event_map[MAX_EVENT_ID + 1];
+
+/*
+ * Called upon initialization to build PMCEID0_EL0 or PMCEID1_EL0 (indicated by
+ * 'which'). We also use it to build a map of ARM event numbers to indices in
+ * our pm_events array.
+ *
+ * Note: Events in the 0x40XX range are not currently supported.
+ */
+uint64_t get_pmceid(CPUARMState *env, unsigned which)
+{
+    uint64_t pmceid = 0;
+    unsigned int i;
+
+    assert(which <= 1);
+
+    for (i = 0; i < ARRAY_SIZE(supported_event_map); i++) {
+        supported_event_map[i] = UNSUPPORTED_EVENT;
+    }
+
+    for (i = 0; i < ARRAY_SIZE(pm_events); i++) {
+        const pm_event *cnt = &pm_events[i];
+        assert(cnt->number <= MAX_EVENT_ID);
+        /* We do not currently support events in the 0x40xx range */
+        assert(cnt->number <= 0x3f);
+
+        if ((cnt->number & 0x20) == (which << 6) &&
+                cnt->supported(env)) {
+            pmceid |= (1 << (cnt->number & 0x1f));
+            supported_event_map[cnt->number] = i;
+        }
+    }
+    return pmceid;
+}
+
 static CPAccessResult pmreg_access(CPUARMState *env, const ARMCPRegInfo *ri,
                                    bool isread)
 {
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

Add arrays to hold the registers, the definitions themselves, access
functions, and logic to reset counters when PMCR.P is set. Update
filtering code to support counters other than PMCCNTR. Support migration
with raw read/write functions.

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181211151945.29137-11-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    |   3 +
 target/arm/helper.c | 296 +++++++++++++++++++++++++++++++++++++++++---
 2 files changed, 282 insertions(+), 17 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct CPUARMState {
          * pmccntr_op_finish.
          */
         uint64_t c15_ccnt_delta;
+        uint64_t c14_pmevcntr[31];
+        uint64_t c14_pmevcntr_delta[31];
+        uint64_t c14_pmevtyper[31];
         uint64_t pmccfiltr_el0; /* Performance Monitor Filter Register */
         uint64_t vpidr_el2; /* Virtualization Processor ID Register */
         uint64_t vmpidr_el2; /* Virtualization Multiprocessor ID Register */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v6_cp_reginfo[] = {
 #define PMCRDP  0x10
 #define PMCRD   0x8
 #define PMCRC   0x4
+#define PMCRP   0x2
 #define PMCRE   0x1
 
 #define PMXEVTYPER_P          0x80000000
@@ -XXX,XX +XXX,XX @@ uint64_t get_pmceid(CPUARMState *env, unsigned which)
     return pmceid;
 }
 
+/*
+ * Check at runtime whether a PMU event is supported for the current machine
+ */
+static bool event_supported(uint16_t number)
+{
+    if (number > MAX_EVENT_ID) {
+        return false;
+    }
+    return supported_event_map[number] != UNSUPPORTED_EVENT;
+}
+
 static CPAccessResult pmreg_access(CPUARMState *env, const ARMCPRegInfo *ri,
                                    bool isread)
 {
@@ -XXX,XX +XXX,XX @@ static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
         prohibited = env->cp15.c9_pmcr & PMCRDP;
     }
 
-    /* TODO Remove assert, set filter to correct PMEVTYPER */
-    assert(counter == 31);
-    filter = env->cp15.pmccfiltr_el0;
+    if (counter == 31) {
+        filter = env->cp15.pmccfiltr_el0;
+    } else {
+        filter = env->cp15.c14_pmevtyper[counter];
+    }
 
     p   = filter & PMXEVTYPER_P;
     u   = filter & PMXEVTYPER_U;
@@ -XXX,XX +XXX,XX @@ static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
         filtered = m != p;
     }
 
+    if (counter != 31) {
+        /*
+         * If not checking PMCCNTR, ensure the counter is setup to an event we
+         * support
+         */
+        uint16_t event = filter & PMXEVTYPER_EVTCOUNT;
+        if (!event_supported(event)) {
+            return false;
+        }
+    }
+
     return enabled && !prohibited && !filtered;
 }
 
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_finish(CPUARMState *env)
     }
 }
 
+static void pmevcntr_op_start(CPUARMState *env, uint8_t counter)
+{
+
+    uint16_t event = env->cp15.c14_pmevtyper[counter] & PMXEVTYPER_EVTCOUNT;
+    uint64_t count = 0;
+    if (event_supported(event)) {
+        uint16_t event_idx = supported_event_map[event];
+        count = pm_events[event_idx].get_count(env);
+    }
+
+    if (pmu_counter_enabled(env, counter)) {
+        env->cp15.c14_pmevcntr[counter] =
+            count - env->cp15.c14_pmevcntr_delta[counter];
+    }
+    env->cp15.c14_pmevcntr_delta[counter] = count;
+}
+
+static void pmevcntr_op_finish(CPUARMState *env, uint8_t counter)
+{
+    if (pmu_counter_enabled(env, counter)) {
+        env->cp15.c14_pmevcntr_delta[counter] -=
+            env->cp15.c14_pmevcntr[counter];
+    }
+}
+
 void pmu_op_start(CPUARMState *env)
 {
+    unsigned int i;
     pmccntr_op_start(env);
+    for (i = 0; i < pmu_num_counters(env); i++) {
+        pmevcntr_op_start(env, i);
+    }
 }
 
 void pmu_op_finish(CPUARMState *env)
 {
+    unsigned int i;
     pmccntr_op_finish(env);
+    for (i = 0; i < pmu_num_counters(env); i++) {
+        pmevcntr_op_finish(env, i);
+    }
 }
 
 void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
@@ -XXX,XX +XXX,XX @@ static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
         env->cp15.c15_ccnt = 0;
     }
 
+    if (value & PMCRP) {
+        unsigned int i;
+        for (i = 0; i < pmu_num_counters(env); i++) {
+            env->cp15.c14_pmevcntr[i] = 0;
+        }
+    }
+
     /* only the DP, X, D and E bits are writable */
     env->cp15.c9_pmcr &= ~0x39;
     env->cp15.c9_pmcr |= (value & 0x39);
@@ -XXX,XX +XXX,XX @@ void pmccntr_op_finish(CPUARMState *env)
 {
 }
 
+void pmevcntr_op_start(CPUARMState *env, uint8_t i)
+{
+}
+
+void pmevcntr_op_finish(CPUARMState *env, uint8_t i)
+{
+}
+
 void pmu_op_start(CPUARMState *env)
 {
 }
@@ -XXX,XX +XXX,XX @@ static void pmovsset_write(CPUARMState *env, const ARMCPRegInfo *ri,
     env->cp15.c9_pmovsr |= value;
 }
 
-static void pmxevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
-                             uint64_t value)
+static void pmevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                             uint64_t value, const uint8_t counter)
 {
+    if (counter == 31) {
+        pmccfiltr_write(env, ri, value);
+    } else if (counter < pmu_num_counters(env)) {
+        pmevcntr_op_start(env, counter);
+
+        /*
+         * If this counter's event type is changing, store the current
+         * underlying count for the new type in c14_pmevcntr_delta[counter] so
+         * pmevcntr_op_finish has the correct baseline when it converts back to
+         * a delta.
+         */
+        uint16_t old_event = env->cp15.c14_pmevtyper[counter] &
+            PMXEVTYPER_EVTCOUNT;
+        uint16_t new_event = value & PMXEVTYPER_EVTCOUNT;
+        if (old_event != new_event) {
+            uint64_t count = 0;
+            if (event_supported(new_event)) {
+                uint16_t event_idx = supported_event_map[new_event];
+                count = pm_events[event_idx].get_count(env);
+            }
+            env->cp15.c14_pmevcntr_delta[counter] = count;
+        }
+
+        env->cp15.c14_pmevtyper[counter] = value & PMXEVTYPER_MASK;
+        pmevcntr_op_finish(env, counter);
+    }
     /* Attempts to access PMXEVTYPER are CONSTRAINED UNPREDICTABLE when
      * PMSELR value is equal to or greater than the number of implemented
      * counters, but not equal to 0x1f. We opt to behave as a RAZ/WI.
      */
-    if (env->cp15.c9_pmselr == 0x1f) {
-        pmccfiltr_write(env, ri, value);
+}
+
+static uint64_t pmevtyper_read(CPUARMState *env, const ARMCPRegInfo *ri,
+                               const uint8_t counter)
+{
+    if (counter == 31) {
+        return env->cp15.pmccfiltr_el0;
+    } else if (counter < pmu_num_counters(env)) {
+        return env->cp15.c14_pmevtyper[counter];
+    } else {
+      /*
+       * We opt to behave as a RAZ/WI when attempts to access PMXEVTYPER
+       * are CONSTRAINED UNPREDICTABLE. See comments in pmevtyper_write().
+       */
+        return 0;
     }
 }
 
+static void pmevtyper_writefn(CPUARMState *env, const ARMCPRegInfo *ri,
+                              uint64_t value)
+{
+    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
+    pmevtyper_write(env, ri, value, counter);
+}
+
+static void pmevtyper_rawwrite(CPUARMState *env, const ARMCPRegInfo *ri,
+                               uint64_t value)
+{
+    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
+    env->cp15.c14_pmevtyper[counter] = value;
+
+    /*
+     * pmevtyper_rawwrite is called between a pair of pmu_op_start and
+     * pmu_op_finish calls when loading saved state for a migration. Because
+     * we're potentially updating the type of event here, the value written to
+     * c14_pmevcntr_delta by the preceeding pmu_op_start call may be for a
+     * different counter type. Therefore, we need to set this value to the
+     * current count for the counter type we're writing so that pmu_op_finish
+     * has the correct count for its calculation.
+     */
+    uint16_t event = value & PMXEVTYPER_EVTCOUNT;
+    if (event_supported(event)) {
+        uint16_t event_idx = supported_event_map[event];
+        env->cp15.c14_pmevcntr_delta[counter] =
+            pm_events[event_idx].get_count(env);
+    }
+}
+
+static uint64_t pmevtyper_readfn(CPUARMState *env, const ARMCPRegInfo *ri)
+{
+    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
+    return pmevtyper_read(env, ri, counter);
+}
+
+static void pmxevtyper_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                             uint64_t value)
+{
+    pmevtyper_write(env, ri, value, env->cp15.c9_pmselr & 31);
+}
+
 static uint64_t pmxevtyper_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
-    /* We opt to behave as a RAZ/WI when attempts to access PMXEVTYPER
-     * are CONSTRAINED UNPREDICTABLE. See comments in pmxevtyper_write().
+    return pmevtyper_read(env, ri, env->cp15.c9_pmselr & 31);
+}
+
+static void pmevcntr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                             uint64_t value, uint8_t counter)
+{
+    if (counter < pmu_num_counters(env)) {
+        pmevcntr_op_start(env, counter);
+        env->cp15.c14_pmevcntr[counter] = value;
+        pmevcntr_op_finish(env, counter);
+    }
+    /*
+     * We opt to behave as a RAZ/WI when attempts to access PM[X]EVCNTR
+     * are CONSTRAINED UNPREDICTABLE.
      */
-    if (env->cp15.c9_pmselr == 0x1f) {
-        return env->cp15.pmccfiltr_el0;
+}
+
+static uint64_t pmevcntr_read(CPUARMState *env, const ARMCPRegInfo *ri,
+                              uint8_t counter)
+{
+    if (counter < pmu_num_counters(env)) {
+        uint64_t ret;
+        pmevcntr_op_start(env, counter);
+        ret = env->cp15.c14_pmevcntr[counter];
+        pmevcntr_op_finish(env, counter);
+        return ret;
     } else {
+      /* We opt to behave as a RAZ/WI when attempts to access PM[X]EVCNTR
+       * are CONSTRAINED UNPREDICTABLE. */
         return 0;
     }
 }
 
+static void pmevcntr_writefn(CPUARMState *env, const ARMCPRegInfo *ri,
+                             uint64_t value)
+{
+    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
+    pmevcntr_write(env, ri, value, counter);
+}
+
+static uint64_t pmevcntr_readfn(CPUARMState *env, const ARMCPRegInfo *ri)
+{
+    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
+    return pmevcntr_read(env, ri, counter);
+}
+
+static void pmevcntr_rawwrite(CPUARMState *env, const ARMCPRegInfo *ri,
+                             uint64_t value)
+{
+    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
+    assert(counter < pmu_num_counters(env));
+    env->cp15.c14_pmevcntr[counter] = value;
+    pmevcntr_write(env, ri, value, counter);
+}
+
+static uint64_t pmevcntr_rawread(CPUARMState *env, const ARMCPRegInfo *ri)
+{
+    uint8_t counter = ((ri->crm & 3) << 3) | (ri->opc2 & 7);
+    assert(counter < pmu_num_counters(env));
+    return env->cp15.c14_pmevcntr[counter];
+}
+
+static void pmxevcntr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                             uint64_t value)
+{
+    pmevcntr_write(env, ri, value, env->cp15.c9_pmselr & 31);
+}
+
+static uint64_t pmxevcntr_read(CPUARMState *env, const ARMCPRegInfo *ri)
+{
+    return pmevcntr_read(env, ri, env->cp15.c9_pmselr & 31);
+}
+
 static void pmuserenr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                             uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
       .fieldoffset = offsetof(CPUARMState, cp15.pmccfiltr_el0),
       .resetvalue = 0, },
     { .name = "PMXEVTYPER", .cp = 15, .crn = 9, .crm = 13, .opc1 = 0, .opc2 = 1,
-      .access = PL0_RW, .type = ARM_CP_NO_RAW, .accessfn = pmreg_access,
+      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
+      .accessfn = pmreg_access,
       .writefn = pmxevtyper_write, .readfn = pmxevtyper_read },
     { .name = "PMXEVTYPER_EL0", .state = ARM_CP_STATE_AA64,
       .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 13, .opc2 = 1,
-      .access = PL0_RW, .type = ARM_CP_NO_RAW, .accessfn = pmreg_access,
+      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
+      .accessfn = pmreg_access,
       .writefn = pmxevtyper_write, .readfn = pmxevtyper_read },
-    /* Unimplemented, RAZ/WI. */
     { .name = "PMXEVCNTR", .cp = 15, .crn = 9, .crm = 13, .opc1 = 0, .opc2 = 2,
-      .access = PL0_RW, .type = ARM_CP_CONST, .resetvalue = 0,
-      .accessfn = pmreg_access_xevcntr },
+      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
+      .accessfn = pmreg_access_xevcntr,
+      .writefn = pmxevcntr_write, .readfn = pmxevcntr_read },
+    { .name = "PMXEVCNTR_EL0", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 13, .opc2 = 2,
+      .access = PL0_RW, .type = ARM_CP_NO_RAW | ARM_CP_IO,
+      .accessfn = pmreg_access_xevcntr,
+      .writefn = pmxevcntr_write, .readfn = pmxevcntr_read },
     { .name = "PMUSERENR", .cp = 15, .crn = 9, .crm = 14, .opc1 = 0, .opc2 = 0,
       .access = PL0_R | PL1_RW, .accessfn = access_tpm,
       .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmuserenr),
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el2_cp_reginfo[] = {
 #endif
     /* The only field of MDCR_EL2 that has a defined architectural reset value
      * is MDCR_EL2.HPMN which should reset to the value of PMCR_EL0.N; but we
-     * don't impelment any PMU event counters, so using zero as a reset
+     * don't implement any PMU event counters, so using zero as a reset
      * value for MDCR_EL2 is okay
      */
     { .name = "MDCR_EL2", .state = ARM_CP_STATE_BOTH,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
          * field as main ID register, and we implement only the cycle
          * count register.
          */
+        unsigned int i, pmcrn = 0;
 #ifndef CONFIG_USER_ONLY
         ARMCPRegInfo pmcr = {
             .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
         };
         define_one_arm_cp_reg(cpu, &pmcr);
         define_one_arm_cp_reg(cpu, &pmcr64);
+        for (i = 0; i < pmcrn; i++) {
+            char *pmevcntr_name = g_strdup_printf("PMEVCNTR%d", i);
+            char *pmevcntr_el0_name = g_strdup_printf("PMEVCNTR%d_EL0", i);
+            char *pmevtyper_name = g_strdup_printf("PMEVTYPER%d", i);
+            char *pmevtyper_el0_name = g_strdup_printf("PMEVTYPER%d_EL0", i);
+            ARMCPRegInfo pmev_regs[] = {
+                { .name = pmevcntr_name, .cp = 15, .crn = 15,
+                  .crm = 8 | (3 & (i >> 3)), .opc1 = 0, .opc2 = i & 7,
+                  .access = PL0_RW, .type = ARM_CP_IO | ARM_CP_ALIAS,
+                  .readfn = pmevcntr_readfn, .writefn = pmevcntr_writefn,
+                  .accessfn = pmreg_access },
+                { .name = pmevcntr_el0_name, .state = ARM_CP_STATE_AA64,
+                  .opc0 = 3, .opc1 = 3, .crn = 15, .crm = 8 | (3 & (i >> 3)),
+                  .opc2 = i & 7, .access = PL0_RW, .accessfn = pmreg_access,
+                  .type = ARM_CP_IO,
+                  .readfn = pmevcntr_readfn, .writefn = pmevcntr_writefn,
+                  .raw_readfn = pmevcntr_rawread,
+                  .raw_writefn = pmevcntr_rawwrite },
+                { .name = pmevtyper_name, .cp = 15, .crn = 15,
+                  .crm = 12 | (3 & (i >> 3)), .opc1 = 0, .opc2 = i & 7,
+                  .access = PL0_RW, .type = ARM_CP_IO | ARM_CP_ALIAS,
+                  .readfn = pmevtyper_readfn, .writefn = pmevtyper_writefn,
+                  .accessfn = pmreg_access },
+                { .name = pmevtyper_el0_name, .state = ARM_CP_STATE_AA64,
+                  .opc0 = 3, .opc1 = 3, .crn = 15, .crm = 12 | (3 & (i >> 3)),
+                  .opc2 = i & 7, .access = PL0_RW, .accessfn = pmreg_access,
+                  .type = ARM_CP_IO,
+                  .readfn = pmevtyper_readfn, .writefn = pmevtyper_writefn,
+                  .raw_writefn = pmevtyper_rawwrite },
+                REGINFO_SENTINEL
+            };
+            define_arm_cp_regs(cpu, pmev_regs);
+            g_free(pmevcntr_name);
+            g_free(pmevcntr_el0_name);
+            g_free(pmevtyper_name);
+            g_free(pmevtyper_el0_name);
+        }
 #endif
         ARMCPRegInfo clidr = {
             .name = "CLIDR", .state = ARM_CP_STATE_BOTH,
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

The instruction event is only enabled when icount is used, cycles are
always supported. Always defining get_cycle_count (but altering its
behavior depending on CONFIG_USER_ONLY) allows us to remove some
CONFIG_USER_ONLY #defines throughout the rest of the code.

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181211151945.29137-12-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 90 ++++++++++++++++++++++-----------------------
 1 file changed, 44 insertions(+), 46 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@
 #include "arm_ldst.h"
 #include <zlib.h> /* For crc32 */
 #include "exec/semihost.h"
+#include "sysemu/cpus.h"
 #include "sysemu/kvm.h"
 #include "fpu/softfloat.h"
 #include "qemu/range.h"
@@ -XXX,XX +XXX,XX @@ typedef struct pm_event {
     uint64_t (*get_count)(CPUARMState *);
 } pm_event;
 
+static bool event_always_supported(CPUARMState *env)
+{
+    return true;
+}
+
+/*
+ * Return the underlying cycle count for the PMU cycle counters. If we're in
+ * usermode, simply return 0.
+ */
+static uint64_t cycles_get_count(CPUARMState *env)
+{
+#ifndef CONFIG_USER_ONLY
+    return muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
+                   ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
+#else
+    return cpu_get_host_ticks();
+#endif
+}
+
+#ifndef CONFIG_USER_ONLY
+static bool instructions_supported(CPUARMState *env)
+{
+    return use_icount == 1 /* Precise instruction counting */;
+}
+
+static uint64_t instructions_get_count(CPUARMState *env)
+{
+    return (uint64_t)cpu_get_icount_raw();
+}
+#endif
+
 static const pm_event pm_events[] = {
+#ifndef CONFIG_USER_ONLY
+    { .number = 0x008, /* INST_RETIRED, Instruction architecturally executed */
+      .supported = instructions_supported,
+      .get_count = instructions_get_count,
+    },
+    { .number = 0x011, /* CPU_CYCLES, Cycle */
+      .supported = event_always_supported,
+      .get_count = cycles_get_count,
+    }
+#endif
 };
 
 /*
@@ -XXX,XX +XXX,XX @@ static const pm_event pm_events[] = {
  * should first be updated to something sparse instead of the current
  * supported_event_map[] array.
  */
-#define MAX_EVENT_ID 0x0
+#define MAX_EVENT_ID 0x11
 #define UNSUPPORTED_EVENT UINT16_MAX
 static uint16_t supported_event_map[MAX_EVENT_ID + 1];
 
@@ -XXX,XX +XXX,XX @@ static CPAccessResult pmreg_access_swinc(CPUARMState *env,
     return pmreg_access(env, ri, isread);
 }
 
-#ifndef CONFIG_USER_ONLY
-
 static CPAccessResult pmreg_access_selr(CPUARMState *env,
                                         const ARMCPRegInfo *ri,
                                         bool isread)
@@ -XXX,XX +XXX,XX @@ static bool pmu_counter_enabled(CPUARMState *env, uint8_t counter)
  */
 void pmccntr_op_start(CPUARMState *env)
 {
-    uint64_t cycles = 0;
-    cycles = muldiv64(qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL),
-                          ARM_CPU_FREQ, NANOSECONDS_PER_SECOND);
+    uint64_t cycles = cycles_get_count(env);
 
     if (pmu_counter_enabled(env, 31)) {
         uint64_t eff_cycles = cycles;
@@ -XXX,XX +XXX,XX @@ static void pmccntr_write32(CPUARMState *env, const ARMCPRegInfo *ri,
     pmccntr_write(env, ri, deposit64(cur_val, 0, 32, value));
 }
 
-#else /* CONFIG_USER_ONLY */
-
-void pmccntr_op_start(CPUARMState *env)
-{
-}
-
-void pmccntr_op_finish(CPUARMState *env)
-{
-}
-
-void pmevcntr_op_start(CPUARMState *env, uint8_t i)
-{
-}
-
-void pmevcntr_op_finish(CPUARMState *env, uint8_t i)
-{
-}
-
-void pmu_op_start(CPUARMState *env)
-{
-}
-
-void pmu_op_finish(CPUARMState *env)
-{
-}
-
-void pmu_pre_el_change(ARMCPU *cpu, void *ignored)
-{
-}
-
-void pmu_post_el_change(ARMCPU *cpu, void *ignored)
-{
-}
-
-#endif
-
 static void pmccfiltr_write(CPUARMState *env, const ARMCPRegInfo *ri,
                             uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
     /* Unimplemented so WI. */
     { .name = "PMSWINC", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 4,
       .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NOP },
-#ifndef CONFIG_USER_ONLY
     { .name = "PMSELR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 5,
       .access = PL0_RW, .type = ARM_CP_ALIAS,
       .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmselr),
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
       .fieldoffset = offsetof(CPUARMState, cp15.c15_ccnt),
       .readfn = pmccntr_read, .writefn = pmccntr_write,
       .raw_readfn = raw_read, .raw_writefn = raw_write, },
-#endif
     { .name = "PMCCFILTR", .cp = 15, .opc1 = 0, .crn = 14, .crm = 15, .opc2 = 7,
       .writefn = pmccfiltr_write_a32, .readfn = pmccfiltr_read_a32,
       .access = PL0_RW, .accessfn = pmreg_access,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
          * count register.
          */
         unsigned int i, pmcrn = 0;
-#ifndef CONFIG_USER_ONLY
         ARMCPRegInfo pmcr = {
             .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
             .access = PL0_RW,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             g_free(pmevtyper_name);
             g_free(pmevtyper_el0_name);
         }
-#endif
         ARMCPRegInfo clidr = {
             .name = "CLIDR", .state = ARM_CP_STATE_BOTH,
             .opc0 = 3, .crn = 0, .crm = 0, .opc1 = 1, .opc2 = 1,
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

This both advertises that we support four counters and enables them
because the pmu_num_counters() reads this value from PMCR.

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Signed-off-by: Aaron Lindsay <aaron@os.amperecomputing.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20181211151945.29137-13-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
       .access = PL1_W, .type = ARM_CP_NOP },
     /* Performance monitors are implementation defined in v7,
      * but with an ARM recommended set of registers, which we
-     * follow (although we don't actually implement any counters)
+     * follow.
      *
      * Performance registers fall into three categories:
      *  (a) always UNDEF in PL0, RW in PL1 (PMINTENSET, PMINTENCLR)
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
     }
     if (arm_feature(env, ARM_FEATURE_V7)) {
         /* v7 performance monitor control register: same implementor
-         * field as main ID register, and we implement only the cycle
-         * count register.
+         * field as main ID register, and we implement four counters in
+         * addition to the cycle count register.
          */
-        unsigned int i, pmcrn = 0;
+        unsigned int i, pmcrn = 4;
         ARMCPRegInfo pmcr = {
             .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
             .access = PL0_RW,
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
             .access = PL0_RW, .accessfn = pmreg_access,
             .type = ARM_CP_IO,
             .fieldoffset = offsetof(CPUARMState, cp15.c9_pmcr),
-            .resetvalue = cpu->midr & 0xff000000,
+            .resetvalue = (cpu->midr & 0xff000000) | (pmcrn << PMCRN_SHIFT),
             .writefn = pmcr_write, .raw_writefn = raw_write,
         };
         define_one_arm_cp_reg(cpu, &pmcr);
-- 
2.20.1

From: Aaron Lindsay <aaron@os.amperecomputing.com>

Signed-off-by: Aaron Lindsay <alindsay@codeaurora.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20181211151945.29137-14-aaron@os.amperecomputing.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 39 +++++++++++++++++++++++++++++++++++++--
 1 file changed, 37 insertions(+), 2 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static bool event_always_supported(CPUARMState *env)
     return true;
 }
 
+static uint64_t swinc_get_count(CPUARMState *env)
+{
+    /*
+     * SW_INCR events are written directly to the pmevcntr's by writes to
+     * PMSWINC, so there is no underlying count maintained by the PMU itself
+     */
+    return 0;
+}
+
 /*
  * Return the underlying cycle count for the PMU cycle counters. If we're in
  * usermode, simply return 0.
@@ -XXX,XX +XXX,XX @@ static uint64_t instructions_get_count(CPUARMState *env)
 #endif
 
 static const pm_event pm_events[] = {
+    { .number = 0x000, /* SW_INCR */
+      .supported = event_always_supported,
+      .get_count = swinc_get_count,
+    },
 #ifndef CONFIG_USER_ONLY
     { .number = 0x008, /* INST_RETIRED, Instruction architecturally executed */
       .supported = instructions_supported,
@@ -XXX,XX +XXX,XX @@ static void pmcr_write(CPUARMState *env, const ARMCPRegInfo *ri,
     pmu_op_finish(env);
 }
 
+static void pmswinc_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                          uint64_t value)
+{
+    unsigned int i;
+    for (i = 0; i < pmu_num_counters(env); i++) {
+        /* Increment a counter's count iff: */
+        if ((value & (1 << i)) && /* counter's bit is set */
+                /* counter is enabled and not filtered */
+                pmu_counter_enabled(env, i) &&
+                /* counter is SW_INCR */
+                (env->cp15.c14_pmevtyper[i] & PMXEVTYPER_EVTCOUNT) == 0x0) {
+            pmevcntr_op_start(env, i);
+            env->cp15.c14_pmevcntr[i]++;
+            pmevcntr_op_finish(env, i);
+        }
+    }
+}
+
 static uint64_t pmccntr_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
     uint64_t ret;
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo v7_cp_reginfo[] = {
       .fieldoffset = offsetof(CPUARMState, cp15.c9_pmovsr),
       .writefn = pmovsr_write,
       .raw_writefn = raw_write },
-    /* Unimplemented so WI. */
     { .name = "PMSWINC", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 4,
-      .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NOP },
+      .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NO_RAW,
+      .writefn = pmswinc_write },
+    { .name = "PMSWINC_EL0", .state = ARM_CP_STATE_AA64,
+      .opc0 = 3, .opc1 = 3, .crn = 9, .crm = 12, .opc2 = 4,
+      .access = PL0_W, .accessfn = pmreg_access_swinc, .type = ARM_CP_NO_RAW,
+      .writefn = pmswinc_write },
     { .name = "PMSELR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 5,
       .access = PL0_RW, .type = ARM_CP_ALIAS,
       .fieldoffset = offsetoflow32(CPUARMState, cp15.c9_pmselr),
-- 
2.20.1

From: Julia Suvorova <jusual@mail.ru>

Run qtest with a socket that connects QEMU chardev and test code.

Signed-off-by: Julia Suvorova <jusual@mail.ru>
Reviewed-by: Stefan Hajnoczi <stefanha@redhat.com>
Message-id: 20190117161640.5496-2-jusual@mail.ru
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 tests/libqtest.h | 11 +++++++++++
 tests/libqtest.c | 26 ++++++++++++++++++++++++++
 2 files changed, 37 insertions(+)

diff --git a/tests/libqtest.h b/tests/libqtest.h
index XXXXXXX..XXXXXXX 100644
--- a/tests/libqtest.h
+++ b/tests/libqtest.h
@@ -XXX,XX +XXX,XX @@ QTestState *qtest_init(const char *extra_args);
  */
 QTestState *qtest_init_without_qmp_handshake(const char *extra_args);
 
+/**
+ * qtest_init_with_serial:
+ * @extra_args: other arguments to pass to QEMU.  CAUTION: these
+ * arguments are subject to word splitting and shell evaluation.
+ * @sock_fd: pointer to store the socket file descriptor for
+ * connection with serial.
+ *
+ * Returns: #QTestState instance.
+ */
+QTestState *qtest_init_with_serial(const char *extra_args, int *sock_fd);
+
 /**
  * qtest_quit:
  * @s: #QTestState instance to operate on.
diff --git a/tests/libqtest.c b/tests/libqtest.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/libqtest.c
+++ b/tests/libqtest.c
@@ -XXX,XX +XXX,XX @@ QTestState *qtest_initf(const char *fmt, ...)
     return s;
 }
 
+QTestState *qtest_init_with_serial(const char *extra_args, int *sock_fd)
+{
+    int sock_fd_init;
+    char *sock_path, sock_dir[] = "/tmp/qtest-serial-XXXXXX";
+    QTestState *qts;
+
+    g_assert(mkdtemp(sock_dir));
+    sock_path = g_strdup_printf("%s/sock", sock_dir);
+
+    sock_fd_init = init_socket(sock_path);
+
+    qts = qtest_initf("-chardev socket,id=s0,path=%s,nowait "
+                      "-serial chardev:s0 %s",
+                      sock_path, extra_args);
+
+    *sock_fd = socket_accept(sock_fd_init);
+
+    unlink(sock_path);
+    g_free(sock_path);
+    rmdir(sock_dir);
+
+    g_assert(*sock_fd >= 0);
+
+    return qts;
+}
+
 void qtest_quit(QTestState *s)
 {
     g_hook_destroy_link(&abrt_hooks, g_hook_find_data(&abrt_hooks, TRUE, s));
-- 
2.20.1

Hi; most of this is the first half of the A64 simd decodetree
conversion; the rest is a mix of fixes from the last couple of weeks.

v2 uses patches from the v2 decodetree series to avoid a few
regressions in some A32 insns.

(Richard: I'm still planning to review the second half of the
v2 decodetree series; I just wanted to get the respin of this
pullreq out today...)

thanks
-- PMM

The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:

Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528

for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:

target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)

----------------------------------------------------------------
target-arm queue:
 * xlnx_dpdma: fix descriptor endianness bug
 * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
 * hw/arm/npcm7xx: remove setting of mp-affinity
 * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
 * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
 * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
 * hw: arm: Remove use of tabs in some source files
 * docs/system: Remove ADC from raspi documentation
 * target/arm: Start of the conversion of A64 SIMD to decodetree

----------------------------------------------------------------
Alexandra Diupina (1):
      xlnx_dpdma: fix descriptor endianness bug

Andrey Shumilin (1):
      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>

Dorjoy Chowdhury (1):
      hw/arm/npcm7xx: remove setting of mp-affinity

Inès Varhol (1):
      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size

Philippe Mathieu-Daudé (1):
      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()

Rayhan Faizel (1):
      docs/system: Remove ADC from raspi documentation

Richard Henderson (34):
      target/arm: Use PLD, PLDW, PLI not NOP for t32
      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
      target/arm: Fix decode of FMOV (hp) vs MOVI
      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
      target/arm: Split out gengvec.c
      target/arm: Split out gengvec64.c
      target/arm: Convert Cryptographic AES to decodetree
      target/arm: Convert Cryptographic 3-register SHA to decodetree
      target/arm: Convert Cryptographic 2-register SHA to decodetree
      target/arm: Convert Cryptographic 3-register SHA512 to decodetree
      target/arm: Convert Cryptographic 2-register SHA512 to decodetree
      target/arm: Convert Cryptographic 4-register to decodetree
      target/arm: Convert Cryptographic 3-register, imm2 to decodetree
      target/arm: Convert XAR to decodetree
      target/arm: Convert Advanced SIMD copy to decodetree
      target/arm: Convert FMULX to decodetree
      target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
      target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
      target/arm: Introduce vfp_load_reg16
      target/arm: Expand vfp neg and abs inline
      target/arm: Convert FNMUL to decodetree
      target/arm: Convert FMLA, FMLS to decodetree
      target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
      target/arm: Convert FABD to decodetree
      target/arm: Convert FRECPS, FRSQRTS to decodetree
      target/arm: Convert FADDP to decodetree
      target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
      target/arm: Use gvec for neon faddp, fmaxp, fminp
      target/arm: Convert ADDP to decodetree
      target/arm: Use gvec for neon padd
      target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
      target/arm: Use gvec for neon pmax, pmin
      target/arm: Convert FMLAL, FMLSL to decodetree
      target/arm: Convert disas_simd_3same_logic to decodetree

Tanmay Patil (1):
      hw: arm: Remove use of tabs in some source files

Zenghui Yu (1):
      hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers

From: Alexandra Diupina <adiupina@astralinux.ru>

Add xlnx_dpdma_read_descriptor() and
xlnx_dpdma_write_descriptor() functions.
xlnx_dpdma_read_descriptor() combines reading a
descriptor from desc_addr by calling dma_memory_read()
and swapping the desc fields from guest memory order
to host memory order. xlnx_dpdma_write_descriptor()
performs similar actions when writing a descriptor.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Fixes: d3c6369a96 ("introduce xlnx-dpdma")
Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
[PMM: tweaked indent, dropped behaviour change for write-failure case]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 64 insertions(+), 4 deletions(-)

diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/xlnx_dpdma.c
+++ b/hw/dma/xlnx_dpdma.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
     type_register_static(&xlnx_dpdma_info);
 }
 
+static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
+                                              uint64_t desc_addr,
+                                              DPDMADescriptor *desc)
+{
+    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
+                                      &desc, sizeof(DPDMADescriptor),
+                                      MEMTXATTRS_UNSPECIFIED);
+    if (res) {
+        return res;
+    }
+
+    /* Convert from LE into host endianness.  */
+    desc->control = le32_to_cpu(desc->control);
+    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
+    desc->xfer_size = le32_to_cpu(desc->xfer_size);
+    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
+    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
+    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
+    desc->address_extension = le32_to_cpu(desc->address_extension);
+    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
+    desc->source_address = le32_to_cpu(desc->source_address);
+    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
+    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
+    desc->source_address2 = le32_to_cpu(desc->source_address2);
+    desc->source_address3 = le32_to_cpu(desc->source_address3);
+    desc->source_address4 = le32_to_cpu(desc->source_address4);
+    desc->source_address5 = le32_to_cpu(desc->source_address5);
+    desc->crc = le32_to_cpu(desc->crc);
+
+    return res;
+}
+
+static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
+                                               DPDMADescriptor *desc)
+{
+    DPDMADescriptor tmp_desc = *desc;
+
+    /* Convert from host endianness into LE.  */
+    tmp_desc.control = cpu_to_le32(tmp_desc.control);
+    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
+    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
+    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
+    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
+    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
+    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
+    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
+    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
+    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
+    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
+    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
+    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
+    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
+    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
+    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
+
+    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
+                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+}
+
 size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
                                     bool one_desc)
 {
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
         }
 
-        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
-                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
+        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
             s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
             xlnx_dpdma_update_irq(s);
             s->operation_finished[channel] = true;
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             /* The descriptor need to be updated when it's completed. */
             DPRINTF("update the descriptor with the done flag set.\n");
             xlnx_dpdma_desc_set_done(&desc);
-            dma_memory_write(&address_space_memory, desc_addr, &desc,
-                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
+                DPRINTF("Can't write the descriptor.\n");
+                /* TODO: check hardware behaviour for memory write failure */
+            }
         }
 
         if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
-- 
2.34.1

From: Zenghui Yu <zenghui.yu@linux.dev>

We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
wrong key.

Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
guest can properly detect FEAT_SSBS2 on my M1 HW.

All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
it.

Cc: qemu-stable@nongnu.org
Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
Reviewed-by: Alexander Graf <agraf@csgraf.de>
Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
 1 file changed, 65 insertions(+), 65 deletions(-)

diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/hvf/hvf.c
+++ b/target/arm/hvf/hvf.c
@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
 };
 
 static struct hvf_sreg_match hvf_sreg_match[] = {
-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
 
 #ifdef SYNC_NO_RAW_REGS
     /*
@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
     { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
     { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
 #endif
-    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
+    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
     { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
-- 
2.34.1

From: Dorjoy Chowdhury <dorjoychy111@gmail.com>

The value of the mp-affinity property being set in npcm7xx_realize is
always the same as the default value it would have when arm_cpu_realizefn
is called if the property is not set here. So there is no need to set
the property value in npcm7xx_realize function.

Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/npcm7xx.c | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
 
     /* CPUs */
     for (i = 0; i < nc->num_cpus; i++) {
-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
-                                &error_abort);
         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
-- 
2.34.1

From: Inès Varhol <ines.varhol@telecom-paris.fr>

Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/char/stm32l4x5_usart.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/stm32l4x5_usart.c
+++ b/hw/char/stm32l4x5_usart.c
@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
     FIELD(CR1, UE, 0, 1)     /* USART enable */
 REG32(CR2, 0x04)
     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
+    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
-- 
2.34.1

From: Andrey Shumilin <shum.sdl@nppct.ru>

In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
reading and writing the Non-Secure view of the GICC_APR<n> registers
to functions gic_apr_ns_view() and gic_apr_write_ns_view().
Unfortunately we got the order of the arguments wrong, swapping the
CPU number and the register number (which the compiler doesn't catch
because they're both integers).

Most guests probably didn't notice this bug because directly
accessing the APR registers is typically something only done by
firmware when it is doing state save for going into a sleep mode.

Correct the mismatched call arguments.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Cc: qemu-stable@nongnu.org
Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
[PMM: Rewrote commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
---
 hw/intc/arm_gic.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gic.c
+++ b/hw/intc/arm_gic.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            *data = gic_apr_ns_view(s, regno, cpu);
+            *data = gic_apr_ns_view(s, cpu, regno);
         } else {
             *data = s->apr[regno][cpu];
         }
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            gic_apr_write_ns_view(s, regno, cpu, value);
+            gic_apr_write_ns_view(s, cpu, regno, value);
         } else {
             s->apr[regno][cpu] = value;
         }
-- 
2.34.1

From: Philippe Mathieu-Daudé <philmd@linaro.org>

Check the function index is in range and use an unsigned
variable to avoid the following warning with GCC 13.2.0:

[666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
  hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
  hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
    416 |     s->dav |= mode_regs[s->function];
        |                         ~^~~~~~~~~~

Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240508143513.44996-1-philmd@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: fixed missing ')']
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/input/tsc2005.c | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
 static void tsc2005_timer_tick(void *opaque)
 {
     TSC2005State *s = opaque;
+    unsigned int function = s->function;
+
+    assert(function < ARRAY_SIZE(mode_regs));
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
         return;
 
     s->busy = false;
-    s->dav |= mode_regs[s->function];
+    s->dav |= mode_regs[function];
     s->function = -1;
     tsc2005_pin_update(s);
 }
-- 
2.34.1

From: Tanmay Patil <tanmaynpatil105@gmail.com>

Some of the source files for older devices use hardcoded tabs
instead of our current coding standard's required spaces.
Fix these in the following files:
	- hw/arm/boot.c
	- hw/char/omap_uart.c
	- hw/gpio/zaurus.c
	- hw/input/tsc2005.c

This commit is mostly whitespace-only changes; it also
adds curly-braces to some 'if' statements.

This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
but some other files remain to be handled.

Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: tweaked commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/boot.c       |   8 +--
 hw/char/omap_uart.c |  49 +++++++++--------
 hw/gpio/zaurus.c    |  59 ++++++++++----------
 hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
 4 files changed, 130 insertions(+), 116 deletions(-)

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
     WRITE_WORD(p, info->ram_size / 4096);
     /* ramdisk_size */
     WRITE_WORD(p, 0);
-#define FLAG_READONLY	1
-#define FLAG_RDLOAD	4
-#define FLAG_RDPROMPT	8
+#define FLAG_READONLY 1
+#define FLAG_RDLOAD   4
+#define FLAG_RDPROMPT 8
     /* flags */
     WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
     /* rootdev */
-    WRITE_WORD(p, (31 << 8) | 0);	/* /dev/mtdblock0 */
+    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
     /* video_num_cols */
     WRITE_WORD(p, 0);
     /* video_num_rows */
diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/omap_uart.c
+++ b/hw/char/omap_uart.c
@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
     s->fclk = fclk;
     s->irq = irq;
     s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
-                               omap_clk_getrate(fclk)/16,
+                               omap_clk_getrate(fclk) / 16,
                                chr ?: qemu_chr_new(label, "null", NULL),
                                DEVICE_NATIVE_ENDIAN);
     return s;
@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         return s->mdr[0];
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         return s->mdr[1];
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         return s->scr;
-    case 0x44:	/* SSR */
+    case 0x44:  /* SSR */
         return 0x0;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         return s->eblr;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         return s->clksel;
-    case 0x50:	/* MVR */
+    case 0x50:  /* MVR */
         return 0x30;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         return s->syscontrol;
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x58:  /* SYSS (OMAP2) */
         return 1;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         return s->wkup;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         return s->cfps;
     }
 
@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         s->mdr[0] = value & 0x7f;
         break;
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         s->mdr[1] = value & 0xff;
         break;
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         s->scr = value & 0xff;
         break;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         s->eblr = value & 0xff;
         break;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         s->clksel = value & 1;
         break;
-    case 0x44:	/* SSR */
-    case 0x50:	/* MVR */
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x44:  /* SSR */
+    case 0x50:  /* MVR */
+    case 0x58:  /* SYSS (OMAP2) */
         OMAP_RO_REG(addr);
         break;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         s->syscontrol = value & 0x1d;
-        if (value & 2)
+        if (value & 2) {
             omap_uart_reset(s);
+        }
         break;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         s->wkup = value & 0x7f;
         break;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         s->cfps = value & 0xff;
         break;
     default:
diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/gpio/zaurus.c
+++ b/hw/gpio/zaurus.c
@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
     uint16_t isr;
 };
 
-#define SCOOP_MCR	0x00
-#define SCOOP_CDR	0x04
-#define SCOOP_CSR	0x08
-#define SCOOP_CPR	0x0c
-#define SCOOP_CCR	0x10
-#define SCOOP_IRR_IRM	0x14
-#define SCOOP_IMR	0x18
-#define SCOOP_ISR	0x1c
-#define SCOOP_GPCR	0x20
-#define SCOOP_GPWR	0x24
-#define SCOOP_GPRR	0x28
+#define SCOOP_MCR       0x00
+#define SCOOP_CDR       0x04
+#define SCOOP_CSR       0x08
+#define SCOOP_CPR       0x0c
+#define SCOOP_CCR       0x10
+#define SCOOP_IRR_IRM   0x14
+#define SCOOP_IMR       0x18
+#define SCOOP_ISR       0x1c
+#define SCOOP_GPCR      0x20
+#define SCOOP_GPWR      0x24
+#define SCOOP_GPRR      0x28
 
-static inline void scoop_gpio_handler_update(ScoopInfo *s) {
+static inline void scoop_gpio_handler_update(ScoopInfo *s)
+{
     uint32_t level, diff;
     int bit;
     level = s->gpio_level & s->gpio_dir;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         break;
     case SCOOP_CPR:
         s->power = value;
-        if (value & 0x80)
+        if (value & 0x80) {
             s->power |= 0x8040;
+        }
         break;
     case SCOOP_CCR:
         s->ccr = value;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         scoop_gpio_handler_update(s);
         break;
     case SCOOP_GPWR:
-    case SCOOP_GPRR:	/* GPRR is probably R/O in real HW */
+    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
         s->gpio_level = value & s->gpio_dir;
         scoop_gpio_handler_update(s);
         break;
@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
 {
     ScoopInfo *s = (ScoopInfo *) opaque;
 
-    if (level)
+    if (level) {
         s->gpio_level |= (1 << line);
-    else
+    } else {
         s->gpio_level &= ~(1 << line);
+    }
 }
 
 static void scoop_init(Object *obj)
@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
     return 0;
 }
 
-static bool is_version_0 (void *opaque, int version_id)
+static bool is_version_0(void *opaque, int version_id)
 {
     return version_id == 0;
 }
@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
 
 /* Write the bootloader parameters memory area.  */
 
-#define MAGIC_CHG(a, b, c, d)	((d << 24) | (c << 16) | (b << 8) | a)
+#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
 
 static struct QEMU_PACKED sl_param_info {
     uint32_t comadj_keyword;
@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
     uint32_t phad_keyword;
     int32_t phadadj;
 } zaurus_bootparam = {
-    .comadj_keyword	= MAGIC_CHG('C', 'M', 'A', 'D'),
-    .comadj		= 125,
-    .uuid_keyword	= MAGIC_CHG('U', 'U', 'I', 'D'),
-    .uuid		= { -1 },
-    .touch_keyword	= MAGIC_CHG('T', 'U', 'C', 'H'),
-    .touch_xp		= -1,
-    .adadj_keyword	= MAGIC_CHG('B', 'V', 'A', 'D'),
-    .adadj		= -1,
-    .phad_keyword	= MAGIC_CHG('P', 'H', 'A', 'D'),
-    .phadadj		= 0x01,
+    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
+    .comadj             = 125,
+    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
+    .uuid               = { -1 },
+    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
+    .touch_xp           = -1,
+    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
+    .adadj              = -1,
+    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
+    .phadadj            = 0x01,
 };
 
 void sl_bootparam_write(hwaddr ptr)
diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@
 #include "migration/vmstate.h"
 #include "trace.h"
 
-#define TSC_CUT_RESOLUTION(value, p)	((value) >> (16 - (p ? 12 : 10)))
+#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
 
 typedef struct {
-    qemu_irq pint;	/* Combination of the nPENIRQ and DAV signals */
+    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
     QEMUTimer *timer;
     uint16_t model;
 
@@ -XXX,XX +XXX,XX @@ typedef struct {
 } TSC2005State;
 
 enum {
-    TSC_MODE_XYZ_SCAN	= 0x0,
+    TSC_MODE_XYZ_SCAN = 0x0,
     TSC_MODE_XY_SCAN,
     TSC_MODE_X,
     TSC_MODE_Y,
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 static const uint16_t mode_regs[16] = {
-    0xf000,	/* X, Y, Z scan */
-    0xc000,	/* X, Y scan */
-    0x8000,	/* X */
-    0x4000,	/* Y */
-    0x3000,	/* Z */
-    0x0800,	/* AUX */
-    0x0400,	/* TEMP1 */
-    0x0200,	/* TEMP2 */
-    0x0800,	/* AUX scan */
-    0x0040,	/* X test */
-    0x0020,	/* Y test */
-    0x0080,	/* Short-circuit test */
-    0x0000,	/* Reserved */
-    0x0000,	/* X+, X- drivers */
-    0x0000,	/* Y+, Y- drivers */
-    0x0000,	/* Y+, X- drivers */
+    0xf000, /* X, Y, Z scan */
+    0xc000, /* X, Y scan */
+    0x8000, /* X */
+    0x4000, /* Y */
+    0x3000, /* Z */
+    0x0800, /* AUX */
+    0x0400, /* TEMP1 */
+    0x0200, /* TEMP2 */
+    0x0800, /* AUX scan */
+    0x0040, /* X test */
+    0x0020, /* Y test */
+    0x0080, /* Short-circuit test */
+    0x0000, /* Reserved */
+    0x0000, /* X+, X- drivers */
+    0x0000, /* Y+, Y- drivers */
+    0x0000, /* Y+, X- drivers */
 };
 
-#define X_TRANSFORM(s)			\
+#define X_TRANSFORM(s)      \
     ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
-#define Y_TRANSFORM(s)			\
+#define Y_TRANSFORM(s)      \
     ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
-#define Z1_TRANSFORM(s)			\
+#define Z1_TRANSFORM(s)     \
     ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
-#define Z2_TRANSFORM(s)			\
+#define Z2_TRANSFORM(s)     \
     ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
 
-#define AUX_VAL				(700 << 4)	/* +/- 3 at 12-bit */
-#define TEMP1_VAL			(1264 << 4)	/* +/- 5 at 12-bit */
-#define TEMP2_VAL			(1531 << 4)	/* +/- 5 at 12-bit */
+#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
+#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
+#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
 
 static uint16_t tsc2005_read(TSC2005State *s, int reg)
 {
     uint16_t ret;
 
     switch (reg) {
-    case 0x0:	/* X */
+    case 0x0: /* X */
         s->dav &= ~mode_regs[TSC_MODE_X];
         return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
                 (s->noise & 3);
-    case 0x1:	/* Y */
+    case 0x1: /* Y */
         s->dav &= ~mode_regs[TSC_MODE_Y];
-        s->noise ++;
+        s->noise++;
         return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
                 (s->noise & 3);
-    case 0x2:	/* Z1 */
+    case 0x2: /* Z1 */
         s->dav &= 0xdfff;
         return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
                 (s->noise & 3);
-    case 0x3:	/* Z2 */
+    case 0x3: /* Z2 */
         s->dav &= 0xefff;
         return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
                 (s->noise & 3);
 
-    case 0x4:	/* AUX */
+    case 0x4: /* AUX */
         s->dav &= ~mode_regs[TSC_MODE_AUX];
         return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
 
-    case 0x5:	/* TEMP1 */
+    case 0x5: /* TEMP1 */
         s->dav &= ~mode_regs[TSC_MODE_TEMP1];
         return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
                 (s->noise & 5);
-    case 0x6:	/* TEMP2 */
+    case 0x6: /* TEMP2 */
         s->dav &= 0xdfff;
         s->dav &= ~mode_regs[TSC_MODE_TEMP2];
         return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
                 (s->noise & 3);
 
-    case 0x7:	/* Status */
+    case 0x7: /* Status */
         ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
         s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
                         mode_regs[TSC_MODE_TS_TEST]);
         s->reset = true;
         return ret;
 
-    case 0x8:   /* AUX high threshold */
+    case 0x8: /* AUX high threshold */
         return s->aux_thr[1];
-    case 0x9:   /* AUX low threshold */
+    case 0x9: /* AUX low threshold */
         return s->aux_thr[0];
 
-    case 0xa:   /* TEMP high threshold */
+    case 0xa: /* TEMP high threshold */
         return s->temp_thr[1];
-    case 0xb:   /* TEMP low threshold */
+    case 0xb: /* TEMP low threshold */
         return s->temp_thr[0];
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         return (s->pressure << 15) | ((!s->busy) << 14) |
-                (s->nextprecision << 13) | s->timing[0]; 
-    case 0xd:	/* CFR1 */
+                (s->nextprecision << 13) | s->timing[0];
+    case 0xd: /* CFR1 */
         return s->timing[1];
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         return (s->pin_func << 14) | s->filter;
 
-    case 0xf:	/* Function select status */
+    case 0xf: /* Function select status */
         return s->function >= 0 ? 1 << s->function : 0;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
         s->temp_thr[0] = data;
         break;
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         s->host_mode = (data >> 15) != 0;
         if (s->enabled != !(data & 0x4000)) {
             s->enabled = !(data & 0x4000);
             trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-            if (s->busy && !s->enabled)
+            if (s->busy && !s->enabled) {
                 timer_del(s->timer);
+            }
             s->busy = s->busy && s->enabled;
         }
         s->nextprecision = (data >> 13) & 1;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
                           "tsc2005_write: illegal conversion clock setting\n");
         }
         break;
-    case 0xd:	/* CFR1 */
+    case 0xd: /* CFR1 */
         s->timing[1] = data & 0xf07;
         break;
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         s->pin_func = (data >> 14) & 3;
         s->filter = data & 0x3fff;
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     switch (s->nextfunction) {
     case TSC_MODE_XYZ_SCAN:
     case TSC_MODE_XY_SCAN:
-        if (!s->host_mode && s->dav)
+        if (!s->host_mode && s->dav) {
             s->enabled = false;
-        if (!s->pressure)
+        }
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX_SCAN:
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X:
     case TSC_MODE_Y:
     case TSC_MODE_Z:
-        if (!s->pressure)
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX:
     case TSC_MODE_TEMP1:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X_TEST:
     case TSC_MODE_Y_TEST:
     case TSC_MODE_TS_TEST:
-        if (s->dav)
+        if (s->dav) {
             s->enabled = false;
+        }
         break;
 
     case TSC_MODE_RESERVED:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
         return;
     }
 
-    if (!s->enabled || s->busy)
+    if (!s->enabled || s->busy) {
         return;
+    }
 
     s->busy = true;
     s->precision = s->nextprecision;
     s->function = s->nextfunction;
-    s->pdst = !s->pnd0;	/* Synchronised on internal clock */
+    s->pdst = !s->pnd0; /* Synchronised on internal clock */
     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
         (NANOSECONDS_PER_SECOND >> 7);
     timer_mod(s->timer, expires);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
     TSC2005State *s = opaque;
     uint32_t ret = 0;
 
-    switch (s->state ++) {
+    switch (s->state++) {
     case 0:
         if (value & 0x80) {
             /* Command */
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
                 if (s->enabled != !(value & 1)) {
                     s->enabled = !(value & 1);
                     trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-                    if (s->busy && !s->enabled)
+                    if (s->busy && !s->enabled) {
                         timer_del(s->timer);
+                    }
                     s->busy = s->busy && s->enabled;
                 }
                 tsc2005_pin_update(s);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
         break;
 
     case 1:
-        if (s->command)
+        if (s->command) {
             ret = (s->data >> 8) & 0xff;
-        else
+        } else {
             s->data |= value << 8;
+        }
         break;
 
     case 2:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
-    if (!s->busy)
+    if (!s->busy) {
         return;
+    }
 
     s->busy = false;
     s->dav |= mode_regs[function];
@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
      * signaling TS events immediately, but for now we simulate
      * the first conversion delay for sake of correctness.
      */
-    if (p != s->pressure)
+    if (p != s->pressure) {
         tsc2005_pin_update(s);
+    }
 }
 
 static int tsc2005_post_load(void *opaque, int version_id)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
but are introduced with ARMv7 and ARMv7MP respectively.
For clarity, do not use NOP for PLD.

Note that there is no PLDW (literal). Architecturally in the
T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
that it should be zero and if it is not then the behaviour
is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
value of the bit).

In our implementation we have patterns for both:

+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)

and so we effectively ignore the value of bit 5.  (This is a
permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
behaviour change in this commit, since we previously had NOP lines
for both those patterns.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
[PMM: adjusted commit message to note that PLD (lit) T1 bit 5
being 1 is an UNPREDICTABLE case.]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
 target/arm/tcg/translate.c |  4 ++--
 2 files changed, 14 insertions(+), 15 deletions(-)

diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/t32.decode
+++ b/target/arm/tcg/t32.decode
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
 # Note that Load, unsigned (literal) overlaps all other load encodings.
 {
   {
-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
+    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
     LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
   }
   LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
+    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
+    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
     LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
 {
   {
-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
+    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
   }
   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
+    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
     LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
+    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
     LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
   }
 }
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
   LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
   LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
 }
-# NOPs here are PLI.
 {
   {
-    NOP          1111 1001 -001 1111 1111 ------------
+    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
     LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1001 1001 ---- 1111 ------------
+    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
     LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
   }
   LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1001 0001 ---- 1111 1100 --------
+    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1001 0001 ---- 1111 000000 -- ----
+    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
     LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
     return ENABLE_ARCH_5TE;
 }
 
-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
+static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
 {
     return arm_dc_feature(s, ARM_FEATURE_V7MP);
 }
 
-static bool trans_PLI(DisasContext *s, arg_PLD *a)
+static bool trans_PLI(DisasContext *s, arg_PLI *a)
 {
     return ENABLE_ARCH_7;
 }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Fixes RISU mismatch for "fcvtzs h31, h0, #14".

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
             read_vec_element_i32(s, tcg_op, rn, pass, size);
             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
             if (is_scalar) {
+                if (size == MO_16 && !is_u) {
+                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
+                }
                 write_fp_sreg(s, rd, tcg_op);
             } else {
                 write_vec_element_i32(s, tcg_op, rd, pass, size);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

The decode of FMOV (vector, immediate, half-precision) vs
invalid cases of MOVI are incorrect.

Fixes RISU mismatch for invalid insn 0x2f01fd31.

Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
 1 file changed, 14 insertions(+), 10 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     bool is_q = extract32(insn, 30, 1);
     uint64_t imm = 0;
 
-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
-        /* Check for FMOV (vector, immediate) - half-precision */
-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
+    if (o2) {
+        if (cmode != 0xf || is_neg) {
             unallocated_encoding(s);
             return;
         }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (cmode == 15 && o2 && !is_neg) {
         /* FMOV (vector, immediate) - half-precision */
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = vfp_expand_imm(MO_16, abcdefgh);
         /* now duplicate across the lanes */
         imm = dup_const(MO_16, imm);
     } else {
+        if (cmode == 0xf && is_neg && !is_q) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
     }
 
+    if (!fp_access_check(s)) {
+        return;
+    }
+
     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
         /* MOVI or MVNI, with MVNI negation handled above.  */
         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
Fixes a RISU miscompare for invalid insn 0x5ef0c87a.

Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate.h |    5 +
 target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
 target/arm/tcg/translate.c | 1588 -----------------------------------
 target/arm/tcg/meson.build |    1 +
 4 files changed, 1618 insertions(+), 1588 deletions(-)
 create mode 100644 target/arm/tcg/gengvec.c

diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+
 void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  ARM generic vector expansion
+ *
+ *  Copyright (c) 2003 Fabrice Bellard
+ *  Copyright (c) 2005-2007 CodeSourcery
+ *  Copyright (c) 2007 OpenedHand, Ltd.
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+
+
+static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+                            uint32_t opr_sz, uint32_t max_sz,
+                            gen_helper_gvec_3_ptr *fn)
+{
+    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
+                       opr_sz, max_sz, 0, fn);
+}
+
+void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+#define GEN_CMP0(NAME, COND)                              \
+    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
+              uint32_t opr_sz, uint32_t max_sz)           \
+    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
+
+GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
+GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
+GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
+GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
+GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
+
+#undef GEN_CMP0
+
+static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_sari_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_sari_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_sari_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ssra8_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_ssra16_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ssra32_i32,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ssra64_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.
+     */
+    shift = MIN(shift, (8 << vece) - 1);
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_shri_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_usra8_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8, },
+        { .fni8 = gen_usra16_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16, },
+        { .fni4 = gen_usra32_i32,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32, },
+        { .fni8 = gen_usra64_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64, },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Unsigned results in all zeros as input to accumulate: nop.
+     */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+/*
+ * Shift one less than the requested amount, and the low bit is
+ * the rounding bit.  For the 8 and 16-bit operations, because we
+ * mask the low bit, we can perform a normal integer shift instead
+ * of a vector shift.
+ */
+static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_sar8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_sar16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
+    if (sh == 32) {
+        tcg_gen_movi_i32(d, 0);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_sari_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+ void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_sari_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, sh - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_sari_vec(vece, d, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srshr8_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_srshr16_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_srshr32_i32,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_srshr64_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Signed results in all sign bits.  With rounding, this produces
+         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+         * I.e. always zero.
+         */
+        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr8_i64(t, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr16_i64(t, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    gen_srshr32_i32(t, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr64_i64(t, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    gen_srshr_vec(vece, t, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srsra8_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_srsra16_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_srsra32_i32,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_srsra64_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.  With rounding, this produces
+     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+     * I.e. always zero.  With accumulation, this leaves D unchanged.
+     */
+    if (shift == (8 << vece)) {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_shr8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_shr16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
+    if (sh == 32) {
+        tcg_gen_extract_i32(d, a, sh - 1, 1);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_shri_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_shri_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, shift - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_shri_vec(vece, d, a, shift);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_urshr8_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_urshr16_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_urshr32_i32,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_urshr64_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Unsigned results in zero.  With rounding, this produces a
+         * copy of the most significant bit.
+         */
+        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 8) {
+        tcg_gen_vec_shr8i_i64(t, a, 7);
+    } else {
+        gen_urshr8_i64(t, a, sh);
+    }
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 16) {
+        tcg_gen_vec_shr16i_i64(t, a, 15);
+    } else {
+        gen_urshr16_i64(t, a, sh);
+    }
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    if (sh == 32) {
+        tcg_gen_shri_i32(t, a, 31);
+    } else {
+        gen_urshr32_i32(t, a, sh);
+    }
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 64) {
+        tcg_gen_shri_i64(t, a, 63);
+    } else {
+        gen_urshr64_i64(t, a, sh);
+    }
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    if (sh == (8 << vece)) {
+        tcg_gen_shri_vec(vece, t, a, sh - 1);
+    } else {
+        gen_urshr_vec(vece, t, a, sh);
+    }
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ursra8_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_ursra16_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_ursra32_i32,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_ursra64_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+}
+
+static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+}
+
+static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
+    tcg_gen_shri_vec(vece, t, a, sh);
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shr8_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shr16_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shr32_ins_i32,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shr64_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /* Shift of esize leaves destination unchanged. */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+}
+
+static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+}
+
+static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shli_vec(vece, t, a, sh);
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shl8_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shl16_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shl32_ins_i32,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shl64_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [0..esize-1]. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift < (8 << vece));
+
+    if (shift == 0) {
+        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_add_u8(d, d, a);
+}
+
+static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_sub_u8(d, d, a);
+}
+
+static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_add_u16(d, d, a);
+}
+
+static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_sub_u16(d, d, a);
+}
+
+static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_sub_i32(d, d, a);
+}
+
+static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_sub_i64(d, d, a);
+}
+
+static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_sub_vec(vece, d, d, a);
+}
+
+/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
+ * these tables are shared with AArch64 which does support them.
+ */
+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mla8_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mla16_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mla32_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mla64_i64,
+          .fniv = gen_mla_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mls8_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mls16_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mls32_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mls64_i64,
+          .fniv = gen_mls_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+/* CMTST : test is "if (X & Y != 0)". */
+static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_and_i32(d, a, b);
+    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
+}
+
+void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_and_i64(d, a, b);
+    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
+}
+
+static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_and_vec(vece, d, a, b);
+    tcg_gen_dupi_vec(vece, a, 0);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+}
+
+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_helper_neon_tst_u8,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_helper_neon_tst_u16,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_cmtst_i32,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_cmtst_i64,
+          .fniv = gen_cmtst_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(32);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_shr_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(64);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_shr_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec msk, max;
+
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        msk = tcg_temp_new_vec_matching(dst);
+        tcg_gen_dupi_vec(vece, msk, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, msk);
+        tcg_gen_and_vec(vece, rsh, rsh, msk);
+    }
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_shrv_vec(vece, rval, src, rsh);
+
+    max = tcg_temp_new_vec_matching(dst);
+    tcg_gen_dupi_vec(vece, max, 8 << vece);
+
+    /*
+     * The choice of LT (signed) and GEU (unsigned) are biased toward
+     * the instructions of the x86_64 host.  For MO_8, the whole byte
+     * is significant so we must use an unsigned compare; otherwise we
+     * have already masked to a byte and so a signed compare works.
+     * Other tcg hosts have a full set of comparisons and do not care.
+     */
+    if (vece == MO_8) {
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
+        tcg_gen_andc_vec(vece, lval, lval, lsh);
+        tcg_gen_andc_vec(vece, rval, rval, rsh);
+    } else {
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
+        tcg_gen_and_vec(vece, lval, lval, lsh);
+        tcg_gen_and_vec(vece, rval, rval, rsh);
+    }
+    tcg_gen_or_vec(vece, dst, lval, rval);
+}
+
+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_shlv_vec,
+        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ushl_i32,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ushl_i64,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(31);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_umin_i32(rsh, rsh, max);
+    tcg_gen_sar_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(63);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_umin_i64(rsh, rsh, max);
+    tcg_gen_sar_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, tmp);
+        tcg_gen_and_vec(vece, rsh, rsh, tmp);
+    }
+
+    /* Bound rsh so out of bound right shift gets -1.  */
+    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
+    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
+    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
+
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_sarv_vec(vece, rval, src, rsh);
+
+    /* Select in-bound left shift.  */
+    tcg_gen_andc_vec(vece, lval, lval, tmp);
+
+    /* Select between left and right shift.  */
+    if (vece == MO_8) {
+        tcg_gen_dupi_vec(vece, tmp, 0);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0x80);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
+    }
+}
+
+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
+        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sshl_i32,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sshl_i64,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_usadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_b,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_h,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_s,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_d,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_ssadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_ussub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_sssub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_smin_vec(vece, t, a, b);
+    tcg_gen_smax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sabd_i32,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sabd_i64,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_umin_vec(vece, t, a, b);
+    tcg_gen_umax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_uabd_i32,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_uabd_i64,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_sabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_sabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_sabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_saba_i32,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_saba_i64,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_uabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_uabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_uabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_uaba_i32,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_uaba_i64,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
     gen_rfe(s, pc, load_cpu_field(spsr));
 }
 
-static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
-                            uint32_t opr_sz, uint32_t max_sz,
-                            gen_helper_gvec_3_ptr *fn)
-{
-    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
-
-    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
-                       opr_sz, max_sz, 0, fn);
-}
-
-void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-#define GEN_CMP0(NAME, COND)                              \
-    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
-              uint32_t opr_sz, uint32_t max_sz)           \
-    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
-
-GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
-GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
-GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
-GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
-GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
-
-#undef GEN_CMP0
-
-static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_sari_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_sari_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_sari_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ssra8_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_ssra16_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ssra32_i32,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ssra64_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.
-     */
-    shift = MIN(shift, (8 << vece) - 1);
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_shri_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_usra8_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8, },
-        { .fni8 = gen_usra16_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16, },
-        { .fni4 = gen_usra32_i32,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32, },
-        { .fni8 = gen_usra64_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64, },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Unsigned results in all zeros as input to accumulate: nop.
-     */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-/*
- * Shift one less than the requested amount, and the low bit is
- * the rounding bit.  For the 8 and 16-bit operations, because we
- * mask the low bit, we can perform a normal integer shift instead
- * of a vector shift.
- */
-static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_sar8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_sar16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
-    if (sh == 32) {
-        tcg_gen_movi_i32(d, 0);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_sari_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_sari_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, sh - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_sari_vec(vece, d, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srshr8_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_srshr16_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_srshr32_i32,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_srshr64_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Signed results in all sign bits.  With rounding, this produces
-         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-         * I.e. always zero.
-         */
-        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr8_i64(t, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr16_i64(t, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    gen_srshr32_i32(t, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr64_i64(t, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    gen_srshr_vec(vece, t, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srsra8_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_srsra16_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_srsra32_i32,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_srsra64_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.  With rounding, this produces
-     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-     * I.e. always zero.  With accumulation, this leaves D unchanged.
-     */
-    if (shift == (8 << vece)) {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_shr8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_shr16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
-    if (sh == 32) {
-        tcg_gen_extract_i32(d, a, sh - 1, 1);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_shri_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_shri_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, shift - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_shri_vec(vece, d, a, shift);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_urshr8_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_urshr16_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_urshr32_i32,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_urshr64_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Unsigned results in zero.  With rounding, this produces a
-         * copy of the most significant bit.
-         */
-        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 8) {
-        tcg_gen_vec_shr8i_i64(t, a, 7);
-    } else {
-        gen_urshr8_i64(t, a, sh);
-    }
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 16) {
-        tcg_gen_vec_shr16i_i64(t, a, 15);
-    } else {
-        gen_urshr16_i64(t, a, sh);
-    }
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    if (sh == 32) {
-        tcg_gen_shri_i32(t, a, 31);
-    } else {
-        gen_urshr32_i32(t, a, sh);
-    }
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 64) {
-        tcg_gen_shri_i64(t, a, 63);
-    } else {
-        gen_urshr64_i64(t, a, sh);
-    }
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    if (sh == (8 << vece)) {
-        tcg_gen_shri_vec(vece, t, a, sh - 1);
-    } else {
-        gen_urshr_vec(vece, t, a, sh);
-    }
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ursra8_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_ursra16_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_ursra32_i32,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_ursra64_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
-}
-
-static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
-}
-
-static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
-    tcg_gen_shri_vec(vece, t, a, sh);
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shr8_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shr16_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shr32_ins_i32,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shr64_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /* Shift of esize leaves destination unchanged. */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
-}
-
-static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
-}
-
-static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shli_vec(vece, t, a, sh);
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shl8_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shl16_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shl32_ins_i32,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shl64_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [0..esize-1]. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift < (8 << vece));
-
-    if (shift == 0) {
-        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_add_u8(d, d, a);
-}
-
-static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_sub_u8(d, d, a);
-}
-
-static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_add_u16(d, d, a);
-}
-
-static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_sub_u16(d, d, a);
-}
-
-static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_sub_i32(d, d, a);
-}
-
-static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_sub_i64(d, d, a);
-}
-
-static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_sub_vec(vece, d, d, a);
-}
-
-/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
- * these tables are shared with AArch64 which does support them.
- */
-void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mla8_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mla16_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mla32_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mla64_i64,
-          .fniv = gen_mla_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mls8_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mls16_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mls32_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mls64_i64,
-          .fniv = gen_mls_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-/* CMTST : test is "if (X & Y != 0)". */
-static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_and_i32(d, a, b);
-    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
-}
-
-void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_and_i64(d, a, b);
-    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
-}
-
-static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_and_vec(vece, d, a, b);
-    tcg_gen_dupi_vec(vece, a, 0);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
-}
-
-void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_helper_neon_tst_u8,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_helper_neon_tst_u16,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_cmtst_i32,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_cmtst_i64,
-          .fniv = gen_cmtst_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(32);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_shr_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(64);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_shr_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec msk, max;
-
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        msk = tcg_temp_new_vec_matching(dst);
-        tcg_gen_dupi_vec(vece, msk, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, msk);
-        tcg_gen_and_vec(vece, rsh, rsh, msk);
-    }
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_shrv_vec(vece, rval, src, rsh);
-
-    max = tcg_temp_new_vec_matching(dst);
-    tcg_gen_dupi_vec(vece, max, 8 << vece);
-
-    /*
-     * The choice of LT (signed) and GEU (unsigned) are biased toward
-     * the instructions of the x86_64 host.  For MO_8, the whole byte
-     * is significant so we must use an unsigned compare; otherwise we
-     * have already masked to a byte and so a signed compare works.
-     * Other tcg hosts have a full set of comparisons and do not care.
-     */
-    if (vece == MO_8) {
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
-        tcg_gen_andc_vec(vece, lval, lval, lsh);
-        tcg_gen_andc_vec(vece, rval, rval, rsh);
-    } else {
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
-        tcg_gen_and_vec(vece, lval, lval, lsh);
-        tcg_gen_and_vec(vece, rval, rval, rsh);
-    }
-    tcg_gen_or_vec(vece, dst, lval, rval);
-}
-
-void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_shlv_vec,
-        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ushl_i32,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ushl_i64,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(31);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_umin_i32(rsh, rsh, max);
-    tcg_gen_sar_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(63);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_umin_i64(rsh, rsh, max);
-    tcg_gen_sar_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, tmp);
-        tcg_gen_and_vec(vece, rsh, rsh, tmp);
-    }
-
-    /* Bound rsh so out of bound right shift gets -1.  */
-    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
-    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
-
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_sarv_vec(vece, rval, src, rsh);
-
-    /* Select in-bound left shift.  */
-    tcg_gen_andc_vec(vece, lval, lval, tmp);
-
-    /* Select between left and right shift.  */
-    if (vece == MO_8) {
-        tcg_gen_dupi_vec(vece, tmp, 0);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0x80);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
-    }
-}
-
-void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
-        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sshl_i32,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sshl_i64,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_usadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_b,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_h,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_s,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_d,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_ssadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_ussub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_sssub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_smin_vec(vece, t, a, b);
-    tcg_gen_smax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sabd_i32,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sabd_i64,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_umin_vec(vece, t, a, b);
-    tcg_gen_umax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_uabd_i32,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_uabd_i64,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_sabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_sabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_sabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_saba_i32,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_saba_i64,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_uabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_uabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_uabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_uaba_i32,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_uaba_i64,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
 static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
 {
     static const uint16_t mask[3] = {
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
 
 arm_ss.add(files(
   'cpu32.c',
+  'gengvec.c',
   'translate.c',
   'translate-m-nocp.c',
   'translate-mve.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Split some routines out of translate-a64.c and translate-sve.c
that are used by both.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.h |   4 +
 target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
 target/arm/tcg/translate-a64.c |  26 -----
 target/arm/tcg/translate-sve.c | 145 +------------------------
 target/arm/tcg/meson.build     |   1 +
 5 files changed, 197 insertions(+), 169 deletions(-)
 create mode 100644 target/arm/tcg/gengvec64.c

diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.h
+++ b/target/arm/tcg/translate-a64.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                   uint32_t rm_ofs, int64_t shift,
                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
 
 void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
 void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec64.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  AArch64 generic vector expansion
+ *
+ *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+#include "translate-a64.h"
+
+
+static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
+{
+    tcg_gen_rotli_i64(d, m, 1);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
+{
+    tcg_gen_rotli_vec(vece, d, m, 1);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3 op = {
+        .fni8 = gen_rax1_i64,
+        .fniv = gen_rax1_vec,
+        .opt_opc = vecop_list,
+        .fno = gen_helper_crypto_rax1,
+        .vece = MO_64,
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
+}
+
+static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_8, 0xff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 8 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 16 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
+{
+    tcg_gen_xor_i32(d, n, m);
+    tcg_gen_rotri_i32(d, d, sh);
+}
+
+static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_rotri_i64(d, d, sh);
+}
+
+static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                        TCGv_vec m, int64_t sh)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_rotri_vec(vece, d, d, sh);
+}
+
+void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, int64_t shift,
+                  uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3i ops[4] = {
+        { .fni8 = gen_xar8_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_b,
+          .opt_opc = vecop,
+          .vece = MO_8 },
+        { .fni8 = gen_xar16_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_h,
+          .opt_opc = vecop,
+          .vece = MO_16 },
+        { .fni4 = gen_xar_i32,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_s,
+          .opt_opc = vecop,
+          .vece = MO_32 },
+        { .fni8 = gen_xar_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_gvec_xar_d,
+          .opt_opc = vecop,
+          .vece = MO_64 }
+    };
+    int esize = 8 << vece;
+
+    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift <= esize);
+    shift &= esize - 1;
+
+    if (shift == 0) {
+        /* xar with no rotate devolves to xor. */
+        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
+                        shift, &ops[vece]);
+    }
+}
+
+static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_xor_i64(d, d, k);
+}
+
+static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_xor_vec(vece, d, d, k);
+}
+
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_eor3_i64,
+        .fniv = gen_eor3_vec,
+        .fno = gen_helper_sve2_eor3,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
+static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_andc_i64(d, m, k);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_andc_vec(vece, d, m, k);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_bcax_i64,
+        .fniv = gen_bcax_vec,
+        .fno = gen_helper_sve2_bcax,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
 }
 
-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
-{
-    tcg_gen_rotli_i64(d, m, 1);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
-{
-    tcg_gen_rotli_vec(vece, d, m, 1);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3 op = {
-        .fni8 = gen_rax1_i64,
-        .fniv = gen_rax1_vec,
-        .opt_opc = vecop_list,
-        .fno = gen_helper_crypto_rax1,
-        .vece = MO_64,
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
-}
-
 /* Crypto three-reg SHA512
  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
  * +-----------------------+------+---+---+-----+--------+------+------+
diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-sve.c
+++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
 TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
 TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
 
-static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_8, 0xff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 8 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 16 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
-{
-    tcg_gen_xor_i32(d, n, m);
-    tcg_gen_rotri_i32(d, d, sh);
-}
-
-static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_rotri_i64(d, d, sh);
-}
-
-static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                        TCGv_vec m, int64_t sh)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_rotri_vec(vece, d, d, sh);
-}
-
-void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, int64_t shift,
-                  uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3i ops[4] = {
-        { .fni8 = gen_xar8_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_b,
-          .opt_opc = vecop,
-          .vece = MO_8 },
-        { .fni8 = gen_xar16_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_h,
-          .opt_opc = vecop,
-          .vece = MO_16 },
-        { .fni4 = gen_xar_i32,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_s,
-          .opt_opc = vecop,
-          .vece = MO_32 },
-        { .fni8 = gen_xar_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_gvec_xar_d,
-          .opt_opc = vecop,
-          .vece = MO_64 }
-    };
-    int esize = 8 << vece;
-
-    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift <= esize);
-    shift &= esize - 1;
-
-    if (shift == 0) {
-        /* xar with no rotate devolves to xor. */
-        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
-                        shift, &ops[vece]);
-    }
-}
-
 static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
 {
     if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
     return true;
 }
 
-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_xor_i64(d, d, k);
-}
-
-static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_xor_vec(vece, d, d, k);
-}
-
-static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_eor3_i64,
-        .fniv = gen_eor3_vec,
-        .fno = gen_helper_sve2_eor3,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
-
-static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_andc_i64(d, m, k);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_andc_vec(vece, d, m, k);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_bcax_i64,
-        .fniv = gen_bcax_vec,
-        .fno = gen_helper_sve2_bcax,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
+TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
+TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
 
 static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
 
 arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
   'cpu64.c',
+  'gengvec64.c',
   'translate-a64.c',
   'translate-sve.c',
   'translate-sme.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 21 +++++++--
 target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
 2 files changed, 54 insertions(+), 53 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 # This file is processed by scripts/decodetree.py
 #
 
-&r               rn
-&ri              rd imm
-&rri_sf          rd rn imm sf
-&i               imm
+%rd             0:5
 
+&r              rn
+&ri             rd imm
+&rri_sf         rd rn imm sf
+&i              imm
+&qrr_e          q rd rn esz
+&qrrr_e         q rd rn rm esz
+
+@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
 CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
 CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
 CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
+
+### Cryptographic AES
+
+AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
+AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
+AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
+AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
     return true;
 }
 
+/*
+ * Expanders for AdvSIMD translation functions.
+ */
+
+static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
+                            gen_helper_gvec_2 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
+    }
+    return true;
+}
+
+static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
+                            gen_helper_gvec_3 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
     return true;
 }
 
+/*
+ * Cryptographic AES
+ */
+
+TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
+TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
+TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
+TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto AES
- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
- * +-----------------+------+-----------+--------+-----+------+------+
- * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
- * +-----------------+------+-----------+--------+-----+------+------+
- */
-static void disas_crypto_aes(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_2 *genfn2 = NULL;
-    gen_helper_gvec_3 *genfn3 = NULL;
-
-    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0x4: /* AESE */
-        genfn3 = gen_helper_crypto_aese;
-        break;
-    case 0x6: /* AESMC */
-        genfn2 = gen_helper_crypto_aesmc;
-        break;
-    case 0x5: /* AESD */
-        genfn3 = gen_helper_crypto_aesd;
-        break;
-    case 0x7: /* AESIMC */
-        genfn2 = gen_helper_crypto_aesimc;
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    if (genfn2) {
-        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
-    } else {
-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
-    }
-}
-
 /* Crypto three-reg SHA
  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
  * +-----------------+------+---+------+---+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 +++++
 target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
 2 files changed, 21 insertions(+), 68 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
+@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
 AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
 AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
 AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
+
+### Cryptographic three-register SHA
+
+SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
+SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
+SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
+SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
+SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
+SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
+SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES
+ * Cryptographic AES, SHA
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
 TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
 TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
 
+TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
+TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
+TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
+TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
+
+TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
+TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
+TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA
- *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
- * +-----------------+------+---+------+---+--------+-----+------+------+
- * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
- * +-----------------+------+---+------+---+--------+-----+------+------+
- */
-static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 3);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_3 *genfn;
-    bool feature;
-
-    if (size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0: /* SHA1C */
-        genfn = gen_helper_crypto_sha1c;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 1: /* SHA1P */
-        genfn = gen_helper_crypto_sha1p;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 2: /* SHA1M */
-        genfn = gen_helper_crypto_sha1m;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 3: /* SHA1SU0 */
-        genfn = gen_helper_crypto_sha1su0;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 4: /* SHA256H */
-        genfn = gen_helper_crypto_sha256h;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 5: /* SHA256H2 */
-        genfn = gen_helper_crypto_sha256h2;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 6: /* SHA256SU1 */
-        genfn = gen_helper_crypto_sha256su1;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
-}
-
 /* Crypto two-reg SHA
  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----------------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 54 +++-------------------------------
 2 files changed, 10 insertions(+), 50 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 ++++
 target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
 2 files changed, 32 insertions(+), 76 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
+@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
 SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
 SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
 SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
+
+### Cryptographic three-register SHA512
+
+SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
+SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
+SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
+RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
+SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
+SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
+SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
     return true;
 }
 
+static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES, SHA
+ * Cryptographic AES, SHA, SHA512
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
 TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
 TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
 
+TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
+TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
+TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
+TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
+TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
+TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
+TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA512
- *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
- * +-----------------------+------+---+---+-----+--------+------+------+
- * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
- * +-----------------------+------+---+---+-----+--------+------+------+
- */
-static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 10, 2);
-    int o =  extract32(insn, 14, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-    gen_helper_gvec_3 *oolfn = NULL;
-    GVecGen3Fn *gvecfn = NULL;
-
-    if (o == 0) {
-        switch (opcode) {
-        case 0: /* SHA512H */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h;
-            break;
-        case 1: /* SHA512H2 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h2;
-            break;
-        case 2: /* SHA512SU1 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512su1;
-            break;
-        case 3: /* RAX1 */
-            feature = dc_isar_feature(aa64_sha3, s);
-            gvecfn = gen_gvec_rax1;
-            break;
-        default:
-            g_assert_not_reached();
-        }
-    } else {
-        switch (opcode) {
-        case 0: /* SM3PARTW1 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw1;
-            break;
-        case 1: /* SM3PARTW2 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw2;
-            break;
-        case 2: /* SM4EKEY */
-            feature = dc_isar_feature(aa64_sm4, s);
-            oolfn = gen_helper_crypto_sm4ekey;
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (oolfn) {
-        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
-    } else {
-        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
-    }
-}
-
 /* Crypto two-reg SHA512
  *  31                                     12  11  10  9    5 4    0
  * +-----------------------------------------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
     { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  5 ++++
 target/arm/tcg/translate-a64.c | 50 ++--------------------------------
 2 files changed, 8 insertions(+), 47 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   8 ++
 target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
 2 files changed, 51 insertions(+), 89 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 &i              imm
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrrr_e        q rd rn rm ra esz
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
+@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 
 SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
 SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
+
+### Cryptographic four-register
+
+EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
+BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
+SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
     return true;
 }
 
+static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
 TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 
+TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
+TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
+
+static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
+{
+    if (!dc_isar_feature(aa64_sm3, s)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
+        TCGv_i32 tcg_res = tcg_temp_new_i32();
+        unsigned vsz, dofs;
+
+        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
+        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
+        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
+
+        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
+        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
+
+        /* Clear the whole register first, then store bits [127:96]. */
+        vsz = vec_full_reg_size(s);
+        dofs = vec_full_reg_offset(s, a->rd);
+        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
+        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
+    }
+    return true;
+}
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto four-register
- *  31               23 22 21 20  16 15  14  10 9    5 4    0
- * +-------------------+-----+------+---+------+------+------+
- * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
- * +-------------------+-----+------+---+------+------+------+
- */
-static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
-{
-    int op0 = extract32(insn, 21, 2);
-    int rm = extract32(insn, 16, 5);
-    int ra = extract32(insn, 10, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-
-    switch (op0) {
-    case 0: /* EOR3 */
-    case 1: /* BCAX */
-        feature = dc_isar_feature(aa64_sha3, s);
-        break;
-    case 2: /* SM3SS1 */
-        feature = dc_isar_feature(aa64_sm3, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (op0 < 2) {
-        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
-        int pass;
-
-        tcg_op1 = tcg_temp_new_i64();
-        tcg_op2 = tcg_temp_new_i64();
-        tcg_op3 = tcg_temp_new_i64();
-        tcg_res[0] = tcg_temp_new_i64();
-        tcg_res[1] = tcg_temp_new_i64();
-
-        for (pass = 0; pass < 2; pass++) {
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-            read_vec_element(s, tcg_op3, ra, pass, MO_64);
-
-            if (op0 == 0) {
-                /* EOR3 */
-                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            } else {
-                /* BCAX */
-                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            }
-            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
-        }
-        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
-        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
-    } else {
-        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
-
-        tcg_op1 = tcg_temp_new_i32();
-        tcg_op2 = tcg_temp_new_i32();
-        tcg_op3 = tcg_temp_new_i32();
-        tcg_res = tcg_temp_new_i32();
-        tcg_zero = tcg_constant_i32(0);
-
-        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
-        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
-        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
-
-        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
-        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
-
-        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
-        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
-    }
-}
-
 /* Crypto XAR
  *  31                   21 20  16 15    10 9    5 4    0
  * +-----------------------+------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 ++++++++
 target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
 2 files changed, 22 insertions(+), 31 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  4 ++++
 target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
 2 files changed, 18 insertions(+), 29 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  13 +
 target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
 2 files changed, 152 insertions(+), 287 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 ### Cryptographic XAR
 
 XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
+
+### Advanced SIMD scalar copy
+
+DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
+
+### Advanced SIMD copy
+
+DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
+DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
+INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
+SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
+UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
+INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
     return true;
 }
 
+/*
+ * Advanced SIMD copy
+ */
+
+static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
+{
+    unsigned esz = ctz32(imm);
+    if (esz <= MO_64) {
+        *pesz = esz;
+        *pidx = imm >> (esz + 1);
+        return true;
+    }
+    return false;
+}
+
+static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        /*
+         * This instruction just extracts the specified element and
+         * zero-extends it into the bottom of the destination register.
+         */
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        read_vec_element(s, tmp, a->rn, idx, esz);
+        write_fp_dreg(s, a->rd, tmp);
+    }
+    return true;
+}
+
+static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
+                             vec_reg_offset(s, a->rn, idx, esz),
+                             a->q ? 16 : 8, vec_full_reg_size(s));
+    }
+    return true;
+}
+
+static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
+                             a->q ? 16 : 8, vec_full_reg_size(s),
+                             cpu_reg(s, a->rn));
+    }
+    return true;
+}
+
+static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (is_signed) {
+        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
+            return false;
+        }
+    } else {
+        if (esz == MO_64 ? !a->q : a->q) {
+            return false;
+        }
+    }
+    if (fp_access_check(s)) {
+        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
+        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
+        if (is_signed && !a->q) {
+            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+        }
+    }
+    return true;
+}
+
+TRANS(SMOV, do_smov_umov, a, MO_SIGN)
+TRANS(UMOV, do_smov_umov, a, 0)
+
+static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
+static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
+{
+    MemOp esz;
+    unsigned didx, sidx;
+
+    if (!decode_esz_idx(a->di, &esz, &didx)) {
+        return false;
+    }
+    sidx = a->si >> esz;
+    if (fp_access_check(s)) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+
+        read_vec_element(s, tmp, a->rn, sidx, esz);
+        write_vec_element(s, tmp, a->rd, didx, esz);
+
+        /* INS is considered a 128-bit write for SVE. */
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_res);
 }
 
-/* DUP (Element, Vector)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-
-    if (size > 3 || (size == 3 && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
-                         vec_reg_offset(s, rn, index, size),
-                         is_q ? 16 : 8, vec_full_reg_size(s));
-}
-
-/* DUP (element, scalar)
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- */
-static void handle_simd_dupes(DisasContext *s, int rd, int rn,
-                              int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-
-    /* This instruction just extracts the specified element and
-     * zero-extends it into the bottom of the destination register.
-     */
-    tmp = tcg_temp_new_i64();
-    read_vec_element(s, tmp, rn, index, size);
-    write_fp_dreg(s, rd, tmp);
-}
-
-/* DUP (General)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    uint32_t dofs, oprsz, maxsz;
-
-    if (size > 3 || ((size == 3) && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dofs = vec_full_reg_offset(s, rd);
-    oprsz = is_q ? 16 : 8;
-    maxsz = vec_full_reg_size(s);
-
-    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
-}
-
-/* INS (Element)
- *
- *  31                   21 20    16 15  14    11  10 9    5 4    0
- * +-----------------------+--------+------------+---+------+------+
- * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
- * +-----------------------+--------+------------+---+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_inse(DisasContext *s, int rd, int rn,
-                             int imm4, int imm5)
-{
-    int size = ctz32(imm5);
-    int src_index, dst_index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dst_index = extract32(imm5, 1+size, 5);
-    src_index = extract32(imm4, size, 4);
-
-    tmp = tcg_temp_new_i64();
-
-    read_vec_element(s, tmp, rn, src_index, size);
-    write_vec_element(s, tmp, rd, dst_index, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-
-/* INS (General)
- *
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
-{
-    int size = ctz32(imm5);
-    int idx;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    idx = extract32(imm5, 1 + size, 4 - size);
-    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-/*
- * UMOV (General)
- * SMOV (General)
- *
- *  31  30   29              21 20    16 15    12   10 9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * U: unsigned when set
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
-                                  int rn, int rd, int imm5)
-{
-    int size = ctz32(imm5);
-    int element;
-    TCGv_i64 tcg_rd;
-
-    /* Check for UnallocatedEncodings */
-    if (is_signed) {
-        if (size > 2 || (size == 2 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    } else {
-        if (size > 3
-            || (size < 3 && is_q)
-            || (size == 3 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    element = extract32(imm5, 1+size, 4);
-
-    tcg_rd = cpu_reg(s, rd);
-    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
-    if (is_signed && !is_q) {
-        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
-    }
-}
-
-/* AdvSIMD copy
- *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +---+---+----+-----------------+------+---+------+---+------+------+
- * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +---+---+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int op = extract32(insn, 29, 1);
-    int is_q = extract32(insn, 30, 1);
-    int imm5 = extract32(insn, 16, 5);
-
-    if (op) {
-        if (is_q) {
-            /* INS (element) */
-            handle_simd_inse(s, rd, rn, imm4, imm5);
-        } else {
-            unallocated_encoding(s);
-        }
-    } else {
-        switch (imm4) {
-        case 0:
-            /* DUP (element - vector) */
-            handle_simd_dupe(s, is_q, rd, rn, imm5);
-            break;
-        case 1:
-            /* DUP (general) */
-            handle_simd_dupg(s, is_q, rd, rn, imm5);
-            break;
-        case 3:
-            if (is_q) {
-                /* INS (general) */
-                handle_simd_insg(s, rd, rn, imm5);
-            } else {
-                unallocated_encoding(s);
-            }
-            break;
-        case 5:
-        case 7:
-            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
-            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
-            break;
-        default:
-            unallocated_encoding(s);
-            break;
-        }
-    }
-}
-
 /* AdvSIMD modified immediate
  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     }
 }
 
-/* AdvSIMD scalar copy
- *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +-----+----+-----------------+------+---+------+---+------+------+
- * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +-----+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int imm5 = extract32(insn, 16, 5);
-    int op = extract32(insn, 29, 1);
-
-    if (op != 0 || imm4 != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    /* DUP (element, scalar) */
-    handle_simd_dupes(s, rd, rn, imm5);
-}
-
 /* AdvSIMD scalar pairwise
  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----+---+-----------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
-    { 0x0e000400, 0x9fe08400, disas_simd_copy },
     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
-    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert all forms (scalar, vector, scalar indexed, vector indexed),
which allows us to remove switch table entries elsewhere.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   8 ++
 target/arm/tcg/a64.decode      |  45 +++++++
 target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
 target/arm/tcg/vec_helper.c    |  39 +++---
 4 files changed, 259 insertions(+), 54 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 #
 
 %rd             0:5
+%esz_sd         22:1 !function=plus_2
+%hl             11:1 21:1
+%hlm            11:1 20:2
 
 &r              rn
 &ri             rd imm
 &rri_sf         rd rn imm sf
 &i              imm
+&rrr_e          rd rn rm esz
+&rrx_e          rd rn rm idx esz
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrx_e         q rd rn rm idx esz
 &qrrrr_e        q rd rn rm ra esz
 
+@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
+@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+
+@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
+@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
+@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
+
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
+@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
+
+@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
+                &qrrx_e esz=1 idx=%hlm
+@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
+                &qrrx_e esz=2 idx=%hl
+@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
+                &qrrx_e esz=3
+
 ### Data Processing - Immediate
 
 # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
+
+### Advanced SIMD scalar three same
+
+FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
+FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
+
+### Advanced SIMD three same
+
+FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
+### Advanced SIMD scalar x indexed element
+
+FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
+### Advanced SIMD vector x indexed element
+
+FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
     return true;
 }
 
+/*
+ * Advanced SIMD three same
+ */
+
+typedef struct FPScalar {
+    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
+} FPScalar;
+
+static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        return false;
+    }
+    return true;
+}
+
+static const FPScalar f_scalar_fmulx = {
+    gen_helper_advsimd_mulxh,
+    gen_helper_vfp_mulxs,
+    gen_helper_vfp_mulxd,
+};
+TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
+                          gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, 0, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
+    gen_helper_gvec_fmulx_h,
+    gen_helper_gvec_fmulx_s,
+    gen_helper_gvec_fmulx_d,
+};
+TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
+
+/*
+ * Advanced SIMD scalar/vector x indexed element
+ */
+
+static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = tcg_temp_new_i64();
+
+            read_vec_element(s, t1, a->rm, a->idx, MO_64);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
+                              gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, a->idx, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
+    gen_helper_gvec_fmulx_idx_h,
+    gen_helper_gvec_fmulx_idx_s,
+    gen_helper_gvec_fmulx_idx_d,
+};
+TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         /* Floating point: U, size[1] and opcode indicate operation */
         int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
         switch (fpopcode) {
-        case 0x1b: /* FMULX */
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
         case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         case 0x7a: /* FABD */
             break;
         default:
+        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
     case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     case 0x1d: /* FACGT */
         break;
     default:
+    case 0x03: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
-        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x04: /* FCMEQ (reg) */
         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     default:
+    case 0x03: /* FMULX */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1b: /* FMULX */
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1b: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
-    case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x3: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x2: /* FADD */
                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3: /* FMULX */
-                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x3: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
     case 0x09: /* FMUL */
-    case 0x19: /* FMULX */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             case 0x09: /* FMUL */
                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
                 break;
-            case 0x19: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x19: /* FMULX */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
-                                                  tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
+DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
+DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 
 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
 
 #undef DO_MLA_IDX
 
-#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
+#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
         TYPE mm = m[H(i + idx)];                                           \
         for (j = 0; j < segment; j++) {                                    \
-            d[i + j] = TYPE##_##ADD(d[i + j],                              \
-                                    TYPE##_mul(n[i + j], mm, stat), stat); \
+            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
         }                                                                  \
     }                                                                      \
     clear_tail(d, oprsz, simd_maxsz(desc));                                \
 }
 
-#define float16_nop(N, M, S) (M)
-#define float32_nop(N, M, S) (M)
-#define float64_nop(N, M, S) (M)
+#define nop(N, M, S) (M)
 
-DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
-DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
-DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
+DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
+
+#ifdef TARGET_AARCH64
+
+DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
+DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
+DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
+
+#endif
+
+#undef nop
 
 /*
  * Non-fused multiply-accumulate operations, for Neon. NB that unlike
  * the fused ops below they assume accumulate both from and into Vd.
  */
-DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
-DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
-DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
-DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
+DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 
-#undef float16_nop
-#undef float32_nop
-#undef float64_nop
 #undef DO_FMUL_IDX
 
 #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   4 +
 target/arm/tcg/translate.h     |   5 +
 target/arm/tcg/a64.decode      |  27 +++++
 target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 5 files changed, 143 insertions(+), 102 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
     return x << 12;
 }
 
+static inline int xor_2(DisasContext *s, int x)
+{
+    return x ^ 2;
+}
+
 static inline int neon_3same_fp_size(DisasContext *s, int x)
 {
     /* Convert 0==fp32, 1==fp16 into a MO_* value */
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 %rd             0:5
 %esz_sd         22:1 !function=plus_2
+%esz_hsd        22:2 !function=xor_2
 %hl             11:1 21:1
 %hlm            11:1 20:2
 
@@ -XXX,XX +XXX,XX @@
 
 @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
 @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
 
 @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
 @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 
 ### Advanced SIMD scalar three same
 
+FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
+FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
+FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
+FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
 ### Advanced SIMD three same
 
+FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
+FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
 ### Advanced SIMD scalar x indexed element
 
+FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
 ### Advanced SIMD vector x indexed element
 
+FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
     return true;
 }
 
+static const FPScalar f_scalar_fadd = {
+    gen_helper_vfp_addh,
+    gen_helper_vfp_adds,
+    gen_helper_vfp_addd,
+};
+TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
+
+static const FPScalar f_scalar_fsub = {
+    gen_helper_vfp_subh,
+    gen_helper_vfp_subs,
+    gen_helper_vfp_subd,
+};
+TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
+
+static const FPScalar f_scalar_fdiv = {
+    gen_helper_vfp_divh,
+    gen_helper_vfp_divs,
+    gen_helper_vfp_divd,
+};
+TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
+
+static const FPScalar f_scalar_fmul = {
+    gen_helper_vfp_mulh,
+    gen_helper_vfp_muls,
+    gen_helper_vfp_muld,
+};
+TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
+    gen_helper_gvec_fadd_h,
+    gen_helper_gvec_fadd_s,
+    gen_helper_gvec_fadd_d,
+};
+TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
+
+static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
+    gen_helper_gvec_fsub_h,
+    gen_helper_gvec_fsub_s,
+    gen_helper_gvec_fsub_d,
+};
+TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
+
+static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
+    gen_helper_gvec_fdiv_h,
+    gen_helper_gvec_fdiv_s,
+    gen_helper_gvec_fdiv_d,
+};
+TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
+    gen_helper_gvec_fmul_h,
+    gen_helper_gvec_fmul_s,
+    gen_helper_gvec_fmul_d,
+};
+TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
     return true;
 }
 
+TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
+    gen_helper_gvec_fmul_idx_h,
+    gen_helper_gvec_fmul_idx_s,
+    gen_helper_gvec_fmul_idx_d,
+};
+TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
     gen_helper_gvec_fmulx_idx_h,
     gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_sreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_dreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
         break;
     default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x18: /* FMAXNM */
                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_absd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
     case 0x18: /* FMAXNM */
-    case 0x1a: /* FADD */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
-    case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
-    case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
-    case 0x5f: /* FDIV */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x3a: /* FSUB */
+    case 0x5b: /* FMUL */
+    case 0x5f: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     switch (fpopcode) {
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
-    case 0x2: /* FADD */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
-    case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
     case 0x1a: /* FABD */
     case 0x1c: /* FCMGT */
     case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0xa: /* FSUB */
+    case 0x13: /* FMUL */
+    case 0x17: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0x2: /* FADD */
-                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xa: /* FSUB */
-                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xe: /* FMIN */
                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x13: /* FMUL */
-                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x14: /* FCMGE */
                 gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x15: /* FACGE */
                 gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x17: /* FDIV */
-                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0xa: /* FSUB */
+            case 0x13: /* FMUL */
+            case 0x17: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         break;
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
-    case 0x09: /* FMUL */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
                 gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                 break;
-            case 0x09: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x09: /* FMUL */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
-                                                tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fdiv_h, float16_div, float16)
+DO_3OP(gvec_fdiv_s, float32_div, float32)
+DO_3OP(gvec_fdiv_d, float64_div, float64)
+
 DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
 DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
 DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   4 +
 target/arm/tcg/a64.decode      |  17 ++++
 target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 4 files changed, 113 insertions(+), 80 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
 FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
 FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 
+FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
+FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
+FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
+FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
 };
 TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 
+static const FPScalar f_scalar_fmax = {
+    gen_helper_advsimd_maxh,
+    gen_helper_vfp_maxs,
+    gen_helper_vfp_maxd,
+};
+TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
+
+static const FPScalar f_scalar_fmin = {
+    gen_helper_advsimd_minh,
+    gen_helper_vfp_mins,
+    gen_helper_vfp_mind,
+};
+TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
+
+static const FPScalar f_scalar_fmaxnm = {
+    gen_helper_advsimd_maxnumh,
+    gen_helper_vfp_maxnums,
+    gen_helper_vfp_maxnumd,
+};
+TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
+
+static const FPScalar f_scalar_fminnm = {
+    gen_helper_advsimd_minnumh,
+    gen_helper_vfp_minnums,
+    gen_helper_vfp_minnumd,
+};
+TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
 };
 TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
+    gen_helper_gvec_fmax_h,
+    gen_helper_gvec_fmax_s,
+    gen_helper_gvec_fmax_d,
+};
+TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
+    gen_helper_gvec_fmin_h,
+    gen_helper_gvec_fmin_s,
+    gen_helper_gvec_fmin_d,
+};
+TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
+    gen_helper_gvec_fmaxnum_h,
+    gen_helper_gvec_fmaxnum_s,
+    gen_helper_gvec_fmaxnum_d,
+};
+TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
+    gen_helper_gvec_fminnum_h,
+    gen_helper_gvec_fminnum_s,
+    gen_helper_gvec_fminnum_d,
+};
+TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x7d: /* FACGT */
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
-    case 0x18: /* FMAXNM */
     case 0x1c: /* FCMEQ */
-    case 0x1e: /* FMAX */
-    case 0x38: /* FMINNM */
-    case 0x3e: /* FMIN */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x18: /* FMAXNM */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1e: /* FMAX */
+    case 0x38: /* FMINNM */
     case 0x3a: /* FSUB */
+    case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
     case 0x5f: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x0: /* FMAXNM */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x6: /* FMAX */
+    case 0x8: /* FMINNM */
     case 0xa: /* FSUB */
+    case 0xe: /* FMIN */
     case 0x13: /* FMUL */
     case 0x17: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x0: /* FMAXNM */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x6: /* FMAX */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x8: /* FMINNM */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x9: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xe: /* FMIN */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x0: /* FMAXNM */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x6: /* FMAX */
+            case 0x8: /* FMINNM */
             case 0xa: /* FSUB */
+            case 0xe: /* FMIN */
             case 0x13: /* FMUL */
             case 0x17: /* FDIV */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
+DO_3OP(gvec_fmax_d, float64_max, float64)
 
 DO_3OP(gvec_fmin_h, float16_min, float16)
 DO_3OP(gvec_fmin_s, float32_min, float32)
+DO_3OP(gvec_fmin_d, float64_min, float64)
 
 DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
 DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
+DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
 
 DO_3OP(gvec_fminnum_h, float16_minnum, float16)
 DO_3OP(gvec_fminnum_s, float32_minnum, float32)
+DO_3OP(gvec_fminnum_d, float64_minnum, float64)
 
 DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
 DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Load and zero-extend float16 into a TCGv_i32 before
all scalar operations.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
 1 file changed, 22 insertions(+), 17 deletions(-)

diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
 }
 
+static inline void vfp_load_reg16(TCGv_i32 var, int reg)
+{
+    tcg_gen_ld16u_i32(var, tcg_env,
+                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
+}
+
 /*
  * The imm8 encodes the sign bit, enough bits to represent an exponent in
  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
     if (a->l) {
         /* VFP to general purpose register */
         tmp = tcg_temp_new_i32();
-        vfp_load_reg32(tmp, a->vn);
-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
+        vfp_load_reg16(tmp, a->vn);
         store_reg(s, a->rt, tmp);
     } else {
         /* general purpose register to VFP */
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
     fd = tcg_temp_new_i32();
     fpst = fpstatus_ptr(FPST_FPCR_F16);
 
-    vfp_load_reg32(f0, vn);
-    vfp_load_reg32(f1, vm);
+    vfp_load_reg16(f0, vn);
+    vfp_load_reg16(f1, vm);
 
     if (reads_vd) {
-        vfp_load_reg32(fd, vd);
+        vfp_load_reg16(fd, vd);
     }
     fn(fd, f0, f1, fpst);
     vfp_store_reg32(fd, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
     }
 
     f0 = tcg_temp_new_i32();
-    vfp_load_reg32(f0, vm);
+    vfp_load_reg16(f0, vm);
     fn(f0, f0);
     vfp_store_reg32(f0, vd);
 
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vm = tcg_temp_new_i32();
     vd = tcg_temp_new_i32();
 
-    vfp_load_reg32(vn, a->vn);
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vn, a->vn);
+    vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
         gen_helper_vfp_negh(vn, vn);
     }
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
         gen_helper_vfp_negh(vd, vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
     vd = tcg_temp_new_i32();
     vm = tcg_temp_new_i32();
 
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (a->z) {
         tcg_gen_movi_i32(vm, 0);
     } else {
-        vfp_load_reg32(vm, a->vm);
+        vfp_load_reg16(vm, a->vm);
     }
 
     if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
     gen_helper_rinth(tmp, tmp, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth_exact(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
 
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     vm = tcg_temp_new_i32();
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vm, a->vm);
 
     if (a->s) {
         if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
     /* Insert low half of Vm into high half of Vd */
     rm = tcg_temp_new_i32();
     rd = tcg_temp_new_i32();
-    vfp_load_reg32(rm, a->vm);
-    vfp_load_reg32(rd, a->vd);
+    vfp_load_reg16(rm, a->vm);
+    vfp_load_reg16(rd, a->vd);
     tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
     vfp_store_reg32(rd, a->vd);
     return true;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  6 ----
 target/arm/tcg/translate.h     | 30 +++++++++++++++++++
 target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
 target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
 target/arm/vfp_helper.c        | 30 -------------------
 5 files changed, 79 insertions(+), 85 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
 DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
-DEF_HELPER_1(vfp_negh, f16, f16)
-DEF_HELPER_1(vfp_negs, f32, f32)
-DEF_HELPER_1(vfp_negd, f64, f64)
-DEF_HELPER_1(vfp_absh, f16, f16)
-DEF_HELPER_1(vfp_abss, f32, f32)
-DEF_HELPER_1(vfp_absd, f64, f64)
 DEF_HELPER_2(vfp_sqrth, f16, f16, env)
 DEF_HELPER_2(vfp_sqrts, f32, f32, env)
 DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
  */
 uint64_t vfp_expand_imm(int size, uint8_t imm8);
 
+static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT16_MAX);
+}
+
+static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT32_MAX);
+}
+
+static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_andi_i64(d, s, INT64_MAX);
+}
+
+static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 15);
+}
+
+static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 31);
+}
+
+static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_xori_i64(d, s, 1ull << 63);
+}
+
 /* Vector operations shared between ARM and AArch64.  */
 void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    uint32_t opr_sz, uint32_t max_sz);
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         break;
     case 0x1: /* FABS */
-        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
+        gen_vfp_absh(tcg_res, tcg_op);
         break;
     case 0x2: /* FNEG */
-        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_op);
         break;
     case 0x3: /* FSQRT */
         fpst = fpstatus_ptr(FPST_FPCR_F16);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         goto done;
     case 0x1: /* FABS */
-        gen_helper_vfp_abss(tcg_res, tcg_op);
+        gen_vfp_abss(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negs(tcg_res, tcg_op);
+        gen_vfp_negs(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
 
     switch (opcode) {
     case 0x1: /* FABS */
-        gen_helper_vfp_absd(tcg_res, tcg_op);
+        gen_vfp_absd(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negd(tcg_res, tcg_op);
+        gen_vfp_negd(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negs(tcg_res, tcg_res);
+        gen_vfp_negs(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negd(tcg_res, tcg_res);
+        gen_vfp_negd(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negs(tcg_op3, tcg_op3);
+        gen_vfp_negs(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negs(tcg_op1, tcg_op1);
+        gen_vfp_negs(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negd(tcg_op3, tcg_op3);
+        gen_vfp_negd(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negd(tcg_op1, tcg_op1);
+        gen_vfp_negd(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op1, tcg_op1);
+                gen_vfp_negd(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_absd(tcg_res, tcg_res);
+                gen_vfp_absd(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negs(tcg_op1, tcg_op1);
+                gen_vfp_negs(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_abss(tcg_res, tcg_res);
+                gen_vfp_abss(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
         }
         break;
     case 0x2f: /* FABS */
-        gen_helper_vfp_absd(tcg_rd, tcg_rn);
+        gen_vfp_absd(tcg_rd, tcg_rn);
         break;
     case 0x6f: /* FNEG */
-        gen_helper_vfp_negd(tcg_rd, tcg_rn);
+        gen_vfp_negd(tcg_rd, tcg_rn);
         break;
     case 0x7f: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                     }
                     break;
                 case 0x2f: /* FABS */
-                    gen_helper_vfp_abss(tcg_res, tcg_op);
+                    gen_vfp_abss(tcg_res, tcg_op);
                     break;
                 case 0x6f: /* FNEG */
-                    gen_helper_vfp_negs(tcg_res, tcg_op);
+                    gen_vfp_negs(tcg_res, tcg_op);
                     break;
                 case 0x7f: /* FSQRT */
                     gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             switch (16 * u + opcode) {
             case 0x05: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op, tcg_op);
+                gen_vfp_negd(tcg_op, tcg_op);
                 /* fall through */
             case 0x01: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
+    gen_vfp_negh(tmp, tmp);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
+    gen_vfp_negs(tmp, tmp);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
+    gen_vfp_negd(tmp, tmp);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(tmp, tmp);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(tmp, tmp);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(tmp, tmp);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_mulh(vd, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
 }
 
 static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muls(vd, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
 }
 
 static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muld(vd, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
 }
 
 static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negh(vn, vn);
+        gen_vfp_negh(vn, vn);
     }
     vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negh(vd, vd);
+        gen_vfp_negh(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg32(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negs(vn, vn);
+        gen_vfp_negs(vn, vn);
     }
     vfp_load_reg32(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negs(vd, vd);
+        gen_vfp_negs(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
     vfp_load_reg64(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negd(vn, vn);
+        gen_vfp_negd(vn, vn);
     }
     vfp_load_reg64(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negd(vd, vd);
+        gen_vfp_negd(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
 DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
 DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
 
-DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
-DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
-DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
+DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
+DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
+DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
 
-DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
-DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
-DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
+DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
+DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
+DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
 
 static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
 {
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
 VFP_BINOP(maxnum)
 #undef VFP_BINOP
 
-dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
-{
-    return float16_chs(a);
-}
-
-float32 VFP_HELPER(neg, s)(float32 a)
-{
-    return float32_chs(a);
-}
-
-float64 VFP_HELPER(neg, d)(float64 a)
-{
-    return float64_chs(a);
-}
-
-dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
-{
-    return float16_abs(a);
-}
-
-float32 VFP_HELPER(abs, s)(float32 a)
-{
-    return float32_abs(a);
-}
-
-float64 VFP_HELPER(abs, d)(float64 a)
-{
-    return float64_abs(a);
-}
-
 dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
 {
     return float16_sqrt(a, &env->vfp.fp_status_f16);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This is the last instruction within disas_fp_2src,
so remove that and its subroutines.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   1 +
 target/arm/tcg/translate-a64.c | 177 +++++----------------------------
 2 files changed, 27 insertions(+), 151 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   2 +
 target/arm/tcg/a64.decode      |  22 +++
 target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |  14 ++
 4 files changed, 163 insertions(+), 116 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
+FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
+
+FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
+FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
+FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
+FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
+FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
+
+FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
+FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
+FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 
+FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
+FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
+FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
+
+FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
+FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
+FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
 };
 TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
+    gen_helper_gvec_vfma_h,
+    gen_helper_gvec_vfma_s,
+    gen_helper_gvec_vfma_d,
+};
+TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
+    gen_helper_gvec_vfms_h,
+    gen_helper_gvec_vfms_s,
+    gen_helper_gvec_vfms_d,
+};
+TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
 TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
+static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t2 = tcg_temp_new_i64();
+
+            read_vec_element(s, t2, a->rm, a->idx, MO_64);
+            if (neg) {
+                gen_vfp_negd(t1, t1);
+            }
+            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
+            if (neg) {
+                gen_vfp_negs(t1, t1);
+            }
+            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
+            if (neg) {
+                gen_vfp_negh(t1, t1);
+            }
+            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
+                                       fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
+TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
+
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
                               gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
 };
 TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 
+static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
+{
+    static gen_helper_gvec_4_ptr * const fns[3] = {
+        gen_helper_gvec_fmla_idx_h,
+        gen_helper_gvec_fmla_idx_s,
+        gen_helper_gvec_fmla_idx_d,
+    };
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
+                          esz == MO_16, (a->idx << 1) | neg,
+                          fns[esz - 1]);
+    }
+    return true;
+}
+
+TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
+TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
+
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negs(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
     case 0x7d: /* FACGT */
-    case 0x19: /* FMLA */
-    case 0x39: /* FMLS */
     case 0x1c: /* FCMEQ */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
 
     default:
     case 0x18: /* FMAXNM */
+    case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
+    case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
-    case 0x9: /* FMLS */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         break;
     default:
     case 0x0: /* FMAXNM */
+    case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
+    case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x1: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x9: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 break;
             default:
             case 0x0: /* FMAXNM */
+            case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
+            case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x0c: /* SQDMULH */
     case 0x0d: /* SQRDMULH */
         break;
-    case 0x01: /* FMLA */
-    case 0x05: /* FMLS */
-        is_fp = 1;
-        break;
     case 0x1d: /* SQRDMLAH */
     case 0x1f: /* SQRDMLSH */
         if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x01: /* FMLA */
+    case 0x05: /* FMLS */
     case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
 
     switch (is_fp) {
     case 1: /* normal fp */
-        /* convert insn encoded size to MemOp size */
-        switch (size) {
-        case 0: /* half-precision */
-            size = MO_16;
-            is_fp16 = true;
-            break;
-        case MO_32: /* single precision */
-        case MO_64: /* double precision */
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-        break;
+        unallocated_encoding(s); /* in decodetree */
+        return;
 
     case 2: /* complex fp */
         /* Each indexable element is a complex pair.  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 
     if (size == 3) {
-        TCGv_i64 tcg_idx = tcg_temp_new_i64();
-        int pass;
-
-        assert(is_fp && is_q && !is_long);
-
-        read_vec_element(s, tcg_idx, rm, index, MO_64);
-
-        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
-            TCGv_i64 tcg_op = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op, rn, pass, MO_64);
-
-            switch (16 * u + opcode) {
-            case 0x05: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op, tcg_op);
-                /* fall through */
-            case 0x01: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
-                break;
-            default:
-            case 0x09: /* FMUL */
-            case 0x19: /* FMULX */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        }
-
-        clear_vec_high(s, !is_scalar, rd);
+        g_assert_not_reached();
     } else if (!is_long) {
         /* 32 bit floating point, or 16 or 32 bit integer.
          * For the 16 bit scalar case we use the usual Neon helpers and
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 genfn(tcg_res, tcg_op, tcg_res);
                 break;
             }
-            case 0x05: /* FMLS */
-            case 0x01: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass,
-                                     is_scalar ? size : MO_32);
-                switch (size) {
-                case 1:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for fused
-                         * multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
-                    }
-                    if (is_scalar) {
-                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
-                                                   tcg_res, fpst);
-                    } else {
-                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
-                                                    tcg_res, fpst);
-                    }
-                    break;
-                case 2:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for
-                         * fused multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
-                    }
-                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
-                                           tcg_res, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x01: /* FMLA */
+            case 0x05: /* FMLS */
             case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(op1, op2, dest, 0, stat);
 }
 
+static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(op1, op2, dest, 0, stat);
+}
+
 static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
                                  float_status *stat)
 {
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
 }
 
+static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
+}
+
 #define DO_MULADD(NAME, FUNC, TYPE)                                     \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
 
 DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
 DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
+DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
 
 DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
 DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
+DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
 
 /* For the indexed ops, SVE applies the index per 128-bit vector segment.
  * For AdvSIMD, there is of course only one such vector segment.
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 +
 target/arm/tcg/a64.decode      |  30 ++++++
 target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
 target/arm/tcg/vec_helper.c    |  30 ++++++
 4 files changed, 174 insertions(+), 79 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
+FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
+FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
+FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
+
+FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
+FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
 FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
 FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 
+FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
+FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
+FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
+
+FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
+FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
 };
 TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 
+static const FPScalar f_scalar_fcmeq = {
+    gen_helper_advsimd_ceq_f16,
+    gen_helper_neon_ceq_f32,
+    gen_helper_neon_ceq_f64,
+};
+TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
+
+static const FPScalar f_scalar_fcmge = {
+    gen_helper_advsimd_cge_f16,
+    gen_helper_neon_cge_f32,
+    gen_helper_neon_cge_f64,
+};
+TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
+
+static const FPScalar f_scalar_fcmgt = {
+    gen_helper_advsimd_cgt_f16,
+    gen_helper_neon_cgt_f32,
+    gen_helper_neon_cgt_f64,
+};
+TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
+
+static const FPScalar f_scalar_facge = {
+    gen_helper_advsimd_acge_f16,
+    gen_helper_neon_acge_f32,
+    gen_helper_neon_acge_f64,
+};
+TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
+
+static const FPScalar f_scalar_facgt = {
+    gen_helper_advsimd_acgt_f16,
+    gen_helper_neon_acgt_f32,
+    gen_helper_neon_acgt_f64,
+};
+TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 };
 TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 
+static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
+    gen_helper_gvec_fceq_h,
+    gen_helper_gvec_fceq_s,
+    gen_helper_gvec_fceq_d,
+};
+TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
+    gen_helper_gvec_fcge_h,
+    gen_helper_gvec_fcge_s,
+    gen_helper_gvec_fcge_d,
+};
+TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
+    gen_helper_gvec_fcgt_h,
+    gen_helper_gvec_fcgt_s,
+    gen_helper_gvec_fcgt_d,
+};
+TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
+
+static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
+    gen_helper_gvec_facge_h,
+    gen_helper_gvec_facge_s,
+    gen_helper_gvec_facge_d,
+};
+TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
+
+static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
+    gen_helper_gvec_facgt_h,
+    gen_helper_gvec_facgt_s,
+    gen_helper_gvec_facgt_d,
+};
+TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_absd(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_abss(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         switch (fpopcode) {
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
+        case 0x7a: /* FABD */
+            break;
+        default:
+        case 0x1b: /* FMULX */
         case 0x5d: /* FACGE */
         case 0x7d: /* FACGT */
         case 0x1c: /* FCMEQ */
         case 0x5c: /* FCMGE */
         case 0x7c: /* FCMGT */
-        case 0x7a: /* FABD */
-            break;
-        default:
-        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
         break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
-        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x07: /* FRECPS */
         gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     case 0x0f: /* FRSQRTS */
         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
-    case 0x14: /* FCMGE (reg) */
-        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x15: /* FACGE */
-        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x1a: /* FABD */
         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
         break;
-    case 0x1c: /* FCMGT (reg) */
-        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1d: /* FACGT */
-        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
-    case 0x5d: /* FACGE */
-    case 0x7d: /* FACGT */
-    case 0x1c: /* FCMEQ */
-    case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
-    case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
+    case 0x5c: /* FCMGE */
+    case 0x5d: /* FACGE */
     case 0x5f: /* FDIV */
+    case 0x7d: /* FACGT */
+    case 0x7c: /* FCMGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
     case 0xf: /* FRSQRTS */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
         pairwise = false;
         break;
     case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
+    case 0x14: /* FCMGE */
+    case 0x15: /* FACGE */
     case 0x17: /* FDIV */
+    case 0x1c: /* FCMGT */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x4: /* FCMEQ */
-                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x14: /* FCMGE */
-                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x15: /* FACGE */
-                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                 break;
-            case 0x1c: /* FCMGT */
-                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x1d: /* FACGT */
-                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x0: /* FMAXNM */
             case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x4: /* FCMEQ */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
             case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
+            case 0x14: /* FCMGE */
+            case 0x15: /* FACGE */
             case 0x17: /* FDIV */
+            case 0x1c: /* FCMGT */
+            case 0x1d: /* FACGT */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
     return -float32_eq_quiet(op1, op2, stat);
 }
 
+static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_eq_quiet(op1, op2, stat);
+}
+
 static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(op2, op1, stat);
 }
 
+static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(op2, op1, stat);
+}
+
 static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(op2, op1, stat);
 }
 
+static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(op2, op1, stat);
+}
+
 static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static int16_t vfp_tosszh(float16 x, void *fpstp)
 {
     float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
 
 DO_3OP(gvec_fceq_h, float16_ceq, float16)
 DO_3OP(gvec_fceq_s, float32_ceq, float32)
+DO_3OP(gvec_fceq_d, float64_ceq, float64)
 
 DO_3OP(gvec_fcge_h, float16_cge, float16)
 DO_3OP(gvec_fcge_s, float32_cge, float32)
+DO_3OP(gvec_fcge_d, float64_cge, float64)
 
 DO_3OP(gvec_fcgt_h, float16_cgt, float16)
 DO_3OP(gvec_fcgt_s, float32_cgt, float32)
+DO_3OP(gvec_fcgt_d, float64_cgt, float64)
 
 DO_3OP(gvec_facge_h, float16_acge, float16)
 DO_3OP(gvec_facge_s, float32_acge, float32)
+DO_3OP(gvec_facge_d, float64_acge, float64)
 
 DO_3OP(gvec_facgt_h, float16_acgt, float16)
 DO_3OP(gvec_facgt_s, float32_acgt, float32)
+DO_3OP(gvec_facgt_d, float64_acgt, float64)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  1 +
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
 target/arm/tcg/vec_helper.c    |  6 ++++
 4 files changed, 53 insertions(+), 20 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_3same_float
and disas_simd_scalar_three_reg_same_fp16 so remove them.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  12 ++
 target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
 2 files changed, 46 insertions(+), 259 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
 FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 
+FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
+FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
+
+FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
+FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
+FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
 };
 TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 
+static const FPScalar f_scalar_frecps = {
+    gen_helper_recpsf_f16,
+    gen_helper_recpsf_f32,
+    gen_helper_recpsf_f64,
+};
+TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
+
+static const FPScalar f_scalar_frsqrts = {
+    gen_helper_rsqrtsf_f16,
+    gen_helper_rsqrtsf_f32,
+    gen_helper_rsqrtsf_f64,
+};
+TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
 };
 TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 
+static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
+    gen_helper_gvec_recps_h,
+    gen_helper_gvec_recps_s,
+    gen_helper_gvec_recps_d,
+};
+TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
+
+static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
+    gen_helper_gvec_rsqrts_h,
+    gen_helper_gvec_rsqrts_s,
+    gen_helper_gvec_rsqrts_d,
+};
+TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
     }
 }
 
-/* Handle the 3-same-operands float operations; shared by the scalar
- * and vector encodings. The caller must filter out any encodings
- * not allocated for the encoding it is dealing with.
- */
-static void handle_3same_float(DisasContext *s, int size, int elements,
-                               int fpopcode, int rd, int rn, int rm)
-{
-    int pass;
-    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-
-    for (pass = 0; pass < elements; pass++) {
-        if (size) {
-            /* Double */
-            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
-            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        } else {
-            /* Single */
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            if (elements == 1) {
-                /* scalar single so clear high part */
-                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-
-                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
-                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
-            } else {
-                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-            }
-        }
-    }
-
-    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
-}
-
 /* AdvSIMD scalar three same
  *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
  * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     bool u = extract32(insn, 29, 1);
     TCGv_i64 tcg_rd;
 
-    if (opcode >= 0x18) {
-        /* Floating point: U, size[1] and opcode indicate operation */
-        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
-        switch (fpopcode) {
-        case 0x1f: /* FRECPS */
-        case 0x3f: /* FRSQRTS */
-            break;
-        default:
-        case 0x1b: /* FMULX */
-        case 0x5d: /* FACGE */
-        case 0x7d: /* FACGT */
-        case 0x1c: /* FCMEQ */
-        case 0x5c: /* FCMGE */
-        case 0x7a: /* FABD */
-        case 0x7c: /* FCMGT */
-            unallocated_encoding(s);
-            return;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
-        return;
-    }
-
     switch (opcode) {
     case 0x1: /* SQADD, UQADD */
     case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_rd);
 }
 
-/* AdvSIMD scalar three same FP16
- *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
- * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
- */
-static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-                                                  uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int opcode = extract32(insn, 11, 3);
-    int rm = extract32(insn, 16, 5);
-    bool u = extract32(insn, 29, 1);
-    bool a = extract32(insn, 23, 1);
-    int fpopcode = opcode | (a << 3) |  (u << 4);
-    TCGv_ptr fpst;
-    TCGv_i32 tcg_op1;
-    TCGv_i32 tcg_op2;
-    TCGv_i32 tcg_res;
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-    case 0x0f: /* FRSQRTS */
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    tcg_op1 = read_fp_hreg(s, rn);
-    tcg_op2 = read_fp_hreg(s, rm);
-    tcg_res = tcg_temp_new_i32();
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x0f: /* FRSQRTS */
-        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        g_assert_not_reached();
-    }
-
-    write_fp_sreg(s, rd, tcg_res);
-}
-
 /* AdvSIMD scalar three same extra
  *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 
 /* Pairwise op subgroup of C3.6.16.
  *
- * This is called directly or via the handle_3same_float for float pairwise
+ * This is called directly for float pairwise
  * operations where the opcode and size are calculated differently.
  */
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
 
-    int datasize = is_q ? 128 : 64;
-    int esize = 32 << size;
-    int elements = datasize / esize;
-
     if (size == 1 && !is_q) {
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1f: /* FRECPS */
-    case 0x3f: /* FRSQRTS */
-        if (!fp_access_check(s)) {
-            return;
-        }
-        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
-        return;
 
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x1b: /* FMULX */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
+    case 0x1f: /* FRECPS */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
+    case 0x3f: /* FRSQRTS */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      * together indicate the operation.
      */
     int fpopcode = opcode | (a << 3) | (u << 4);
-    int datasize = is_q ? 128 : 64;
-    int elements = datasize / 16;
     bool pairwise;
     TCGv_ptr fpst;
     int pass;
 
     switch (fpopcode) {
-    case 0x7: /* FRECPS */
-    case 0xf: /* FRSQRTS */
-        pairwise = false;
-        break;
     case 0x10: /* FMAXNMP */
     case 0x12: /* FADDP */
     case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
+    case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
+    case 0xf: /* FRSQRTS */
     case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
         }
     } else {
-        for (pass = 0; pass < elements; pass++) {
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
-
-            switch (fpopcode) {
-            case 0x7: /* FRECPS */
-                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FRSQRTS */
-                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x0: /* FMAXNM */
-            case 0x1: /* FMLA */
-            case 0x2: /* FADD */
-            case 0x3: /* FMULX */
-            case 0x4: /* FCMEQ */
-            case 0x6: /* FMAX */
-            case 0x8: /* FMINNM */
-            case 0x9: /* FMLS */
-            case 0xa: /* FSUB */
-            case 0xe: /* FMIN */
-            case 0x13: /* FMUL */
-            case 0x14: /* FCMGE */
-            case 0x15: /* FACGE */
-            case 0x17: /* FDIV */
-            case 0x1a: /* FABD */
-            case 0x1c: /* FCMGT */
-            case 0x1d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-        }
+        g_assert_not_reached();
     }
 
     clear_vec_high(s, is_q, rd);
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  4 ++
 target/arm/tcg/a64.decode      | 12 +++++
 target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
 target/arm/tcg/vec_helper.c    | 23 +++++++++
 4 files changed, 105 insertions(+), 21 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within disas_simd_three_reg_same_fp16,
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 ++
 target/arm/tcg/a64.decode      |  24 +++
 target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  16 ++
 4 files changed, 107 insertions(+), 245 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 #ifdef TARGET_AARCH64
 #include "tcg/helper-a64.h"
 #include "tcg/helper-sve.h"
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
 FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
 
+FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
+FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
+
+FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
+FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
+
+FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
+FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
+
+FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
+FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
 };
 TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
+    gen_helper_gvec_fmaxp_h,
+    gen_helper_gvec_fmaxp_s,
+    gen_helper_gvec_fmaxp_d,
+};
+TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
+    gen_helper_gvec_fminp_h,
+    gen_helper_gvec_fminp_s,
+    gen_helper_gvec_fminp_d,
+};
+TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
+    gen_helper_gvec_fmaxnump_h,
+    gen_helper_gvec_fmaxnump_s,
+    gen_helper_gvec_fmaxnump_d,
+};
+TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
+    gen_helper_gvec_fminnump_h,
+    gen_helper_gvec_fminnump_s,
+    gen_helper_gvec_fminnump_d,
+};
+TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
 }
 
 TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
+TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
+TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
+TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
+TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 12, 5);
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
-    TCGv_ptr fpst;
 
     /* For some ops (the FP ones), size[1] is part of the encoding.
      * For ADDP strictly it is not but size[1] is always 1 for valid
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         if (!fp_access_check(s)) {
             return;
         }
-
-        fpst = NULL;
         break;
+    default:
     case 0xc: /* FMAXNMP */
+    case 0xd: /* FADDP */
     case 0xf: /* FMAXP */
     case 0x2c: /* FMINNMP */
     case 0x2f: /* FMINP */
-        /* FP op, size[0] is 32 or 64 bit*/
-        if (!u) {
-            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
-                unallocated_encoding(s);
-                return;
-            } else {
-                size = MO_16;
-            }
-        } else {
-            size = extract32(size, 0, 1) ? MO_64 : MO_32;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-        break;
-    default:
-    case 0xd: /* FADDP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         case 0x3b: /* ADDP */
             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
             break;
-        case 0xc: /* FMAXNMP */
-            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0xf: /* FMAXP */
-            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2c: /* FMINNMP */
-            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2f: /* FMINP */
-            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
         default:
+        case 0xc: /* FMAXNMP */
         case 0xd: /* FADDP */
+        case 0xf: /* FMAXP */
+        case 0x2c: /* FMINNMP */
+        case 0x2f: /* FMINP */
             g_assert_not_reached();
         }
 
         write_fp_dreg(s, rd, tcg_res);
     } else {
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-        read_vec_element_i32(s, tcg_op1, rn, 0, size);
-        read_vec_element_i32(s, tcg_op2, rn, 1, size);
-
-        if (size == MO_16) {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        } else {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        write_fp_sreg(s, rd, tcg_res);
+        g_assert_not_reached();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                                    int size, int rn, int rm, int rd)
 {
-    TCGv_ptr fpst;
     int pass;
 
-    /* Floating point operations need fpst */
-    if (opcode >= 0x58) {
-        fpst = fpstatus_ptr(FPST_FPCR);
-    } else {
-        fpst = NULL;
-    }
-
     if (!fp_access_check(s)) {
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
             case 0x17: /* ADDP */
                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
                 break;
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
         }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                 genfn = fns[size][u];
                 break;
             }
-            /* The FP operations are all on single floats (32 bit) */
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     }
 
     switch (fpopcode) {
-    case 0x58: /* FMAXNMP */
-    case 0x5e: /* FMAXP */
-    case 0x78: /* FMINNMP */
-    case 0x7e: /* FMINP */
-        if (size && !is_q) {
-            unallocated_encoding(s);
-            return;
-        }
-        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
-                               rn, rm, rd);
-        return;
-
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
     case 0x59: /* FMLAL2 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x3f: /* FRSQRTS */
+    case 0x58: /* FMAXNMP */
     case 0x5a: /* FADDP */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
+    case 0x5e: /* FMAXP */
     case 0x5f: /* FDIV */
+    case 0x78: /* FMINNMP */
     case 0x7a: /* FABD */
     case 0x7d: /* FACGT */
     case 0x7c: /* FCMGT */
+    case 0x7e: /* FMINP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     }
 }
 
-/*
- * Advanced SIMD three same (ARMv8.2 FP16 variants)
- *
- *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- *
- * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
- * (register), FACGE, FABD, FCMGT (register) and FACGT.
- *
- */
-static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 11, 3);
-    int u = extract32(insn, 29, 1);
-    int a = extract32(insn, 23, 1);
-    int is_q = extract32(insn, 30, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    /*
-     * For these floating point ops, the U, a and opcode bits
-     * together indicate the operation.
-     */
-    int fpopcode = opcode | (a << 3) | (u << 4);
-    bool pairwise;
-    TCGv_ptr fpst;
-    int pass;
-
-    switch (fpopcode) {
-    case 0x10: /* FMAXNMP */
-    case 0x16: /* FMAXP */
-    case 0x18: /* FMINNMP */
-    case 0x1e: /* FMINP */
-        pairwise = true;
-        break;
-    default:
-    case 0x0: /* FMAXNM */
-    case 0x1: /* FMLA */
-    case 0x2: /* FADD */
-    case 0x3: /* FMULX */
-    case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
-    case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
-    case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
-    case 0xe: /* FMIN */
-    case 0xf: /* FRSQRTS */
-    case 0x12: /* FADDP */
-    case 0x13: /* FMUL */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    if (pairwise) {
-        int maxpass = is_q ? 8 : 4;
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res[8];
-
-        for (pass = 0; pass < maxpass; pass++) {
-            int passreg = pass < (maxpass / 2) ? rn : rm;
-            int passelt = (pass << 1) & (maxpass - 1);
-
-            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
-            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
-            tcg_res[pass] = tcg_temp_new_i32();
-
-            switch (fpopcode) {
-            case 0x10: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x16: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x18: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x1e: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x12: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        for (pass = 0; pass < maxpass; pass++) {
-            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
-        }
-    } else {
-        g_assert_not_reached();
-    }
-
-    clear_vec_high(s, is_q, rd);
-}
-
 /* AdvSIMD three same extra
  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
 DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
 DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
 
+DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
+DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
+DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
+
+DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
+DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
+DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
+
+DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
+DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
+DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
+
+DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
+DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
+DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
+
 #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
     {                                                                   \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             |  7 -----
 target/arm/tcg/translate-neon.c | 55 ++-------------------------------
 target/arm/tcg/vec_helper.c     | 45 ---------------------------
 3 files changed, 3 insertions(+), 104 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 ++
 target/arm/tcg/translate.h     |   3 +
 target/arm/tcg/a64.decode      |   6 ++
 target/arm/tcg/gengvec.c       |  12 ++++
 target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  30 ++++++++
 6 files changed, 77 insertions(+), 107 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             | 2 --
 target/arm/tcg/neon_helper.c    | 5 -----
 target/arm/tcg/translate-neon.c | 3 +--
 3 files changed, 1 insertion(+), 9 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
 
 DEF_HELPER_2(neon_add_u8, i32, i32, i32)
 DEF_HELPER_2(neon_add_u16, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
 DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/neon_helper.c
+++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
     return (a + b) ^ mask;
 }
 
-#define NEON_FN(dest, src1, src2) dest = src1 + src2
-NEON_POP(padd_u8, neon_u8, 4)
-NEON_POP(padd_u16, neon_u16, 2)
-#undef NEON_FN
-
 #define NEON_FN(dest, src1, src2) dest = src1 - src2
 NEON_VOP(sub_u8, neon_u8, 4)
 NEON_VOP(sub_u16, neon_u16, 2)
diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
 DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
+DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
 #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-#define gen_helper_neon_padd_u32  tcg_gen_add_i32
 
 DO_3SAME_PAIR(VPMAX_S, pmax_s)
 DO_3SAME_PAIR(VPMIN_S, pmin_s)
 DO_3SAME_PAIR(VPMAX_U, pmax_u)
 DO_3SAME_PAIR(VPMIN_U, pmin_u)
-DO_3SAME_PAIR(VPADD, padd_u)
 
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_simd_3same_pair
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 +++++
 target/arm/tcg/translate.h     |   8 +++
 target/arm/tcg/a64.decode      |   4 ++
 target/arm/tcg/gengvec.c       |  48 +++++++++++++
 target/arm/tcg/translate-a64.c | 119 +++++----------------------------
 target/arm/tcg/vec_helper.c    |  16 +++++
 6 files changed, 109 insertions(+), 102 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-neon.c | 78 ++-------------------------------
 1 file changed, 4 insertions(+), 74 deletions(-)

diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
 DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
+DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
+DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
+DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
+DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
 DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
 DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
 
-static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
-{
-    /* Operations handled pairwise 32 bits at a time */
-    TCGv_i32 tmp, tmp2, tmp3;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-        return false;
-    }
-
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vn | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if (a->size == 3) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    assert(a->q == 0); /* enforced by decode patterns */
-
-    /*
-     * Note that we have to be careful not to clobber the source operands
-     * in the "vm == vd" case by storing the result of the first pass too
-     * early. Since Q is 0 there are always just two passes, so instead
-     * of a complicated loop over each pass we just unroll.
-     */
-    tmp = tcg_temp_new_i32();
-    tmp2 = tcg_temp_new_i32();
-    tmp3 = tcg_temp_new_i32();
-
-    read_neon_element32(tmp, a->vn, 0, MO_32);
-    read_neon_element32(tmp2, a->vn, 1, MO_32);
-    fn(tmp, tmp, tmp2);
-
-    read_neon_element32(tmp3, a->vm, 0, MO_32);
-    read_neon_element32(tmp2, a->vm, 1, MO_32);
-    fn(tmp3, tmp3, tmp2);
-
-    write_neon_element32(tmp, a->vd, 0, MO_32);
-    write_neon_element32(tmp3, a->vd, 1, MO_32);
-
-    return true;
-}
-
-#define DO_3SAME_PAIR(INSN, func)                                       \
-    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-    {                                                                   \
-        static NeonGenTwoOpFn * const fns[] = {                         \
-            gen_helper_neon_##func##8,                                  \
-            gen_helper_neon_##func##16,                                 \
-            gen_helper_neon_##func##32,                                 \
-        };                                                              \
-        if (a->size > 2) {                                              \
-            return false;                                               \
-        }                                                               \
-        return do_3same_pair(s, a, fns[a->size]);                       \
-    }
-
-/* 32-bit pairwise ops end up the same as the elementwise versions.  */
-#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
-#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
-#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
-#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-
-DO_3SAME_PAIR(VPMAX_S, pmax_s)
-DO_3SAME_PAIR(VPMIN_S, pmin_s)
-DO_3SAME_PAIR(VPMAX_U, pmax_u)
-DO_3SAME_PAIR(VPMIN_U, pmin_u)
-
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
     WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  10 +++
 target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
 2 files changed, 51 insertions(+), 103 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 +++++
 target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
 2 files changed, 29 insertions(+), 49 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
 @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 
+AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
 
+TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
+TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
+TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
+TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
+TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
+
+static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
+{
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
+    }
+    return true;
+}
+
+TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
+TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
+TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Logic op (opcode == 3) subgroup of C3.6.16. */
-static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int rm = extract32(insn, 16, 5);
-    int size = extract32(insn, 22, 2);
-    bool is_u = extract32(insn, 29, 1);
-    bool is_q = extract32(insn, 30, 1);
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    switch (size + 4 * is_u) {
-    case 0: /* AND */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
-        return;
-    case 1: /* BIC */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
-        return;
-    case 2: /* ORR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
-        return;
-    case 3: /* ORN */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
-        return;
-    case 4: /* EOR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
-        return;
-
-    case 5: /* BSL bitwise select */
-        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 6: /* BIT, bitwise insert if true */
-        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 7: /* BIF, bitwise insert if false */
-        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
-        return;
-
-    default:
-        g_assert_not_reached();
-    }
-}
-
 /* Integer op subgroup of C3.6.16. */
 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
 {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 11, 5);
 
     switch (opcode) {
-    case 0x3: /* logic ops */
-        disas_simd_3same_logic(s, insn);
-        break;
     default:
         disas_simd_3same_int(s, insn);
         break;
+    case 0x3: /* logic ops */
     case 0x14: /* SMAXP, UMAXP */
     case 0x15: /* SMINP, UMINP */
     case 0x17: /* ADDP */
-- 
2.34.1