Series comparison

-[PULL 00/22] target-arm queue
+[PULL v2 00/42] target-arm queue
-target-arm queue: mostly patches from me this time round.
+Hi; most of this is the first half of the A64 simd decodetree
-Nothing too exciting.
+conversion; the rest is a mix of fixes from the last couple of weeks.
+v2 uses patches from the v2 decodetree series to avoid a few
+regressions in some A32 insns.
+(Richard: I'm still planning to review the second half of the
+v2 decodetree series; I just wanted to get the respin of this
+pullreq out today...)
+thanks
 -- PMM
-The following changes since commit 78ac2eebbab9150edf5d0d00e3648f5ebb599001:
+The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:
-  Merge tag 'artist-cursor-fix-final-pull-request' of https://github.com/hdeller/qemu-hppa into staging (2022-05-18 09:32:15 -0700)
+  Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20220519
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528
-for you to fetch changes up to fab8ad39fb75a0d9f097db67b2a334444754e88e:
+for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:
-  target/arm: Use FIELD definitions for CPACR, CPTR_ELx (2022-05-19 18:34:10 +0100)
+  target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * Implement FEAT_S2FWB
+ * xlnx_dpdma: fix descriptor endianness bug
- * Implement FEAT_IDST
+ * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
- * Drop unsupported_encoding() macro
+ * hw/arm/npcm7xx: remove setting of mp-affinity
- * hw/intc/arm_gicv3: Use correct number of priority bits for the CPU
+ * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
- * Fix aarch64 debug register names
+ * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
- * hw/adc/zynq-xadc: Use qemu_irq typedef
+ * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
- * target/arm/helper.c: Delete stray obsolete comment
+ * hw: arm: Remove use of tabs in some source files
- * Make number of counters in PMCR follow the CPU
+ * docs/system: Remove ADC from raspi documentation
- * hw/arm/virt: Fix dtb nits
+ * target/arm: Start of the conversion of A64 SIMD to decodetree
  * ptimer: Rename PTIMER_POLICY_DEFAULT to PTIMER_POLICY_LEGACY
  * target/arm: Fix PAuth keys access checks for disabled SEL2
  * Enable FEAT_HCX for -cpu max
  * Use FIELD definitions for CPACR, CPTR_ELx
 ----------------------------------------------------------------
-Chris Howard (1):
+Alexandra Diupina (1):
-      Fix aarch64 debug register names.
+      xlnx_dpdma: fix descriptor endianness bug
-Florian Lugou (1):
+Andrey Shumilin (1):
-      target/arm: Fix PAuth keys access checks for disabled SEL2
+      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
-Peter Maydell (17):
+Dorjoy Chowdhury (1):
-      target/arm: Postpone interpretation of stage 2 descriptor attribute bits
+      hw/arm/npcm7xx: remove setting of mp-affinity
-      target/arm: Factor out FWB=0 specific part of combine_cacheattrs()
-      target/arm: Implement FEAT_S2FWB
+Inès Varhol (1):
-      target/arm: Enable FEAT_S2FWB for -cpu max
+      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
       target/arm: Implement FEAT_IDST
       target/arm: Drop unsupported_encoding() macro
       hw/intc/arm_gicv3_cpuif: Handle CPUs that don't specify GICv3 parameters
       hw/intc/arm_gicv3: report correct PRIbits field in ICV_CTLR_EL1
       hw/intc/arm_gicv3_kvm.c: Stop using GIC_MIN_BPR constant
       hw/intc/arm_gicv3: Support configurable number of physical priority bits
       hw/intc/arm_gicv3: Use correct number of priority bits for the CPU
       hw/intc/arm_gicv3: Provide ich_num_aprs()
       target/arm/helper.c: Delete stray obsolete comment
       target/arm: Make number of counters in PMCR follow the CPU
       hw/arm/virt: Fix incorrect non-secure flash dtb node name
       hw/arm/virt: Drop #size-cells and #address-cells from gpio-keys dtb node
       ptimer: Rename PTIMER_POLICY_DEFAULT to PTIMER_POLICY_LEGACY
 Philippe Mathieu-Daudé (1):
-      hw/adc/zynq-xadc: Use qemu_irq typedef
+      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
-Richard Henderson (2):
+Rayhan Faizel (1):
-      target/arm: Enable FEAT_HCX for -cpu max
+      docs/system: Remove ADC from raspi documentation
       target/arm: Use FIELD definitions for CPACR, CPTR_ELx
- docs/system/arm/emulation.rst      |   2 +
+Richard Henderson (34):
- include/hw/adc/zynq-xadc.h         |   3 +-
+      target/arm: Use PLD, PLDW, PLI not NOP for t32
- include/hw/intc/arm_gicv3_common.h |   8 +-
+      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
- include/hw/ptimer.h                |  16 +-
+      target/arm: Fix decode of FMOV (hp) vs MOVI
- target/arm/cpregs.h                |  24 +++
+      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
- target/arm/cpu.h                   |  76 +++++++-
+      target/arm: Split out gengvec.c
- target/arm/internals.h             |  11 +-
+      target/arm: Split out gengvec64.c
- target/arm/translate-a64.h         |   9 -
+      target/arm: Convert Cryptographic AES to decodetree
- hw/adc/zynq-xadc.c                 |   4 +-
+      target/arm: Convert Cryptographic 3-register SHA to decodetree
- hw/arm/boot.c                      |   2 +-
+      target/arm: Convert Cryptographic 2-register SHA to decodetree
- hw/arm/musicpal.c                  |   2 +-
+      target/arm: Convert Cryptographic 3-register SHA512 to decodetree
- hw/arm/virt.c                      |   4 +-
+      target/arm: Convert Cryptographic 2-register SHA512 to decodetree
- hw/core/machine.c                  |   4 +-
+      target/arm: Convert Cryptographic 4-register to decodetree
- hw/dma/xilinx_axidma.c             |   2 +-
+      target/arm: Convert Cryptographic 3-register, imm2 to decodetree
- hw/dma/xlnx_csu_dma.c              |   2 +-
+      target/arm: Convert XAR to decodetree
- hw/intc/arm_gicv3_common.c         |   5 +
+      target/arm: Convert Advanced SIMD copy to decodetree
- hw/intc/arm_gicv3_cpuif.c          | 225 +++++++++++++++++-------
+      target/arm: Convert FMULX to decodetree
- hw/intc/arm_gicv3_kvm.c            |  16 +-
+      target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
- hw/m68k/mcf5206.c                  |   2 +-
+      target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
- hw/m68k/mcf5208.c                  |   2 +-
+      target/arm: Introduce vfp_load_reg16
- hw/net/can/xlnx-zynqmp-can.c       |   2 +-
+      target/arm: Expand vfp neg and abs inline
- hw/net/fsl_etsec/etsec.c           |   2 +-
+      target/arm: Convert FNMUL to decodetree
- hw/net/lan9118.c                   |   2 +-
+      target/arm: Convert FMLA, FMLS to decodetree
- hw/rtc/exynos4210_rtc.c            |   4 +-
+      target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
- hw/timer/allwinner-a10-pit.c       |   2 +-
+      target/arm: Convert FABD to decodetree
- hw/timer/altera_timer.c            |   2 +-
+      target/arm: Convert FRECPS, FRSQRTS to decodetree
- hw/timer/arm_timer.c               |   2 +-
+      target/arm: Convert FADDP to decodetree
- hw/timer/digic-timer.c             |   2 +-
+      target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
- hw/timer/etraxfs_timer.c           |   6 +-
+      target/arm: Use gvec for neon faddp, fmaxp, fminp
- hw/timer/exynos4210_mct.c          |   6 +-
+      target/arm: Convert ADDP to decodetree
- hw/timer/exynos4210_pwm.c          |   2 +-
+      target/arm: Use gvec for neon padd
- hw/timer/grlib_gptimer.c           |   2 +-
+      target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
- hw/timer/imx_epit.c                |   4 +-
+      target/arm: Use gvec for neon pmax, pmin
- hw/timer/imx_gpt.c                 |   2 +-
+      target/arm: Convert FMLAL, FMLSL to decodetree
- hw/timer/mss-timer.c               |   2 +-
+      target/arm: Convert disas_simd_3same_logic to decodetree
  hw/timer/sh_timer.c                |   2 +-
  hw/timer/slavio_timer.c            |   2 +-
  hw/timer/xilinx_timer.c            |   2 +-
  target/arm/cpu.c                   |  11 +-
  target/arm/cpu64.c                 |  30 ++++
  target/arm/cpu_tcg.c               |   6 +
  target/arm/helper.c                | 348 ++++++++++++++++++++++++++++---------
  target/arm/kvm64.c                 |  12 ++
  target/arm/op_helper.c             |   9 +
  target/arm/translate-a64.c         |  36 +++-
  tests/unit/ptimer-test.c           |   6 +-
 files changed, 697 insertions(+), 228 deletions(-)
+Tanmay Patil (1):
+      hw: arm: Remove use of tabs in some source files
+Zenghui Yu (1):
+      hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
+ docs/system/arm/raspi.rst       |    1 -
+ target/arm/helper.h             |   68 +-
+ target/arm/tcg/helper-a64.h     |   12 +
+ target/arm/tcg/translate-a64.h  |    4 +
+ target/arm/tcg/translate.h      |   51 +
+ target/arm/tcg/a64.decode       |  315 +++-
+ target/arm/tcg/t32.decode       |   25 +-
+ hw/arm/boot.c                   |    8 +-
+ hw/arm/npcm7xx.c                |    3 -
+ hw/char/omap_uart.c             |   49 +-
+ hw/char/stm32l4x5_usart.c       |    2 +-
+ hw/dma/xlnx_dpdma.c             |   68 +-
+ hw/gpio/zaurus.c                |   59 +-
+ hw/input/tsc2005.c              |  135 +-
+ hw/intc/arm_gic.c               |    4 +-
+ target/arm/hvf/hvf.c            |  130 +-
+ target/arm/tcg/gengvec.c        | 1672 +++++++++++++++++++++
+ target/arm/tcg/gengvec64.c      |  190 +++
+ target/arm/tcg/neon_helper.c    |    5 -
+ target/arm/tcg/translate-a64.c  | 3137 +++++++++++++--------------------------
+ target/arm/tcg/translate-neon.c |  136 +-
+ target/arm/tcg/translate-sve.c  |  145 +-
+ target/arm/tcg/translate-vfp.c  |   93 +-
+ target/arm/tcg/translate.c      | 1592 +-------------------
+ target/arm/tcg/vec_helper.c     |  221 ++-
+ target/arm/vfp_helper.c         |   30 -
+ target/arm/tcg/meson.build      |    2 +
+files changed, 3860 insertions(+), 4297 deletions(-)
+ create mode 100644 target/arm/tcg/gengvec.c
+ create mode 100644 target/arm/tcg/gengvec64.c

-[PULL 20/22] target/arm: Fix PAuth keys access checks for disabled SEL2
+[PULL 01/42] xlnx_dpdma: fix descriptor endianness bug
-From: Florian Lugou <florian.lugou@provenrun.com>
+From: Alexandra Diupina <adiupina@astralinux.ru>
-As per the description of the HCR_EL2.APK field in the ARMv8 ARM,
+Add xlnx_dpdma_read_descriptor() and
-Pointer Authentication keys accesses should only be trapped to Secure
+xlnx_dpdma_write_descriptor() functions.
-EL2 if it is enabled.
+xlnx_dpdma_read_descriptor() combines reading a
 descriptor from desc_addr by calling dma_memory_read()
 and swapping the desc fields from guest memory order
 to host memory order. xlnx_dpdma_write_descriptor()
 performs similar actions when writing a descriptor.
-Signed-off-by: Florian Lugou <florian.lugou@provenrun.com>
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220517145242.1215271-1-florian.lugou@provenrun.com
+Fixes: d3c6369a96 ("introduce xlnx-dpdma")
 Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
 [PMM: tweaked indent, dropped behaviour change for write-failure case]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 2 +-
+ hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
-file changed, 1 insertion(+), 1 deletion(-)
+file changed, 64 insertions(+), 4 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/hw/dma/xlnx_dpdma.c
-+++ b/target/arm/helper.c
++++ b/hw/dma/xlnx_dpdma.c
-@@ -XXX,XX +XXX,XX @@ static CPAccessResult access_pauth(CPUARMState *env, const ARMCPRegInfo *ri,
+@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
-     int el = arm_current_el(env);
+     type_register_static(&xlnx_dpdma_info);
+ }
-     if (el < 2 &&
--        arm_feature(env, ARM_FEATURE_EL2) &&
++static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
-+        arm_is_el2_enabled(env) &&
++                                              uint64_t desc_addr,
-         !(arm_hcr_el2_eff(env) & HCR_APK)) {
++                                              DPDMADescriptor *desc)
-         return CP_ACCESS_TRAP_EL2;
++{
-     }
++    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
 +                                      &desc, sizeof(DPDMADescriptor),
 +                                      MEMTXATTRS_UNSPECIFIED);
 +    if (res) {
 +        return res;
 +    }
 +
 +    /* Convert from LE into host endianness.  */
 +    desc->control = le32_to_cpu(desc->control);
 +    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
 +    desc->xfer_size = le32_to_cpu(desc->xfer_size);
 +    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
 +    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
 +    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
 +    desc->address_extension = le32_to_cpu(desc->address_extension);
 +    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
 +    desc->source_address = le32_to_cpu(desc->source_address);
 +    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
 +    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
 +    desc->source_address2 = le32_to_cpu(desc->source_address2);
 +    desc->source_address3 = le32_to_cpu(desc->source_address3);
 +    desc->source_address4 = le32_to_cpu(desc->source_address4);
 +    desc->source_address5 = le32_to_cpu(desc->source_address5);
 +    desc->crc = le32_to_cpu(desc->crc);
 +
 +    return res;
 +}
 +
 +static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
 +                                               DPDMADescriptor *desc)
 +{
 +    DPDMADescriptor tmp_desc = *desc;
 +
 +    /* Convert from host endianness into LE.  */
 +    tmp_desc.control = cpu_to_le32(tmp_desc.control);
 +    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
 +    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
 +    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
 +    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
 +    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
 +    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
 +    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
 +    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
 +    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
 +    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
 +    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
 +    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
 +    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
 +    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
 +    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
 +
 +    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
 +                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
 +}
 +
  size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
                                      bool one_desc)
  {
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
              desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
          }
 -        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
 -                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
 +        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
              s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
              xlnx_dpdma_update_irq(s);
              s->operation_finished[channel] = true;
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
              /* The descriptor need to be updated when it's completed. */
              DPRINTF("update the descriptor with the done flag set.\n");
              xlnx_dpdma_desc_set_done(&desc);
 -            dma_memory_write(&address_space_memory, desc_addr, &desc,
 -                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
 +            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
 +                DPRINTF("Can't write the descriptor.\n");
 +                /* TODO: check hardware behaviour for memory write failure */
 +            }
          }
          if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
 --
-.25.1
+.34.1

-New patch
+[PULL 02/42] hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
+From: Zenghui Yu <zenghui.yu@linux.dev>
+We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
+we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
+wrong key.
+Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
+guest can properly detect FEAT_SSBS2 on my M1 HW.
+All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
+It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
+HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
+it.
+Cc: qemu-stable@nongnu.org
+Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
+Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
+Reviewed-by: Alexander Graf <agraf@csgraf.de>
+Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
+file changed, 65 insertions(+), 65 deletions(-)
+diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/hvf/hvf.c
++++ b/target/arm/hvf/hvf.c
+@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
+ };
+ static struct hvf_sreg_match hvf_sreg_match[] = {
+-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
+ #ifdef SYNC_NO_RAW_REGS
+     /*
+@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
+     { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
+     { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
+ #endif
+-    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
++    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
+     { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
+     { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
+     { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
+--
+.34.1

-New patch
+[PULL 03/42] hw/arm/npcm7xx: remove setting of mp-affinity
+From: Dorjoy Chowdhury <dorjoychy111@gmail.com>
+The value of the mp-affinity property being set in npcm7xx_realize is
+always the same as the default value it would have when arm_cpu_realizefn
+is called if the property is not set here. So there is no need to set
+the property value in npcm7xx_realize function.
+Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/arm/npcm7xx.c | 3 ---
+file changed, 3 deletions(-)
+diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/npcm7xx.c
++++ b/hw/arm/npcm7xx.c
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
+     /* CPUs */
+     for (i = 0; i < nc->num_cpus; i++) {
+-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
+-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
+-                                &error_abort);
+         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
+                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
+         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
+--
+.34.1

-[PULL 17/22] hw/arm/virt: Fix incorrect non-secure flash dtb node name
+[PULL 04/42] hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
-In the virt board with secure=on we put two nodes in the dtb
+From: Inès Varhol <ines.varhol@telecom-paris.fr>
 for flash devices: one for the secure-only flash, and one
 for the non-secure flash. We get the reg properties for these
 correct, but in the DT node name, which by convention includes
 the base address of devices, we used the wrong address. Fix it.
-Spotted by dtc, which will complain
+Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
-Warning (unique_unit_address): /flash@0: duplicate unit-address (also used in node /secflash@0)
+Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
-if you dump the dtb from QEMU with -machine dumpdtb=file.dtb
+Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
-and then decompile it with dtc.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220513131316.4081539-2-peter.maydell@linaro.org
 ---
- hw/arm/virt.c | 2 +-
+ hw/char/stm32l4x5_usart.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/hw/arm/virt.c b/hw/arm/virt.c
+diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt.c
+--- a/hw/char/stm32l4x5_usart.c
-+++ b/hw/arm/virt.c
++++ b/hw/char/stm32l4x5_usart.c
-@@ -XXX,XX +XXX,XX @@ static void virt_flash_fdt(VirtMachineState *vms,
+@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
-         qemu_fdt_setprop_string(ms->fdt, nodename, "secure-status", "okay");
+     FIELD(CR1, UE, 0, 1)     /* USART enable */
-         g_free(nodename);
+ REG32(CR2, 0x04)
+     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
--        nodename = g_strdup_printf("/flash@%" PRIx64, flashbase);
+-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
-+        nodename = g_strdup_printf("/flash@%" PRIx64, flashbase + flashsize);
++    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
-         qemu_fdt_add_subnode(ms->fdt, nodename);
+     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
-         qemu_fdt_setprop_string(ms->fdt, nodename, "compatible", "cfi-flash");
+     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
-         qemu_fdt_setprop_sized_cells(ms->fdt, nodename, "reg",
+     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
 --
-.25.1
+.34.1

-New patch
+[PULL 05/42] hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
+From: Andrey Shumilin <shum.sdl@nppct.ru>
+In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
+reading and writing the Non-Secure view of the GICC_APR<n> registers
+to functions gic_apr_ns_view() and gic_apr_write_ns_view().
+Unfortunately we got the order of the arguments wrong, swapping the
+CPU number and the register number (which the compiler doesn't catch
+because they're both integers).
+Most guests probably didn't notice this bug because directly
+accessing the APR registers is typically something only done by
+firmware when it is doing state save for going into a sleep mode.
+Correct the mismatched call arguments.
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
+Cc: qemu-stable@nongnu.org
+Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
+Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
+[PMM: Rewrote commit message]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
+---
+ hw/intc/arm_gic.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/intc/arm_gic.c
++++ b/hw/intc/arm_gic.c
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
+             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
+-            *data = gic_apr_ns_view(s, regno, cpu);
++            *data = gic_apr_ns_view(s, cpu, regno);
+         } else {
+             *data = s->apr[regno][cpu];
+         }
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
+             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
+-            gic_apr_write_ns_view(s, regno, cpu, value);
++            gic_apr_write_ns_view(s, cpu, regno, value);
+         } else {
+             s->apr[regno][cpu] = value;
+         }
+--
+.34.1

-[PULL 06/22] target/arm: Drop unsupported_encoding() macro
+[PULL 06/42] hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
-The unsupported_encoding() macro logs a LOG_UNIMP message and then
+From: Philippe Mathieu-Daudé <philmd@linaro.org>
 generates code to raise the usual exception for an unallocated
 encoding.  Back when we were still implementing the A64 decoder this
 was helpful for flagging up when guest code was using something we
 hadn't yet implemented.  Now we completely cover the A64 instruction
 set it is barely used.  The only remaining uses are for five
 instructions whose semantics are "UNDEF, unless being run under
 external halting debug":
  * HLT (when not being used for semihosting)
  * DCPSR1, DCPS2, DCPS3
  * DRPS
-QEMU doesn't implement external halting debug, so for us the UNDEF is
+Check the function index is in range and use an unsigned
-the architecturally correct behaviour (because it's not possible to
+variable to avoid the following warning with GCC 13.2.0:
 execute these instructions with halting debug enabled).  The
 LOG_UNIMP doesn't serve a useful purpose; replace these uses of
 unsupported_encoding() with unallocated_encoding(), and delete the
 macro.
+  [666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
+  hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
+  hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
+|     s->dav |= mode_regs[s->function];
+        |                         ~^~~~~~~~~~
+Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-id: 20240508143513.44996-1-philmd@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+[PMM: fixed missing ')']
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220509160443.3561604-1-peter.maydell@linaro.org
 ---
- target/arm/translate-a64.h | 9 ---------
+ hw/input/tsc2005.c | 5 ++++-
- target/arm/translate-a64.c | 8 ++++----
+file changed, 4 insertions(+), 1 deletion(-)
 files changed, 4 insertions(+), 13 deletions(-)
-diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
+diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.h
+--- a/hw/input/tsc2005.c
-+++ b/target/arm/translate-a64.h
++++ b/hw/input/tsc2005.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
- #ifndef TARGET_ARM_TRANSLATE_A64_H
+ static void tsc2005_timer_tick(void *opaque)
- #define TARGET_ARM_TRANSLATE_A64_H
+ {
+     TSC2005State *s = opaque;
--#define unsupported_encoding(s, insn)                                    \
++    unsigned int function = s->function;
--    do {                                                                 \
++
--        qemu_log_mask(LOG_UNIMP,                                         \
++    assert(function < ARRAY_SIZE(mode_regs));
--                      "%s:%d: unsupported instruction encoding 0x%08x "  \
--                      "at pc=%016" PRIx64 "\n",                          \
+     /* Timer ticked -- a set of conversions has been finished.  */
--                      __FILE__, __LINE__, insn, s->pc_curr);             \
--        unallocated_encoding(s);                                         \
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
 -    } while (0)
 -
  TCGv_i64 new_tmp_a64(DisasContext *s);
  TCGv_i64 new_tmp_a64_local(DisasContext *s);
  TCGv_i64 new_tmp_a64_zero(DisasContext *s);
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
               * with our 32-bit semihosting).
               */
              if (s->current_el == 0) {
 -                unsupported_encoding(s, insn);
 +                unallocated_encoding(s);
                  break;
              }
  #endif
              gen_exception_internal_insn(s, s->pc_curr, EXCP_SEMIHOST);
          } else {
 -            unsupported_encoding(s, insn);
 +            unallocated_encoding(s);
          }
          break;
      case 5:
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
              break;
          }
          /* DCPS1, DCPS2, DCPS3 */
 -        unsupported_encoding(s, insn);
 +        unallocated_encoding(s);
          break;
      default:
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
          if (op3 != 0 || op4 != 0 || rn != 0x1f) {
              goto do_unallocated;
          } else {
 -            unsupported_encoding(s, insn);
 +            unallocated_encoding(s);
          }
          return;
+     s->busy = false;
+-    s->dav |= mode_regs[s->function];
++    s->dav |= mode_regs[function];
+     s->function = -1;
+     tsc2005_pin_update(s);
+ }
 --
-.25.1
+.34.1

-[PULL 13/22] Fix aarch64 debug register names.
+[PULL 07/42] hw: arm: Remove use of tabs in some source files
-From: Chris Howard <cvz185@web.de>
+From: Tanmay Patil <tanmaynpatil105@gmail.com>
-Give all the debug registers their correct names including the
+Some of the source files for older devices use hardcoded tabs
-index, rather than having multiple registers all with the
+instead of our current coding standard's required spaces.
-same name string, which is confusing when viewed over the
+Fix these in the following files:
-gdbstub interface.
+    - hw/arm/boot.c
     - hw/char/omap_uart.c
     - hw/gpio/zaurus.c
     - hw/input/tsc2005.c
-Signed-off-by: CHRIS HOWARD <cvz185@web.de>
+This commit is mostly whitespace-only changes; it also
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+adds curly-braces to some 'if' statements.
-Message-id: 4127D8CA-D54A-47C7-A039-0DB7361E30C0@web.de
-[PMM: expanded commit message]
+This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
 but some other files remain to be handled.
 Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
 Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 [PMM: tweaked commit message]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 16 ++++++++++++----
+ hw/arm/boot.c       |   8 +--
-file changed, 12 insertions(+), 4 deletions(-)
+ hw/char/omap_uart.c |  49 +++++++++--------
  hw/gpio/zaurus.c    |  59 ++++++++++----------
  hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
 files changed, 130 insertions(+), 116 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/hw/arm/boot.c
-+++ b/target/arm/helper.c
++++ b/hw/arm/boot.c
-@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
+@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
      WRITE_WORD(p, info->ram_size / 4096);
      /* ramdisk_size */
      WRITE_WORD(p, 0);
 -#define FLAG_READONLY    1
 -#define FLAG_RDLOAD    4
 -#define FLAG_RDPROMPT    8
 +#define FLAG_READONLY 1
 +#define FLAG_RDLOAD   4
 +#define FLAG_RDPROMPT 8
      /* flags */
      WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
      /* rootdev */
 -    WRITE_WORD(p, (31 << 8) | 0);    /* /dev/mtdblock0 */
 +    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
      /* video_num_cols */
      WRITE_WORD(p, 0);
      /* video_num_rows */
 diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/char/omap_uart.c
 +++ b/hw/char/omap_uart.c
@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
      s->fclk = fclk;
      s->irq = irq;
      s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
 -                               omap_clk_getrate(fclk)/16,
 +                               omap_clk_getrate(fclk) / 16,
                                 chr ?: qemu_chr_new(label, "null", NULL),
                                 DEVICE_NATIVE_ENDIAN);
      return s;
@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
      }
-     for (i = 0; i < brps; i++) {
+     switch (addr) {
-+        char *dbgbvr_el1_name = g_strdup_printf("DBGBVR%d_EL1", i);
+-    case 0x20:    /* MDR1 */
-+        char *dbgbcr_el1_name = g_strdup_printf("DBGBCR%d_EL1", i);
++    case 0x20:  /* MDR1 */
-         ARMCPRegInfo dbgregs[] = {
+         return s->mdr[0];
--            { .name = "DBGBVR", .state = ARM_CP_STATE_BOTH,
+-    case 0x24:    /* MDR2 */
-+            { .name = dbgbvr_el1_name, .state = ARM_CP_STATE_BOTH,
++    case 0x24:  /* MDR2 */
-               .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 4,
+         return s->mdr[1];
-               .access = PL1_RW, .accessfn = access_tda,
+-    case 0x40:    /* SCR */
-               .fieldoffset = offsetof(CPUARMState, cp15.dbgbvr[i]),
++    case 0x40:  /* SCR */
-               .writefn = dbgbvr_write, .raw_writefn = raw_write
+         return s->scr;
-             },
+-    case 0x44:    /* SSR */
--            { .name = "DBGBCR", .state = ARM_CP_STATE_BOTH,
++    case 0x44:  /* SSR */
-+            { .name = dbgbcr_el1_name, .state = ARM_CP_STATE_BOTH,
+         return 0x0;
-               .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 5,
+-    case 0x48:    /* EBLR (OMAP2) */
-               .access = PL1_RW, .accessfn = access_tda,
++    case 0x48:  /* EBLR (OMAP2) */
-               .fieldoffset = offsetof(CPUARMState, cp15.dbgbcr[i]),
+         return s->eblr;
-@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
+-    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
-             },
++    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
-         };
+         return s->clksel;
-         define_arm_cp_regs(cpu, dbgregs);
+-    case 0x50:    /* MVR */
-+        g_free(dbgbvr_el1_name);
++    case 0x50:  /* MVR */
-+        g_free(dbgbcr_el1_name);
+         return 0x30;
 -    case 0x54:    /* SYSC (OMAP2) */
 +    case 0x54:  /* SYSC (OMAP2) */
          return s->syscontrol;
 -    case 0x58:    /* SYSS (OMAP2) */
 +    case 0x58:  /* SYSS (OMAP2) */
          return 1;
 -    case 0x5c:    /* WER (OMAP2) */
 +    case 0x5c:  /* WER (OMAP2) */
          return s->wkup;
 -    case 0x60:    /* CFPS (OMAP2) */
 +    case 0x60:  /* CFPS (OMAP2) */
          return s->cfps;
      }
-     for (i = 0; i < wrps; i++) {
+@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
 +        char *dbgwvr_el1_name = g_strdup_printf("DBGWVR%d_EL1", i);
 +        char *dbgwcr_el1_name = g_strdup_printf("DBGWCR%d_EL1", i);
          ARMCPRegInfo dbgregs[] = {
 -            { .name = "DBGWVR", .state = ARM_CP_STATE_BOTH,
 +            { .name = dbgwvr_el1_name, .state = ARM_CP_STATE_BOTH,
                .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 6,
                .access = PL1_RW, .accessfn = access_tda,
                .fieldoffset = offsetof(CPUARMState, cp15.dbgwvr[i]),
                .writefn = dbgwvr_write, .raw_writefn = raw_write
              },
 -            { .name = "DBGWCR", .state = ARM_CP_STATE_BOTH,
 +            { .name = dbgwcr_el1_name, .state = ARM_CP_STATE_BOTH,
                .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 7,
                .access = PL1_RW, .accessfn = access_tda,
                .fieldoffset = offsetof(CPUARMState, cp15.dbgwcr[i]),
@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
              },
          };
          define_arm_cp_regs(cpu, dbgregs);
 +        g_free(dbgwvr_el1_name);
 +        g_free(dbgwcr_el1_name);
      }
+     switch (addr) {
+-    case 0x20:    /* MDR1 */
++    case 0x20:  /* MDR1 */
+         s->mdr[0] = value & 0x7f;
+         break;
+-    case 0x24:    /* MDR2 */
++    case 0x24:  /* MDR2 */
+         s->mdr[1] = value & 0xff;
+         break;
+-    case 0x40:    /* SCR */
++    case 0x40:  /* SCR */
+         s->scr = value & 0xff;
+         break;
+-    case 0x48:    /* EBLR (OMAP2) */
++    case 0x48:  /* EBLR (OMAP2) */
+         s->eblr = value & 0xff;
+         break;
+-    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
++    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
+         s->clksel = value & 1;
+         break;
+-    case 0x44:    /* SSR */
+-    case 0x50:    /* MVR */
+-    case 0x58:    /* SYSS (OMAP2) */
++    case 0x44:  /* SSR */
++    case 0x50:  /* MVR */
++    case 0x58:  /* SYSS (OMAP2) */
+         OMAP_RO_REG(addr);
+         break;
+-    case 0x54:    /* SYSC (OMAP2) */
++    case 0x54:  /* SYSC (OMAP2) */
+         s->syscontrol = value & 0x1d;
+-        if (value & 2)
++        if (value & 2) {
+             omap_uart_reset(s);
++        }
+         break;
+-    case 0x5c:    /* WER (OMAP2) */
++    case 0x5c:  /* WER (OMAP2) */
+         s->wkup = value & 0x7f;
+         break;
+-    case 0x60:    /* CFPS (OMAP2) */
++    case 0x60:  /* CFPS (OMAP2) */
+         s->cfps = value & 0xff;
+         break;
+     default:
+diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/gpio/zaurus.c
++++ b/hw/gpio/zaurus.c
+@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
+     uint16_t isr;
+ };
+-#define SCOOP_MCR    0x00
+-#define SCOOP_CDR    0x04
+-#define SCOOP_CSR    0x08
+-#define SCOOP_CPR    0x0c
+-#define SCOOP_CCR    0x10
+-#define SCOOP_IRR_IRM    0x14
+-#define SCOOP_IMR    0x18
+-#define SCOOP_ISR    0x1c
+-#define SCOOP_GPCR    0x20
+-#define SCOOP_GPWR    0x24
+-#define SCOOP_GPRR    0x28
++#define SCOOP_MCR       0x00
++#define SCOOP_CDR       0x04
++#define SCOOP_CSR       0x08
++#define SCOOP_CPR       0x0c
++#define SCOOP_CCR       0x10
++#define SCOOP_IRR_IRM   0x14
++#define SCOOP_IMR       0x18
++#define SCOOP_ISR       0x1c
++#define SCOOP_GPCR      0x20
++#define SCOOP_GPWR      0x24
++#define SCOOP_GPRR      0x28
+-static inline void scoop_gpio_handler_update(ScoopInfo *s) {
++static inline void scoop_gpio_handler_update(ScoopInfo *s)
++{
+     uint32_t level, diff;
+     int bit;
+     level = s->gpio_level & s->gpio_dir;
+@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
+         break;
+     case SCOOP_CPR:
+         s->power = value;
+-        if (value & 0x80)
++        if (value & 0x80) {
+             s->power |= 0x8040;
++        }
+         break;
+     case SCOOP_CCR:
+         s->ccr = value;
+@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
+         scoop_gpio_handler_update(s);
+         break;
+     case SCOOP_GPWR:
+-    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
++    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
+         s->gpio_level = value & s->gpio_dir;
+         scoop_gpio_handler_update(s);
+         break;
+@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
+ {
+     ScoopInfo *s = (ScoopInfo *) opaque;
+-    if (level)
++    if (level) {
+         s->gpio_level |= (1 << line);
+-    else
++    } else {
+         s->gpio_level &= ~(1 << line);
++    }
  }
+ static void scoop_init(Object *obj)
+@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
+     return 0;
+ }
+-static bool is_version_0 (void *opaque, int version_id)
++static bool is_version_0(void *opaque, int version_id)
+ {
+     return version_id == 0;
+ }
+@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
+ /* Write the bootloader parameters memory area.  */
+-#define MAGIC_CHG(a, b, c, d)    ((d << 24) | (c << 16) | (b << 8) | a)
++#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
+ static struct QEMU_PACKED sl_param_info {
+     uint32_t comadj_keyword;
+@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
+     uint32_t phad_keyword;
+     int32_t phadadj;
+ } zaurus_bootparam = {
+-    .comadj_keyword    = MAGIC_CHG('C', 'M', 'A', 'D'),
+-    .comadj        = 125,
+-    .uuid_keyword    = MAGIC_CHG('U', 'U', 'I', 'D'),
+-    .uuid        = { -1 },
+-    .touch_keyword    = MAGIC_CHG('T', 'U', 'C', 'H'),
+-    .touch_xp        = -1,
+-    .adadj_keyword    = MAGIC_CHG('B', 'V', 'A', 'D'),
+-    .adadj        = -1,
+-    .phad_keyword    = MAGIC_CHG('P', 'H', 'A', 'D'),
+-    .phadadj        = 0x01,
++    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
++    .comadj             = 125,
++    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
++    .uuid               = { -1 },
++    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
++    .touch_xp           = -1,
++    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
++    .adadj              = -1,
++    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
++    .phadadj            = 0x01,
+ };
+ void sl_bootparam_write(hwaddr ptr)
+diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/input/tsc2005.c
++++ b/hw/input/tsc2005.c
+@@ -XXX,XX +XXX,XX @@
+ #include "migration/vmstate.h"
+ #include "trace.h"
+-#define TSC_CUT_RESOLUTION(value, p)    ((value) >> (16 - (p ? 12 : 10)))
++#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
+ typedef struct {
+-    qemu_irq pint;    /* Combination of the nPENIRQ and DAV signals */
++    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
+     QEMUTimer *timer;
+     uint16_t model;
+@@ -XXX,XX +XXX,XX @@ typedef struct {
+ } TSC2005State;
+ enum {
+-    TSC_MODE_XYZ_SCAN    = 0x0,
++    TSC_MODE_XYZ_SCAN = 0x0,
+     TSC_MODE_XY_SCAN,
+     TSC_MODE_X,
+     TSC_MODE_Y,
+@@ -XXX,XX +XXX,XX @@ enum {
+ };
+ static const uint16_t mode_regs[16] = {
+-    0xf000,    /* X, Y, Z scan */
+-    0xc000,    /* X, Y scan */
+-    0x8000,    /* X */
+-    0x4000,    /* Y */
+-    0x3000,    /* Z */
+-    0x0800,    /* AUX */
+-    0x0400,    /* TEMP1 */
+-    0x0200,    /* TEMP2 */
+-    0x0800,    /* AUX scan */
+-    0x0040,    /* X test */
+-    0x0020,    /* Y test */
+-    0x0080,    /* Short-circuit test */
+-    0x0000,    /* Reserved */
+-    0x0000,    /* X+, X- drivers */
+-    0x0000,    /* Y+, Y- drivers */
+-    0x0000,    /* Y+, X- drivers */
++    0xf000, /* X, Y, Z scan */
++    0xc000, /* X, Y scan */
++    0x8000, /* X */
++    0x4000, /* Y */
++    0x3000, /* Z */
++    0x0800, /* AUX */
++    0x0400, /* TEMP1 */
++    0x0200, /* TEMP2 */
++    0x0800, /* AUX scan */
++    0x0040, /* X test */
++    0x0020, /* Y test */
++    0x0080, /* Short-circuit test */
++    0x0000, /* Reserved */
++    0x0000, /* X+, X- drivers */
++    0x0000, /* Y+, Y- drivers */
++    0x0000, /* Y+, X- drivers */
+ };
+-#define X_TRANSFORM(s)            \
++#define X_TRANSFORM(s)      \
+     ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
+-#define Y_TRANSFORM(s)            \
++#define Y_TRANSFORM(s)      \
+     ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
+-#define Z1_TRANSFORM(s)            \
++#define Z1_TRANSFORM(s)     \
+     ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
+-#define Z2_TRANSFORM(s)            \
++#define Z2_TRANSFORM(s)     \
+     ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
+-#define AUX_VAL                (700 << 4)    /* +/- 3 at 12-bit */
+-#define TEMP1_VAL            (1264 << 4)    /* +/- 5 at 12-bit */
+-#define TEMP2_VAL            (1531 << 4)    /* +/- 5 at 12-bit */
++#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
++#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
++#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
+ static uint16_t tsc2005_read(TSC2005State *s, int reg)
+ {
+     uint16_t ret;
+     switch (reg) {
+-    case 0x0:    /* X */
++    case 0x0: /* X */
+         s->dav &= ~mode_regs[TSC_MODE_X];
+         return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
+                 (s->noise & 3);
+-    case 0x1:    /* Y */
++    case 0x1: /* Y */
+         s->dav &= ~mode_regs[TSC_MODE_Y];
+-        s->noise ++;
++        s->noise++;
+         return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
+                 (s->noise & 3);
+-    case 0x2:    /* Z1 */
++    case 0x2: /* Z1 */
+         s->dav &= 0xdfff;
+         return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
+                 (s->noise & 3);
+-    case 0x3:    /* Z2 */
++    case 0x3: /* Z2 */
+         s->dav &= 0xefff;
+         return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
+                 (s->noise & 3);
+-    case 0x4:    /* AUX */
++    case 0x4: /* AUX */
+         s->dav &= ~mode_regs[TSC_MODE_AUX];
+         return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
+-    case 0x5:    /* TEMP1 */
++    case 0x5: /* TEMP1 */
+         s->dav &= ~mode_regs[TSC_MODE_TEMP1];
+         return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
+                 (s->noise & 5);
+-    case 0x6:    /* TEMP2 */
++    case 0x6: /* TEMP2 */
+         s->dav &= 0xdfff;
+         s->dav &= ~mode_regs[TSC_MODE_TEMP2];
+         return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
+                 (s->noise & 3);
+-    case 0x7:    /* Status */
++    case 0x7: /* Status */
+         ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
+         s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
+                         mode_regs[TSC_MODE_TS_TEST]);
+         s->reset = true;
+         return ret;
+-    case 0x8:   /* AUX high threshold */
++    case 0x8: /* AUX high threshold */
+         return s->aux_thr[1];
+-    case 0x9:   /* AUX low threshold */
++    case 0x9: /* AUX low threshold */
+         return s->aux_thr[0];
+-    case 0xa:   /* TEMP high threshold */
++    case 0xa: /* TEMP high threshold */
+         return s->temp_thr[1];
+-    case 0xb:   /* TEMP low threshold */
++    case 0xb: /* TEMP low threshold */
+         return s->temp_thr[0];
+-    case 0xc:    /* CFR0 */
++    case 0xc: /* CFR0 */
+         return (s->pressure << 15) | ((!s->busy) << 14) |
+-                (s->nextprecision << 13) | s->timing[0];
+-    case 0xd:    /* CFR1 */
++                (s->nextprecision << 13) | s->timing[0];
++    case 0xd: /* CFR1 */
+         return s->timing[1];
+-    case 0xe:    /* CFR2 */
++    case 0xe: /* CFR2 */
+         return (s->pin_func << 14) | s->filter;
+-    case 0xf:    /* Function select status */
++    case 0xf: /* Function select status */
+         return s->function >= 0 ? 1 << s->function : 0;
+     }
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
+         s->temp_thr[0] = data;
+         break;
+-    case 0xc:    /* CFR0 */
++    case 0xc: /* CFR0 */
+         s->host_mode = (data >> 15) != 0;
+         if (s->enabled != !(data & 0x4000)) {
+             s->enabled = !(data & 0x4000);
+             trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
+-            if (s->busy && !s->enabled)
++            if (s->busy && !s->enabled) {
+                 timer_del(s->timer);
++            }
+             s->busy = s->busy && s->enabled;
+         }
+         s->nextprecision = (data >> 13) & 1;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
+                           "tsc2005_write: illegal conversion clock setting\n");
+         }
+         break;
+-    case 0xd:    /* CFR1 */
++    case 0xd: /* CFR1 */
+         s->timing[1] = data & 0xf07;
+         break;
+-    case 0xe:    /* CFR2 */
++    case 0xe: /* CFR2 */
+         s->pin_func = (data >> 14) & 3;
+         s->filter = data & 0x3fff;
+         break;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     switch (s->nextfunction) {
+     case TSC_MODE_XYZ_SCAN:
+     case TSC_MODE_XY_SCAN:
+-        if (!s->host_mode && s->dav)
++        if (!s->host_mode && s->dav) {
+             s->enabled = false;
+-        if (!s->pressure)
++        }
++        if (!s->pressure) {
+             return;
++        }
+         /* Fall through */
+     case TSC_MODE_AUX_SCAN:
+         break;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     case TSC_MODE_X:
+     case TSC_MODE_Y:
+     case TSC_MODE_Z:
+-        if (!s->pressure)
++        if (!s->pressure) {
+             return;
++        }
+         /* Fall through */
+     case TSC_MODE_AUX:
+     case TSC_MODE_TEMP1:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     case TSC_MODE_X_TEST:
+     case TSC_MODE_Y_TEST:
+     case TSC_MODE_TS_TEST:
+-        if (s->dav)
++        if (s->dav) {
+             s->enabled = false;
++        }
+         break;
+     case TSC_MODE_RESERVED:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+         return;
+     }
+-    if (!s->enabled || s->busy)
++    if (!s->enabled || s->busy) {
+         return;
++    }
+     s->busy = true;
+     s->precision = s->nextprecision;
+     s->function = s->nextfunction;
+-    s->pdst = !s->pnd0;    /* Synchronised on internal clock */
++    s->pdst = !s->pnd0; /* Synchronised on internal clock */
+     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
+         (NANOSECONDS_PER_SECOND >> 7);
+     timer_mod(s->timer, expires);
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+     TSC2005State *s = opaque;
+     uint32_t ret = 0;
+-    switch (s->state ++) {
++    switch (s->state++) {
+     case 0:
+         if (value & 0x80) {
+             /* Command */
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+                 if (s->enabled != !(value & 1)) {
+                     s->enabled = !(value & 1);
+                     trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
+-                    if (s->busy && !s->enabled)
++                    if (s->busy && !s->enabled) {
+                         timer_del(s->timer);
++                    }
+                     s->busy = s->busy && s->enabled;
+                 }
+                 tsc2005_pin_update(s);
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+         break;
+     case 1:
+-        if (s->command)
++        if (s->command) {
+             ret = (s->data >> 8) & 0xff;
+-        else
++        } else {
+             s->data |= value << 8;
++        }
+         break;
+     case 2:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
+     /* Timer ticked -- a set of conversions has been finished.  */
+-    if (!s->busy)
++    if (!s->busy) {
+         return;
++    }
+     s->busy = false;
+     s->dav |= mode_regs[function];
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
+      * signaling TS events immediately, but for now we simulate
+      * the first conversion delay for sake of correctness.
+      */
+-    if (p != s->pressure)
++    if (p != s->pressure) {
+         tsc2005_pin_update(s);
++    }
+ }
+ static int tsc2005_post_load(void *opaque, int version_id)
 --
-.25.1
+.34.1

-[PULL 15/22] target/arm/helper.c: Delete stray obsolete comment
+[PULL 08/42] docs/system: Remove ADC from raspi documentation
-In commit 88ce6c6ee85d we switched from directly fishing the number
+From: Rayhan Faizel <rayhan.faizel@gmail.com>
 of breakpoints and watchpoints out of the ID register fields to
 abstracting out functions to do this job, but we forgot to delete the
 now-obsolete comment in define_debug_regs() about the relation
 between the ID field value and the actual number of breakpoints and
 watchpoints.  Delete the obsolete comment.
-Reported-by: CHRIS HOWARD <cvz185@web.de>
+None of the RPi boards have ADC on-board. In real life, an external ADC chip
 is required to operate on analog signals.
 Signed-off-by: Rayhan Faizel <rayhan.faizel@gmail.com>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20240512085716.222326-1-rayhan.faizel@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220513131801.4082712-1-peter.maydell@linaro.org
 ---
- target/arm/helper.c | 1 -
+ docs/system/arm/raspi.rst | 1 -
 file changed, 1 deletion(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/docs/system/arm/raspi.rst b/docs/system/arm/raspi.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/docs/system/arm/raspi.rst
-+++ b/target/arm/helper.c
++++ b/docs/system/arm/raspi.rst
-@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
+@@ -XXX,XX +XXX,XX @@ Implemented devices
-         define_one_arm_cp_reg(cpu, &dbgdidr);
+ Missing devices
-     }
+ ---------------
--    /* Note that all these register fields hold "number of Xs minus 1". */
+- * Analog to Digital Converter (ADC)
-     brps = arm_num_brps(cpu);
+  * Pulse Width Modulation (PWM)
-     wrps = arm_num_wrps(cpu);
+  * PCIE Root Port (raspi4b)
-     ctx_cmps = arm_num_ctx_cmps(cpu);
+  * GENET Ethernet Controller (raspi4b)
 --
-.25.1
+.34.1

-New patch
+[PULL 09/42] target/arm: Use PLD, PLDW, PLI not NOP for t32
+From: Richard Henderson <richard.henderson@linaro.org>
+This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
+but are introduced with ARMv7 and ARMv7MP respectively.
+For clarity, do not use NOP for PLD.
+Note that there is no PLDW (literal). Architecturally in the
+T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
+that it should be zero and if it is not then the behaviour
+is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
+value of the bit).
+In our implementation we have patterns for both:
++    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
++    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
+and so we effectively ignore the value of bit 5.  (This is a
+permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
+behaviour change in this commit, since we previously had NOP lines
+for both those patterns.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
+[PMM: adjusted commit message to note that PLD (lit) T1 bit 5
+being 1 is an UNPREDICTABLE case.]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
+ target/arm/tcg/translate.c |  4 ++--
+files changed, 14 insertions(+), 15 deletions(-)
+diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/t32.decode
++++ b/target/arm/tcg/t32.decode
+@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
+ # Note that Load, unsigned (literal) overlaps all other load encodings.
+ {
+   {
+-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
++    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
+     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
++    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
+     LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
+   }
+   LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
++    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
+     LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
++    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
+     LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+ {
+   {
+-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
++    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
+     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
++    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
+     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
+   }
+   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
++    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
+     LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
++    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
+     LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
+   LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
+   LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
+ }
+-# NOPs here are PLI.
+ {
+   {
+-    NOP          1111 1001 -001 1111 1111 ------------
++    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
+     LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1001 1001 ---- 1111 ------------
++    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
+     LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
+   }
+   LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1001 0001 ---- 1111 1100 --------
++    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
+     LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1001 0001 ---- 1111 000000 -- ----
++    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
+     LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.c
++++ b/target/arm/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
+     return ENABLE_ARCH_5TE;
+ }
+-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
++static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
+ {
+     return arm_dc_feature(s, ARM_FEATURE_V7MP);
+ }
+-static bool trans_PLI(DisasContext *s, arg_PLD *a)
++static bool trans_PLI(DisasContext *s, arg_PLI *a)
+ {
+     return ENABLE_ARCH_7;
+ }
+--
+.34.1

-New patch
+[PULL 10/42] target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
+From: Richard Henderson <richard.henderson@linaro.org>
+Fixes RISU mismatch for "fcvtzs h31, h0, #14".
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate-a64.c | 3 +++
+file changed, 3 insertions(+)
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
+             read_vec_element_i32(s, tcg_op, rn, pass, size);
+             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
+             if (is_scalar) {
++                if (size == MO_16 && !is_u) {
++                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
++                }
+                 write_fp_sreg(s, rd, tcg_op);
+             } else {
+                 write_vec_element_i32(s, tcg_op, rd, pass, size);
+--
+.34.1

-New patch
+[PULL 11/42] target/arm: Fix decode of FMOV (hp) vs MOVI
+From: Richard Henderson <richard.henderson@linaro.org>
+The decode of FMOV (vector, immediate, half-precision) vs
+invalid cases of MOVI are incorrect.
+Fixes RISU mismatch for invalid insn 0x2f01fd31.
+Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
+file changed, 14 insertions(+), 10 deletions(-)
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
+     bool is_q = extract32(insn, 30, 1);
+     uint64_t imm = 0;
+-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
+-        /* Check for FMOV (vector, immediate) - half-precision */
+-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
++    if (o2) {
++        if (cmode != 0xf || is_neg) {
+             unallocated_encoding(s);
+             return;
+         }
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    if (cmode == 15 && o2 && !is_neg) {
+         /* FMOV (vector, immediate) - half-precision */
++        if (!dc_isar_feature(aa64_fp16, s)) {
++            unallocated_encoding(s);
++            return;
++        }
+         imm = vfp_expand_imm(MO_16, abcdefgh);
+         /* now duplicate across the lanes */
+         imm = dup_const(MO_16, imm);
+     } else {
++        if (cmode == 0xf && is_neg && !is_q) {
++            unallocated_encoding(s);
++            return;
++        }
+         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
+     }
++    if (!fp_access_check(s)) {
++        return;
++    }
++
+     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
+         /* MOVI or MVNI, with MVNI negation handled above.  */
+         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
+--
+.34.1

-[PULL 08/22] hw/intc/arm_gicv3: report correct PRIbits field in ICV_CTLR_EL1
+[PULL 12/42] target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
-As noted in the comment, the PRIbits field in ICV_CTLR_EL1 is
+From: Richard Henderson <richard.henderson@linaro.org>
 supposed to match the ICH_VTR_EL2 PRIbits setting; that is, it is the
 virtual priority bit setting, not the physical priority bit setting.
 (For QEMU currently we always implement 8 bits of physical priority,
 so the PRIbits field was previously 7, since it is defined to be
 "priority bits - 1".)
+All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
+Fixes a RISU miscompare for invalid insn 0x5ef0c87a.
+Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220512151457.3899052-3-peter.maydell@linaro.org
-Message-id: 20220506162129.2896966-2-peter.maydell@linaro.org
 ---
- hw/intc/arm_gicv3_cpuif.c | 2 +-
+ target/arm/tcg/translate-a64.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_cpuif.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/hw/intc/arm_gicv3_cpuif.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t icv_ctlr_read(CPUARMState *env, const ARMCPRegInfo *ri)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-      * should match the ones reported in ich_vtr_read().
+     case 0x2f: /* FMINP */
-      */
+         /* FP op, size[0] is 32 or 64 bit*/
-     value = ICC_CTLR_EL1_A3V | (1 << ICC_CTLR_EL1_IDBITS_SHIFT) |
+         if (!u) {
--        (7 << ICC_CTLR_EL1_PRIBITS_SHIFT);
+-            if (!dc_isar_feature(aa64_fp16, s)) {
-+        ((cs->vpribits - 1) << ICC_CTLR_EL1_PRIBITS_SHIFT);
++            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
+                 unallocated_encoding(s);
-     if (cs->ich_vmcr_el2 & ICH_VMCR_EL2_VEOIM) {
+                 return;
-         value |= ICC_CTLR_EL1_EOIMODE;
+             } else {
 --
-.25.1
+.34.1

-New patch
+[PULL 13/42] target/arm: Split out gengvec.c
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate.h |    5 +
+ target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/translate.c | 1588 -----------------------------------
+ target/arm/tcg/meson.build |    1 +
+files changed, 1618 insertions(+), 1588 deletions(-)
+ create mode 100644 target/arm/tcg/gengvec.c
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.h
++++ b/target/arm/tcg/translate.h
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
++void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
++void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
++void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
++void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
++
+ void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+ void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
+new file mode 100644
+index XXXXXXX..XXXXXXX
+--- /dev/null
++++ b/target/arm/tcg/gengvec.c
+@@ -XXX,XX +XXX,XX @@
++/*
++ *  ARM generic vector expansion
++ *
++ *  Copyright (c) 2003 Fabrice Bellard
++ *  Copyright (c) 2005-2007 CodeSourcery
++ *  Copyright (c) 2007 OpenedHand, Ltd.
++ *
++ * This library is free software; you can redistribute it and/or
++ * modify it under the terms of the GNU Lesser General Public
++ * License as published by the Free Software Foundation; either
++ * version 2.1 of the License, or (at your option) any later version.
++ *
++ * This library is distributed in the hope that it will be useful,
++ * but WITHOUT ANY WARRANTY; without even the implied warranty of
++ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
++ * Lesser General Public License for more details.
++ *
++ * You should have received a copy of the GNU Lesser General Public
++ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
++ */
++
++#include "qemu/osdep.h"
++#include "translate.h"
++
++
++static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
++                            uint32_t opr_sz, uint32_t max_sz,
++                            gen_helper_gvec_3_ptr *fn)
++{
++    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
++
++    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
++    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
++                       opr_sz, max_sz, 0, fn);
++}
++
++void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static gen_helper_gvec_3_ptr * const fns[2] = {
++        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
++    };
++    tcg_debug_assert(vece >= 1 && vece <= 2);
++    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
++}
++
++void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static gen_helper_gvec_3_ptr * const fns[2] = {
++        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
++    };
++    tcg_debug_assert(vece >= 1 && vece <= 2);
++    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
++}
++
++#define GEN_CMP0(NAME, COND)                              \
++    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
++              uint32_t opr_sz, uint32_t max_sz)           \
++    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
++
++GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
++GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
++GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
++GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
++GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
++
++#undef GEN_CMP0
++
++static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_sar8i_i64(a, a, shift);
++    tcg_gen_vec_add8_i64(d, d, a);
++}
++
++static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_sar16i_i64(a, a, shift);
++    tcg_gen_vec_add16_i64(d, d, a);
++}
++
++static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_sari_i32(a, a, shift);
++    tcg_gen_add_i32(d, d, a);
++}
++
++static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_sari_i64(a, a, shift);
++    tcg_gen_add_i64(d, d, a);
++}
++
++static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    tcg_gen_sari_vec(vece, a, a, sh);
++    tcg_gen_add_vec(vece, d, d, a);
++}
++
++void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sari_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_ssra8_i64,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_ssra16_i64,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_ssra32_i32,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_ssra64_i64,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize]. */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /*
++     * Shifts larger than the element size are architecturally valid.
++     * Signed results in all sign bits.
++     */
++    shift = MIN(shift, (8 << vece) - 1);
++    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++}
++
++static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_shr8i_i64(a, a, shift);
++    tcg_gen_vec_add8_i64(d, d, a);
++}
++
++static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_shr16i_i64(a, a, shift);
++    tcg_gen_vec_add16_i64(d, d, a);
++}
++
++static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_shri_i32(a, a, shift);
++    tcg_gen_add_i32(d, d, a);
++}
++
++static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_shri_i64(a, a, shift);
++    tcg_gen_add_i64(d, d, a);
++}
++
++static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    tcg_gen_shri_vec(vece, a, a, sh);
++    tcg_gen_add_vec(vece, d, d, a);
++}
++
++void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_usra8_i64,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8, },
++        { .fni8 = gen_usra16_i64,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16, },
++        { .fni4 = gen_usra32_i32,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32, },
++        { .fni8 = gen_usra64_i64,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64, },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize]. */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /*
++     * Shifts larger than the element size are architecturally valid.
++     * Unsigned results in all zeros as input to accumulate: nop.
++     */
++    if (shift < (8 << vece)) {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    } else {
++        /* Nop, but we do need to clear the tail. */
++        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
++    }
++}
++
++/*
++ * Shift one less than the requested amount, and the low bit is
++ * the rounding bit.  For the 8 and 16-bit operations, because we
++ * mask the low bit, we can perform a normal integer shift instead
++ * of a vector shift.
++ */
++static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
++    tcg_gen_vec_sar8i_i64(d, a, sh);
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
++    tcg_gen_vec_sar16i_i64(d, a, sh);
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t;
++
++    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
++    if (sh == 32) {
++        tcg_gen_movi_i32(d, 0);
++        return;
++    }
++    t = tcg_temp_new_i32();
++    tcg_gen_extract_i32(t, a, sh - 1, 1);
++    tcg_gen_sari_i32(d, a, sh);
++    tcg_gen_add_i32(d, d, t);
++}
++
++ void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_extract_i64(t, a, sh - 1, 1);
++    tcg_gen_sari_i64(d, a, sh);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec ones = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_shri_vec(vece, t, a, sh - 1);
++    tcg_gen_dupi_vec(vece, ones, 1);
++    tcg_gen_and_vec(vece, t, t, ones);
++    tcg_gen_sari_vec(vece, d, a, sh);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_srshr8_i64,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_srshr16_i64,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_srshr32_i32,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_srshr64_i64,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    if (shift == (8 << vece)) {
++        /*
++         * Shifts larger than the element size are architecturally valid.
++         * Signed results in all sign bits.  With rounding, this produces
++         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
++         * I.e. always zero.
++         */
++        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    gen_srshr8_i64(t, a, sh);
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    gen_srshr16_i64(t, a, sh);
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    gen_srshr32_i32(t, a, sh);
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    gen_srshr64_i64(t, a, sh);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    gen_srshr_vec(vece, t, a, sh);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_srsra8_i64,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fni8 = gen_srsra16_i64,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_srsra32_i32,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_srsra64_i64,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /*
++     * Shifts larger than the element size are architecturally valid.
++     * Signed results in all sign bits.  With rounding, this produces
++     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
++     * I.e. always zero.  With accumulation, this leaves D unchanged.
++     */
++    if (shift == (8 << vece)) {
++        /* Nop, but we do need to clear the tail. */
++        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
++    tcg_gen_vec_shr8i_i64(d, a, sh);
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
++    tcg_gen_vec_shr16i_i64(d, a, sh);
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t;
++
++    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
++    if (sh == 32) {
++        tcg_gen_extract_i32(d, a, sh - 1, 1);
++        return;
++    }
++    t = tcg_temp_new_i32();
++    tcg_gen_extract_i32(t, a, sh - 1, 1);
++    tcg_gen_shri_i32(d, a, sh);
++    tcg_gen_add_i32(d, d, t);
++}
++
++void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_extract_i64(t, a, sh - 1, 1);
++    tcg_gen_shri_i64(d, a, sh);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec ones = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_shri_vec(vece, t, a, shift - 1);
++    tcg_gen_dupi_vec(vece, ones, 1);
++    tcg_gen_and_vec(vece, t, t, ones);
++    tcg_gen_shri_vec(vece, d, a, shift);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_urshr8_i64,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_urshr16_i64,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_urshr32_i32,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_urshr64_i64,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    if (shift == (8 << vece)) {
++        /*
++         * Shifts larger than the element size are architecturally valid.
++         * Unsigned results in zero.  With rounding, this produces a
++         * copy of the most significant bit.
++         */
++        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    if (sh == 8) {
++        tcg_gen_vec_shr8i_i64(t, a, 7);
++    } else {
++        gen_urshr8_i64(t, a, sh);
++    }
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    if (sh == 16) {
++        tcg_gen_vec_shr16i_i64(t, a, 15);
++    } else {
++        gen_urshr16_i64(t, a, sh);
++    }
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    if (sh == 32) {
++        tcg_gen_shri_i32(t, a, 31);
++    } else {
++        gen_urshr32_i32(t, a, sh);
++    }
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    if (sh == 64) {
++        tcg_gen_shri_i64(t, a, 63);
++    } else {
++        gen_urshr64_i64(t, a, sh);
++    }
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    if (sh == (8 << vece)) {
++        tcg_gen_shri_vec(vece, t, a, sh - 1);
++    } else {
++        gen_urshr_vec(vece, t, a, sh);
++    }
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_ursra8_i64,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fni8 = gen_ursra16_i64,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_ursra32_i32,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_ursra64_i64,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++}
++
++static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_8, 0xff >> shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_shri_i32(a, a, shift);
++    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
++}
++
++static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_shri_i64(a, a, shift);
++    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
++}
++
++static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec m = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
++    tcg_gen_shri_vec(vece, t, a, sh);
++    tcg_gen_and_vec(vece, d, d, m);
++    tcg_gen_or_vec(vece, d, d, t);
++}
++
++void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
++    const GVecGen2i ops[4] = {
++        { .fni8 = gen_shr8_ins_i64,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_shr16_ins_i64,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_shr32_ins_i32,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_shr64_ins_i64,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize]. */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /* Shift of esize leaves destination unchanged. */
++    if (shift < (8 << vece)) {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    } else {
++        /* Nop, but we do need to clear the tail. */
++        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
++    }
++}
++
++static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_8, 0xff << shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shli_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_16, 0xffff << shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shli_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
++}
++
++static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
++}
++
++static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec m = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_shli_vec(vece, t, a, sh);
++    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
++    tcg_gen_and_vec(vece, d, d, m);
++    tcg_gen_or_vec(vece, d, d, t);
++}
++
++void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
++    const GVecGen2i ops[4] = {
++        { .fni8 = gen_shl8_ins_i64,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_shl16_ins_i64,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_shl32_ins_i32,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_shl64_ins_i64,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [0..esize-1]. */
++    tcg_debug_assert(shift >= 0);
++    tcg_debug_assert(shift < (8 << vece));
++
++    if (shift == 0) {
++        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u8(a, a, b);
++    gen_helper_neon_add_u8(d, d, a);
++}
++
++static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u8(a, a, b);
++    gen_helper_neon_sub_u8(d, d, a);
++}
++
++static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u16(a, a, b);
++    gen_helper_neon_add_u16(d, d, a);
++}
++
++static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u16(a, a, b);
++    gen_helper_neon_sub_u16(d, d, a);
++}
++
++static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    tcg_gen_mul_i32(a, a, b);
++    tcg_gen_add_i32(d, d, a);
++}
++
++static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    tcg_gen_mul_i32(a, a, b);
++    tcg_gen_sub_i32(d, d, a);
++}
++
++static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    tcg_gen_mul_i64(a, a, b);
++    tcg_gen_add_i64(d, d, a);
++}
++
++static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    tcg_gen_mul_i64(a, a, b);
++    tcg_gen_sub_i64(d, d, a);
++}
++
++static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    tcg_gen_mul_vec(vece, a, a, b);
++    tcg_gen_add_vec(vece, d, d, a);
++}
++
++static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    tcg_gen_mul_vec(vece, a, a, b);
++    tcg_gen_sub_vec(vece, d, d, a);
++}
++
++/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
++ * these tables are shared with AArch64 which does support them.
++ */
++void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_mul_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fni4 = gen_mla8_i32,
++          .fniv = gen_mla_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni4 = gen_mla16_i32,
++          .fniv = gen_mla_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_mla32_i32,
++          .fniv = gen_mla_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_mla64_i64,
++          .fniv = gen_mla_vec,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fni4 = gen_mls8_i32,
++          .fniv = gen_mls_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni4 = gen_mls16_i32,
++          .fniv = gen_mls_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_mls32_i32,
++          .fniv = gen_mls_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_mls64_i64,
++          .fniv = gen_mls_vec,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++/* CMTST : test is "if (X & Y != 0)". */
++static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    tcg_gen_and_i32(d, a, b);
++    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
++}
++
++void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    tcg_gen_and_i64(d, a, b);
++    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
++}
++
++static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    tcg_gen_and_vec(vece, d, a, b);
++    tcg_gen_dupi_vec(vece, a, 0);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
++}
++
++void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
++    static const GVecGen3 ops[4] = {
++        { .fni4 = gen_helper_neon_tst_u8,
++          .fniv = gen_cmtst_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni4 = gen_helper_neon_tst_u16,
++          .fniv = gen_cmtst_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_cmtst_i32,
++          .fniv = gen_cmtst_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_cmtst_i64,
++          .fniv = gen_cmtst_vec,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
++{
++    TCGv_i32 lval = tcg_temp_new_i32();
++    TCGv_i32 rval = tcg_temp_new_i32();
++    TCGv_i32 lsh = tcg_temp_new_i32();
++    TCGv_i32 rsh = tcg_temp_new_i32();
++    TCGv_i32 zero = tcg_constant_i32(0);
++    TCGv_i32 max = tcg_constant_i32(32);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i32(lsh, shift);
++    tcg_gen_neg_i32(rsh, lsh);
++    tcg_gen_shl_i32(lval, src, lsh);
++    tcg_gen_shr_i32(rval, src, rsh);
++    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
++    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
++}
++
++void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
++{
++    TCGv_i64 lval = tcg_temp_new_i64();
++    TCGv_i64 rval = tcg_temp_new_i64();
++    TCGv_i64 lsh = tcg_temp_new_i64();
++    TCGv_i64 rsh = tcg_temp_new_i64();
++    TCGv_i64 zero = tcg_constant_i64(0);
++    TCGv_i64 max = tcg_constant_i64(64);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i64(lsh, shift);
++    tcg_gen_neg_i64(rsh, lsh);
++    tcg_gen_shl_i64(lval, src, lsh);
++    tcg_gen_shr_i64(rval, src, rsh);
++    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
++    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
++}
++
++static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
++                         TCGv_vec src, TCGv_vec shift)
++{
++    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec msk, max;
++
++    tcg_gen_neg_vec(vece, rsh, shift);
++    if (vece == MO_8) {
++        tcg_gen_mov_vec(lsh, shift);
++    } else {
++        msk = tcg_temp_new_vec_matching(dst);
++        tcg_gen_dupi_vec(vece, msk, 0xff);
++        tcg_gen_and_vec(vece, lsh, shift, msk);
++        tcg_gen_and_vec(vece, rsh, rsh, msk);
++    }
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_shlv_vec(vece, lval, src, lsh);
++    tcg_gen_shrv_vec(vece, rval, src, rsh);
++
++    max = tcg_temp_new_vec_matching(dst);
++    tcg_gen_dupi_vec(vece, max, 8 << vece);
++
++    /*
++     * The choice of LT (signed) and GEU (unsigned) are biased toward
++     * the instructions of the x86_64 host.  For MO_8, the whole byte
++     * is significant so we must use an unsigned compare; otherwise we
++     * have already masked to a byte and so a signed compare works.
++     * Other tcg hosts have a full set of comparisons and do not care.
++     */
++    if (vece == MO_8) {
++        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
++        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
++        tcg_gen_andc_vec(vece, lval, lval, lsh);
++        tcg_gen_andc_vec(vece, rval, rval, rsh);
++    } else {
++        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
++        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
++        tcg_gen_and_vec(vece, lval, lval, lsh);
++        tcg_gen_and_vec(vece, rval, rval, rsh);
++    }
++    tcg_gen_or_vec(vece, dst, lval, rval);
++}
++
++void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_neg_vec, INDEX_op_shlv_vec,
++        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_ushl_vec,
++          .fno = gen_helper_gvec_ushl_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_ushl_vec,
++          .fno = gen_helper_gvec_ushl_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_ushl_i32,
++          .fniv = gen_ushl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_ushl_i64,
++          .fniv = gen_ushl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
++{
++    TCGv_i32 lval = tcg_temp_new_i32();
++    TCGv_i32 rval = tcg_temp_new_i32();
++    TCGv_i32 lsh = tcg_temp_new_i32();
++    TCGv_i32 rsh = tcg_temp_new_i32();
++    TCGv_i32 zero = tcg_constant_i32(0);
++    TCGv_i32 max = tcg_constant_i32(31);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i32(lsh, shift);
++    tcg_gen_neg_i32(rsh, lsh);
++    tcg_gen_shl_i32(lval, src, lsh);
++    tcg_gen_umin_i32(rsh, rsh, max);
++    tcg_gen_sar_i32(rval, src, rsh);
++    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
++    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
++}
++
++void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
++{
++    TCGv_i64 lval = tcg_temp_new_i64();
++    TCGv_i64 rval = tcg_temp_new_i64();
++    TCGv_i64 lsh = tcg_temp_new_i64();
++    TCGv_i64 rsh = tcg_temp_new_i64();
++    TCGv_i64 zero = tcg_constant_i64(0);
++    TCGv_i64 max = tcg_constant_i64(63);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i64(lsh, shift);
++    tcg_gen_neg_i64(rsh, lsh);
++    tcg_gen_shl_i64(lval, src, lsh);
++    tcg_gen_umin_i64(rsh, rsh, max);
++    tcg_gen_sar_i64(rval, src, rsh);
++    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
++    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
++}
++
++static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
++                         TCGv_vec src, TCGv_vec shift)
++{
++    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_neg_vec(vece, rsh, shift);
++    if (vece == MO_8) {
++        tcg_gen_mov_vec(lsh, shift);
++    } else {
++        tcg_gen_dupi_vec(vece, tmp, 0xff);
++        tcg_gen_and_vec(vece, lsh, shift, tmp);
++        tcg_gen_and_vec(vece, rsh, rsh, tmp);
++    }
++
++    /* Bound rsh so out of bound right shift gets -1.  */
++    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
++    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
++    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
++
++    tcg_gen_shlv_vec(vece, lval, src, lsh);
++    tcg_gen_sarv_vec(vece, rval, src, rsh);
++
++    /* Select in-bound left shift.  */
++    tcg_gen_andc_vec(vece, lval, lval, tmp);
++
++    /* Select between left and right shift.  */
++    if (vece == MO_8) {
++        tcg_gen_dupi_vec(vece, tmp, 0);
++        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
++    } else {
++        tcg_gen_dupi_vec(vece, tmp, 0x80);
++        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
++    }
++}
++
++void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
++        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_sshl_vec,
++          .fno = gen_helper_gvec_sshl_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_sshl_vec,
++          .fno = gen_helper_gvec_sshl_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_sshl_i32,
++          .fniv = gen_sshl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_sshl_i64,
++          .fniv = gen_sshl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_add_vec(vece, x, a, b);
++    tcg_gen_usadd_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_b,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_h,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_s,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_d,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_add_vec(vece, x, a, b);
++    tcg_gen_ssadd_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_b,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_8 },
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_h,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_16 },
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_s,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_32 },
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_d,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_sub_vec(vece, x, a, b);
++    tcg_gen_ussub_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_b,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_8 },
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_h,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_16 },
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_s,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_32 },
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_d,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_sub_vec(vece, x, a, b);
++    tcg_gen_sssub_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_b,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_8 },
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_h,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_16 },
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_s,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_32 },
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_d,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    tcg_gen_sub_i32(t, a, b);
++    tcg_gen_sub_i32(d, b, a);
++    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
++}
++
++static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_sub_i64(t, a, b);
++    tcg_gen_sub_i64(d, b, a);
++    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
++}
++
++static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_smin_vec(vece, t, a, b);
++    tcg_gen_smax_vec(vece, d, a, b);
++    tcg_gen_sub_vec(vece, d, d, t);
++}
++
++void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_sabd_i32,
++          .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_sabd_i64,
++          .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    tcg_gen_sub_i32(t, a, b);
++    tcg_gen_sub_i32(d, b, a);
++    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
++}
++
++static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_sub_i64(t, a, b);
++    tcg_gen_sub_i64(d, b, a);
++    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
++}
++
++static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_umin_vec(vece, t, a, b);
++    tcg_gen_umax_vec(vece, d, a, b);
++    tcg_gen_sub_vec(vece, d, d, t);
++}
++
++void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_uabd_i32,
++          .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_uabd_i64,
++          .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++    gen_sabd_i32(t, a, b);
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++    gen_sabd_i64(t, a, b);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    gen_sabd_vec(vece, t, a, b);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_add_vec,
++        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_saba_i32,
++          .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_saba_i64,
++          .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++    gen_uabd_i32(t, a, b);
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++    gen_uabd_i64(t, a, b);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    gen_uabd_vec(vece, t, a, b);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_add_vec,
++        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_uaba_i32,
++          .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_uaba_i64,
++          .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
+diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.c
++++ b/target/arm/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
+     gen_rfe(s, pc, load_cpu_field(spsr));
+ }
+-static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+-                            uint32_t opr_sz, uint32_t max_sz,
+-                            gen_helper_gvec_3_ptr *fn)
+-{
+-    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
+-
+-    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
+-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
+-                       opr_sz, max_sz, 0, fn);
+-}
+-
+-void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static gen_helper_gvec_3_ptr * const fns[2] = {
+-        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
+-    };
+-    tcg_debug_assert(vece >= 1 && vece <= 2);
+-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+-}
+-
+-void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static gen_helper_gvec_3_ptr * const fns[2] = {
+-        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
+-    };
+-    tcg_debug_assert(vece >= 1 && vece <= 2);
+-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+-}
+-
+-#define GEN_CMP0(NAME, COND)                              \
+-    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
+-              uint32_t opr_sz, uint32_t max_sz)           \
+-    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
+-
+-GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
+-GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
+-GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
+-GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
+-GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
+-
+-#undef GEN_CMP0
+-
+-static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_sar8i_i64(a, a, shift);
+-    tcg_gen_vec_add8_i64(d, d, a);
+-}
+-
+-static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_sar16i_i64(a, a, shift);
+-    tcg_gen_vec_add16_i64(d, d, a);
+-}
+-
+-static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_sari_i32(a, a, shift);
+-    tcg_gen_add_i32(d, d, a);
+-}
+-
+-static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_sari_i64(a, a, shift);
+-    tcg_gen_add_i64(d, d, a);
+-}
+-
+-static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    tcg_gen_sari_vec(vece, a, a, sh);
+-    tcg_gen_add_vec(vece, d, d, a);
+-}
+-
+-void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sari_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_ssra8_i64,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_ssra16_i64,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_ssra32_i32,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_ssra64_i64,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize]. */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /*
+-     * Shifts larger than the element size are architecturally valid.
+-     * Signed results in all sign bits.
+-     */
+-    shift = MIN(shift, (8 << vece) - 1);
+-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-}
+-
+-static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_shr8i_i64(a, a, shift);
+-    tcg_gen_vec_add8_i64(d, d, a);
+-}
+-
+-static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_shr16i_i64(a, a, shift);
+-    tcg_gen_vec_add16_i64(d, d, a);
+-}
+-
+-static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_shri_i32(a, a, shift);
+-    tcg_gen_add_i32(d, d, a);
+-}
+-
+-static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_shri_i64(a, a, shift);
+-    tcg_gen_add_i64(d, d, a);
+-}
+-
+-static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    tcg_gen_shri_vec(vece, a, a, sh);
+-    tcg_gen_add_vec(vece, d, d, a);
+-}
+-
+-void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_usra8_i64,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8, },
+-        { .fni8 = gen_usra16_i64,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16, },
+-        { .fni4 = gen_usra32_i32,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32, },
+-        { .fni8 = gen_usra64_i64,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64, },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize]. */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /*
+-     * Shifts larger than the element size are architecturally valid.
+-     * Unsigned results in all zeros as input to accumulate: nop.
+-     */
+-    if (shift < (8 << vece)) {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    } else {
+-        /* Nop, but we do need to clear the tail. */
+-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+-    }
+-}
+-
+-/*
+- * Shift one less than the requested amount, and the low bit is
+- * the rounding bit.  For the 8 and 16-bit operations, because we
+- * mask the low bit, we can perform a normal integer shift instead
+- * of a vector shift.
+- */
+-static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+-    tcg_gen_vec_sar8i_i64(d, a, sh);
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+-    tcg_gen_vec_sar16i_i64(d, a, sh);
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t;
+-
+-    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
+-    if (sh == 32) {
+-        tcg_gen_movi_i32(d, 0);
+-        return;
+-    }
+-    t = tcg_temp_new_i32();
+-    tcg_gen_extract_i32(t, a, sh - 1, 1);
+-    tcg_gen_sari_i32(d, a, sh);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_extract_i64(t, a, sh - 1, 1);
+-    tcg_gen_sari_i64(d, a, sh);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_shri_vec(vece, t, a, sh - 1);
+-    tcg_gen_dupi_vec(vece, ones, 1);
+-    tcg_gen_and_vec(vece, t, t, ones);
+-    tcg_gen_sari_vec(vece, d, a, sh);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_srshr8_i64,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_srshr16_i64,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_srshr32_i32,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_srshr64_i64,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    if (shift == (8 << vece)) {
+-        /*
+-         * Shifts larger than the element size are architecturally valid.
+-         * Signed results in all sign bits.  With rounding, this produces
+-         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+-         * I.e. always zero.
+-         */
+-        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    gen_srshr8_i64(t, a, sh);
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    gen_srshr16_i64(t, a, sh);
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    gen_srshr32_i32(t, a, sh);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    gen_srshr64_i64(t, a, sh);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    gen_srshr_vec(vece, t, a, sh);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_srsra8_i64,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fni8 = gen_srsra16_i64,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_srsra32_i32,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_srsra64_i64,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /*
+-     * Shifts larger than the element size are architecturally valid.
+-     * Signed results in all sign bits.  With rounding, this produces
+-     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+-     * I.e. always zero.  With accumulation, this leaves D unchanged.
+-     */
+-    if (shift == (8 << vece)) {
+-        /* Nop, but we do need to clear the tail. */
+-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+-    tcg_gen_vec_shr8i_i64(d, a, sh);
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+-    tcg_gen_vec_shr16i_i64(d, a, sh);
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t;
+-
+-    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
+-    if (sh == 32) {
+-        tcg_gen_extract_i32(d, a, sh - 1, 1);
+-        return;
+-    }
+-    t = tcg_temp_new_i32();
+-    tcg_gen_extract_i32(t, a, sh - 1, 1);
+-    tcg_gen_shri_i32(d, a, sh);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_extract_i64(t, a, sh - 1, 1);
+-    tcg_gen_shri_i64(d, a, sh);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_shri_vec(vece, t, a, shift - 1);
+-    tcg_gen_dupi_vec(vece, ones, 1);
+-    tcg_gen_and_vec(vece, t, t, ones);
+-    tcg_gen_shri_vec(vece, d, a, shift);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_urshr8_i64,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_urshr16_i64,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_urshr32_i32,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_urshr64_i64,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    if (shift == (8 << vece)) {
+-        /*
+-         * Shifts larger than the element size are architecturally valid.
+-         * Unsigned results in zero.  With rounding, this produces a
+-         * copy of the most significant bit.
+-         */
+-        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    if (sh == 8) {
+-        tcg_gen_vec_shr8i_i64(t, a, 7);
+-    } else {
+-        gen_urshr8_i64(t, a, sh);
+-    }
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    if (sh == 16) {
+-        tcg_gen_vec_shr16i_i64(t, a, 15);
+-    } else {
+-        gen_urshr16_i64(t, a, sh);
+-    }
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    if (sh == 32) {
+-        tcg_gen_shri_i32(t, a, 31);
+-    } else {
+-        gen_urshr32_i32(t, a, sh);
+-    }
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    if (sh == 64) {
+-        tcg_gen_shri_i64(t, a, 63);
+-    } else {
+-        gen_urshr64_i64(t, a, sh);
+-    }
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    if (sh == (8 << vece)) {
+-        tcg_gen_shri_vec(vece, t, a, sh - 1);
+-    } else {
+-        gen_urshr_vec(vece, t, a, sh);
+-    }
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_ursra8_i64,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fni8 = gen_ursra16_i64,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_ursra32_i32,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_ursra64_i64,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-}
+-
+-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_shri_i32(a, a, shift);
+-    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+-}
+-
+-static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_shri_i64(a, a, shift);
+-    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+-}
+-
+-static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec m = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
+-    tcg_gen_shri_vec(vece, t, a, sh);
+-    tcg_gen_and_vec(vece, d, d, m);
+-    tcg_gen_or_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
+-    const GVecGen2i ops[4] = {
+-        { .fni8 = gen_shr8_ins_i64,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_shr16_ins_i64,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_shr32_ins_i32,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_shr64_ins_i64,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize]. */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /* Shift of esize leaves destination unchanged. */
+-    if (shift < (8 << vece)) {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    } else {
+-        /* Nop, but we do need to clear the tail. */
+-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+-    }
+-}
+-
+-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_8, 0xff << shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shli_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_16, 0xffff << shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shli_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+-}
+-
+-static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+-}
+-
+-static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec m = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_shli_vec(vece, t, a, sh);
+-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
+-    tcg_gen_and_vec(vece, d, d, m);
+-    tcg_gen_or_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
+-    const GVecGen2i ops[4] = {
+-        { .fni8 = gen_shl8_ins_i64,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_shl16_ins_i64,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_shl32_ins_i32,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_shl64_ins_i64,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [0..esize-1]. */
+-    tcg_debug_assert(shift >= 0);
+-    tcg_debug_assert(shift < (8 << vece));
+-
+-    if (shift == 0) {
+-        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u8(a, a, b);
+-    gen_helper_neon_add_u8(d, d, a);
+-}
+-
+-static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u8(a, a, b);
+-    gen_helper_neon_sub_u8(d, d, a);
+-}
+-
+-static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u16(a, a, b);
+-    gen_helper_neon_add_u16(d, d, a);
+-}
+-
+-static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u16(a, a, b);
+-    gen_helper_neon_sub_u16(d, d, a);
+-}
+-
+-static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    tcg_gen_mul_i32(a, a, b);
+-    tcg_gen_add_i32(d, d, a);
+-}
+-
+-static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    tcg_gen_mul_i32(a, a, b);
+-    tcg_gen_sub_i32(d, d, a);
+-}
+-
+-static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    tcg_gen_mul_i64(a, a, b);
+-    tcg_gen_add_i64(d, d, a);
+-}
+-
+-static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    tcg_gen_mul_i64(a, a, b);
+-    tcg_gen_sub_i64(d, d, a);
+-}
+-
+-static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    tcg_gen_mul_vec(vece, a, a, b);
+-    tcg_gen_add_vec(vece, d, d, a);
+-}
+-
+-static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    tcg_gen_mul_vec(vece, a, a, b);
+-    tcg_gen_sub_vec(vece, d, d, a);
+-}
+-
+-/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
+- * these tables are shared with AArch64 which does support them.
+- */
+-void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_mul_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fni4 = gen_mla8_i32,
+-          .fniv = gen_mla_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni4 = gen_mla16_i32,
+-          .fniv = gen_mla_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_mla32_i32,
+-          .fniv = gen_mla_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_mla64_i64,
+-          .fniv = gen_mla_vec,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fni4 = gen_mls8_i32,
+-          .fniv = gen_mls_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni4 = gen_mls16_i32,
+-          .fniv = gen_mls_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_mls32_i32,
+-          .fniv = gen_mls_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_mls64_i64,
+-          .fniv = gen_mls_vec,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-/* CMTST : test is "if (X & Y != 0)". */
+-static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    tcg_gen_and_i32(d, a, b);
+-    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
+-}
+-
+-void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    tcg_gen_and_i64(d, a, b);
+-    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
+-}
+-
+-static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    tcg_gen_and_vec(vece, d, a, b);
+-    tcg_gen_dupi_vec(vece, a, 0);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+-}
+-
+-void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+-    static const GVecGen3 ops[4] = {
+-        { .fni4 = gen_helper_neon_tst_u8,
+-          .fniv = gen_cmtst_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni4 = gen_helper_neon_tst_u16,
+-          .fniv = gen_cmtst_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_cmtst_i32,
+-          .fniv = gen_cmtst_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_cmtst_i64,
+-          .fniv = gen_cmtst_vec,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+-{
+-    TCGv_i32 lval = tcg_temp_new_i32();
+-    TCGv_i32 rval = tcg_temp_new_i32();
+-    TCGv_i32 lsh = tcg_temp_new_i32();
+-    TCGv_i32 rsh = tcg_temp_new_i32();
+-    TCGv_i32 zero = tcg_constant_i32(0);
+-    TCGv_i32 max = tcg_constant_i32(32);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i32(lsh, shift);
+-    tcg_gen_neg_i32(rsh, lsh);
+-    tcg_gen_shl_i32(lval, src, lsh);
+-    tcg_gen_shr_i32(rval, src, rsh);
+-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
+-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
+-}
+-
+-void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+-{
+-    TCGv_i64 lval = tcg_temp_new_i64();
+-    TCGv_i64 rval = tcg_temp_new_i64();
+-    TCGv_i64 lsh = tcg_temp_new_i64();
+-    TCGv_i64 rsh = tcg_temp_new_i64();
+-    TCGv_i64 zero = tcg_constant_i64(0);
+-    TCGv_i64 max = tcg_constant_i64(64);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i64(lsh, shift);
+-    tcg_gen_neg_i64(rsh, lsh);
+-    tcg_gen_shl_i64(lval, src, lsh);
+-    tcg_gen_shr_i64(rval, src, rsh);
+-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
+-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
+-}
+-
+-static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
+-                         TCGv_vec src, TCGv_vec shift)
+-{
+-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec msk, max;
+-
+-    tcg_gen_neg_vec(vece, rsh, shift);
+-    if (vece == MO_8) {
+-        tcg_gen_mov_vec(lsh, shift);
+-    } else {
+-        msk = tcg_temp_new_vec_matching(dst);
+-        tcg_gen_dupi_vec(vece, msk, 0xff);
+-        tcg_gen_and_vec(vece, lsh, shift, msk);
+-        tcg_gen_and_vec(vece, rsh, rsh, msk);
+-    }
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_shlv_vec(vece, lval, src, lsh);
+-    tcg_gen_shrv_vec(vece, rval, src, rsh);
+-
+-    max = tcg_temp_new_vec_matching(dst);
+-    tcg_gen_dupi_vec(vece, max, 8 << vece);
+-
+-    /*
+-     * The choice of LT (signed) and GEU (unsigned) are biased toward
+-     * the instructions of the x86_64 host.  For MO_8, the whole byte
+-     * is significant so we must use an unsigned compare; otherwise we
+-     * have already masked to a byte and so a signed compare works.
+-     * Other tcg hosts have a full set of comparisons and do not care.
+-     */
+-    if (vece == MO_8) {
+-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
+-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
+-        tcg_gen_andc_vec(vece, lval, lval, lsh);
+-        tcg_gen_andc_vec(vece, rval, rval, rsh);
+-    } else {
+-        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
+-        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
+-        tcg_gen_and_vec(vece, lval, lval, lsh);
+-        tcg_gen_and_vec(vece, rval, rval, rsh);
+-    }
+-    tcg_gen_or_vec(vece, dst, lval, rval);
+-}
+-
+-void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_neg_vec, INDEX_op_shlv_vec,
+-        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_ushl_vec,
+-          .fno = gen_helper_gvec_ushl_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_ushl_vec,
+-          .fno = gen_helper_gvec_ushl_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_ushl_i32,
+-          .fniv = gen_ushl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_ushl_i64,
+-          .fniv = gen_ushl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+-{
+-    TCGv_i32 lval = tcg_temp_new_i32();
+-    TCGv_i32 rval = tcg_temp_new_i32();
+-    TCGv_i32 lsh = tcg_temp_new_i32();
+-    TCGv_i32 rsh = tcg_temp_new_i32();
+-    TCGv_i32 zero = tcg_constant_i32(0);
+-    TCGv_i32 max = tcg_constant_i32(31);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i32(lsh, shift);
+-    tcg_gen_neg_i32(rsh, lsh);
+-    tcg_gen_shl_i32(lval, src, lsh);
+-    tcg_gen_umin_i32(rsh, rsh, max);
+-    tcg_gen_sar_i32(rval, src, rsh);
+-    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
+-    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
+-}
+-
+-void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+-{
+-    TCGv_i64 lval = tcg_temp_new_i64();
+-    TCGv_i64 rval = tcg_temp_new_i64();
+-    TCGv_i64 lsh = tcg_temp_new_i64();
+-    TCGv_i64 rsh = tcg_temp_new_i64();
+-    TCGv_i64 zero = tcg_constant_i64(0);
+-    TCGv_i64 max = tcg_constant_i64(63);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i64(lsh, shift);
+-    tcg_gen_neg_i64(rsh, lsh);
+-    tcg_gen_shl_i64(lval, src, lsh);
+-    tcg_gen_umin_i64(rsh, rsh, max);
+-    tcg_gen_sar_i64(rval, src, rsh);
+-    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
+-    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
+-}
+-
+-static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
+-                         TCGv_vec src, TCGv_vec shift)
+-{
+-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_neg_vec(vece, rsh, shift);
+-    if (vece == MO_8) {
+-        tcg_gen_mov_vec(lsh, shift);
+-    } else {
+-        tcg_gen_dupi_vec(vece, tmp, 0xff);
+-        tcg_gen_and_vec(vece, lsh, shift, tmp);
+-        tcg_gen_and_vec(vece, rsh, rsh, tmp);
+-    }
+-
+-    /* Bound rsh so out of bound right shift gets -1.  */
+-    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
+-    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
+-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
+-
+-    tcg_gen_shlv_vec(vece, lval, src, lsh);
+-    tcg_gen_sarv_vec(vece, rval, src, rsh);
+-
+-    /* Select in-bound left shift.  */
+-    tcg_gen_andc_vec(vece, lval, lval, tmp);
+-
+-    /* Select between left and right shift.  */
+-    if (vece == MO_8) {
+-        tcg_gen_dupi_vec(vece, tmp, 0);
+-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
+-    } else {
+-        tcg_gen_dupi_vec(vece, tmp, 0x80);
+-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
+-    }
+-}
+-
+-void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
+-        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_sshl_vec,
+-          .fno = gen_helper_gvec_sshl_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_sshl_vec,
+-          .fno = gen_helper_gvec_sshl_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_sshl_i32,
+-          .fniv = gen_sshl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_sshl_i64,
+-          .fniv = gen_sshl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_add_vec(vece, x, a, b);
+-    tcg_gen_usadd_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_b,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_h,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_s,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_d,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_add_vec(vece, x, a, b);
+-    tcg_gen_ssadd_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_b,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_h,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_16 },
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_s,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_32 },
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_d,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_sub_vec(vece, x, a, b);
+-    tcg_gen_ussub_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_b,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_h,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_16 },
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_s,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_32 },
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_d,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_sub_vec(vece, x, a, b);
+-    tcg_gen_sssub_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_b,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_h,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_16 },
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_s,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_32 },
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_d,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    tcg_gen_sub_i32(t, a, b);
+-    tcg_gen_sub_i32(d, b, a);
+-    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
+-}
+-
+-static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_sub_i64(t, a, b);
+-    tcg_gen_sub_i64(d, b, a);
+-    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
+-}
+-
+-static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_smin_vec(vece, t, a, b);
+-    tcg_gen_smax_vec(vece, d, a, b);
+-    tcg_gen_sub_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_sabd_i32,
+-          .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_sabd_i64,
+-          .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    tcg_gen_sub_i32(t, a, b);
+-    tcg_gen_sub_i32(d, b, a);
+-    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
+-}
+-
+-static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_sub_i64(t, a, b);
+-    tcg_gen_sub_i64(d, b, a);
+-    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
+-}
+-
+-static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_umin_vec(vece, t, a, b);
+-    tcg_gen_umax_vec(vece, d, a, b);
+-    tcg_gen_sub_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_uabd_i32,
+-          .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_uabd_i64,
+-          .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-    gen_sabd_i32(t, a, b);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-    gen_sabd_i64(t, a, b);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    gen_sabd_vec(vece, t, a, b);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_add_vec,
+-        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_saba_i32,
+-          .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_saba_i64,
+-          .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-    gen_uabd_i32(t, a, b);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-    gen_uabd_i64(t, a, b);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    gen_uabd_vec(vece, t, a, b);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_add_vec,
+-        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_uaba_i32,
+-          .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_uaba_i64,
+-          .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+ static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
+ {
+     static const uint16_t mask[3] = {
+diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/meson.build
++++ b/target/arm/tcg/meson.build
+@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
+ arm_ss.add(files(
+   'cpu32.c',
++  'gengvec.c',
+   'translate.c',
+   'translate-m-nocp.c',
+   'translate-mve.c',
+--
+.34.1

-[PULL 14/22] hw/adc/zynq-xadc: Use qemu_irq typedef
+[PULL 14/42] target/arm: Split out gengvec64.c
-From: Philippe Mathieu-Daudé <f4bug@amsat.org>
+From: Richard Henderson <richard.henderson@linaro.org>
-Except hw/core/irq.c which implements the forward-declared opaque
+Split some routines out of translate-a64.c and translate-sve.c
-qemu_irq structure, hw/adc/zynq-xadc.{c,h} are the only files not
+that are used by both.
 using the typedef. Fix this single exception.
-Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Bernhard Beschow <shentey@gmail.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Message-id: 20220509202035.50335-1-philippe.mathieu.daude@gmail.com
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/adc/zynq-xadc.h | 3 +--
+ target/arm/tcg/translate-a64.h |   4 +
- hw/adc/zynq-xadc.c         | 4 ++--
+ target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
-files changed, 3 insertions(+), 4 deletions(-)
+ target/arm/tcg/translate-a64.c |  26 -----
  target/arm/tcg/translate-sve.c | 145 +------------------------
  target/arm/tcg/meson.build     |   1 +
 files changed, 197 insertions(+), 169 deletions(-)
  create mode 100644 target/arm/tcg/gengvec64.c
-diff --git a/include/hw/adc/zynq-xadc.h b/include/hw/adc/zynq-xadc.h
+diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/adc/zynq-xadc.h
+--- a/target/arm/tcg/translate-a64.h
-+++ b/include/hw/adc/zynq-xadc.h
++++ b/target/arm/tcg/translate-a64.h
-@@ -XXX,XX +XXX,XX @@ struct ZynqXADCState {
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-     uint16_t xadc_dfifo[ZYNQ_XADC_FIFO_DEPTH];
+ void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-     uint16_t xadc_dfifo_entries;
+                   uint32_t rm_ofs, int64_t shift,
+                   uint32_t opr_sz, uint32_t max_sz);
--    struct IRQState *qemu_irq;
++void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
--
++                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
-+    qemu_irq irq;
++void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
- };
++                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
- #endif /* ZYNQ_XADC_H */
+ void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
-diff --git a/hw/adc/zynq-xadc.c b/hw/adc/zynq-xadc.c
+ void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
 diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
 +++ b/target/arm/tcg/gengvec64.c
@@ -XXX,XX +XXX,XX @@
 +/*
 + *  AArch64 generic vector expansion
 + *
 + *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2.1 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "translate.h"
 +#include "translate-a64.h"
 +
 +
 +static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
 +{
 +    tcg_gen_rotli_i64(d, m, 1);
 +    tcg_gen_xor_i64(d, d, n);
 +}
 +
 +static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
 +{
 +    tcg_gen_rotli_vec(vece, d, m, 1);
 +    tcg_gen_xor_vec(vece, d, d, n);
 +}
 +
 +void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
 +    static const GVecGen3 op = {
 +        .fni8 = gen_rax1_i64,
 +        .fniv = gen_rax1_vec,
 +        .opt_opc = vecop_list,
 +        .fno = gen_helper_crypto_rax1,
 +        .vece = MO_64,
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
 +}
 +
 +static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    uint64_t mask = dup_const(MO_8, 0xff >> sh);
 +
 +    tcg_gen_xor_i64(t, n, m);
 +    tcg_gen_shri_i64(d, t, sh);
 +    tcg_gen_shli_i64(t, t, 8 - sh);
 +    tcg_gen_andi_i64(d, d, mask);
 +    tcg_gen_andi_i64(t, t, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
 +
 +    tcg_gen_xor_i64(t, n, m);
 +    tcg_gen_shri_i64(d, t, sh);
 +    tcg_gen_shli_i64(t, t, 16 - sh);
 +    tcg_gen_andi_i64(d, d, mask);
 +    tcg_gen_andi_i64(t, t, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
 +{
 +    tcg_gen_xor_i32(d, n, m);
 +    tcg_gen_rotri_i32(d, d, sh);
 +}
 +
 +static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    tcg_gen_xor_i64(d, n, m);
 +    tcg_gen_rotri_i64(d, d, sh);
 +}
 +
 +static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                        TCGv_vec m, int64_t sh)
 +{
 +    tcg_gen_xor_vec(vece, d, n, m);
 +    tcg_gen_rotri_vec(vece, d, d, sh);
 +}
 +
 +void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                  uint32_t rm_ofs, int64_t shift,
 +                  uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
 +    static const GVecGen3i ops[4] = {
 +        { .fni8 = gen_xar8_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_b,
 +          .opt_opc = vecop,
 +          .vece = MO_8 },
 +        { .fni8 = gen_xar16_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_h,
 +          .opt_opc = vecop,
 +          .vece = MO_16 },
 +        { .fni4 = gen_xar_i32,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_s,
 +          .opt_opc = vecop,
 +          .vece = MO_32 },
 +        { .fni8 = gen_xar_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_gvec_xar_d,
 +          .opt_opc = vecop,
 +          .vece = MO_64 }
 +    };
 +    int esize = 8 << vece;
 +
 +    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
 +    tcg_debug_assert(shift >= 0);
 +    tcg_debug_assert(shift <= esize);
 +    shift &= esize - 1;
 +
 +    if (shift == 0) {
 +        /* xar with no rotate devolves to xor. */
 +        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
 +                        shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 +{
 +    tcg_gen_xor_i64(d, n, m);
 +    tcg_gen_xor_i64(d, d, k);
 +}
 +
 +static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                         TCGv_vec m, TCGv_vec k)
 +{
 +    tcg_gen_xor_vec(vece, d, n, m);
 +    tcg_gen_xor_vec(vece, d, d, k);
 +}
 +
 +void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_eor3_i64,
 +        .fniv = gen_eor3_vec,
 +        .fno = gen_helper_sve2_eor3,
 +        .vece = MO_64,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 +}
 +
 +static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 +{
 +    tcg_gen_andc_i64(d, m, k);
 +    tcg_gen_xor_i64(d, d, n);
 +}
 +
 +static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                         TCGv_vec m, TCGv_vec k)
 +{
 +    tcg_gen_andc_vec(vece, d, m, k);
 +    tcg_gen_xor_vec(vece, d, d, n);
 +}
 +
 +void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_bcax_i64,
 +        .fniv = gen_bcax_vec,
 +        .fno = gen_helper_sve2_bcax,
 +        .vece = MO_64,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 +}
 +
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/adc/zynq-xadc.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/hw/adc/zynq-xadc.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void zynq_xadc_update_ints(ZynqXADCState *s)
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
-         s->regs[INT_STS] |= INT_DFIFO_GTH;
+     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
      }
 -    qemu_set_irq(s->qemu_irq, !!(s->regs[INT_STS] & ~s->regs[INT_MASK]));
 +    qemu_set_irq(s->irq, !!(s->regs[INT_STS] & ~s->regs[INT_MASK]));
  }
- static void zynq_xadc_reset(DeviceState *d)
+-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
-@@ -XXX,XX +XXX,XX @@ static void zynq_xadc_init(Object *obj)
+-{
-     memory_region_init_io(&s->iomem, obj, &xadc_ops, s, "zynq-xadc",
+-    tcg_gen_rotli_i64(d, m, 1);
-                           ZYNQ_XADC_MMIO_SIZE);
+-    tcg_gen_xor_i64(d, d, n);
-     sysbus_init_mmio(sbd, &s->iomem);
+-}
--    sysbus_init_irq(sbd, &s->qemu_irq);
+-
-+    sysbus_init_irq(sbd, &s->irq);
+-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
 -{
 -    tcg_gen_rotli_vec(vece, d, m, 1);
 -    tcg_gen_xor_vec(vece, d, d, n);
 -}
 -
 -void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
 -    static const GVecGen3 op = {
 -        .fni8 = gen_rax1_i64,
 -        .fniv = gen_rax1_vec,
 -        .opt_opc = vecop_list,
 -        .fno = gen_helper_crypto_rax1,
 -        .vece = MO_64,
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
 -}
 -
  /* Crypto three-reg SHA512
   *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
   * +-----------------------+------+---+---+-----+--------+------+------+
 diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-sve.c
 +++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
  TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
  TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
 -static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    uint64_t mask = dup_const(MO_8, 0xff >> sh);
 -
 -    tcg_gen_xor_i64(t, n, m);
 -    tcg_gen_shri_i64(d, t, sh);
 -    tcg_gen_shli_i64(t, t, 8 - sh);
 -    tcg_gen_andi_i64(d, d, mask);
 -    tcg_gen_andi_i64(t, t, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
 -
 -    tcg_gen_xor_i64(t, n, m);
 -    tcg_gen_shri_i64(d, t, sh);
 -    tcg_gen_shli_i64(t, t, 16 - sh);
 -    tcg_gen_andi_i64(d, d, mask);
 -    tcg_gen_andi_i64(t, t, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
 -{
 -    tcg_gen_xor_i32(d, n, m);
 -    tcg_gen_rotri_i32(d, d, sh);
 -}
 -
 -static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    tcg_gen_xor_i64(d, n, m);
 -    tcg_gen_rotri_i64(d, d, sh);
 -}
 -
 -static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                        TCGv_vec m, int64_t sh)
 -{
 -    tcg_gen_xor_vec(vece, d, n, m);
 -    tcg_gen_rotri_vec(vece, d, d, sh);
 -}
 -
 -void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                  uint32_t rm_ofs, int64_t shift,
 -                  uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
 -    static const GVecGen3i ops[4] = {
 -        { .fni8 = gen_xar8_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_b,
 -          .opt_opc = vecop,
 -          .vece = MO_8 },
 -        { .fni8 = gen_xar16_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_h,
 -          .opt_opc = vecop,
 -          .vece = MO_16 },
 -        { .fni4 = gen_xar_i32,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_s,
 -          .opt_opc = vecop,
 -          .vece = MO_32 },
 -        { .fni8 = gen_xar_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_gvec_xar_d,
 -          .opt_opc = vecop,
 -          .vece = MO_64 }
 -    };
 -    int esize = 8 << vece;
 -
 -    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
 -    tcg_debug_assert(shift >= 0);
 -    tcg_debug_assert(shift <= esize);
 -    shift &= esize - 1;
 -
 -    if (shift == 0) {
 -        /* xar with no rotate devolves to xor. */
 -        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
 -                        shift, &ops[vece]);
 -    }
 -}
 -
  static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
  {
      if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
      return true;
  }
- static const VMStateDescription vmstate_zynq_xadc = {
+-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 -{
 -    tcg_gen_xor_i64(d, n, m);
 -    tcg_gen_xor_i64(d, d, k);
 -}
 -
 -static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                         TCGv_vec m, TCGv_vec k)
 -{
 -    tcg_gen_xor_vec(vece, d, n, m);
 -    tcg_gen_xor_vec(vece, d, d, k);
 -}
 -
 -static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 -                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen4 op = {
 -        .fni8 = gen_eor3_i64,
 -        .fniv = gen_eor3_vec,
 -        .fno = gen_helper_sve2_eor3,
 -        .vece = MO_64,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -    };
 -    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 -}
 -
 -TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
 -
 -static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 -{
 -    tcg_gen_andc_i64(d, m, k);
 -    tcg_gen_xor_i64(d, d, n);
 -}
 -
 -static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                         TCGv_vec m, TCGv_vec k)
 -{
 -    tcg_gen_andc_vec(vece, d, m, k);
 -    tcg_gen_xor_vec(vece, d, d, n);
 -}
 -
 -static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 -                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen4 op = {
 -        .fni8 = gen_bcax_i64,
 -        .fniv = gen_bcax_vec,
 -        .fno = gen_helper_sve2_bcax,
 -        .vece = MO_64,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -    };
 -    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 -}
 -
 -TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
 +TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
 +TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
  static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
                      uint32_t a, uint32_t oprsz, uint32_t maxsz)
 diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/meson.build
 +++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
  arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
    'cpu64.c',
 +  'gengvec64.c',
    'translate-a64.c',
    'translate-sve.c',
    'translate-sme.c',
 --
-.25.1
+.34.1

-New patch
+[PULL 15/42] target/arm: Convert Cryptographic AES to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      | 21 +++++++--
+ target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
+files changed, 54 insertions(+), 53 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@
+ # This file is processed by scripts/decodetree.py
+ #
+-&r               rn
+-&ri              rd imm
+-&rri_sf          rd rn imm sf
+-&i               imm
++%rd             0:5
++&r              rn
++&ri             rd imm
++&rri_sf         rd rn imm sf
++&i              imm
++&qrr_e          q rd rn esz
++&qrrr_e         q rd rn rm esz
++
++@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
++@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
+ ### Data Processing - Immediate
+@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
+ CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
+ CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
+ CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
++
++### Cryptographic AES
++
++AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
++AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
++AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
++AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
+     return true;
+ }
++/*
++ * Expanders for AdvSIMD translation functions.
++ */
++
++static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
++                            gen_helper_gvec_2 *fn)
++{
++    if (!a->q && a->esz == MO_64) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
++    }
++    return true;
++}
++
++static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
++                            gen_helper_gvec_3 *fn)
++{
++    if (!a->q && a->esz == MO_64) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
++    }
++    return true;
++}
++
+ /*
+  * This utility function is for doing register extension with an
+  * optional shift. You will likely want to pass a temporary for the
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
+     return true;
+ }
++/*
++ * Cryptographic AES
++ */
++
++TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
++TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
++TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
++TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto AES
+- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
+- * +-----------------+------+-----------+--------+-----+------+------+
+- * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
+- * +-----------------+------+-----------+--------+-----+------+------+
+- */
+-static void disas_crypto_aes(DisasContext *s, uint32_t insn)
+-{
+-    int size = extract32(insn, 22, 2);
+-    int opcode = extract32(insn, 12, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    gen_helper_gvec_2 *genfn2 = NULL;
+-    gen_helper_gvec_3 *genfn3 = NULL;
+-
+-    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0x4: /* AESE */
+-        genfn3 = gen_helper_crypto_aese;
+-        break;
+-    case 0x6: /* AESMC */
+-        genfn2 = gen_helper_crypto_aesmc;
+-        break;
+-    case 0x5: /* AESD */
+-        genfn3 = gen_helper_crypto_aesd;
+-        break;
+-    case 0x7: /* AESIMC */
+-        genfn2 = gen_helper_crypto_aesimc;
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-    if (genfn2) {
+-        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
+-    } else {
+-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
+-    }
+-}
+-
+ /* Crypto three-reg SHA
+  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
+  * +-----------------+------+---+------+---+--------+-----+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
+     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
+     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
+--
+.34.1

-New patch
+[PULL 16/42] target/arm: Convert Cryptographic 3-register SHA to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      | 11 +++++
+ target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
+files changed, 21 insertions(+), 68 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
++@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
+ ### Data Processing - Immediate
+@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
+ AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
+ AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
+ AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
++
++### Cryptographic three-register SHA
++
++SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
++SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
++SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
++SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
++SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
++SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
++SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
+ }
+ /*
+- * Cryptographic AES
++ * Cryptographic AES, SHA
+  */
+ TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
+ TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
+ TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
++TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
++TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
++TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
++TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
++
++TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
++TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
++TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto three-reg SHA
+- *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
+- * +-----------------+------+---+------+---+--------+-----+------+------+
+- * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
+- * +-----------------+------+---+------+---+--------+-----+------+------+
+- */
+-static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
+-{
+-    int size = extract32(insn, 22, 2);
+-    int opcode = extract32(insn, 12, 3);
+-    int rm = extract32(insn, 16, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    gen_helper_gvec_3 *genfn;
+-    bool feature;
+-
+-    if (size != 0) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0: /* SHA1C */
+-        genfn = gen_helper_crypto_sha1c;
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        break;
+-    case 1: /* SHA1P */
+-        genfn = gen_helper_crypto_sha1p;
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        break;
+-    case 2: /* SHA1M */
+-        genfn = gen_helper_crypto_sha1m;
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        break;
+-    case 3: /* SHA1SU0 */
+-        genfn = gen_helper_crypto_sha1su0;
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        break;
+-    case 4: /* SHA256H */
+-        genfn = gen_helper_crypto_sha256h;
+-        feature = dc_isar_feature(aa64_sha256, s);
+-        break;
+-    case 5: /* SHA256H2 */
+-        genfn = gen_helper_crypto_sha256h2;
+-        feature = dc_isar_feature(aa64_sha256, s);
+-        break;
+-    case 6: /* SHA256SU1 */
+-        genfn = gen_helper_crypto_sha256su1;
+-        feature = dc_isar_feature(aa64_sha256, s);
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
+-}
+-
+ /* Crypto two-reg SHA
+  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
+  * +-----------------+------+-----------+--------+-----+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
+     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+--
+.34.1

-New patch
+[PULL 17/42] target/arm: Convert Cryptographic 2-register SHA to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |  6 ++++
+ target/arm/tcg/translate-a64.c | 54 +++-------------------------------
+files changed, 10 insertions(+), 50 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
+ SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
+ SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
+ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
++
++### Cryptographic two-register SHA
++
++SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
++SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
++SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256
+ TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
+ TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
++TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
++TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
++TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto two-reg SHA
+- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
+- * +-----------------+------+-----------+--------+-----+------+------+
+- * | 0 1 0 1 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
+- * +-----------------+------+-----------+--------+-----+------+------+
+- */
+-static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
+-{
+-    int size = extract32(insn, 22, 2);
+-    int opcode = extract32(insn, 12, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    gen_helper_gvec_2 *genfn;
+-    bool feature;
+-
+-    if (size != 0) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0: /* SHA1H */
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        genfn = gen_helper_crypto_sha1h;
+-        break;
+-    case 1: /* SHA1SU1 */
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        genfn = gen_helper_crypto_sha1su1;
+-        break;
+-    case 2: /* SHA256SU0 */
+-        feature = dc_isar_feature(aa64_sha256, s);
+-        genfn = gen_helper_crypto_sha256su0;
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-    gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
+-}
+-
+ /* Crypto three-reg SHA512
+  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
+  * +-----------------------+------+---+---+-----+--------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
+--
+.34.1

-New patch
+[PULL 18/42] target/arm: Convert Cryptographic 3-register SHA512 to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      | 11 ++++
+ target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
+files changed, 32 insertions(+), 76 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
+ @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
++@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
+ ### Data Processing - Immediate
+@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
+ SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
+ SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
+ SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
++
++### Cryptographic three-register SHA512
++
++SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
++SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
++SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
++RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
++SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
++SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
++SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
+     return true;
+ }
++static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
++{
++    if (!a->q && a->esz == MO_64) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
++    }
++    return true;
++}
++
+ /*
+  * This utility function is for doing register extension with an
+  * optional shift. You will likely want to pass a temporary for the
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
+ }
+ /*
+- * Cryptographic AES, SHA
++ * Cryptographic AES, SHA, SHA512
+  */
+ TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
+ TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
+ TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
++TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
++TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
++TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
++TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
++TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
++TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
++TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
++
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto three-reg SHA512
+- *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
+- * +-----------------------+------+---+---+-----+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
+- * +-----------------------+------+---+---+-----+--------+------+------+
+- */
+-static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
+-{
+-    int opcode = extract32(insn, 10, 2);
+-    int o =  extract32(insn, 14, 1);
+-    int rm = extract32(insn, 16, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    bool feature;
+-    gen_helper_gvec_3 *oolfn = NULL;
+-    GVecGen3Fn *gvecfn = NULL;
+-
+-    if (o == 0) {
+-        switch (opcode) {
+-        case 0: /* SHA512H */
+-            feature = dc_isar_feature(aa64_sha512, s);
+-            oolfn = gen_helper_crypto_sha512h;
+-            break;
+-        case 1: /* SHA512H2 */
+-            feature = dc_isar_feature(aa64_sha512, s);
+-            oolfn = gen_helper_crypto_sha512h2;
+-            break;
+-        case 2: /* SHA512SU1 */
+-            feature = dc_isar_feature(aa64_sha512, s);
+-            oolfn = gen_helper_crypto_sha512su1;
+-            break;
+-        case 3: /* RAX1 */
+-            feature = dc_isar_feature(aa64_sha3, s);
+-            gvecfn = gen_gvec_rax1;
+-            break;
+-        default:
+-            g_assert_not_reached();
+-        }
+-    } else {
+-        switch (opcode) {
+-        case 0: /* SM3PARTW1 */
+-            feature = dc_isar_feature(aa64_sm3, s);
+-            oolfn = gen_helper_crypto_sm3partw1;
+-            break;
+-        case 1: /* SM3PARTW2 */
+-            feature = dc_isar_feature(aa64_sm3, s);
+-            oolfn = gen_helper_crypto_sm3partw2;
+-            break;
+-        case 2: /* SM4EKEY */
+-            feature = dc_isar_feature(aa64_sm4, s);
+-            oolfn = gen_helper_crypto_sm4ekey;
+-            break;
+-        default:
+-            unallocated_encoding(s);
+-            return;
+-        }
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    if (oolfn) {
+-        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
+-    } else {
+-        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
+-    }
+-}
+-
+ /* Crypto two-reg SHA512
+  *  31                                     12  11  10  9    5 4    0
+  * +-----------------------------------------+--------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
+--
+.34.1

-New patch
+[PULL 19/42] target/arm: Convert Cryptographic 2-register SHA512 to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |  5 ++++
+ target/arm/tcg/translate-a64.c | 50 ++--------------------------------
+files changed, 8 insertions(+), 47 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
+ SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
+ SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
+ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
++
++### Cryptographic two-register SHA512
++
++SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
++SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3part
+ TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
+ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
++TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
++TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto two-reg SHA512
+- *  31                                     12  11  10  9    5 4    0
+- * +-----------------------------------------+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 | opcode |  Rn  |  Rd  |
+- * +-----------------------------------------+--------+------+------+
+- */
+-static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
+-{
+-    int opcode = extract32(insn, 10, 2);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    bool feature;
+-
+-    switch (opcode) {
+-    case 0: /* SHA512SU0 */
+-        feature = dc_isar_feature(aa64_sha512, s);
+-        break;
+-    case 1: /* SM4E */
+-        feature = dc_isar_feature(aa64_sm4, s);
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0: /* SHA512SU0 */
+-        gen_gvec_op2_ool(s, true, rd, rn, 0, gen_helper_crypto_sha512su0);
+-        break;
+-    case 1: /* SM4E */
+-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, gen_helper_crypto_sm4e);
+-        break;
+-    default:
+-        g_assert_not_reached();
+-    }
+-}
+-
+ /* Crypto four-register
+  *  31               23 22 21 20  16 15  14  10 9    5 4    0
+  * +-------------------+-----+------+---+------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
+     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
+--
+.34.1

-New patch
+[PULL 20/42] target/arm: Convert Cryptographic 4-register to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |   8 ++
+ target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
+files changed, 51 insertions(+), 89 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@
+ &i              imm
+ &qrr_e          q rd rn esz
+ &qrrr_e         q rd rn rm esz
++&qrrrr_e        q rd rn rm ra esz
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
+ @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
+ @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
++@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
+ ### Data Processing - Immediate
+@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
+ SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
+ SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
++
++### Cryptographic four-register
++
++EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
++BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
++SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
+     return true;
+ }
++static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
++{
++    if (!a->q && a->esz == MO_64) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
++    }
++    return true;
++}
++
+ /*
+  * This utility function is for doing register extension with an
+  * optional shift. You will likely want to pass a temporary for the
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
+ TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
+ TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
++TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
++TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
++
++static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
++{
++    if (!dc_isar_feature(aa64_sm3, s)) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
++        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
++        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
++        TCGv_i32 tcg_res = tcg_temp_new_i32();
++        unsigned vsz, dofs;
++
++        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
++        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
++        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
++
++        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
++        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
++        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
++        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
++
++        /* Clear the whole register first, then store bits [127:96]. */
++        vsz = vec_full_reg_size(s);
++        dofs = vec_full_reg_offset(s, a->rd);
++        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
++        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
++    }
++    return true;
++}
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto four-register
+- *  31               23 22 21 20  16 15  14  10 9    5 4    0
+- * +-------------------+-----+------+---+------+------+------+
+- * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
+- * +-------------------+-----+------+---+------+------+------+
+- */
+-static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
+-{
+-    int op0 = extract32(insn, 21, 2);
+-    int rm = extract32(insn, 16, 5);
+-    int ra = extract32(insn, 10, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    bool feature;
+-
+-    switch (op0) {
+-    case 0: /* EOR3 */
+-    case 1: /* BCAX */
+-        feature = dc_isar_feature(aa64_sha3, s);
+-        break;
+-    case 2: /* SM3SS1 */
+-        feature = dc_isar_feature(aa64_sm3, s);
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    if (op0 < 2) {
+-        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
+-        int pass;
+-
+-        tcg_op1 = tcg_temp_new_i64();
+-        tcg_op2 = tcg_temp_new_i64();
+-        tcg_op3 = tcg_temp_new_i64();
+-        tcg_res[0] = tcg_temp_new_i64();
+-        tcg_res[1] = tcg_temp_new_i64();
+-
+-        for (pass = 0; pass < 2; pass++) {
+-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
+-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
+-            read_vec_element(s, tcg_op3, ra, pass, MO_64);
+-
+-            if (op0 == 0) {
+-                /* EOR3 */
+-                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
+-            } else {
+-                /* BCAX */
+-                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
+-            }
+-            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
+-        }
+-        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
+-        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
+-    } else {
+-        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
+-
+-        tcg_op1 = tcg_temp_new_i32();
+-        tcg_op2 = tcg_temp_new_i32();
+-        tcg_op3 = tcg_temp_new_i32();
+-        tcg_res = tcg_temp_new_i32();
+-        tcg_zero = tcg_constant_i32(0);
+-
+-        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
+-        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
+-        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
+-
+-        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
+-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
+-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
+-        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
+-
+-        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
+-        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
+-        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
+-        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
+-    }
+-}
+-
+ /* Crypto XAR
+  *  31                   21 20  16 15    10 9    5 4    0
+  * +-----------------------+------+--------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0xce000000, 0xff808000, disas_crypto_four_reg },
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
+     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
+--
+.34.1

-New patch
+[PULL 21/42] target/arm: Convert Cryptographic 3-register, imm2 to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      | 10 ++++++++
+ target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
+files changed, 22 insertions(+), 31 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
+ EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
+ BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
+ SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
++
++### Cryptographic three-register, imm2
++
++&crypto3i       rd rn rm imm
++@crypto3i       ........ ... rm:5 .. imm:2 .. rn:5 rd:5 &crypto3i
++
++SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
++SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
++SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
++SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
+     return true;
+ }
++static bool do_crypto3i(DisasContext *s, arg_crypto3i *a, gen_helper_gvec_3 *fn)
++{
++    if (fp_access_check(s)) {
++        gen_gvec_op3_ool(s, true, a->rd, a->rn, a->rm, a->imm, fn);
++    }
++    return true;
++}
++TRANS_FEAT(SM3TT1A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1a)
++TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
++TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
++TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_xar(DisasContext *s, uint32_t insn)
+                  vec_full_reg_size(s));
+ }
+-/* Crypto three-reg imm2
+- *  31                   21 20  16 15  14 13 12  11  10  9    5 4    0
+- * +-----------------------+------+-----+------+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 0 1 0 |  Rm  | 1 0 | imm2 | opcode |  Rn  |  Rd  |
+- * +-----------------------+------+-----+------+--------+------+------+
+- */
+-static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
+-{
+-    static gen_helper_gvec_3 * const fns[4] = {
+-        gen_helper_crypto_sm3tt1a, gen_helper_crypto_sm3tt1b,
+-        gen_helper_crypto_sm3tt2a, gen_helper_crypto_sm3tt2b,
+-    };
+-    int opcode = extract32(insn, 10, 2);
+-    int imm2 = extract32(insn, 12, 2);
+-    int rm = extract32(insn, 16, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-
+-    if (!dc_isar_feature(aa64_sm3, s)) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    gen_gvec_op3_ool(s, true, rd, rn, rm, imm2, fns[opcode]);
+-}
+-
+ /* C3.6 Data processing - SIMD, inc Crypto
+  *
+  * As the decode gets a little complex we are using a table based
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
+-    { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
+     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
+--
+.34.1

-New patch
+[PULL 22/42] target/arm: Convert XAR to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |  4 ++++
+ target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
+files changed, 18 insertions(+), 29 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
+ SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
+ SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
+ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
++
++### Cryptographic XAR
++
++XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
+ TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
+ TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
++static bool trans_XAR(DisasContext *s, arg_XAR *a)
++{
++    if (!dc_isar_feature(aa64_sha3, s)) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        gen_gvec_xar(MO_64, vec_full_reg_offset(s, a->rd),
++                     vec_full_reg_offset(s, a->rn),
++                     vec_full_reg_offset(s, a->rm), a->imm, 16,
++                     vec_full_reg_size(s));
++    }
++    return true;
++}
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto XAR
+- *  31                   21 20  16 15    10 9    5 4    0
+- * +-----------------------+------+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 1 0 0 |  Rm  |  imm6  |  Rn  |  Rd  |
+- * +-----------------------+------+--------+------+------+
+- */
+-static void disas_crypto_xar(DisasContext *s, uint32_t insn)
+-{
+-    int rm = extract32(insn, 16, 5);
+-    int imm6 = extract32(insn, 10, 6);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-
+-    if (!dc_isar_feature(aa64_sha3, s)) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    gen_gvec_xar(MO_64, vec_full_reg_offset(s, rd),
+-                 vec_full_reg_offset(s, rn),
+-                 vec_full_reg_offset(s, rm), imm6, 16,
+-                 vec_full_reg_size(s));
+-}
+-
+ /* C3.6 Data processing - SIMD, inc Crypto
+  *
+  * As the decode gets a little complex we are using a table based
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0xce800000, 0xffe00000, disas_crypto_xar },
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
+     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
+--
+.34.1

-[PULL 16/22] target/arm: Make number of counters in PMCR follow the CPU
+[PULL 23/42] target/arm: Convert Advanced SIMD copy to decodetree
-Currently we give all the v7-and-up CPUs a PMU with 4 counters.  This
+From: Richard Henderson <richard.henderson@linaro.org>
 means that we don't provide the 6 counters that are required by the
 Arm BSA (Base System Architecture) specification if the CPU supports
 the Virtualization extensions.
-Instead of having a single PMCR_NUM_COUNTERS, make each CPU type
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-specify the PMCR reset value (obtained from the appropriate TRM), and
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-use the 'N' field of that value to define the number of counters
+Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
-provided.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/tcg/a64.decode      |  13 +
  target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
 files changed, 152 insertions(+), 287 deletions(-)
-This means that we now supply 6 counters instead of 4 for:
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
  Cortex-A9, Cortex-A15, Cortex-A53, Cortex-A57, Cortex-A72,
  Cortex-A76, Neoverse-N1, '-cpu max'
 This CPU goes from 4 to 8 counters:
  A64FX
 These CPUs remain with 4 counters:
  Cortex-A7, Cortex-A8
 This CPU goes down from 4 to 3 counters:
  Cortex-R5
 Note that because we now use the PMCR reset value of the specific
 implementation, we no longer set the LC bit out of reset.  This has
 an UNKNOWN value out of reset for all cores with any AArch32 support,
 so guest software should be setting it anyway if it wants it.
 This change was originally landed in commit f7fb73b8cdd3f7 (during
 the 6.0 release cycle) but was then reverted by commit
 c2dd77a6aa517 before that release because it did not work with KVM.
 This version fixes that by creating the scratch vCPU in
 kvm_arm_get_host_cpu_features() with the KVM_ARM_VCPU_PMU_V3 feature
 if KVM supports it, and then only asking KVM for the PMCR_EL0 value
 if the vCPU has a PMU.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 [PMM: Added the correct value for a64fx]
 Message-id: 20220513122852.4063586-1-peter.maydell@linaro.org
 ---
  target/arm/cpu.h       |  1 +
  target/arm/internals.h |  4 +++-
  target/arm/cpu64.c     | 11 +++++++++++
  target/arm/cpu_tcg.c   |  6 ++++++
  target/arm/helper.c    | 25 ++++++++++++++-----------
  target/arm/kvm64.c     | 12 ++++++++++++
 files changed, 47 insertions(+), 12 deletions(-)
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
+@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
-         uint64_t id_aa64dfr0;
+ ### Cryptographic XAR
-         uint64_t id_aa64dfr1;
-         uint64_t id_aa64zfr0;
+ XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
-+        uint64_t reset_pmcr_el0;
++
-     } isar;
++### Advanced SIMD scalar copy
-     uint64_t midr;
++
-     uint32_t revidr;
++DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
-diff --git a/target/arm/internals.h b/target/arm/internals.h
++
 +### Advanced SIMD copy
 +
 +DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
 +DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
 +INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 +SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 +UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 +INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ enum MVEECIState {
+@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
+     return true;
  static inline uint32_t pmu_num_counters(CPUARMState *env)
  {
 -  return (env->cp15.c9_pmcr & PMCRN_MASK) >> PMCRN_SHIFT;
 +    ARMCPU *cpu = env_archcpu(env);
 +
 +    return (cpu->isar.reset_pmcr_el0 & PMCRN_MASK) >> PMCRN_SHIFT;
  }
- /* Bits allowed to be set/cleared for PMCNTEN* and PMINTEN* */
++/*
-diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
++ * Advanced SIMD copy
-index XXXXXXX..XXXXXXX 100644
++ */
---- a/target/arm/cpu64.c
++
-+++ b/target/arm/cpu64.c
++static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
++{
-     cpu->isar.id_aa64isar0 = 0x00011120;
++    unsigned esz = ctz32(imm);
-     cpu->isar.id_aa64mmfr0 = 0x00001124;
++    if (esz <= MO_64) {
-     cpu->isar.dbgdidr = 0x3516d000;
++        *pesz = esz;
-+    cpu->isar.reset_pmcr_el0 = 0x41013000;
++        *pidx = imm >> (esz + 1);
-     cpu->clidr = 0x0a200023;
++        return true;
-     cpu->ccsidr[0] = 0x701fe00a; /* 32KB L1 dcache */
++    }
-     cpu->ccsidr[1] = 0x201fe012; /* 48KB L1 icache */
++    return false;
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
++}
-     cpu->isar.id_aa64isar0 = 0x00011120;
++
-     cpu->isar.id_aa64mmfr0 = 0x00001122; /* 40 bit physical addr */
++static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
-     cpu->isar.dbgdidr = 0x3516d000;
++{
-+    cpu->isar.reset_pmcr_el0 = 0x41033000;
++    MemOp esz;
-     cpu->clidr = 0x0a200023;
++    unsigned idx;
-     cpu->ccsidr[0] = 0x700fe01a; /* 32KB L1 dcache */
++
-     cpu->ccsidr[1] = 0x201fe00a; /* 32KB L1 icache */
++    if (!decode_esz_idx(a->imm, &esz, &idx)) {
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
++        return false;
-     cpu->isar.id_aa64isar0 = 0x00011120;
++    }
-     cpu->isar.id_aa64mmfr0 = 0x00001124;
++    if (fp_access_check(s)) {
-     cpu->isar.dbgdidr = 0x3516d000;
++        /*
-+    cpu->isar.reset_pmcr_el0 = 0x41023000;
++         * This instruction just extracts the specified element and
-     cpu->clidr = 0x0a200023;
++         * zero-extends it into the bottom of the destination register.
-     cpu->ccsidr[0] = 0x701fe00a; /* 32KB L1 dcache */
++         */
-     cpu->ccsidr[1] = 0x201fe012; /* 48KB L1 icache */
++        TCGv_i64 tmp = tcg_temp_new_i64();
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a76_initfn(Object *obj)
++        read_vec_element(s, tmp, a->rn, idx, esz);
-     cpu->isar.mvfr0 = 0x10110222;
++        write_fp_dreg(s, a->rd, tmp);
-     cpu->isar.mvfr1 = 0x13211111;
++    }
-     cpu->isar.mvfr2 = 0x00000043;
++    return true;
-+
++}
-+    /* From D5.1 AArch64 PMU register summary */
++
-+    cpu->isar.reset_pmcr_el0 = 0x410b3000;
++static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
 +                             vec_reg_offset(s, a->rn, idx, esz),
 +                             a->q ? 16 : 8, vec_full_reg_size(s));
 +    }
 +    return true;
 +}
 +
 +static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
 +                             a->q ? 16 : 8, vec_full_reg_size(s),
 +                             cpu_reg(s, a->rn));
 +    }
 +    return true;
 +}
 +
 +static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (is_signed) {
 +        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
 +            return false;
 +        }
 +    } else {
 +        if (esz == MO_64 ? !a->q : a->q) {
 +            return false;
 +        }
 +    }
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
 +        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
 +        if (is_signed && !a->q) {
 +            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 +        }
 +    }
 +    return true;
 +}
 +
 +TRANS(SMOV, do_smov_umov, a, MO_SIGN)
 +TRANS(UMOV, do_smov_umov, a, 0)
 +
 +static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
 +{
 +    MemOp esz;
 +    unsigned didx, sidx;
 +
 +    if (!decode_esz_idx(a->di, &esz, &didx)) {
 +        return false;
 +    }
 +    sidx = a->si >> esz;
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +
 +        read_vec_element(s, tmp, a->rn, sidx, esz);
 +        write_vec_element(s, tmp, a->rd, didx, esz);
 +
 +        /* INS is considered a 128-bit write for SVE. */
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_res);
  }
- static void aarch64_neoverse_n1_initfn(Object *obj)
+-/* DUP (Element, Vector)
-@@ -XXX,XX +XXX,XX @@ static void aarch64_neoverse_n1_initfn(Object *obj)
+- *
-     cpu->isar.mvfr0 = 0x10110222;
+- *  31  30   29              21 20    16 15        10  9    5 4    0
-     cpu->isar.mvfr1 = 0x13211111;
+- * +---+---+-------------------+--------+-------------+------+------+
-     cpu->isar.mvfr2 = 0x00000043;
+- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
-+
+- * +---+---+-------------------+--------+-------------+------+------+
-+    /* From D5.1 AArch64 PMU register summary */
+- *
-+    cpu->isar.reset_pmcr_el0 = 0x410c3000;
+- * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
 -                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -
 -    if (size > 3 || (size == 3 && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
 -                         vec_reg_offset(s, rn, index, size),
 -                         is_q ? 16 : 8, vec_full_reg_size(s));
 -}
 -
 -/* DUP (element, scalar)
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - */
 -static void handle_simd_dupes(DisasContext *s, int rd, int rn,
 -                              int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -
 -    /* This instruction just extracts the specified element and
 -     * zero-extends it into the bottom of the destination register.
 -     */
 -    tmp = tcg_temp_new_i64();
 -    read_vec_element(s, tmp, rn, index, size);
 -    write_fp_dreg(s, rd, tmp);
 -}
 -
 -/* DUP (General)
 - *
 - *  31  30   29              21 20    16 15        10  9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
 -                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    uint32_t dofs, oprsz, maxsz;
 -
 -    if (size > 3 || ((size == 3) && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dofs = vec_full_reg_offset(s, rd);
 -    oprsz = is_q ? 16 : 8;
 -    maxsz = vec_full_reg_size(s);
 -
 -    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
 -}
 -
 -/* INS (Element)
 - *
 - *  31                   21 20    16 15  14    11  10 9    5 4    0
 - * +-----------------------+--------+------------+---+------+------+
 - * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+------------+---+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_inse(DisasContext *s, int rd, int rn,
 -                             int imm4, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int src_index, dst_index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dst_index = extract32(imm5, 1+size, 5);
 -    src_index = extract32(imm4, size, 4);
 -
 -    tmp = tcg_temp_new_i64();
 -
 -    read_vec_element(s, tmp, rn, src_index, size);
 -    write_vec_element(s, tmp, rd, dst_index, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -
 -/* INS (General)
 - *
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int idx;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    idx = extract32(imm5, 1 + size, 4 - size);
 -    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -/*
 - * UMOV (General)
 - * SMOV (General)
 - *
 - *  31  30   29              21 20    16 15    12   10 9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * U: unsigned when set
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
 -                                  int rn, int rd, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int element;
 -    TCGv_i64 tcg_rd;
 -
 -    /* Check for UnallocatedEncodings */
 -    if (is_signed) {
 -        if (size > 2 || (size == 2 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    } else {
 -        if (size > 3
 -            || (size < 3 && is_q)
 -            || (size == 3 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    element = extract32(imm5, 1+size, 4);
 -
 -    tcg_rd = cpu_reg(s, rd);
 -    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
 -    if (is_signed && !is_q) {
 -        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 -    }
 -}
 -
 -/* AdvSIMD copy
 - *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - */
 -static void disas_simd_copy(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int imm4 = extract32(insn, 11, 4);
 -    int op = extract32(insn, 29, 1);
 -    int is_q = extract32(insn, 30, 1);
 -    int imm5 = extract32(insn, 16, 5);
 -
 -    if (op) {
 -        if (is_q) {
 -            /* INS (element) */
 -            handle_simd_inse(s, rd, rn, imm4, imm5);
 -        } else {
 -            unallocated_encoding(s);
 -        }
 -    } else {
 -        switch (imm4) {
 -        case 0:
 -            /* DUP (element - vector) */
 -            handle_simd_dupe(s, is_q, rd, rn, imm5);
 -            break;
 -        case 1:
 -            /* DUP (general) */
 -            handle_simd_dupg(s, is_q, rd, rn, imm5);
 -            break;
 -        case 3:
 -            if (is_q) {
 -                /* INS (general) */
 -                handle_simd_insg(s, rd, rn, imm5);
 -            } else {
 -                unallocated_encoding(s);
 -            }
 -            break;
 -        case 5:
 -        case 7:
 -            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
 -            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            break;
 -        }
 -    }
 -}
 -
  /* AdvSIMD modified immediate
   *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
   * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
  }
- void arm_cpu_sve_finalize(ARMCPU *cpu, Error **errp)
+-/* AdvSIMD scalar copy
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a64fx_initfn(Object *obj)
+- *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
-     set_bit(1, cpu->sve_vq_supported); /* 256bit */
+- * +-----+----+-----------------+------+---+------+---+------+------+
-     set_bit(3, cpu->sve_vq_supported); /* 512bit */
+- * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
+- * +-----+----+-----------------+------+---+------+---+------+------+
-+    cpu->isar.reset_pmcr_el0 = 0x46014040;
+- */
-+
+-static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
-     /* TODO:  Add A64FX specific HPC extension registers */
+-{
- }
+-    int rd = extract32(insn, 0, 5);
+-    int rn = extract32(insn, 5, 5);
-diff --git a/target/arm/cpu_tcg.c b/target/arm/cpu_tcg.c
+-    int imm4 = extract32(insn, 11, 4);
-index XXXXXXX..XXXXXXX 100644
+-    int imm5 = extract32(insn, 16, 5);
---- a/target/arm/cpu_tcg.c
+-    int op = extract32(insn, 29, 1);
-+++ b/target/arm/cpu_tcg.c
+-
-@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
+-    if (op != 0 || imm4 != 0) {
-     cpu->ccsidr[1] = 0x2007e01a; /* 16k L1 icache. */
+-        unallocated_encoding(s);
-     cpu->ccsidr[2] = 0xf0000000; /* No L2 icache. */
+-        return;
-     cpu->reset_auxcr = 2;
+-    }
-+    cpu->isar.reset_pmcr_el0 = 0x41002000;
+-
-     define_arm_cp_regs(cpu, cortexa8_cp_reginfo);
+-    /* DUP (element, scalar) */
- }
+-    handle_simd_dupes(s, rd, rn, imm5);
+-}
-@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
+-
-     cpu->clidr = (1 << 27) | (1 << 24) | 3;
+ /* AdvSIMD scalar pairwise
-     cpu->ccsidr[0] = 0xe00fe019; /* 16k L1 dcache. */
+  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
-     cpu->ccsidr[1] = 0x200fe019; /* 16k L1 icache. */
+  * +-----+---+-----------+------+-----------+--------+-----+------+------+
-+    cpu->isar.reset_pmcr_el0 = 0x41093000;
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-     define_arm_cp_regs(cpu, cortexa9_cp_reginfo);
+     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
- }
+     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
+     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
-@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
+-    { 0x0e000400, 0x9fe08400, disas_simd_copy },
-     cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
+     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
-     cpu->ccsidr[1] = 0x201fe00a; /* 32K L1 icache */
+     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
-     cpu->ccsidr[2] = 0x711fe07a; /* 4096K L2 unified cache */
+     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
-+    cpu->isar.reset_pmcr_el0 = 0x41072000;
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-     define_arm_cp_regs(cpu, cortexa15_cp_reginfo); /* Same as A15 */
+     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
- }
+     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
+     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
-@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
+-    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
-     cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
-     cpu->ccsidr[1] = 0x201fe00a; /* 32K L1 icache */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-     cpu->ccsidr[2] = 0x711fe07a; /* 4096K L2 unified cache */
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
 +    cpu->isar.reset_pmcr_el0 = 0x410F3000;
      define_arm_cp_regs(cpu, cortexa15_cp_reginfo);
  }
@@ -XXX,XX +XXX,XX @@ static void cortex_r5_initfn(Object *obj)
      cpu->isar.id_isar6 = 0x0;
      cpu->mp_is_up = true;
      cpu->pmsav7_dregion = 16;
 +    cpu->isar.reset_pmcr_el0 = 0x41151800;
      define_arm_cp_regs(cpu, cortexr5_cp_reginfo);
  }
@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
      cpu->isar.id_isar5 = 0x00011121;
      cpu->isar.id_isar6 = 0;
      cpu->isar.dbgdidr = 0x3516d000;
 +    cpu->isar.reset_pmcr_el0 = 0x41013000;
      cpu->clidr = 0x0a200023;
      cpu->ccsidr[0] = 0x701fe00a; /* 32KB L1 dcache */
      cpu->ccsidr[1] = 0x201fe012; /* 48KB L1 icache */
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@
  #include "cpregs.h"
  #define ARM_CPU_FREQ 1000000000 /* FIXME: 1 GHz, should be configurable */
 -#define PMCR_NUM_COUNTERS 4 /* QEMU IMPDEF choice */
  #ifndef CONFIG_USER_ONLY
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el2_cp_reginfo[] = {
        .resetvalue = 0,
        .writefn = gt_hyp_ctl_write, .raw_writefn = raw_write },
  #endif
 -    /* The only field of MDCR_EL2 that has a defined architectural reset value
 -     * is MDCR_EL2.HPMN which should reset to the value of PMCR_EL0.N.
 -     */
 -    { .name = "MDCR_EL2", .state = ARM_CP_STATE_BOTH,
 -      .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 1,
 -      .access = PL2_RW, .resetvalue = PMCR_NUM_COUNTERS,
 -      .fieldoffset = offsetof(CPUARMState, cp15.mdcr_el2), },
      { .name = "HPFAR", .state = ARM_CP_STATE_AA32,
        .cp = 15, .opc1 = 4, .crn = 6, .crm = 0, .opc2 = 4,
        .access = PL2_RW, .accessfn = access_el3_aa32ns,
@@ -XXX,XX +XXX,XX @@ static void define_pmu_regs(ARMCPU *cpu)
       * field as main ID register, and we implement four counters in
       * addition to the cycle count register.
       */
 -    unsigned int i, pmcrn = PMCR_NUM_COUNTERS;
 +    unsigned int i, pmcrn = pmu_num_counters(&cpu->env);
      ARMCPRegInfo pmcr = {
          .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
          .access = PL0_RW,
@@ -XXX,XX +XXX,XX @@ static void define_pmu_regs(ARMCPU *cpu)
          .access = PL0_RW, .accessfn = pmreg_access,
          .type = ARM_CP_IO,
          .fieldoffset = offsetof(CPUARMState, cp15.c9_pmcr),
 -        .resetvalue = (cpu->midr & 0xff000000) | (pmcrn << PMCRN_SHIFT) |
 -                      PMCRLC,
 +        .resetvalue = cpu->isar.reset_pmcr_el0,
          .writefn = pmcr_write, .raw_writefn = raw_write,
      };
 +
      define_one_arm_cp_reg(cpu, &pmcr);
      define_one_arm_cp_reg(cpu, &pmcr64);
      for (i = 0; i < pmcrn; i++) {
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
                .type = ARM_CP_EL3_NO_EL2_C_NZ,
                .fieldoffset = offsetof(CPUARMState, cp15.vmpidr_el2) },
          };
 +        /*
 +         * The only field of MDCR_EL2 that has a defined architectural reset
 +         * value is MDCR_EL2.HPMN which should reset to the value of PMCR_EL0.N.
 +         */
 +        ARMCPRegInfo mdcr_el2 = {
 +            .name = "MDCR_EL2", .state = ARM_CP_STATE_BOTH,
 +            .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 1,
 +            .access = PL2_RW, .resetvalue = pmu_num_counters(env),
 +            .fieldoffset = offsetof(CPUARMState, cp15.mdcr_el2),
 +        };
 +        define_one_arm_cp_reg(cpu, &mdcr_el2);
          define_arm_cp_regs(cpu, vpidr_regs);
          define_arm_cp_regs(cpu, el2_cp_reginfo);
          if (arm_feature(env, ARM_FEATURE_V8)) {
 diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm64.c
 +++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
       */
      int fdarray[3];
      bool sve_supported;
 +    bool pmu_supported = false;
      uint64_t features = 0;
      uint64_t t;
      int err;
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
 << KVM_ARM_VCPU_PTRAUTH_GENERIC);
      }
 +    if (kvm_arm_pmu_supported()) {
 +        init.features[0] |= 1 << KVM_ARM_VCPU_PMU_V3;
 +        pmu_supported = true;
 +    }
 +
      if (!kvm_arm_create_scratch_host_vcpu(cpus_to_try, fdarray, &init)) {
          return false;
      }
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
              dbgdidr |= (1 << 15); /* RES1 bit */
              ahcf->isar.dbgdidr = dbgdidr;
          }
 +
 +        if (pmu_supported) {
 +            /* PMCR_EL0 is only accessible if the vCPU has feature PMU_V3 */
 +            err |= read_sys_reg64(fdarray[2], &ahcf->isar.reset_pmcr_el0,
 +                                  ARM64_SYS_REG(3, 3, 9, 12, 0));
 +        }
      }
      sve_supported = ioctl(fdarray[0], KVM_CHECK_EXTENSION, KVM_CAP_ARM_SVE) > 0;
 --
-.25.1
+.34.1

-[PULL 10/22] hw/intc/arm_gicv3: Support configurable number of physical priority bits
+[PULL 24/42] target/arm: Convert FMULX to decodetree
-The GICv3 code has always supported a configurable number of virtual
+From: Richard Henderson <richard.henderson@linaro.org>
 priority and preemption bits, but our implementation currently
 hardcodes the number of physical priority bits at 8.  This is not
 what most hardware implementations provide; for instance the
 Cortex-A53 provides only 5 bits of physical priority.
-Make the number of physical priority/preemption bits driven by fields
+Convert all forms (scalar, vector, scalar indexed, vector indexed),
-in the GICv3CPUState, the way that we already do for virtual
+which allows us to remove switch table entries elsewhere.
 priority/preemption bits.  We set cs->pribits to 8, so there is no
 behavioural change in this commit.  A following commit will add the
 machinery for CPUs to set this to the correct value for their
 implementation.
-Note that changing the number of priority bits would be a migration
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-compatibility break, because the semantics of the icc_apr[][] array
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-changes.
+Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/tcg/helper-a64.h    |   8 ++
  target/arm/tcg/a64.decode      |  45 +++++++
  target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
  target/arm/tcg/vec_helper.c    |  39 +++---
 files changed, 259 insertions(+), 54 deletions(-)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220512151457.3899052-5-peter.maydell@linaro.org
 Message-id: 20220506162129.2896966-4-peter.maydell@linaro.org
 ---
  include/hw/intc/arm_gicv3_common.h |   7 +-
  hw/intc/arm_gicv3_cpuif.c          | 182 ++++++++++++++++++++---------
 files changed, 130 insertions(+), 59 deletions(-)
 diff --git a/include/hw/intc/arm_gicv3_common.h b/include/hw/intc/arm_gicv3_common.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/intc/arm_gicv3_common.h
+--- a/target/arm/tcg/helper-a64.h
-+++ b/include/hw/intc/arm_gicv3_common.h
++++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
  DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
  DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
  DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
 +
 +DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
 @@ -XXX,XX +XXX,XX @@
- /* Maximum number of list registers (architectural limit) */
+ #
- #define GICV3_LR_MAX 16
+ %rd             0:5
--/* Minimum BPR for Secure, or when security not enabled */
++%esz_sd         22:1 !function=plus_2
--#define GIC_MIN_BPR 0
++%hl             11:1 21:1
--/* Minimum BPR for Nonsecure when security is enabled */
++%hlm            11:1 20:2
--#define GIC_MIN_BPR_NS (GIC_MIN_BPR + 1)
--
+ &r              rn
- /* For some distributor fields we want to model the array of 32-bit
+ &ri             rd imm
-  * register values which hold various bitmaps corresponding to enabled,
+ &rri_sf         rd rn imm sf
-  * pending, etc bits. These macros and functions facilitate that; the
+ &i              imm
-@@ -XXX,XX +XXX,XX @@ struct GICv3CPUState {
++&rrr_e          rd rn rm esz
-     int num_list_regs;
++&rrx_e          rd rn rm idx esz
-     int vpribits; /* number of virtual priority bits */
+ &qrr_e          q rd rn esz
-     int vprebits; /* number of virtual preemption bits */
+ &qrrr_e         q rd rn rm esz
-+    int pribits; /* number of physical priority bits */
++&qrrx_e         q rd rn rm idx esz
-+    int prebits; /* number of physical preemption bits */
+ &qrrrr_e        q rd rn rm ra esz
-     /* Current highest priority pending interrupt for this CPU.
++@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
-      * This is cached information that can be recalculated from the
++@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
-diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
++
 +@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
 +@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
 +@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
 +
  @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
  @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
  @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
  @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 +@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 +@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 +
 +@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
 +                &qrrx_e esz=1 idx=%hlm
 +@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
 +                &qrrx_e esz=2 idx=%hl
 +@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
 +                &qrrx_e esz=3
 +
  ### Data Processing - Immediate
  # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
  SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
  UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
  INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 +
 +### Advanced SIMD scalar three same
 +
 +FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 +FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 +
 +### Advanced SIMD three same
 +
 +FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 +FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +
 +### Advanced SIMD scalar x indexed element
 +
 +FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 +FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +
 +### Advanced SIMD vector x indexed element
 +
 +FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 +FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 +FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_cpuif.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/hw/intc/arm_gicv3_cpuif.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t icv_iar_read(CPUARMState *env, const ARMCPRegInfo *ri)
+@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
-     return intid;
+     return true;
  }
-+static uint32_t icc_fullprio_mask(GICv3CPUState *cs)
++/*
 + * Advanced SIMD three same
 + */
 +
 +typedef struct FPScalar {
 +    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
 +    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
 +    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
 +} FPScalar;
 +
 +static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
 +{
-+    /*
++    switch (a->esz) {
-+     * Return a mask word which clears the unimplemented priority bits
++    case MO_64:
-+     * from a priority value for a physical interrupt. (Not to be confused
++        if (fp_access_check(s)) {
-+     * with the group priority, whose mask depends on the value of BPR
++            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
-+     * for the interrupt group.)
++            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
-+     */
++            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
-+    return ~0U << (8 - cs->pribits);
++            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
 +    return true;
 +}
 +
-+static inline int icc_min_bpr(GICv3CPUState *cs)
++static const FPScalar f_scalar_fmulx = {
 +    gen_helper_advsimd_mulxh,
 +    gen_helper_vfp_mulxs,
 +    gen_helper_vfp_mulxd,
 +};
 +TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
 +
 +static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
 +                          gen_helper_gvec_3_ptr * const fns[3])
 +{
-+    /* The minimum BPR for the physical interface. */
++    MemOp esz = a->esz;
-+    return 7 - cs->prebits;
++
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
 +                          esz == MO_16, 0, fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
-+static inline int icc_min_bpr_ns(GICv3CPUState *cs)
++static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
 +    gen_helper_gvec_fmulx_h,
 +    gen_helper_gvec_fmulx_s,
 +    gen_helper_gvec_fmulx_d,
 +};
 +TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 +
 +/*
 + * Advanced SIMD scalar/vector x indexed element
 + */
 +
 +static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
 +{
-+    return icc_min_bpr(cs) + 1;
++    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t1, a->rm, a->idx, MO_64);
 +            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
-+static inline int icc_num_aprs(GICv3CPUState *cs)
++TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 +
 +static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
 +                              gen_helper_gvec_3_ptr * const fns[3])
 +{
-+    /* Return the number of APR registers (1, 2, or 4) */
++    MemOp esz = a->esz;
-+    int aprmax = 1 << MAX(cs->prebits - 5, 0);
++
-+    assert(aprmax <= ARRAY_SIZE(cs->icc_apr[0]));
++    switch (esz) {
-+    return aprmax;
++    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
 +                          esz == MO_16, a->idx, fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
- static int icc_highest_active_prio(GICv3CPUState *cs)
++static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
- {
++    gen_helper_gvec_fmulx_idx_h,
-     /* Calculate the current running priority based on the set bits
++    gen_helper_gvec_fmulx_idx_s,
-@@ -XXX,XX +XXX,XX @@ static int icc_highest_active_prio(GICv3CPUState *cs)
++    gen_helper_gvec_fmulx_idx_d,
-      */
++};
-     int i;
++TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
++
--    for (i = 0; i < ARRAY_SIZE(cs->icc_apr[0]); i++) {
++
-+    for (i = 0; i < icc_num_aprs(cs); i++) {
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-         uint32_t apr = cs->icc_apr[GICV3_G0][i] |
+  * Note that it is the caller's responsibility to ensure that the
-             cs->icc_apr[GICV3_G1][i] | cs->icc_apr[GICV3_G1NS][i];
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-         if (!apr) {
+             case 0x1a: /* FADD */
-             continue;
+                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1a: /* FADD */
                  gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          /* Floating point: U, size[1] and opcode indicate operation */
          int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
          switch (fpopcode) {
 -        case 0x1b: /* FMULX */
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
          case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          case 0x7a: /* FABD */
              break;
          default:
 +        case 0x1b: /* FMULX */
              unallocated_encoding(s);
              return;
          }
--        return (i * 32 + ctz32(apr)) << (GIC_MIN_BPR + 1);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-+        return (i * 32 + ctz32(apr)) << (icc_min_bpr(cs) + 1);
+     TCGv_i32 tcg_res;
-     }
-     /* No current active interrupts: return idle priority */
+     switch (fpopcode) {
-     return 0xff;
+-    case 0x03: /* FMULX */
-@@ -XXX,XX +XXX,XX @@ static void icc_pmr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+     case 0x04: /* FCMEQ (reg) */
+     case 0x07: /* FRECPS */
-     trace_gicv3_icc_pmr_write(gicv3_redist_affid(cs), value);
+     case 0x0f: /* FRSQRTS */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
--    value &= 0xff;
+     case 0x1d: /* FACGT */
-+    value &= icc_fullprio_mask(cs);
+         break;
+     default:
-     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_is_secure(env) &&
++    case 0x03: /* FMULX */
-         (env->cp15.scr_el3 & SCR_FIQ)) {
+         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void icc_activate_irq(GICv3CPUState *cs, int irq)
       */
      uint32_t mask = icc_gprio_mask(cs, cs->hppi.grp);
      int prio = cs->hppi.prio & mask;
 -    int aprbit = prio >> 1;
 +    int aprbit = prio >> (8 - cs->prebits);
      int regno = aprbit / 32;
      int regbit = aprbit % 32;
@@ -XXX,XX +XXX,XX @@ static void icc_drop_prio(GICv3CPUState *cs, int grp)
       */
      int i;
 -    for (i = 0; i < ARRAY_SIZE(cs->icc_apr[grp]); i++) {
 +    for (i = 0; i < icc_num_aprs(cs); i++) {
          uint64_t *papr = &cs->icc_apr[grp][i];
          if (!*papr) {
@@ -XXX,XX +XXX,XX @@ static void icc_bpr_write(CPUARMState *env, const ARMCPRegInfo *ri,
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
--    minval = (grp == GICV3_G1NS) ? GIC_MIN_BPR_NS : GIC_MIN_BPR;
+     tcg_res = tcg_temp_new_i32();
-+    minval = (grp == GICV3_G1NS) ? icc_min_bpr_ns(cs) : icc_min_bpr(cs);
-     if (value < minval) {
+     switch (fpopcode) {
-         value = minval;
+-    case 0x03: /* FMULX */
 -        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x04: /* FCMEQ (reg) */
          gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
          gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
      default:
 +    case 0x03: /* FMULX */
          g_assert_not_reached();
      }
-@@ -XXX,XX +XXX,XX @@ static void icc_reset(CPUARMState *env, const ARMCPRegInfo *ri)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
-     cs->icc_ctlr_el1[GICV3_S] = ICC_CTLR_EL1_A3V |
+         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
-         (1 << ICC_CTLR_EL1_IDBITS_SHIFT) |
+                                rn, rm, rd);
--        (7 << ICC_CTLR_EL1_PRIBITS_SHIFT);
+         return;
-+        ((cs->pribits - 1) << ICC_CTLR_EL1_PRIBITS_SHIFT);
+-    case 0x1b: /* FMULX */
-     cs->icc_ctlr_el1[GICV3_NS] = ICC_CTLR_EL1_A3V |
+     case 0x1f: /* FRECPS */
-         (1 << ICC_CTLR_EL1_IDBITS_SHIFT) |
+     case 0x3f: /* FRSQRTS */
--        (7 << ICC_CTLR_EL1_PRIBITS_SHIFT);
+     case 0x5d: /* FACGE */
-+        ((cs->pribits - 1) << ICC_CTLR_EL1_PRIBITS_SHIFT);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
-     cs->icc_pmr_el1 = 0;
+         return;
--    cs->icc_bpr[GICV3_G0] = GIC_MIN_BPR;
--    cs->icc_bpr[GICV3_G1] = GIC_MIN_BPR;
+     default:
--    cs->icc_bpr[GICV3_G1NS] = GIC_MIN_BPR_NS;
++    case 0x1b: /* FMULX */
-+    cs->icc_bpr[GICV3_G0] = icc_min_bpr(cs);
+         unallocated_encoding(s);
-+    cs->icc_bpr[GICV3_G1] = icc_min_bpr(cs);
+         return;
-+    cs->icc_bpr[GICV3_G1NS] = icc_min_bpr_ns(cs);
+     }
-     memset(cs->icc_apr, 0, sizeof(cs->icc_apr));
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-     memset(cs->icc_igrpen, 0, sizeof(cs->icc_igrpen));
+     case 0x0: /* FMAXNM */
-     cs->icc_ctlr_el3 = ICC_CTLR_EL3_NDS | ICC_CTLR_EL3_A3V |
+     case 0x1: /* FMLA */
-         (1 << ICC_CTLR_EL3_IDBITS_SHIFT) |
+     case 0x2: /* FADD */
--        (7 << ICC_CTLR_EL3_PRIBITS_SHIFT);
+-    case 0x3: /* FMULX */
-+        ((cs->pribits - 1) << ICC_CTLR_EL3_PRIBITS_SHIFT);
+     case 0x4: /* FCMEQ */
+     case 0x6: /* FMAX */
-     memset(cs->ich_apr, 0, sizeof(cs->ich_apr));
+     case 0x7: /* FRECPS */
-     cs->ich_hcr_el2 = 0;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo gicv3_cpuif_reginfo[] = {
+         pairwise = true;
-       .readfn = icc_ap_read,
+         break;
-       .writefn = icc_ap_write,
+     default:
-     },
++    case 0x3: /* FMULX */
--    { .name = "ICC_AP0R1_EL1", .state = ARM_CP_STATE_BOTH,
+         unallocated_encoding(s);
--      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 5,
+         return;
--      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+     }
--      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
--      .readfn = icc_ap_read,
+             case 0x2: /* FADD */
--      .writefn = icc_ap_write,
+                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
--    },
+                 break;
--    { .name = "ICC_AP0R2_EL1", .state = ARM_CP_STATE_BOTH,
+-            case 0x3: /* FMULX */
--      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 6,
+-                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
--      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+-                break;
--      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+             case 0x4: /* FCMEQ */
--      .readfn = icc_ap_read,
+                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
--      .writefn = icc_ap_write,
+                 break;
--    },
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
--    { .name = "ICC_AP0R3_EL1", .state = ARM_CP_STATE_BOTH,
+                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
--      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 7,
+                 break;
--      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+             default:
--      .access = PL1_RW, .accessfn = gicv3_fiq_access,
++            case 0x3: /* FMULX */
--      .readfn = icc_ap_read,
+                 g_assert_not_reached();
--      .writefn = icc_ap_write,
+             }
--    },
-     /* All the ICC_AP1R*_EL1 registers are banked */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-     { .name = "ICC_AP1R0_EL1", .state = ARM_CP_STATE_BOTH,
+     case 0x01: /* FMLA */
-       .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 0,
+     case 0x05: /* FMLS */
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo gicv3_cpuif_reginfo[] = {
+     case 0x09: /* FMUL */
-       .readfn = icc_ap_read,
+-    case 0x19: /* FMULX */
-       .writefn = icc_ap_write,
+         is_fp = 1;
-     },
+         break;
--    { .name = "ICC_AP1R1_EL1", .state = ARM_CP_STATE_BOTH,
+     case 0x1d: /* SQRDMLAH */
--      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 1,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
--      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+         /* is_fp, but we pass tcg_env not fp_status.  */
--      .access = PL1_RW, .accessfn = gicv3_irq_access,
+         break;
--      .readfn = icc_ap_read,
+     default:
--      .writefn = icc_ap_write,
++    case 0x19: /* FMULX */
--    },
+         unallocated_encoding(s);
--    { .name = "ICC_AP1R2_EL1", .state = ARM_CP_STATE_BOTH,
+         return;
--      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 2,
+     }
--      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
--      .access = PL1_RW, .accessfn = gicv3_irq_access,
+             case 0x09: /* FMUL */
--      .readfn = icc_ap_read,
+                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
--      .writefn = icc_ap_write,
+                 break;
--    },
+-            case 0x19: /* FMULX */
--    { .name = "ICC_AP1R3_EL1", .state = ARM_CP_STATE_BOTH,
+-                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
--      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 3,
+-                break;
--      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+             default:
--      .access = PL1_RW, .accessfn = gicv3_irq_access,
++            case 0x19: /* FMULX */
--      .readfn = icc_ap_read,
+                 g_assert_not_reached();
--      .writefn = icc_ap_write,
+             }
--    },
-     { .name = "ICC_DIR_EL1", .state = ARM_CP_STATE_BOTH,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-       .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 11, .opc2 = 1,
+                     g_assert_not_reached();
-       .type = ARM_CP_IO | ARM_CP_NO_RAW,
+                 }
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo gicv3_cpuif_reginfo[] = {
+                 break;
-     },
+-            case 0x19: /* FMULX */
- };
+-                switch (size) {
+-                case 1:
-+static const ARMCPRegInfo gicv3_cpuif_icc_apxr1_reginfo[] = {
+-                    if (is_scalar) {
-+    { .name = "ICC_AP0R1_EL1", .state = ARM_CP_STATE_BOTH,
+-                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
-+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 5,
+-                                                 tcg_idx, fpst);
-+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+-                    } else {
-+      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+-                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
-+      .readfn = icc_ap_read,
+-                                                  tcg_idx, fpst);
-+      .writefn = icc_ap_write,
+-                    }
-+    },
+-                    break;
-+    { .name = "ICC_AP1R1_EL1", .state = ARM_CP_STATE_BOTH,
+-                case 2:
-+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 1,
+-                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
-+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+-                    break;
-+      .access = PL1_RW, .accessfn = gicv3_irq_access,
+-                default:
-+      .readfn = icc_ap_read,
+-                    g_assert_not_reached();
-+      .writefn = icc_ap_write,
+-                }
-+    },
+-                break;
-+};
+             case 0x0c: /* SQDMULH */
-+
+                 if (size == 1) {
-+static const ARMCPRegInfo gicv3_cpuif_icc_apxr23_reginfo[] = {
+                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
-+    { .name = "ICC_AP0R2_EL1", .state = ARM_CP_STATE_BOTH,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 6,
+                 }
-+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+                 break;
-+      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+             default:
-+      .readfn = icc_ap_read,
++            case 0x19: /* FMULX */
-+      .writefn = icc_ap_write,
+                 g_assert_not_reached();
-+    },
+             }
-+    { .name = "ICC_AP0R3_EL1", .state = ARM_CP_STATE_BOTH,
-+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 7,
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
-+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+index XXXXXXX..XXXXXXX 100644
-+      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+--- a/target/arm/tcg/vec_helper.c
-+      .readfn = icc_ap_read,
++++ b/target/arm/tcg/vec_helper.c
-+      .writefn = icc_ap_write,
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
-+    },
+ DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
-+    { .name = "ICC_AP1R2_EL1", .state = ARM_CP_STATE_BOTH,
-+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 2,
+ #ifdef TARGET_AARCH64
-+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
++DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
-+      .access = PL1_RW, .accessfn = gicv3_irq_access,
++DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
-+      .readfn = icc_ap_read,
++DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
-+      .writefn = icc_ap_write,
-+    },
+ DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
-+    { .name = "ICC_AP1R3_EL1", .state = ARM_CP_STATE_BOTH,
+ DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
-+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 3,
+@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
-+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
-+      .access = PL1_RW, .accessfn = gicv3_irq_access,
+ #undef DO_MLA_IDX
-+      .readfn = icc_ap_read,
-+      .writefn = icc_ap_write,
+-#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
-+    },
++#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
-+};
+ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
-+
+ {                                                                          \
- static uint64_t ich_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
+     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
- {
+@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
-     GICv3CPUState *cs = icc_cs_from_env(env);
+     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
-@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
+         TYPE mm = m[H(i + idx)];                                           \
-          * get back to the GICv3CPUState from the CPUARMState.
+         for (j = 0; j < segment; j++) {                                    \
-          */
+-            d[i + j] = TYPE##_##ADD(d[i + j],                              \
-         define_arm_cp_regs(cpu, gicv3_cpuif_reginfo);
+-                                    TYPE##_mul(n[i + j], mm, stat), stat); \
-+
++            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
-+        /*
+         }                                                                  \
-+         * For the moment, retain the existing behaviour of 8 priority bits;
+     }                                                                      \
-+         * in a following commit we will take this from the CPU state,
+     clear_tail(d, oprsz, simd_maxsz(desc));                                \
-+         * as we do for the virtual priority bits.
+ }
-+         */
-+        cs->pribits = 8;
+-#define float16_nop(N, M, S) (M)
-+        /*
+-#define float32_nop(N, M, S) (M)
-+         * The GICv3 has separate ID register fields for virtual priority
+-#define float64_nop(N, M, S) (M)
-+         * and preemption bit values, but only a single ID register field
++#define nop(N, M, S) (M)
-+         * for the physical priority bits. The preemption bit count is
-+         * always the same as the priority bit count, except that 8 bits
+-DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
-+         * of priority means 7 preemption bits. We precalculate the
+-DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
-+         * preemption bits because it simplifies the code and makes the
+-DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
-+         * parallels between the virtual and physical bits of the GIC
++DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
-+         * a bit clearer.
++DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
-+         */
++DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
-+        cs->prebits = cs->pribits;
++
-+        if (cs->prebits == 8) {
++#ifdef TARGET_AARCH64
-+            cs->prebits--;
++
-+        }
++DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
-+        /*
++DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
-+         * Check that CPU code defining pribits didn't violate
++DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
-+         * architectural constraints our implementation relies on.
++
-+         */
++#endif
-+        g_assert(cs->pribits >= 4 && cs->pribits <= 8);
++
-+
++#undef nop
-+        /*
-+         * gicv3_cpuif_reginfo[] defines ICC_AP*R0_EL1; add definitions
+ /*
-+         * for ICC_AP*R{1,2,3}_EL1 if the prebits value requires them.
+  * Non-fused multiply-accumulate operations, for Neon. NB that unlike
-+         */
+  * the fused ops below they assume accumulate both from and into Vd.
-+        if (cs->prebits >= 6) {
+  */
-+            define_arm_cp_regs(cpu, gicv3_cpuif_icc_apxr1_reginfo);
+-DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
-+        }
+-DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
-+        if (cs->prebits == 7) {
+-DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
-+            define_arm_cp_regs(cpu, gicv3_cpuif_icc_apxr23_reginfo);
+-DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
-+        }
++DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
-+
++DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
-         if (arm_feature(&cpu->env, ARM_FEATURE_EL2)) {
++DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
-             int j;
++DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 -#undef float16_nop
 -#undef float32_nop
 -#undef float64_nop
  #undef DO_FMUL_IDX
  #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
 --
-.25.1
+.34.1

-[PULL 01/22] target/arm: Postpone interpretation of stage 2 descriptor attribute bits
+[PULL 25/42] target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
-In the original Arm v8 two-stage translation, both stage 1 and stage
+From: Richard Henderson <richard.henderson@linaro.org>
 specify memory attributes (memory type, cacheability,
 shareability); these are then combined to produce the overall memory
 attributes for the whole stage 1+2 access.  In QEMU we implement this
 by having get_phys_addr() fill in an ARMCacheAttrs struct, and we
 convert both the stage 1 and stage 2 attribute bit formats to the
 same encoding (an 8-bit attribute value matching the MAIR_EL1 fields,
 plus a 2-bit shareability value).
-The new FEAT_S2FWB feature allows the guest to enable a different
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-interpretation of the attribute bits in the stage 2 descriptors.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-These bits can now be used to control details of how the stage 1 and
+Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
-attributes should be combined (for instance they can say "always
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-use the stage 1 attributes" or "ignore the stage 1 attributes and
+---
-always be Device memory").  This means we need to pass the raw bit
+ target/arm/tcg/helper-a64.h    |   4 +
-information for stage 2 down to the function which combines the stage
+ target/arm/tcg/translate.h     |   5 +
-and stage 2 information.
+ target/arm/tcg/a64.decode      |  27 +++++
  target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |   4 +
 files changed, 143 insertions(+), 102 deletions(-)
-Add a field to ARMCacheAttrs that indicates whether the attrs field
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 should be interpreted as MAIR format, or as the raw stage 2 attribute
 bits from the descriptor, and store the appropriate values when
 filling in cacheattrs.
 We only need to interpret the attrs field in a few places:
  * in do_ats_write(), where we know to expect a MAIR value
    (there is no ATS instruction to do a stage-2-only walk)
  * in S1_ptw_translate(), where we want to know whether the
    combined S1 + S2 attributes indicate Device memory that
    should provoke a fault
  * in combine_cacheattrs(), which does the S1 + S2 combining
 Update those places accordingly.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220505183950.2781801-2-peter.maydell@linaro.org
 ---
  target/arm/internals.h |  7 ++++++-
  target/arm/helper.c    | 42 ++++++++++++++++++++++++++++++++++++------
 files changed, 42 insertions(+), 7 deletions(-)
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/helper-a64.h
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ bool pmsav8_mpu_lookup(CPUARMState *env, uint32_t address,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
+ DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
- /* Cacheability and shareability attributes for a memory access */
+ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
- typedef struct ARMCacheAttrs {
--    unsigned int attrs:8; /* as in the MAIR register encoding */
++DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    /*
++DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+     * If is_s2_format is true, attrs is the S2 descriptor bits [5:2]
++DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+     * Otherwise, attrs is the same as the MAIR_EL1 8-bit format
++
-+     */
+ DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    unsigned int attrs:8;
+ DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-     unsigned int shareability:2; /* as in the SH field of the VMSAv8-64 PTEs */
+ DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+    bool is_s2_format:1;
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
  } ARMCacheAttrs;
  bool get_phys_addr(CPUARMState *env, target_ulong address,
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/translate.h
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ static uint64_t do_ats_write(CPUARMState *env, uint64_t value,
+@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
-     ret = get_phys_addr(env, value, access_type, mmu_idx, &phys_addr, &attrs,
+     return x << 12;
-                         &prot, &page_size, &fi, &cacheattrs);
+ }
-+    /*
++static inline int xor_2(DisasContext *s, int x)
-+     * ATS operations only do S1 or S1+S2 translations, so we never
++{
-+     * have to deal with the ARMCacheAttrs format for S2 only.
++    return x ^ 2;
-+     */
++}
-+    assert(!cacheattrs.is_s2_format);
++
-+
+ static inline int neon_3same_fp_size(DisasContext *s, int x)
-     if (ret) {
+ {
-         /*
+     /* Convert 0==fp32, 1==fp16 into a MO_* value */
-          * Some kinds of translation fault must cause exceptions rather
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static bool get_level1_table_address(CPUARMState *env, ARMMMUIdx mmu_idx,
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
  %rd             0:5
  %esz_sd         22:1 !function=plus_2
 +%esz_hsd        22:2 !function=xor_2
  %hl             11:1 21:1
  %hlm            11:1 20:2
@@ -XXX,XX +XXX,XX @@
  @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
  @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
 +@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
  @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
  @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
  ### Advanced SIMD scalar three same
 +FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
 +FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
 +FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
 +FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 +
  FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
  FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
  ### Advanced SIMD three same
 +FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 +FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
 +FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 +FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
 +FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
 +FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
 +FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 +FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +
  FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
  ### Advanced SIMD scalar x indexed element
 +FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 +FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +
  FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
  FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
  ### Advanced SIMD vector x indexed element
 +FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 +FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 +FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
      return true;
  }
-+static bool ptw_attrs_are_device(CPUARMState *env, ARMCacheAttrs cacheattrs)
++static const FPScalar f_scalar_fadd = {
-+{
++    gen_helper_vfp_addh,
-+    /*
++    gen_helper_vfp_adds,
-+     * For an S1 page table walk, the stage 1 attributes are always
++    gen_helper_vfp_addd,
-+     * some form of "this is Normal memory". The combined S1+S2
++};
-+     * attributes are therefore only Device if stage 2 specifies Device.
++TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
-+     * With HCR_EL2.FWB == 0 this is when descriptor bits [5:4] are 0b00,
++
-+     * ie when cacheattrs.attrs bits [3:2] are 0b00.
++static const FPScalar f_scalar_fsub = {
-+     */
++    gen_helper_vfp_subh,
-+    assert(cacheattrs.is_s2_format);
++    gen_helper_vfp_subs,
-+    return (cacheattrs.attrs & 0xc) == 0;
++    gen_helper_vfp_subd,
-+}
++};
-+
++TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
- /* Translate a S1 pagetable walk through S2 if needed.  */
++
- static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
++static const FPScalar f_scalar_fdiv = {
-                                hwaddr addr, bool *is_secure,
++    gen_helper_vfp_divh,
-@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
++    gen_helper_vfp_divs,
-             return ~0;
++    gen_helper_vfp_divd,
-         }
++};
-         if ((arm_hcr_el2_eff(env) & HCR_PTW) &&
++TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
--            (cacheattrs.attrs & 0xf0) == 0) {
++
-+            ptw_attrs_are_device(env, cacheattrs)) {
++static const FPScalar f_scalar_fmul = {
-             /*
++    gen_helper_vfp_mulh,
-              * PTW set and S1 walk touched S2 Device memory:
++    gen_helper_vfp_muls,
-              * generate Permission fault.
++    gen_helper_vfp_muld,
-@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, uint64_t address,
++};
 +TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 +
  static const FPScalar f_scalar_fmulx = {
      gen_helper_advsimd_mulxh,
      gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
      return true;
  }
 +static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
 +    gen_helper_gvec_fadd_h,
 +    gen_helper_gvec_fadd_s,
 +    gen_helper_gvec_fadd_d,
 +};
 +TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
 +    gen_helper_gvec_fsub_h,
 +    gen_helper_gvec_fsub_s,
 +    gen_helper_gvec_fsub_d,
 +};
 +TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
 +    gen_helper_gvec_fdiv_h,
 +    gen_helper_gvec_fdiv_s,
 +    gen_helper_gvec_fdiv_d,
 +};
 +TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
 +    gen_helper_gvec_fmul_h,
 +    gen_helper_gvec_fmul_s,
 +    gen_helper_gvec_fmul_d,
 +};
 +TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
      gen_helper_gvec_fmulx_h,
      gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
      return true;
  }
 +TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
  static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
      return true;
  }
 +static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
 +    gen_helper_gvec_fmul_idx_h,
 +    gen_helper_gvec_fmul_idx_s,
 +    gen_helper_gvec_fmul_idx_d,
 +};
 +TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
      gen_helper_gvec_fmulx_idx_h,
      gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      tcg_op2 = read_fp_sreg(s, rm);
      switch (opcode) {
 -    case 0x0: /* FMUL */
 -        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1: /* FDIV */
 -        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x2: /* FADD */
 -        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x3: /* FSUB */
 -        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x4: /* FMAX */
          gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negs(tcg_res, tcg_res);
          break;
 +    default:
 +    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
 +        g_assert_not_reached();
      }
-     if (mmu_idx == ARMMMUIdx_Stage2 || mmu_idx == ARMMMUIdx_Stage2_S) {
+     write_fp_sreg(s, rd, tcg_res);
--        cacheattrs->attrs = convert_stage2_attrs(env, extract32(attrs, 0, 4));
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
-+        cacheattrs->is_s2_format = true;
+     tcg_op2 = read_fp_dreg(s, rm);
-+        cacheattrs->attrs = extract32(attrs, 0, 4);
-     } else {
+     switch (opcode) {
-         /* Index into MAIR registers for cache attributes */
+-    case 0x0: /* FMUL */
-         uint8_t attrindx = extract32(attrs, 0, 3);
+-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-         uint64_t mair = env->cp15.mair_el[regime_el(env, mmu_idx)];
+-        break;
-         assert(attrindx <= 7);
+-    case 0x1: /* FDIV */
-+        cacheattrs->is_s2_format = false;
+-        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-         cacheattrs->attrs = extract64(mair, attrindx * 8, 8);
+-        break;
 -    case 0x2: /* FADD */
 -        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x3: /* FSUB */
 -        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x4: /* FMAX */
          gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
          gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negd(tcg_res, tcg_res);
          break;
 +    default:
 +    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
 +        g_assert_not_reached();
      }
-@@ -XXX,XX +XXX,XX @@ static uint8_t combine_cacheattr_nibble(uint8_t s1, uint8_t s2)
+     write_fp_dreg(s, rd, tcg_res);
- /* Combine S1 and S2 cacheability/shareability attributes, per D4.5.4
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
-  * and CombineS1S2Desc()
+     tcg_op2 = read_fp_hreg(s, rm);
-  *
-+ * @env:     CPUARMState
+     switch (opcode) {
-  * @s1:      Attributes from stage 1 walk
+-    case 0x0: /* FMUL */
-  * @s2:      Attributes from stage 2 walk
+-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-  */
+-        break;
--static ARMCacheAttrs combine_cacheattrs(ARMCacheAttrs s1, ARMCacheAttrs s2)
+-    case 0x1: /* FDIV */
-+static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
+-        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-+                                        ARMCacheAttrs s1, ARMCacheAttrs s2)
+-        break;
- {
+-    case 0x2: /* FADD */
-     uint8_t s1lo, s2lo, s1hi, s2hi;
+-        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-     ARMCacheAttrs ret;
+-        break;
-     bool tagged = false;
+-    case 0x3: /* FSUB */
-+    uint8_t s2_mair_attrs;
+-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-+
+-        break;
-+    assert(s2.is_s2_format && !s1.is_s2_format);
+     case 0x4: /* FMAX */
-+    ret.is_s2_format = false;
+         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-+
+         break;
-+    s2_mair_attrs = convert_stage2_attrs(env, s2.attrs);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
+         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
-     if (s1.attrs == 0xf0) {
+         break;
-         tagged = true;
+     default:
-@@ -XXX,XX +XXX,XX @@ static ARMCacheAttrs combine_cacheattrs(ARMCacheAttrs s1, ARMCacheAttrs s2)
++    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
          g_assert_not_reached();
      }
-     s1lo = extract32(s1.attrs, 0, 4);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
--    s2lo = extract32(s2.attrs, 0, 4);
+             case 0x18: /* FMAXNM */
-+    s2lo = extract32(s2_mair_attrs, 0, 4);
+                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-     s1hi = extract32(s1.attrs, 4, 4);
+                 break;
--    s2hi = extract32(s2.attrs, 4, 4);
+-            case 0x1a: /* FADD */
-+    s2hi = extract32(s2_mair_attrs, 4, 4);
+-                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
-     /* Combine shareability attributes (table D4-43) */
+             case 0x1c: /* FCMEQ */
-     if (s1.shareability == 2 || s2.shareability == 2) {
+                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
+                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x38: /* FMINNM */
                  gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3a: /* FSUB */
 -                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3e: /* FMIN */
                  gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5b: /* FMUL */
 -                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5c: /* FCMGE */
                  gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x5d: /* FACGE */
                  gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5f: /* FDIV */
 -                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_helper_vfp_absd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x3a: /* FSUB */
 +            case 0x5b: /* FMUL */
 +            case 0x5f: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                         tcg_res, fpst);
                  break;
 -            case 0x1a: /* FADD */
 -                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x38: /* FMINNM */
                  gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3a: /* FSUB */
 -                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3e: /* FMIN */
                  gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5b: /* FMUL */
 -                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5c: /* FCMGE */
                  gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x5d: /* FACGE */
                  gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5f: /* FDIV */
 -                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x3a: /* FSUB */
 +            case 0x5b: /* FMUL */
 +            case 0x5f: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x39: /* FMLS */
      case 0x18: /* FMAXNM */
 -    case 0x1a: /* FADD */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 -    case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 -    case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
 -    case 0x5f: /* FDIV */
      case 0x7a: /* FABD */
      case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x3a: /* FSUB */
 +    case 0x5b: /* FMUL */
 +    case 0x5f: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
 -    case 0x2: /* FADD */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
 -    case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0xf: /* FRSQRTS */
 -    case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
 -    case 0x17: /* FDIV */
      case 0x1a: /* FABD */
      case 0x1c: /* FCMGT */
      case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
      default:
 +    case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0xa: /* FSUB */
 +    case 0x13: /* FMUL */
 +    case 0x17: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0x2: /* FADD */
 -                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0xa: /* FSUB */
 -                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xe: /* FMIN */
                  gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x13: /* FMUL */
 -                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x14: /* FCMGE */
                  gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x15: /* FACGE */
                  gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x17: /* FDIV */
 -                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0xa: /* FSUB */
 +            case 0x13: /* FMUL */
 +            case 0x17: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          break;
      case 0x01: /* FMLA */
      case 0x05: /* FMLS */
 -    case 0x09: /* FMUL */
          is_fp = 1;
          break;
      case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
                  gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                  break;
 -            case 0x09: /* FMUL */
 -                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
 -                break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                      g_assert_not_reached();
                  }
-                 cacheattrs->shareability = 0;
+                 break;
 -            case 0x09: /* FMUL */
 -                switch (size) {
 -                case 1:
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
 -                                                tcg_idx, fpst);
 -                    } else {
 -                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
 -                                                 tcg_idx, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
--            *cacheattrs = combine_cacheattrs(*cacheattrs, cacheattrs2);
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
-+            *cacheattrs = combine_cacheattrs(env, *cacheattrs, cacheattrs2);
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
-             /* Check if IPA translates to secure or non-secure PA space. */
++++ b/target/arm/tcg/vec_helper.c
-             if (arm_is_secure_below_el3(env)) {
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
-@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
+ DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
-         /* Fill in cacheattr a-la AArch64.TranslateAddressS1Off. */
-         hcr = arm_hcr_el2_eff(env);
+ #ifdef TARGET_AARCH64
-         cacheattrs->shareability = 0;
++DO_3OP(gvec_fdiv_h, float16_div, float16)
-+        cacheattrs->is_s2_format = false;
++DO_3OP(gvec_fdiv_s, float32_div, float32)
-         if (hcr & HCR_DC) {
++DO_3OP(gvec_fdiv_d, float64_div, float64)
-             if (hcr & HCR_DCT) {
++
-                 memattr = 0xf0;  /* Tagged, Normal, WB, RWA */
+ DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
  DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
  DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 --
-.25.1
+.34.1

-New patch
+[PULL 26/42] target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/helper.h            |   4 +
+ target/arm/tcg/a64.decode      |  17 ++++
+ target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
+ target/arm/tcg/vec_helper.c    |   4 +
+files changed, 113 insertions(+), 80 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
+ FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
+ FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
++FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
++FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
++FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
++FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
++
+ FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
+ FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
+@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+ FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+ FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
++FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
++FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
++
++FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
++FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
++
++FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
++FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
++
++FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
++FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
++
+ FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+ FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
+ };
+ TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
++static const FPScalar f_scalar_fmax = {
++    gen_helper_advsimd_maxh,
++    gen_helper_vfp_maxs,
++    gen_helper_vfp_maxd,
++};
++TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
++
++static const FPScalar f_scalar_fmin = {
++    gen_helper_advsimd_minh,
++    gen_helper_vfp_mins,
++    gen_helper_vfp_mind,
++};
++TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
++
++static const FPScalar f_scalar_fmaxnm = {
++    gen_helper_advsimd_maxnumh,
++    gen_helper_vfp_maxnums,
++    gen_helper_vfp_maxnumd,
++};
++TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
++
++static const FPScalar f_scalar_fminnm = {
++    gen_helper_advsimd_minnumh,
++    gen_helper_vfp_minnums,
++    gen_helper_vfp_minnumd,
++};
++TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
++
+ static const FPScalar f_scalar_fmulx = {
+     gen_helper_advsimd_mulxh,
+     gen_helper_vfp_mulxs,
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
+ };
+ TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
++static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
++    gen_helper_gvec_fmax_h,
++    gen_helper_gvec_fmax_s,
++    gen_helper_gvec_fmax_d,
++};
++TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
++
++static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
++    gen_helper_gvec_fmin_h,
++    gen_helper_gvec_fmin_s,
++    gen_helper_gvec_fmin_d,
++};
++TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
++
++static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
++    gen_helper_gvec_fmaxnum_h,
++    gen_helper_gvec_fmaxnum_s,
++    gen_helper_gvec_fmaxnum_d,
++};
++TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
++
++static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
++    gen_helper_gvec_fminnum_h,
++    gen_helper_gvec_fminnum_s,
++    gen_helper_gvec_fminnum_d,
++};
++TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
++
+ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
+     gen_helper_gvec_fmulx_h,
+     gen_helper_gvec_fmulx_s,
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
+     tcg_op2 = read_fp_sreg(s, rm);
+     switch (opcode) {
+-    case 0x4: /* FMAX */
+-        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x5: /* FMIN */
+-        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x6: /* FMAXNM */
+-        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x7: /* FMINNM */
+-        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+     case 0x8: /* FNMUL */
+         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
+         gen_helper_vfp_negs(tcg_res, tcg_res);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
+     case 0x1: /* FDIV */
+     case 0x2: /* FADD */
+     case 0x3: /* FSUB */
++    case 0x4: /* FMAX */
++    case 0x5: /* FMIN */
++    case 0x6: /* FMAXNM */
++    case 0x7: /* FMINNM */
+         g_assert_not_reached();
+     }
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
+     tcg_op2 = read_fp_dreg(s, rm);
+     switch (opcode) {
+-    case 0x4: /* FMAX */
+-        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x5: /* FMIN */
+-        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x6: /* FMAXNM */
+-        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x7: /* FMINNM */
+-        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+     case 0x8: /* FNMUL */
+         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
+         gen_helper_vfp_negd(tcg_res, tcg_res);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
+     case 0x1: /* FDIV */
+     case 0x2: /* FADD */
+     case 0x3: /* FSUB */
++    case 0x4: /* FMAX */
++    case 0x5: /* FMIN */
++    case 0x6: /* FMAXNM */
++    case 0x7: /* FMINNM */
+         g_assert_not_reached();
+     }
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
+     tcg_op2 = read_fp_hreg(s, rm);
+     switch (opcode) {
+-    case 0x4: /* FMAX */
+-        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x5: /* FMIN */
+-        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x6: /* FMAXNM */
+-        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x7: /* FMINNM */
+-        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+     case 0x8: /* FNMUL */
+         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
+         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
+     case 0x1: /* FDIV */
+     case 0x2: /* FADD */
+     case 0x3: /* FSUB */
++    case 0x4: /* FMAX */
++    case 0x5: /* FMIN */
++    case 0x6: /* FMAXNM */
++    case 0x7: /* FMINNM */
+         g_assert_not_reached();
+     }
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
+                                        tcg_res, fpst);
+                 break;
+-            case 0x18: /* FMAXNM */
+-                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1c: /* FCMEQ */
+                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x1e: /* FMAX */
+-                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1f: /* FRECPS */
+                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x38: /* FMINNM */
+-                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+-            case 0x3e: /* FMIN */
+-                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x18: /* FMAXNM */
+             case 0x1a: /* FADD */
+             case 0x1b: /* FMULX */
++            case 0x1e: /* FMAX */
++            case 0x38: /* FMINNM */
+             case 0x3a: /* FSUB */
++            case 0x3e: /* FMIN */
+             case 0x5b: /* FMUL */
+             case 0x5f: /* FDIV */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x1c: /* FCMEQ */
+                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x1e: /* FMAX */
+-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1f: /* FRECPS */
+                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x18: /* FMAXNM */
+-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+-            case 0x38: /* FMINNM */
+-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+-            case 0x3e: /* FMIN */
+-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x18: /* FMAXNM */
+             case 0x1a: /* FADD */
+             case 0x1b: /* FMULX */
++            case 0x1e: /* FMAX */
++            case 0x38: /* FMINNM */
+             case 0x3a: /* FSUB */
++            case 0x3e: /* FMIN */
+             case 0x5b: /* FMUL */
+             case 0x5f: /* FDIV */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x7d: /* FACGT */
+     case 0x19: /* FMLA */
+     case 0x39: /* FMLS */
+-    case 0x18: /* FMAXNM */
+     case 0x1c: /* FCMEQ */
+-    case 0x1e: /* FMAX */
+-    case 0x38: /* FMINNM */
+-    case 0x3e: /* FMIN */
+     case 0x5c: /* FCMGE */
+     case 0x7a: /* FABD */
+     case 0x7c: /* FCMGT */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+         return;
+     default:
++    case 0x18: /* FMAXNM */
+     case 0x1a: /* FADD */
+     case 0x1b: /* FMULX */
++    case 0x1e: /* FMAX */
++    case 0x38: /* FMINNM */
+     case 0x3a: /* FSUB */
++    case 0x3e: /* FMIN */
+     case 0x5b: /* FMUL */
+     case 0x5f: /* FDIV */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     int pass;
+     switch (fpopcode) {
+-    case 0x0: /* FMAXNM */
+     case 0x1: /* FMLA */
+     case 0x4: /* FCMEQ */
+-    case 0x6: /* FMAX */
+     case 0x7: /* FRECPS */
+-    case 0x8: /* FMINNM */
+     case 0x9: /* FMLS */
+-    case 0xe: /* FMIN */
+     case 0xf: /* FRSQRTS */
+     case 0x14: /* FCMGE */
+     case 0x15: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+         pairwise = true;
+         break;
+     default:
++    case 0x0: /* FMAXNM */
+     case 0x2: /* FADD */
+     case 0x3: /* FMULX */
++    case 0x6: /* FMAX */
++    case 0x8: /* FMINNM */
+     case 0xa: /* FSUB */
++    case 0xe: /* FMIN */
+     case 0x13: /* FMUL */
+     case 0x17: /* FDIV */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
+             switch (fpopcode) {
+-            case 0x0: /* FMAXNM */
+-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1: /* FMLA */
+                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
+                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             case 0x4: /* FCMEQ */
+                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x6: /* FMAX */
+-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x7: /* FRECPS */
+                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x8: /* FMINNM */
+-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x9: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
+                                            fpst);
+                 break;
+-            case 0xe: /* FMIN */
+-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x0: /* FMAXNM */
+             case 0x2: /* FADD */
+             case 0x3: /* FMULX */
++            case 0x6: /* FMAX */
++            case 0x8: /* FMINNM */
+             case 0xa: /* FSUB */
++            case 0xe: /* FMIN */
+             case 0x13: /* FMUL */
+             case 0x17: /* FDIV */
+                 g_assert_not_reached();
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
+ DO_3OP(gvec_fmax_h, float16_max, float16)
+ DO_3OP(gvec_fmax_s, float32_max, float32)
++DO_3OP(gvec_fmax_d, float64_max, float64)
+ DO_3OP(gvec_fmin_h, float16_min, float16)
+ DO_3OP(gvec_fmin_s, float32_min, float32)
++DO_3OP(gvec_fmin_d, float64_min, float64)
+ DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
+ DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
++DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
+ DO_3OP(gvec_fminnum_h, float16_minnum, float16)
+ DO_3OP(gvec_fminnum_s, float32_minnum, float32)
++DO_3OP(gvec_fminnum_d, float64_minnum, float64)
+ DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
+ DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
+--
+.34.1

-[PULL 12/22] hw/intc/arm_gicv3: Provide ich_num_aprs()
+[PULL 27/42] target/arm: Introduce vfp_load_reg16
-We previously open-coded the expression for the number of virtual APR
+From: Richard Henderson <richard.henderson@linaro.org>
 registers and the assertion that it was not going to cause us to
 overflow the cs->ich_apr[] array.  Factor this out into a new
 ich_num_aprs() function, for consistency with the icc_num_aprs()
 function we just added for the physical APR handling.
+Load and zero-extend float16 into a TCGv_i32 before
+all scalar operations.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220512151457.3899052-7-peter.maydell@linaro.org
-Message-id: 20220506162129.2896966-6-peter.maydell@linaro.org
 ---
- hw/intc/arm_gicv3_cpuif.c | 16 ++++++++++------
+ target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
-file changed, 10 insertions(+), 6 deletions(-)
+file changed, 22 insertions(+), 17 deletions(-)
-diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
+diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_cpuif.c
+--- a/target/arm/tcg/translate-vfp.c
-+++ b/hw/intc/arm_gicv3_cpuif.c
++++ b/target/arm/tcg/translate-vfp.c
-@@ -XXX,XX +XXX,XX @@ static inline int icv_min_vbpr(GICv3CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
-     return 7 - cs->vprebits;
+     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
  }
-+static inline int ich_num_aprs(GICv3CPUState *cs)
++static inline void vfp_load_reg16(TCGv_i32 var, int reg)
 +{
-+    /* Return the number of virtual APR registers (1, 2, or 4) */
++    tcg_gen_ld16u_i32(var, tcg_env,
-+    int aprmax = 1 << (cs->vprebits - 5);
++                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
 +    assert(aprmax <= ARRAY_SIZE(cs->ich_apr[0]));
 +    return aprmax;
 +}
 +
- /* Simple accessor functions for LR fields */
+ /*
- static uint32_t ich_lr_vintid(uint64_t lr)
+  * The imm8 encodes the sign bit, enough bits to represent an exponent in
- {
+  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
-@@ -XXX,XX +XXX,XX @@ static int ich_highest_active_virt_prio(GICv3CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
-      * in the ICH Active Priority Registers.
+     if (a->l) {
-      */
+         /* VFP to general purpose register */
-     int i;
+         tmp = tcg_temp_new_i32();
--    int aprmax = 1 << (cs->vprebits - 5);
+-        vfp_load_reg32(tmp, a->vn);
--
+-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
--    assert(aprmax <= ARRAY_SIZE(cs->ich_apr[0]));
++        vfp_load_reg16(tmp, a->vn);
-+    int aprmax = ich_num_aprs(cs);
+         store_reg(s, a->rt, tmp);
+     } else {
-     for (i = 0; i < aprmax; i++) {
+         /* general purpose register to VFP */
-         uint32_t apr = cs->ich_apr[GICV3_G0][i] |
+@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
-@@ -XXX,XX +XXX,XX @@ static int icv_drop_prio(GICv3CPUState *cs)
+     fd = tcg_temp_new_i32();
-      * 32 bits are actually relevant.
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
-      */
-     int i;
+-    vfp_load_reg32(f0, vn);
--    int aprmax = 1 << (cs->vprebits - 5);
+-    vfp_load_reg32(f1, vm);
--
++    vfp_load_reg16(f0, vn);
--    assert(aprmax <= ARRAY_SIZE(cs->ich_apr[0]));
++    vfp_load_reg16(f1, vm);
-+    int aprmax = ich_num_aprs(cs);
+     if (reads_vd) {
-     for (i = 0; i < aprmax; i++) {
+-        vfp_load_reg32(fd, vd);
-         uint64_t *papr0 = &cs->ich_apr[GICV3_G0][i];
++        vfp_load_reg16(fd, vd);
      }
      fn(fd, f0, f1, fpst);
      vfp_store_reg32(fd, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
      }
      f0 = tcg_temp_new_i32();
 -    vfp_load_reg32(f0, vm);
 +    vfp_load_reg16(f0, vm);
      fn(f0, f0);
      vfp_store_reg32(f0, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
      vm = tcg_temp_new_i32();
      vd = tcg_temp_new_i32();
 -    vfp_load_reg32(vn, a->vn);
 -    vfp_load_reg32(vm, a->vm);
 +    vfp_load_reg16(vn, a->vn);
 +    vfp_load_reg16(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
          gen_helper_vfp_negh(vn, vn);
      }
 -    vfp_load_reg32(vd, a->vd);
 +    vfp_load_reg16(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
          gen_helper_vfp_negh(vd, vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
      vd = tcg_temp_new_i32();
      vm = tcg_temp_new_i32();
 -    vfp_load_reg32(vd, a->vd);
 +    vfp_load_reg16(vd, a->vd);
      if (a->z) {
          tcg_gen_movi_i32(vm, 0);
      } else {
 -        vfp_load_reg32(vm, a->vm);
 +        vfp_load_reg16(vm, a->vm);
      }
      if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth(tmp, tmp, fpst);
      vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
      gen_helper_rinth(tmp, tmp, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth_exact(tmp, tmp, fpst);
      vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      vm = tcg_temp_new_i32();
 -    vfp_load_reg32(vm, a->vm);
 +    vfp_load_reg16(vm, a->vm);
      if (a->s) {
          if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
      /* Insert low half of Vm into high half of Vd */
      rm = tcg_temp_new_i32();
      rd = tcg_temp_new_i32();
 -    vfp_load_reg32(rm, a->vm);
 -    vfp_load_reg32(rd, a->vd);
 +    vfp_load_reg16(rm, a->vm);
 +    vfp_load_reg16(rd, a->vd);
      tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
      vfp_store_reg32(rd, a->vd);
      return true;
 --
-.25.1
+.34.1

-New patch
+[PULL 28/42] target/arm: Expand vfp neg and abs inline
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/helper.h            |  6 ----
+ target/arm/tcg/translate.h     | 30 +++++++++++++++++++
+ target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
+ target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
+ target/arm/vfp_helper.c        | 30 -------------------
+files changed, 79 insertions(+), 85 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
+ DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
+ DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
+ DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
+-DEF_HELPER_1(vfp_negh, f16, f16)
+-DEF_HELPER_1(vfp_negs, f32, f32)
+-DEF_HELPER_1(vfp_negd, f64, f64)
+-DEF_HELPER_1(vfp_absh, f16, f16)
+-DEF_HELPER_1(vfp_abss, f32, f32)
+-DEF_HELPER_1(vfp_absd, f64, f64)
+ DEF_HELPER_2(vfp_sqrth, f16, f16, env)
+ DEF_HELPER_2(vfp_sqrts, f32, f32, env)
+ DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.h
++++ b/target/arm/tcg/translate.h
+@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
+  */
+ uint64_t vfp_expand_imm(int size, uint8_t imm8);
++static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_andi_i32(d, s, INT16_MAX);
++}
++
++static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_andi_i32(d, s, INT32_MAX);
++}
++
++static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
++{
++    tcg_gen_andi_i64(d, s, INT64_MAX);
++}
++
++static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_xori_i32(d, s, 1u << 15);
++}
++
++static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_xori_i32(d, s, 1u << 31);
++}
++
++static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
++{
++    tcg_gen_xori_i64(d, s, 1ull << 63);
++}
++
+ /* Vector operations shared between ARM and AArch64.  */
+ void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    uint32_t opr_sz, uint32_t max_sz);
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
+         tcg_gen_mov_i32(tcg_res, tcg_op);
+         break;
+     case 0x1: /* FABS */
+-        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
++        gen_vfp_absh(tcg_res, tcg_op);
+         break;
+     case 0x2: /* FNEG */
+-        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
++        gen_vfp_negh(tcg_res, tcg_op);
+         break;
+     case 0x3: /* FSQRT */
+         fpst = fpstatus_ptr(FPST_FPCR_F16);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
+         tcg_gen_mov_i32(tcg_res, tcg_op);
+         goto done;
+     case 0x1: /* FABS */
+-        gen_helper_vfp_abss(tcg_res, tcg_op);
++        gen_vfp_abss(tcg_res, tcg_op);
+         goto done;
+     case 0x2: /* FNEG */
+-        gen_helper_vfp_negs(tcg_res, tcg_op);
++        gen_vfp_negs(tcg_res, tcg_op);
+         goto done;
+     case 0x3: /* FSQRT */
+         gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
+     switch (opcode) {
+     case 0x1: /* FABS */
+-        gen_helper_vfp_absd(tcg_res, tcg_op);
++        gen_vfp_absd(tcg_res, tcg_op);
+         goto done;
+     case 0x2: /* FNEG */
+-        gen_helper_vfp_negd(tcg_res, tcg_op);
++        gen_vfp_negd(tcg_res, tcg_op);
+         goto done;
+     case 0x3: /* FSQRT */
+         gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
+     switch (opcode) {
+     case 0x8: /* FNMUL */
+         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_helper_vfp_negs(tcg_res, tcg_res);
++        gen_vfp_negs(tcg_res, tcg_res);
+         break;
+     default:
+     case 0x0: /* FMUL */
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
+     switch (opcode) {
+     case 0x8: /* FNMUL */
+         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_helper_vfp_negd(tcg_res, tcg_res);
++        gen_vfp_negd(tcg_res, tcg_res);
+         break;
+     default:
+     case 0x0: /* FMUL */
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
+     switch (opcode) {
+     case 0x8: /* FNMUL */
+         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
++        gen_vfp_negh(tcg_res, tcg_res);
+         break;
+     default:
+     case 0x0: /* FMUL */
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
+      * flipped if it is a negated-input.
+      */
+     if (o1 == true) {
+-        gen_helper_vfp_negs(tcg_op3, tcg_op3);
++        gen_vfp_negs(tcg_op3, tcg_op3);
+     }
+     if (o0 != o1) {
+-        gen_helper_vfp_negs(tcg_op1, tcg_op1);
++        gen_vfp_negs(tcg_op1, tcg_op1);
+     }
+     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
+      * flipped if it is a negated-input.
+      */
+     if (o1 == true) {
+-        gen_helper_vfp_negd(tcg_op3, tcg_op3);
++        gen_vfp_negd(tcg_op3, tcg_op3);
+     }
+     if (o0 != o1) {
+-        gen_helper_vfp_negd(tcg_op1, tcg_op1);
++        gen_vfp_negd(tcg_op1, tcg_op1);
+     }
+     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             switch (fpopcode) {
+             case 0x39: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+-                gen_helper_vfp_negd(tcg_op1, tcg_op1);
++                gen_vfp_negd(tcg_op1, tcg_op1);
+                 /* fall through */
+             case 0x19: /* FMLA */
+                 read_vec_element(s, tcg_res, rd, pass, MO_64);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 break;
+             case 0x7a: /* FABD */
+                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_helper_vfp_absd(tcg_res, tcg_res);
++                gen_vfp_absd(tcg_res, tcg_res);
+                 break;
+             case 0x7c: /* FCMGT */
+                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             switch (fpopcode) {
+             case 0x39: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+-                gen_helper_vfp_negs(tcg_op1, tcg_op1);
++                gen_vfp_negs(tcg_op1, tcg_op1);
+                 /* fall through */
+             case 0x19: /* FMLA */
+                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 break;
+             case 0x7a: /* FABD */
+                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_helper_vfp_abss(tcg_res, tcg_res);
++                gen_vfp_abss(tcg_res, tcg_res);
+                 break;
+             case 0x7c: /* FCMGT */
+                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
+         }
+         break;
+     case 0x2f: /* FABS */
+-        gen_helper_vfp_absd(tcg_rd, tcg_rn);
++        gen_vfp_absd(tcg_rd, tcg_rn);
+         break;
+     case 0x6f: /* FNEG */
+-        gen_helper_vfp_negd(tcg_rd, tcg_rn);
++        gen_vfp_negd(tcg_rd, tcg_rn);
+         break;
+     case 0x7f: /* FSQRT */
+         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
+                     }
+                     break;
+                 case 0x2f: /* FABS */
+-                    gen_helper_vfp_abss(tcg_res, tcg_op);
++                    gen_vfp_abss(tcg_res, tcg_op);
+                     break;
+                 case 0x6f: /* FNEG */
+-                    gen_helper_vfp_negs(tcg_res, tcg_op);
++                    gen_vfp_negs(tcg_res, tcg_op);
+                     break;
+                 case 0x7f: /* FSQRT */
+                     gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+             switch (16 * u + opcode) {
+             case 0x05: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+-                gen_helper_vfp_negd(tcg_op, tcg_op);
++                gen_vfp_negd(tcg_op, tcg_op);
+                 /* fall through */
+             case 0x01: /* FMLA */
+                 read_vec_element(s, tcg_res, rd, pass, MO_64);
+diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-vfp.c
++++ b/target/arm/tcg/translate-vfp.c
+@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negh(tmp, tmp);
++    gen_vfp_negh(tmp, tmp);
+     gen_helper_vfp_addh(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_muls(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negs(tmp, tmp);
++    gen_vfp_negs(tmp, tmp);
+     gen_helper_vfp_adds(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+     TCGv_i64 tmp = tcg_temp_new_i64();
+     gen_helper_vfp_muld(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negd(tmp, tmp);
++    gen_vfp_negd(tmp, tmp);
+     gen_helper_vfp_addd(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negh(vd, vd);
++    gen_vfp_negh(vd, vd);
+     gen_helper_vfp_addh(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_muls(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negs(vd, vd);
++    gen_vfp_negs(vd, vd);
+     gen_helper_vfp_adds(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+     TCGv_i64 tmp = tcg_temp_new_i64();
+     gen_helper_vfp_muld(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negd(vd, vd);
++    gen_vfp_negd(vd, vd);
+     gen_helper_vfp_addd(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negh(tmp, tmp);
+-    gen_helper_vfp_negh(vd, vd);
++    gen_vfp_negh(tmp, tmp);
++    gen_vfp_negh(vd, vd);
+     gen_helper_vfp_addh(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_muls(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negs(tmp, tmp);
+-    gen_helper_vfp_negs(vd, vd);
++    gen_vfp_negs(tmp, tmp);
++    gen_vfp_negs(vd, vd);
+     gen_helper_vfp_adds(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+     TCGv_i64 tmp = tcg_temp_new_i64();
+     gen_helper_vfp_muld(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negd(tmp, tmp);
+-    gen_helper_vfp_negd(vd, vd);
++    gen_vfp_negd(tmp, tmp);
++    gen_vfp_negd(vd, vd);
+     gen_helper_vfp_addd(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ {
+     /* VNMUL: -(fn * fm) */
+     gen_helper_vfp_mulh(vd, vn, vm, fpst);
+-    gen_helper_vfp_negh(vd, vd);
++    gen_vfp_negh(vd, vd);
+ }
+ static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ {
+     /* VNMUL: -(fn * fm) */
+     gen_helper_vfp_muls(vd, vn, vm, fpst);
+-    gen_helper_vfp_negs(vd, vd);
++    gen_vfp_negs(vd, vd);
+ }
+ static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+ {
+     /* VNMUL: -(fn * fm) */
+     gen_helper_vfp_muld(vd, vn, vm, fpst);
+-    gen_helper_vfp_negd(vd, vd);
++    gen_vfp_negd(vd, vd);
+ }
+ static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
+     vfp_load_reg16(vm, a->vm);
+     if (neg_n) {
+         /* VFNMS, VFMS */
+-        gen_helper_vfp_negh(vn, vn);
++        gen_vfp_negh(vn, vn);
+     }
+     vfp_load_reg16(vd, a->vd);
+     if (neg_d) {
+         /* VFNMA, VFNMS */
+-        gen_helper_vfp_negh(vd, vd);
++        gen_vfp_negh(vd, vd);
+     }
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
+     gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
+     vfp_load_reg32(vm, a->vm);
+     if (neg_n) {
+         /* VFNMS, VFMS */
+-        gen_helper_vfp_negs(vn, vn);
++        gen_vfp_negs(vn, vn);
+     }
+     vfp_load_reg32(vd, a->vd);
+     if (neg_d) {
+         /* VFNMA, VFNMS */
+-        gen_helper_vfp_negs(vd, vd);
++        gen_vfp_negs(vd, vd);
+     }
+     fpst = fpstatus_ptr(FPST_FPCR);
+     gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
+     vfp_load_reg64(vm, a->vm);
+     if (neg_n) {
+         /* VFNMS, VFMS */
+-        gen_helper_vfp_negd(vn, vn);
++        gen_vfp_negd(vn, vn);
+     }
+     vfp_load_reg64(vd, a->vd);
+     if (neg_d) {
+         /* VFNMA, VFNMS */
+-        gen_helper_vfp_negd(vd, vd);
++        gen_vfp_negd(vd, vd);
+     }
+     fpst = fpstatus_ptr(FPST_FPCR);
+     gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
+ DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
+ DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
+-DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
+-DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
+-DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
++DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
++DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
++DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
+-DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
+-DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
+-DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
++DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
++DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
++DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
+ static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
+ {
+diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/vfp_helper.c
++++ b/target/arm/vfp_helper.c
+@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
+ VFP_BINOP(maxnum)
+ #undef VFP_BINOP
+-dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
+-{
+-    return float16_chs(a);
+-}
+-
+-float32 VFP_HELPER(neg, s)(float32 a)
+-{
+-    return float32_chs(a);
+-}
+-
+-float64 VFP_HELPER(neg, d)(float64 a)
+-{
+-    return float64_chs(a);
+-}
+-
+-dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
+-{
+-    return float16_abs(a);
+-}
+-
+-float32 VFP_HELPER(abs, s)(float32 a)
+-{
+-    return float32_abs(a);
+-}
+-
+-float64 VFP_HELPER(abs, d)(float64 a)
+-{
+-    return float64_abs(a);
+-}
+-
+ dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
+ {
+     return float16_sqrt(a, &env->vfp.fp_status_f16);
+--
+.34.1

-New patch
+[PULL 29/42] target/arm: Convert FNMUL to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+This is the last instruction within disas_fp_2src,
+so remove that and its subroutines.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |   1 +
+ target/arm/tcg/translate-a64.c | 177 +++++----------------------------
+files changed, 27 insertions(+), 151 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
+ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
+ FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
+ FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
++FNMUL_s         0001 1110 ..1 ..... 1000 10 ..... ..... @rrr_hsd
+ FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
+ FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmulx = {
+ };
+ TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
++static void gen_fnmul_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
++{
++    gen_helper_vfp_mulh(d, n, m, s);
++    gen_vfp_negh(d, d);
++}
++
++static void gen_fnmul_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
++{
++    gen_helper_vfp_muls(d, n, m, s);
++    gen_vfp_negs(d, d);
++}
++
++static void gen_fnmul_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
++{
++    gen_helper_vfp_muld(d, n, m, s);
++    gen_vfp_negd(d, d);
++}
++
++static const FPScalar f_scalar_fnmul = {
++    gen_fnmul_h,
++    gen_fnmul_s,
++    gen_fnmul_d,
++};
++TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
++
+ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
+                           gen_helper_gvec_3_ptr * const fns[3])
+ {
+@@ -XXX,XX +XXX,XX @@ static void disas_fp_1src(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Floating-point data-processing (2 source) - single precision */
+-static void handle_fp_2src_single(DisasContext *s, int opcode,
+-                                  int rd, int rn, int rm)
+-{
+-    TCGv_i32 tcg_op1;
+-    TCGv_i32 tcg_op2;
+-    TCGv_i32 tcg_res;
+-    TCGv_ptr fpst;
+-
+-    tcg_res = tcg_temp_new_i32();
+-    fpst = fpstatus_ptr(FPST_FPCR);
+-    tcg_op1 = read_fp_sreg(s, rn);
+-    tcg_op2 = read_fp_sreg(s, rm);
+-
+-    switch (opcode) {
+-    case 0x8: /* FNMUL */
+-        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_vfp_negs(tcg_res, tcg_res);
+-        break;
+-    default:
+-    case 0x0: /* FMUL */
+-    case 0x1: /* FDIV */
+-    case 0x2: /* FADD */
+-    case 0x3: /* FSUB */
+-    case 0x4: /* FMAX */
+-    case 0x5: /* FMIN */
+-    case 0x6: /* FMAXNM */
+-    case 0x7: /* FMINNM */
+-        g_assert_not_reached();
+-    }
+-
+-    write_fp_sreg(s, rd, tcg_res);
+-}
+-
+-/* Floating-point data-processing (2 source) - double precision */
+-static void handle_fp_2src_double(DisasContext *s, int opcode,
+-                                  int rd, int rn, int rm)
+-{
+-    TCGv_i64 tcg_op1;
+-    TCGv_i64 tcg_op2;
+-    TCGv_i64 tcg_res;
+-    TCGv_ptr fpst;
+-
+-    tcg_res = tcg_temp_new_i64();
+-    fpst = fpstatus_ptr(FPST_FPCR);
+-    tcg_op1 = read_fp_dreg(s, rn);
+-    tcg_op2 = read_fp_dreg(s, rm);
+-
+-    switch (opcode) {
+-    case 0x8: /* FNMUL */
+-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_vfp_negd(tcg_res, tcg_res);
+-        break;
+-    default:
+-    case 0x0: /* FMUL */
+-    case 0x1: /* FDIV */
+-    case 0x2: /* FADD */
+-    case 0x3: /* FSUB */
+-    case 0x4: /* FMAX */
+-    case 0x5: /* FMIN */
+-    case 0x6: /* FMAXNM */
+-    case 0x7: /* FMINNM */
+-        g_assert_not_reached();
+-    }
+-
+-    write_fp_dreg(s, rd, tcg_res);
+-}
+-
+-/* Floating-point data-processing (2 source) - half precision */
+-static void handle_fp_2src_half(DisasContext *s, int opcode,
+-                                int rd, int rn, int rm)
+-{
+-    TCGv_i32 tcg_op1;
+-    TCGv_i32 tcg_op2;
+-    TCGv_i32 tcg_res;
+-    TCGv_ptr fpst;
+-
+-    tcg_res = tcg_temp_new_i32();
+-    fpst = fpstatus_ptr(FPST_FPCR_F16);
+-    tcg_op1 = read_fp_hreg(s, rn);
+-    tcg_op2 = read_fp_hreg(s, rm);
+-
+-    switch (opcode) {
+-    case 0x8: /* FNMUL */
+-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_vfp_negh(tcg_res, tcg_res);
+-        break;
+-    default:
+-    case 0x0: /* FMUL */
+-    case 0x1: /* FDIV */
+-    case 0x2: /* FADD */
+-    case 0x3: /* FSUB */
+-    case 0x4: /* FMAX */
+-    case 0x5: /* FMIN */
+-    case 0x6: /* FMAXNM */
+-    case 0x7: /* FMINNM */
+-        g_assert_not_reached();
+-    }
+-
+-    write_fp_sreg(s, rd, tcg_res);
+-}
+-
+-/* Floating point data-processing (2 source)
+- *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
+- * +---+---+---+-----------+------+---+------+--------+-----+------+------+
+- * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | opcode | 1 0 |  Rn  |  Rd  |
+- * +---+---+---+-----------+------+---+------+--------+-----+------+------+
+- */
+-static void disas_fp_2src(DisasContext *s, uint32_t insn)
+-{
+-    int mos = extract32(insn, 29, 3);
+-    int type = extract32(insn, 22, 2);
+-    int rd = extract32(insn, 0, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rm = extract32(insn, 16, 5);
+-    int opcode = extract32(insn, 12, 4);
+-
+-    if (opcode > 8 || mos) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    switch (type) {
+-    case 0:
+-        if (!fp_access_check(s)) {
+-            return;
+-        }
+-        handle_fp_2src_single(s, opcode, rd, rn, rm);
+-        break;
+-    case 1:
+-        if (!fp_access_check(s)) {
+-            return;
+-        }
+-        handle_fp_2src_double(s, opcode, rd, rn, rm);
+-        break;
+-    case 3:
+-        if (!dc_isar_feature(aa64_fp16, s)) {
+-            unallocated_encoding(s);
+-            return;
+-        }
+-        if (!fp_access_check(s)) {
+-            return;
+-        }
+-        handle_fp_2src_half(s, opcode, rd, rn, rm);
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-    }
+-}
+-
+ /* Floating-point data-processing (3 source) - single precision */
+ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
+                                   int rd, int rn, int rm, int ra)
+@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
+             break;
+         case 2:
+             /* Floating point data-processing (2 source) */
+-            disas_fp_2src(s, insn);
++            unallocated_encoding(s); /* in decodetree */
+             break;
+         case 3:
+             /* Floating point conditional select */
+--
+.34.1

-[PULL 05/22] target/arm: Implement FEAT_IDST
+[PULL 30/42] target/arm: Convert FMLA, FMLS to decodetree
-The Armv8.4 feature FEAT_IDST specifies that exceptions generated by
+From: Richard Henderson <richard.henderson@linaro.org>
 read accesses to the feature ID space should report a syndrome code
 of 0x18 (EC_SYSTEMREGISTERTRAP) rather than 0x00 (EC_UNCATEGORIZED).
 The feature ID space is defined to be:
  op0 == 3, op1 == {0,1,3}, CRn == 0, CRm == {0-7}, op2 == {0-7}
-In our implementation we might return the EC_UNCATEGORIZED syndrome
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-value for a system register access in four cases:
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
- * no reginfo struct in the hashtable
+Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
- * cp_access_ok() fails (ie ri->access doesn't permit the access)
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
- * ri->accessfn returns CP_ACCESS_TRAP_UNCATEGORIZED at runtime
+---
- * ri->type includes ARM_CP_RAISES_EXC, and the readfn raises
+ target/arm/helper.h            |   2 +
-   an UNDEF exception at runtime
+ target/arm/tcg/a64.decode      |  22 +++
  target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |  14 ++
 files changed, 163 insertions(+), 116 deletions(-)
-We have very few regdefs that set ARM_CP_RAISES_EXC, and none of
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 them are in the feature ID space. (In the unlikely event that any
 are added in future they would need to take care of setting the
 correct syndrome themselves.) This patch deals with the other
 three cases, and enables FEAT_IDST for AArch64 -cpu max.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220509155457.3560724-1-peter.maydell@linaro.org
 ---
  docs/system/arm/emulation.rst |  1 +
  target/arm/cpregs.h           | 24 ++++++++++++++++++++++++
  target/arm/cpu.h              |  5 +++++
  target/arm/cpu64.c            |  1 +
  target/arm/op_helper.c        |  9 +++++++++
  target/arm/translate-a64.c    | 28 ++++++++++++++++++++++++++--
 files changed, 66 insertions(+), 2 deletions(-)
 diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
 index XXXXXXX..XXXXXXX 100644
---- a/docs/system/arm/emulation.rst
+--- a/target/arm/helper.h
-+++ b/docs/system/arm/emulation.rst
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ the following architecture extensions:
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- - FEAT_FlagM2 (Enhancements to flag manipulation instructions)
- - FEAT_HPDS (Hierarchical permission disables)
+ DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- - FEAT_I8MM (AArch64 Int8 matrix multiplication instructions)
+ DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+- FEAT_IDST (ID space trap handling)
++DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- - FEAT_IESB (Implicit error synchronization event)
- - FEAT_JSCVT (JavaScript conversion instructions)
+ DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- - FEAT_LOR (Limited ordering regions)
+ DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/cpregs.h b/target/arm/cpregs.h
++DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpregs.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpregs.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static inline bool cp_access_ok(int current_el,
+@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
- /* Raw read of a coprocessor register (as needed for migration, etc) */
+ FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
- uint64_t read_raw_cp_reg(CPUARMState *env, const ARMCPRegInfo *ri);
+ FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
-+/*
++FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
-+ * Return true if the cp register encoding is in the "feature ID space" as
++FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
-+ * defined by FEAT_IDST (and thus should be reported with ER_ELx.EC
++
-+ * as EC_SYSTEMREGISTERTRAP rather than EC_UNCATEGORIZED).
++FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
-+ */
++FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
-+static inline bool arm_cpreg_encoding_in_idspace(uint8_t opc0, uint8_t opc1,
++
-+                                                 uint8_t opc2,
+ ### Advanced SIMD scalar x indexed element
-+                                                 uint8_t crn, uint8_t crm)
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
  FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
 +FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
 +FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
 +
 +FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
 +FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
 +FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
 +
  FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
  FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
 +FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
 +FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
 +
 +FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
 +FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
 +FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
 +
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
  };
  TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 +static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
 +    gen_helper_gvec_vfma_h,
 +    gen_helper_gvec_vfma_s,
 +    gen_helper_gvec_vfma_d,
 +};
 +TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 +    gen_helper_gvec_vfms_h,
 +    gen_helper_gvec_vfms_s,
 +    gen_helper_gvec_vfms_d,
 +};
 +TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
  TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 +static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
 +{
-+    return opc0 == 3 && (opc1 == 0 || opc1 == 1 || opc1 == 3) &&
++    switch (a->esz) {
-+        crn == 0 && crm < 8;
++    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
 +            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t2 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t2, a->rm, a->idx, MO_64);
 +            if (neg) {
 +                gen_vfp_negd(t1, t1);
 +            }
 +            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
 +            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
 +            if (neg) {
 +                gen_vfp_negs(t1, t1);
 +            }
 +            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
 +            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
 +            if (neg) {
 +                gen_vfp_negh(t1, t1);
 +            }
 +            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
 +                                       fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
-+/*
++TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
-+ * As arm_cpreg_encoding_in_idspace(), but take the encoding from an
++TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
-+ * ARMCPRegInfo.
++
-+ */
+ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
-+static inline bool arm_cpreg_in_idspace(const ARMCPRegInfo *ri)
+                               gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
  };
  TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 +static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
 +{
-+    return ri->state == ARM_CP_STATE_AA64 &&
++    static gen_helper_gvec_4_ptr * const fns[3] = {
-+        arm_cpreg_encoding_in_idspace(ri->opc0, ri->opc1, ri->opc2,
++        gen_helper_gvec_fmla_idx_h,
-+                                      ri->crn, ri->crm);
++        gen_helper_gvec_fmla_idx_s,
 +        gen_helper_gvec_fmla_idx_d,
 +    };
 +    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
 +                          esz == MO_16, (a->idx << 1) | neg,
 +                          fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
- #endif /* TARGET_ARM_CPREGS_H */
++TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
++TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
-index XXXXXXX..XXXXXXX 100644
++
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fwb(const ARMISARegisters *id)
+  * Note that it is the caller's responsibility to ensure that the
-     return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, FWB) != 0;
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
- }
+             read_vec_element(s, tcg_op2, rm, pass, MO_64);
-+static inline bool isar_feature_aa64_ids(const ARMISARegisters *id)
+             switch (fpopcode) {
-+{
+-            case 0x39: /* FMLS */
-+    return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, IDS) != 0;
+-                /* As usual for ARM, separate negation for fused multiply-add */
-+}
+-                gen_vfp_negd(tcg_op1, tcg_op1);
-+
+-                /* fall through */
- static inline bool isar_feature_aa64_bti(const ARMISARegisters *id)
+-            case 0x19: /* FMLA */
- {
+-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-     return FIELD_EX64(id->id_aa64pfr1, ID_AA64PFR1, BT) != 0;
+-                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
-diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
+-                                       tcg_res, fpst);
-index XXXXXXX..XXXXXXX 100644
+-                break;
---- a/target/arm/cpu64.c
+             case 0x1c: /* FCMEQ */
-+++ b/target/arm/cpu64.c
+                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+                 break;
-     t = FIELD_DP64(t, ID_AA64MMFR2, IESB, 1);     /* FEAT_IESB */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-     t = FIELD_DP64(t, ID_AA64MMFR2, VARANGE, 1);  /* FEAT_LVA */
+                 break;
-     t = FIELD_DP64(t, ID_AA64MMFR2, ST, 1);       /* FEAT_TTST */
+             default:
-+    t = FIELD_DP64(t, ID_AA64MMFR2, IDS, 1);      /* FEAT_IDST */
+             case 0x18: /* FMAXNM */
-     t = FIELD_DP64(t, ID_AA64MMFR2, FWB, 1);      /* FEAT_S2FWB */
++            case 0x19: /* FMLA */
-     t = FIELD_DP64(t, ID_AA64MMFR2, TTL, 1);      /* FEAT_TTL */
+             case 0x1a: /* FADD */
-     t = FIELD_DP64(t, ID_AA64MMFR2, BBM, 2);      /* FEAT_BBM at level 2 */
+             case 0x1b: /* FMULX */
-diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
+             case 0x1e: /* FMAX */
-index XXXXXXX..XXXXXXX 100644
+             case 0x38: /* FMINNM */
---- a/target/arm/op_helper.c
++            case 0x39: /* FMLS */
-+++ b/target/arm/op_helper.c
+             case 0x3a: /* FSUB */
-@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mrs_banked)(CPUARMState *env, uint32_t tgtmode, uint32_t regno)
+             case 0x3e: /* FMIN */
- void HELPER(access_check_cp_reg)(CPUARMState *env, void *rip, uint32_t syndrome,
+             case 0x5b: /* FMUL */
-                                  uint32_t isread)
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
- {
+             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
-+    ARMCPU *cpu = env_archcpu(env);
-     const ARMCPRegInfo *ri = rip;
+             switch (fpopcode) {
-     CPAccessResult res = CP_ACCESS_OK;
+-            case 0x39: /* FMLS */
-     int target_el;
+-                /* As usual for ARM, separate negation for fused multiply-add */
-@@ -XXX,XX +XXX,XX @@ void HELPER(access_check_cp_reg)(CPUARMState *env, void *rip, uint32_t syndrome,
+-                gen_vfp_negs(tcg_op1, tcg_op1);
-     case CP_ACCESS_TRAP:
+-                /* fall through */
-         break;
+-            case 0x19: /* FMLA */
-     case CP_ACCESS_TRAP_UNCATEGORIZED:
+-                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-+        if (cpu_isar_feature(aa64_ids, cpu) && isread &&
+-                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
-+            arm_cpreg_in_idspace(ri)) {
+-                                       tcg_res, fpst);
-+            /*
+-                break;
-+             * FEAT_IDST says this should be reported as EC_SYSTEMREGISTERTRAP,
+             case 0x1c: /* FCMEQ */
-+             * not EC_UNCATEGORIZED
+                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-+             */
+                 break;
-+            break;
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
-+        }
+                 break;
-         syndrome = syn_uncategorized();
+             default:
              case 0x18: /* FMAXNM */
 +            case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
 +            case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3f: /* FRSQRTS */
      case 0x5d: /* FACGE */
      case 0x7d: /* FACGT */
 -    case 0x19: /* FMLA */
 -    case 0x39: /* FMLS */
      case 0x1c: /* FCMEQ */
      case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      default:
      case 0x18: /* FMAXNM */
 +    case 0x19: /* FMLA */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 +    case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x1: /* FMLA */
      case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
 -    case 0x9: /* FMLS */
      case 0xf: /* FRSQRTS */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          break;
      default:
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+     case 0x0: /* FMAXNM */
 +    case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
 +    case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x1: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x9: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  break;
              default:
              case 0x0: /* FMAXNM */
 +            case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
 +            case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      case 0x0c: /* SQDMULH */
      case 0x0d: /* SQRDMULH */
          break;
 -    case 0x01: /* FMLA */
 -    case 0x05: /* FMLS */
 -        is_fp = 1;
 -        break;
      case 0x1d: /* SQRDMLAH */
      case 0x1f: /* SQRDMLSH */
          if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x01: /* FMLA */
 +    case 0x05: /* FMLS */
      case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      switch (is_fp) {
      case 1: /* normal fp */
 -        /* convert insn encoded size to MemOp size */
 -        switch (size) {
 -        case 0: /* half-precision */
 -            size = MO_16;
 -            is_fp16 = true;
 -            break;
 -        case MO_32: /* single precision */
 -        case MO_64: /* double precision */
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        break;
 +        unallocated_encoding(s); /* in decodetree */
 +        return;
      case 2: /* complex fp */
          /* Each indexable element is a complex pair.  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
      if (size == 3) {
 -        TCGv_i64 tcg_idx = tcg_temp_new_i64();
 -        int pass;
 -
 -        assert(is_fp && is_q && !is_long);
 -
 -        read_vec_element(s, tcg_idx, rm, index, MO_64);
 -
 -        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
 -            TCGv_i64 tcg_op = tcg_temp_new_i64();
 -            TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -            read_vec_element(s, tcg_op, rn, pass, MO_64);
 -
 -            switch (16 * u + opcode) {
 -            case 0x05: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negd(tcg_op, tcg_op);
 -                /* fall through */
 -            case 0x01: /* FMLA */
 -                read_vec_element(s, tcg_res, rd, pass, MO_64);
 -                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
 -                break;
 -            default:
 -            case 0x09: /* FMUL */
 -            case 0x19: /* FMULX */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element(s, tcg_res, rd, pass, MO_64);
 -        }
 -
 -        clear_vec_high(s, !is_scalar, rd);
 +        g_assert_not_reached();
      } else if (!is_long) {
          /* 32 bit floating point, or 16 or 32 bit integer.
           * For the 16 bit scalar case we use the usual Neon helpers and
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  genfn(tcg_res, tcg_op, tcg_res);
                  break;
              }
 -            case 0x05: /* FMLS */
 -            case 0x01: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass,
 -                                     is_scalar ? size : MO_32);
 -                switch (size) {
 -                case 1:
 -                    if (opcode == 0x5) {
 -                        /* As usual for ARM, separate negation for fused
 -                         * multiply-add */
 -                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
 -                    }
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
 -                                                   tcg_res, fpst);
 -                    } else {
 -                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
 -                                                    tcg_res, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    if (opcode == 0x5) {
 -                        /* As usual for ARM, separate negation for
 -                         * fused multiply-add */
 -                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
 -                    }
 -                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
 -                                           tcg_res, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x01: /* FMLA */
 +            case 0x05: /* FMLS */
              case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/vec_helper.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ static void gen_set_nzcv(TCGv_i64 tcg_rt)
+@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
-     tcg_temp_free_i32(nzcv);
+     return float32_muladd(op1, op2, dest, 0, stat);
  }
-+static void gen_sysreg_undef(DisasContext *s, bool isread,
++static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
-+                             uint8_t op0, uint8_t op1, uint8_t op2,
++                                 float_status *stat)
 +                             uint8_t crn, uint8_t crm, uint8_t rt)
 +{
-+    /*
++    return float64_muladd(op1, op2, dest, 0, stat);
 +     * Generate code to emit an UNDEF with correct syndrome
 +     * information for a failed system register access.
 +     * This is EC_UNCATEGORIZED (ie a standard UNDEF) in most cases,
 +     * but if FEAT_IDST is implemented then read accesses to registers
 +     * in the feature ID space are reported with the EC_SYSTEMREGISTERTRAP
 +     * syndrome.
 +     */
 +    uint32_t syndrome;
 +
 +    if (isread && dc_isar_feature(aa64_ids, s) &&
 +        arm_cpreg_encoding_in_idspace(op0, op1, op2, crn, crm)) {
 +        syndrome = syn_aa64_sysregtrap(op0, op1, op2, crn, crm, rt, isread);
 +    } else {
 +        syndrome = syn_uncategorized();
 +    }
 +    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syndrome,
 +                       default_exception_el(s));
 +}
 +
- /* MRS - move from system register
+ static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
-  * MSR (register) - move to system register
+                                  float_status *stat)
-  * SYS
+ {
-@@ -XXX,XX +XXX,XX @@ static void handle_sys(DisasContext *s, uint32_t insn, bool isread,
+@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
-         qemu_log_mask(LOG_UNIMP, "%s access to unsupported AArch64 "
+     return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
-                       "system register op0:%d op1:%d crn:%d crm:%d op2:%d\n",
+ }
-                       isread ? "read" : "write", op0, op1, crn, crm, op2);
--        unallocated_encoding(s);
++static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
-+        gen_sysreg_undef(s, isread, op0, op1, op2, crn, crm, rt);
++                                 float_status *stat)
-         return;
++{
-     }
++    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
++}
-     /* Check access permissions */
++
-     if (!cp_access_ok(s->current_el, ri, isread)) {
+ #define DO_MULADD(NAME, FUNC, TYPE)                                     \
--        unallocated_encoding(s);
+ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
-+        gen_sysreg_undef(s, isread, op0, op1, op2, crn, crm, rt);
+ {                                                                          \
-         return;
+@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
-     }
+ DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
  DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
 +DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
  DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
  DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
 +DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
  /* For the indexed ops, SVE applies the index per 128-bit vector segment.
   * For AdvSIMD, there is of course only one such vector segment.
 --
-.25.1
+.34.1

-[PULL 03/22] target/arm: Implement FEAT_S2FWB
+[PULL 31/42] target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
-Implement the handling of FEAT_S2FWB; the meat of this is in the new
+From: Richard Henderson <richard.henderson@linaro.org>
 combined_attrs_fwb() function which combines S1 and S2 attributes
 when HCR_EL2.FWB is set.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220505183950.2781801-4-peter.maydell@linaro.org
 ---
- target/arm/cpu.h    |  5 +++
+ target/arm/helper.h            |   5 +
- target/arm/helper.c | 84 +++++++++++++++++++++++++++++++++++++++++++--
+ target/arm/tcg/a64.decode      |  30 ++++++
-files changed, 86 insertions(+), 3 deletions(-)
+ target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
  target/arm/tcg/vec_helper.c    |  30 ++++++
 files changed, 174 insertions(+), 79 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_st(const ARMISARegisters *id)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-     return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, ST) != 0;
  DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
  FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
  FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 +FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
 +FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
 +FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
 +FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
 +FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
 +
 +FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
 +FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
  FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
  FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 +FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
 +FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
 +FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
 +FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
 +FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
 +
 +FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
 +FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
  };
  TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 +static const FPScalar f_scalar_fcmeq = {
 +    gen_helper_advsimd_ceq_f16,
 +    gen_helper_neon_ceq_f32,
 +    gen_helper_neon_ceq_f64,
 +};
 +TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
 +
 +static const FPScalar f_scalar_fcmge = {
 +    gen_helper_advsimd_cge_f16,
 +    gen_helper_neon_cge_f32,
 +    gen_helper_neon_cge_f64,
 +};
 +TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
 +
 +static const FPScalar f_scalar_fcmgt = {
 +    gen_helper_advsimd_cgt_f16,
 +    gen_helper_neon_cgt_f32,
 +    gen_helper_neon_cgt_f64,
 +};
 +TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
 +
 +static const FPScalar f_scalar_facge = {
 +    gen_helper_advsimd_acge_f16,
 +    gen_helper_neon_acge_f32,
 +    gen_helper_neon_acge_f64,
 +};
 +TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
 +
 +static const FPScalar f_scalar_facgt = {
 +    gen_helper_advsimd_acgt_f16,
 +    gen_helper_neon_acgt_f32,
 +    gen_helper_neon_acgt_f64,
 +};
 +TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
  };
  TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
 +    gen_helper_gvec_fceq_h,
 +    gen_helper_gvec_fceq_s,
 +    gen_helper_gvec_fceq_d,
 +};
 +TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
 +    gen_helper_gvec_fcge_h,
 +    gen_helper_gvec_fcge_s,
 +    gen_helper_gvec_fcge_d,
 +};
 +TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
 +    gen_helper_gvec_fcgt_h,
 +    gen_helper_gvec_fcgt_s,
 +    gen_helper_gvec_fcgt_d,
 +};
 +TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
 +    gen_helper_gvec_facge_h,
 +    gen_helper_gvec_facge_s,
 +    gen_helper_gvec_facge_d,
 +};
 +TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
 +    gen_helper_gvec_facgt_h,
 +    gen_helper_gvec_facgt_s,
 +    gen_helper_gvec_facgt_d,
 +};
 +TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element(s, tcg_op2, rm, pass, MO_64);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_absd(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_abss(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          switch (fpopcode) {
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
 +        case 0x7a: /* FABD */
 +            break;
 +        default:
 +        case 0x1b: /* FMULX */
          case 0x5d: /* FACGE */
          case 0x7d: /* FACGT */
          case 0x1c: /* FCMEQ */
          case 0x5c: /* FCMGE */
          case 0x7c: /* FCMGT */
 -        case 0x7a: /* FABD */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      TCGv_i32 tcg_res;
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
          break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      tcg_res = tcg_temp_new_i32();
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
 -        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x07: /* FRECPS */
          gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
      case 0x0f: /* FRSQRTS */
          gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
 -    case 0x14: /* FCMGE (reg) */
 -        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x15: /* FACGE */
 -        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x1a: /* FABD */
          gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
          tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
          break;
 -    case 0x1c: /* FCMGT (reg) */
 -        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1d: /* FACGT */
 -        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
 -    case 0x5d: /* FACGE */
 -    case 0x7d: /* FACGT */
 -    case 0x1c: /* FCMEQ */
 -    case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
 -    case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
 +    case 0x5c: /* FCMGE */
 +    case 0x5d: /* FACGE */
      case 0x5f: /* FDIV */
 +    case 0x7d: /* FACGT */
 +    case 0x7c: /* FCMGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
      case 0xf: /* FRSQRTS */
 -    case 0x14: /* FCMGE */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT */
 -    case 0x1d: /* FACGT */
          pairwise = false;
          break;
      case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
 +    case 0x14: /* FCMGE */
 +    case 0x15: /* FACGE */
      case 0x17: /* FDIV */
 +    case 0x1c: /* FCMGT */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x4: /* FCMEQ */
 -                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x14: /* FCMGE */
 -                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x15: /* FACGE */
 -                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                  break;
 -            case 0x1c: /* FCMGT */
 -                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x1d: /* FACGT */
 -                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x0: /* FMAXNM */
              case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0x4: /* FCMEQ */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
              case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
 +            case 0x14: /* FCMGE */
 +            case 0x15: /* FACGE */
              case 0x17: /* FDIV */
 +            case 0x1c: /* FCMGT */
 +            case 0x1d: /* FACGT */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
      return -float32_eq_quiet(op1, op2, stat);
  }
-+static inline bool isar_feature_aa64_fwb(const ARMISARegisters *id)
++static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
 +{
-+    return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, FWB) != 0;
++    return -float64_eq_quiet(op1, op2, stat);
 +}
 +
- static inline bool isar_feature_aa64_bti(const ARMISARegisters *id)
+ static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
  {
-     return FIELD_EX64(id->id_aa64pfr1, ID_AA64PFR1, BT) != 0;
+     return -float16_le(op2, op1, stat);
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
-index XXXXXXX..XXXXXXX 100644
+     return -float32_le(op2, op1, stat);
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void do_hcr_write(CPUARMState *env, uint64_t value, uint64_t valid_mask)
          if (cpu_isar_feature(aa64_scxtnum, cpu)) {
              valid_mask |= HCR_ENSCXT;
          }
 +        if (cpu_isar_feature(aa64_fwb, cpu)) {
 +            valid_mask |= HCR_FWB;
 +        }
      }
      /* Clear RES0 bits.  */
@@ -XXX,XX +XXX,XX @@ static void do_hcr_write(CPUARMState *env, uint64_t value, uint64_t valid_mask)
       * HCR_PTW forbids certain page-table setups
       * HCR_DC disables stage1 and enables stage2 translation
       * HCR_DCT enables tagging on (disabled) stage1 translation
 +     * HCR_FWB changes the interpretation of stage2 descriptor bits
       */
 -    if ((env->cp15.hcr_el2 ^ value) & (HCR_VM | HCR_PTW | HCR_DC | HCR_DCT)) {
 +    if ((env->cp15.hcr_el2 ^ value) &
 +        (HCR_VM | HCR_PTW | HCR_DC | HCR_DCT | HCR_FWB)) {
          tlb_flush(CPU(cpu));
      }
      env->cp15.hcr_el2 = value;
@@ -XXX,XX +XXX,XX @@ static bool ptw_attrs_are_device(CPUARMState *env, ARMCacheAttrs cacheattrs)
       * attributes are therefore only Device if stage 2 specifies Device.
       * With HCR_EL2.FWB == 0 this is when descriptor bits [5:4] are 0b00,
       * ie when cacheattrs.attrs bits [3:2] are 0b00.
 +     * With HCR_EL2.FWB == 1 this is when descriptor bit [4] is 0, ie
 +     * when cacheattrs.attrs bit [2] is 0.
       */
      assert(cacheattrs.is_s2_format);
 -    return (cacheattrs.attrs & 0xc) == 0;
 +    if (arm_hcr_el2_eff(env) & HCR_FWB) {
 +        return (cacheattrs.attrs & 0x4) == 0;
 +    } else {
 +        return (cacheattrs.attrs & 0xc) == 0;
 +    }
  }
- /* Translate a S1 pagetable walk through S2 if needed.  */
++static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
-@@ -XXX,XX +XXX,XX @@ static uint8_t combined_attrs_nofwb(CPUARMState *env,
++{
-     return ret_attrs;
++    return -float64_le(op2, op1, stat);
 +}
 +
  static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
  {
      return -float16_lt(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
      return -float32_lt(op2, op1, stat);
  }
-+static uint8_t force_cacheattr_nibble_wb(uint8_t attr)
++static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
 +{
-+    /*
++    return -float64_lt(op2, op1, stat);
 +     * Given the 4 bits specifying the outer or inner cacheability
 +     * in MAIR format, return a value specifying Normal Write-Back,
 +     * with the allocation and transient hints taken from the input
 +     * if the input specified some kind of cacheable attribute.
 +     */
 +    if (attr == 0 || attr == 4) {
 +        /*
 +         * 0 == an UNPREDICTABLE encoding
 +         * 4 == Non-cacheable
 +         * Either way, force Write-Back RW allocate non-transient
 +         */
 +        return 0xf;
 +    }
 +    /* Change WriteThrough to WriteBack, keep allocation and transient hints */
 +    return attr | 4;
 +}
 +
-+/*
+ static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
-+ * Combine the memory type and cacheability attributes of
+ {
-+ * s1 and s2 for the HCR_EL2.FWB == 1 case, returning the
+     return -float16_le(float16_abs(op2), float16_abs(op1), stat);
-+ * combined attributes in MAIR_EL1 format.
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
-+ */
+     return -float32_le(float32_abs(op2), float32_abs(op1), stat);
-+static uint8_t combined_attrs_fwb(CPUARMState *env,
+ }
-+                                  ARMCacheAttrs s1, ARMCacheAttrs s2)
 +static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
 +{
-+    switch (s2.attrs) {
++    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
 +    case 7:
 +        /* Use stage 1 attributes */
 +        return s1.attrs;
 +    case 6:
 +        /*
 +         * Force Normal Write-Back. Note that if S1 is Normal cacheable
 +         * then we take the allocation hints from it; otherwise it is
 +         * RW allocate, non-transient.
 +         */
 +        if ((s1.attrs & 0xf0) == 0) {
 +            /* S1 is Device */
 +            return 0xff;
 +        }
 +        /* Need to check the Inner and Outer nibbles separately */
 +        return force_cacheattr_nibble_wb(s1.attrs & 0xf) |
 +            force_cacheattr_nibble_wb(s1.attrs >> 4) << 4;
 +    case 5:
 +        /* If S1 attrs are Device, use them; otherwise Normal Non-cacheable */
 +        if ((s1.attrs & 0xf0) == 0) {
 +            return s1.attrs;
 +        }
 +        return 0x44;
 +    case 0 ... 3:
 +        /* Force Device, of subtype specified by S2 */
 +        return s2.attrs << 2;
 +    default:
 +        /*
 +         * RESERVED values (including RES0 descriptor bit [5] being nonzero);
 +         * arbitrarily force Device.
 +         */
 +        return 0;
 +    }
 +}
 +
- /* Combine S1 and S2 cacheability/shareability attributes, per D4.5.4
+ static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
-  * and CombineS1S2Desc()
+ {
-  *
+     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
-@@ -XXX,XX +XXX,XX @@ static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
-     }
+     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
+ }
-     /* Combine memory type and cacheability attributes */
--    ret.attrs = combined_attrs_nofwb(env, s1, s2);
++static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
-+    if (arm_hcr_el2_eff(env) & HCR_FWB) {
++{
-+        ret.attrs = combined_attrs_fwb(env, s1, s2);
++    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
-+    } else {
++}
-+        ret.attrs = combined_attrs_nofwb(env, s1, s2);
++
-+    }
+ static int16_t vfp_tosszh(float16 x, void *fpstp)
+ {
-     /*
+     float_status *fpst = fpstp;
-      * Any location for which the resultant memory type is any
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
  DO_3OP(gvec_fceq_h, float16_ceq, float16)
  DO_3OP(gvec_fceq_s, float32_ceq, float32)
 +DO_3OP(gvec_fceq_d, float64_ceq, float64)
  DO_3OP(gvec_fcge_h, float16_cge, float16)
  DO_3OP(gvec_fcge_s, float32_cge, float32)
 +DO_3OP(gvec_fcge_d, float64_cge, float64)
  DO_3OP(gvec_fcgt_h, float16_cgt, float16)
  DO_3OP(gvec_fcgt_s, float32_cgt, float32)
 +DO_3OP(gvec_fcgt_d, float64_cgt, float64)
  DO_3OP(gvec_facge_h, float16_acge, float16)
  DO_3OP(gvec_facge_s, float32_acge, float32)
 +DO_3OP(gvec_facge_d, float64_acge, float64)
  DO_3OP(gvec_facgt_h, float16_acgt, float16)
  DO_3OP(gvec_facgt_s, float32_acgt, float32)
 +DO_3OP(gvec_facgt_d, float64_acgt, float64)
  DO_3OP(gvec_fmax_h, float16_max, float16)
  DO_3OP(gvec_fmax_s, float32_max, float32)
 --
-.25.1
+.34.1

-New patch
+[PULL 32/42] target/arm: Convert FABD to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/helper.h            |  1 +
+ target/arm/tcg/a64.decode      |  6 ++++
+ target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
+ target/arm/tcg/vec_helper.c    |  6 ++++
+files changed, 53 insertions(+), 20 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
+ FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
+ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
++FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
++FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
++
+ ### Advanced SIMD three same
+ FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+@@ -XXX,XX +XXX,XX @@ FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
+ FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
+ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
++FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
++FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
++
+ ### Advanced SIMD scalar x indexed element
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_facgt = {
+ };
+ TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
++static void gen_fabd_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
++{
++    gen_helper_vfp_subh(d, n, m, s);
++    gen_vfp_absh(d, d);
++}
++
++static void gen_fabd_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
++{
++    gen_helper_vfp_subs(d, n, m, s);
++    gen_vfp_abss(d, d);
++}
++
++static void gen_fabd_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
++{
++    gen_helper_vfp_subd(d, n, m, s);
++    gen_vfp_absd(d, d);
++}
++
++static const FPScalar f_scalar_fabd = {
++    gen_fabd_h,
++    gen_fabd_s,
++    gen_fabd_d,
++};
++TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
++
+ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
+                           gen_helper_gvec_3_ptr * const fns[3])
+ {
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
+ };
+ TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
++static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
++    gen_helper_gvec_fabd_h,
++    gen_helper_gvec_fabd_s,
++    gen_helper_gvec_fabd_d,
++};
++TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
++
+ /*
+  * Advanced SIMD scalar/vector x indexed element
+  */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x7a: /* FABD */
+-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_vfp_absd(tcg_res, tcg_res);
+-                break;
+             default:
+             case 0x18: /* FMAXNM */
+             case 0x19: /* FMLA */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x5c: /* FCMGE */
+             case 0x5d: /* FACGE */
+             case 0x5f: /* FDIV */
++            case 0x7a: /* FABD */
+             case 0x7c: /* FCMGT */
+             case 0x7d: /* FACGT */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x7a: /* FABD */
+-                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_vfp_abss(tcg_res, tcg_res);
+-                break;
+             default:
+             case 0x18: /* FMAXNM */
+             case 0x19: /* FMLA */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x5c: /* FCMGE */
+             case 0x5d: /* FACGE */
+             case 0x5f: /* FDIV */
++            case 0x7a: /* FABD */
+             case 0x7c: /* FCMGT */
+             case 0x7d: /* FACGT */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
+         switch (fpopcode) {
+         case 0x1f: /* FRECPS */
+         case 0x3f: /* FRSQRTS */
+-        case 0x7a: /* FABD */
+             break;
+         default:
+         case 0x1b: /* FMULX */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
+         case 0x7d: /* FACGT */
+         case 0x1c: /* FCMEQ */
+         case 0x5c: /* FCMGE */
++        case 0x7a: /* FABD */
+         case 0x7c: /* FCMGT */
+             unallocated_encoding(s);
+             return;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
+     switch (fpopcode) {
+     case 0x07: /* FRECPS */
+     case 0x0f: /* FRSQRTS */
+-    case 0x1a: /* FABD */
+         break;
+     default:
+     case 0x03: /* FMULX */
+     case 0x04: /* FCMEQ (reg) */
+     case 0x14: /* FCMGE (reg) */
+     case 0x15: /* FACGE */
++    case 0x1a: /* FABD */
+     case 0x1c: /* FCMGT (reg) */
+     case 0x1d: /* FACGT */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
+     case 0x0f: /* FRSQRTS */
+         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+         break;
+-    case 0x1a: /* FABD */
+-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
+-        break;
+     default:
+     case 0x03: /* FMULX */
+     case 0x04: /* FCMEQ (reg) */
+     case 0x14: /* FCMGE (reg) */
+     case 0x15: /* FACGE */
++    case 0x1a: /* FABD */
+     case 0x1c: /* FCMGT (reg) */
+     case 0x1d: /* FACGT */
+         g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+         return;
+     case 0x1f: /* FRECPS */
+     case 0x3f: /* FRSQRTS */
+-    case 0x7a: /* FABD */
+         if (!fp_access_check(s)) {
+             return;
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x5c: /* FCMGE */
+     case 0x5d: /* FACGE */
+     case 0x5f: /* FDIV */
++    case 0x7a: /* FABD */
+     case 0x7d: /* FACGT */
+     case 0x7c: /* FCMGT */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x7: /* FRECPS */
+     case 0xf: /* FRSQRTS */
+-    case 0x1a: /* FABD */
+         pairwise = false;
+         break;
+     case 0x10: /* FMAXNMP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     case 0x14: /* FCMGE */
+     case 0x15: /* FACGE */
+     case 0x17: /* FDIV */
++    case 0x1a: /* FABD */
+     case 0x1c: /* FCMGT */
+     case 0x1d: /* FACGT */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             case 0xf: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x1a: /* FABD */
+-                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
+-                break;
+             default:
+             case 0x0: /* FMAXNM */
+             case 0x1: /* FMLA */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             case 0x14: /* FCMGE */
+             case 0x15: /* FACGE */
+             case 0x17: /* FDIV */
++            case 0x1a: /* FABD */
+             case 0x1c: /* FCMGT */
+             case 0x1d: /* FACGT */
+                 g_assert_not_reached();
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
+     return float32_abs(float32_sub(op1, op2, stat));
+ }
++static float64 float64_abd(float64 op1, float64 op2, float_status *stat)
++{
++    return float64_abs(float64_sub(op1, op2, stat));
++}
++
+ /*
+  * Reciprocal step. These are the AArch32 version which uses a
+  * non-fused multiply-and-subtract.
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
+ DO_3OP(gvec_fabd_h, float16_abd, float16)
+ DO_3OP(gvec_fabd_s, float32_abd, float32)
++DO_3OP(gvec_fabd_d, float64_abd, float64)
+ DO_3OP(gvec_fceq_h, float16_ceq, float16)
+ DO_3OP(gvec_fceq_s, float32_ceq, float32)
+--
+.34.1

-[PULL 21/22] target/arm: Enable FEAT_HCX for -cpu max
+[PULL 33/42] target/arm: Convert FRECPS, FRSQRTS to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This feature adds a new register, HCRX_EL2, which controls
+These are the last instructions within handle_3same_float
-many of the newer AArch64 features.  So far the register is
+and disas_simd_scalar_three_reg_same_fp16 so remove them.
 effectively RES0, because none of the new features are done.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220517054850.177016-2-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    | 20 ++++++++++++++++++
+ target/arm/tcg/a64.decode      |  12 ++
- target/arm/cpu64.c  |  1 +
+ target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
- target/arm/helper.c | 50 +++++++++++++++++++++++++++++++++++++++++++++
+files changed, 46 insertions(+), 259 deletions(-)
 files changed, 71 insertions(+)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct CPUArchState {
+@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
-         uint32_t pmsav5_data_ap; /* PMSAv5 MPU data access permissions */
+ FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
-         uint32_t pmsav5_insn_ap; /* PMSAv5 MPU insn access permissions */
+ FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
-         uint64_t hcr_el2; /* Hypervisor configuration register */
-+        uint64_t hcrx_el2; /* Extended Hypervisor configuration register */
++FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
-         uint64_t scr_el3; /* Secure configuration register.  */
++FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
-         union { /* Fault status registers.  */
++
-             struct {
++FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
-@@ -XXX,XX +XXX,XX @@ static inline void xpsr_write(CPUARMState *env, uint32_t val, uint32_t mask)
++FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
- #define HCR_TWEDEN    (1ULL << 59)
++
- #define HCR_TWEDEL    MAKE_64BIT_MASK(60, 4)
+ ### Advanced SIMD three same
-+#define HCRX_ENAS0    (1ULL << 0)
+ FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
-+#define HCRX_ENALS    (1ULL << 1)
+@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
-+#define HCRX_ENASR    (1ULL << 2)
+ FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
-+#define HCRX_FNXS     (1ULL << 3)
+ FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
-+#define HCRX_FGTNXS   (1ULL << 4)
-+#define HCRX_SMPME    (1ULL << 5)
++FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
-+#define HCRX_TALLINT  (1ULL << 6)
++FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
-+#define HCRX_VINMI    (1ULL << 7)
++
-+#define HCRX_VFNMI    (1ULL << 8)
++FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
-+#define HCRX_CMOW     (1ULL << 9)
++FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
-+#define HCRX_MCE2     (1ULL << 10)
++
-+#define HCRX_MSCEN    (1ULL << 11)
+ ### Advanced SIMD scalar x indexed element
-+
- #define HPFAR_NS      (1ULL << 63)
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
- #define SCR_NS                (1U << 0)
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ static inline bool arm_is_el2_enabled(CPUARMState *env)
+--- a/target/arm/tcg/translate-a64.c
-  * Not included here is HCR_RW.
++++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
  };
  TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 +static const FPScalar f_scalar_frecps = {
 +    gen_helper_recpsf_f16,
 +    gen_helper_recpsf_f32,
 +    gen_helper_recpsf_f64,
 +};
 +TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
 +
 +static const FPScalar f_scalar_frsqrts = {
 +    gen_helper_rsqrtsf_f16,
 +    gen_helper_rsqrtsf_f32,
 +    gen_helper_rsqrtsf_f64,
 +};
 +TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
  };
  TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 +static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
 +    gen_helper_gvec_recps_h,
 +    gen_helper_gvec_recps_s,
 +    gen_helper_gvec_recps_d,
 +};
 +TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
 +    gen_helper_gvec_rsqrts_h,
 +    gen_helper_gvec_rsqrts_s,
 +    gen_helper_gvec_rsqrts_d,
 +};
 +TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
- uint64_t arm_hcr_el2_eff(CPUARMState *env);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
-+uint64_t arm_hcrx_el2_eff(CPUARMState *env);
+     }
  /* Return true if the specified exception level is running in AArch64 state. */
  static inline bool arm_el_is_aa64(CPUARMState *env, int el)
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_ats1e1(const ARMISARegisters *id)
      return FIELD_EX64(id->id_aa64mmfr1, ID_AA64MMFR1, PAN) >= 2;
  }
-+static inline bool isar_feature_aa64_hcx(const ARMISARegisters *id)
+-/* Handle the 3-same-operands float operations; shared by the scalar
-+{
+- * and vector encodings. The caller must filter out any encodings
-+    return FIELD_EX64(id->id_aa64mmfr1, ID_AA64MMFR1, HCX) != 0;
+- * not allocated for the encoding it is dealing with.
-+}
+- */
-+
+-static void handle_3same_float(DisasContext *s, int size, int elements,
- static inline bool isar_feature_aa64_uao(const ARMISARegisters *id)
+-                               int fpopcode, int rd, int rn, int rm)
- {
+-{
-     return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, UAO) != 0;
+-    int pass;
-diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
+-    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-index XXXXXXX..XXXXXXX 100644
+-
---- a/target/arm/cpu64.c
+-    for (pass = 0; pass < elements; pass++) {
-+++ b/target/arm/cpu64.c
+-        if (size) {
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+-            /* Double */
-     t = FIELD_DP64(t, ID_AA64MMFR1, LO, 1);       /* FEAT_LOR */
+-            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
-     t = FIELD_DP64(t, ID_AA64MMFR1, PAN, 2);      /* FEAT_PAN2 */
+-            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
-     t = FIELD_DP64(t, ID_AA64MMFR1, XNX, 1);      /* FEAT_XNX */
+-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-+    t = FIELD_DP64(t, ID_AA64MMFR1, HCX, 1);      /* FEAT_HCX */
+-
-     cpu->isar.id_aa64mmfr1 = t;
+-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
+-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-     t = cpu->isar.id_aa64mmfr2;
+-
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+-            switch (fpopcode) {
-index XXXXXXX..XXXXXXX 100644
+-            case 0x1f: /* FRECPS */
---- a/target/arm/helper.c
+-                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-+++ b/target/arm/helper.c
+-                break;
-@@ -XXX,XX +XXX,XX @@ uint64_t arm_hcr_el2_eff(CPUARMState *env)
+-            case 0x3f: /* FRSQRTS */
-     return ret;
+-                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element(s, tcg_res, rd, pass, MO_64);
 -        } else {
 -            /* Single */
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 -
 -            switch (fpopcode) {
 -            case 0x1f: /* FRECPS */
 -                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3f: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            if (elements == 1) {
 -                /* scalar single so clear high part */
 -                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 -
 -                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
 -                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
 -            } else {
 -                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
 -            }
 -        }
 -    }
 -
 -    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
 -}
 -
  /* AdvSIMD scalar three same
   *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
   * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      bool u = extract32(insn, 29, 1);
      TCGv_i64 tcg_rd;
 -    if (opcode >= 0x18) {
 -        /* Floating point: U, size[1] and opcode indicate operation */
 -        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
 -        switch (fpopcode) {
 -        case 0x1f: /* FRECPS */
 -        case 0x3f: /* FRSQRTS */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
 -        case 0x5d: /* FACGE */
 -        case 0x7d: /* FACGT */
 -        case 0x1c: /* FCMEQ */
 -        case 0x5c: /* FCMGE */
 -        case 0x7a: /* FABD */
 -        case 0x7c: /* FCMGT */
 -            unallocated_encoding(s);
 -            return;
 -        }
 -
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -
 -        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
 -        return;
 -    }
 -
      switch (opcode) {
      case 0x1: /* SQADD, UQADD */
      case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_rd);
  }
-+static void hcrx_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-/* AdvSIMD scalar three same FP16
-+                       uint64_t value)
+- *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
-+{
+- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
-+    uint64_t valid_mask = 0;
+- * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
-+
+- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
-+    /* No features adding bits to HCRX are implemented. */
+- * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
-+
+- * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
-+    /* Clear RES0 bits.  */
+- */
-+    env->cp15.hcrx_el2 = value & valid_mask;
+-static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-+}
+-                                                  uint32_t insn)
-+
+-{
-+static CPAccessResult access_hxen(CPUARMState *env, const ARMCPRegInfo *ri,
+-    int rd = extract32(insn, 0, 5);
-+                                  bool isread)
+-    int rn = extract32(insn, 5, 5);
-+{
+-    int opcode = extract32(insn, 11, 3);
-+    if (arm_current_el(env) < 3
+-    int rm = extract32(insn, 16, 5);
-+        && arm_feature(env, ARM_FEATURE_EL3)
+-    bool u = extract32(insn, 29, 1);
-+        && !(env->cp15.scr_el3 & SCR_HXEN)) {
+-    bool a = extract32(insn, 23, 1);
-+        return CP_ACCESS_TRAP_EL3;
+-    int fpopcode = opcode | (a << 3) |  (u << 4);
-+    }
+-    TCGv_ptr fpst;
-+    return CP_ACCESS_OK;
+-    TCGv_i32 tcg_op1;
-+}
+-    TCGv_i32 tcg_op2;
-+
+-    TCGv_i32 tcg_res;
-+static const ARMCPRegInfo hcrx_el2_reginfo = {
+-
-+    .name = "HCRX_EL2", .state = ARM_CP_STATE_AA64,
+-    switch (fpopcode) {
-+    .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 2, .opc2 = 2,
+-    case 0x07: /* FRECPS */
-+    .access = PL2_RW, .writefn = hcrx_write, .accessfn = access_hxen,
+-    case 0x0f: /* FRSQRTS */
-+    .fieldoffset = offsetof(CPUARMState, cp15.hcrx_el2),
+-        break;
-+};
+-    default:
-+
+-    case 0x03: /* FMULX */
-+/* Return the effective value of HCRX_EL2.  */
+-    case 0x04: /* FCMEQ (reg) */
-+uint64_t arm_hcrx_el2_eff(CPUARMState *env)
+-    case 0x14: /* FCMGE (reg) */
-+{
+-    case 0x15: /* FACGE */
-+    /*
+-    case 0x1a: /* FABD */
-+     * The bits in this register behave as 0 for all purposes other than
+-    case 0x1c: /* FCMGT (reg) */
-+     * direct reads of the register if:
+-    case 0x1d: /* FACGT */
-+     *   - EL2 is not enabled in the current security state,
+-        unallocated_encoding(s);
-+     *   - SCR_EL3.HXEn is 0.
+-        return;
-+     */
+-    }
-+    if (!arm_is_el2_enabled(env)
+-
-+        || (arm_feature(env, ARM_FEATURE_EL3)
+-    if (!dc_isar_feature(aa64_fp16, s)) {
-+            && !(env->cp15.scr_el3 & SCR_HXEN))) {
+-        unallocated_encoding(s);
-+        return 0;
+-    }
-+    }
+-
-+    return env->cp15.hcrx_el2;
+-    if (!fp_access_check(s)) {
-+}
+-        return;
-+
+-    }
- static void cptr_el2_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-
-                            uint64_t value)
+-    fpst = fpstatus_ptr(FPST_FPCR_F16);
- {
+-
-@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
+-    tcg_op1 = read_fp_hreg(s, rn);
-         define_arm_cp_regs(cpu, zcr_reginfo);
+-    tcg_op2 = read_fp_hreg(s, rm);
 -    tcg_res = tcg_temp_new_i32();
 -
 -    switch (fpopcode) {
 -    case 0x07: /* FRECPS */
 -        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x0f: /* FRSQRTS */
 -        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    default:
 -    case 0x03: /* FMULX */
 -    case 0x04: /* FCMEQ (reg) */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
  /* AdvSIMD scalar three same extra
   *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
   * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
  /* Pairwise op subgroup of C3.6.16.
   *
 - * This is called directly or via the handle_3same_float for float pairwise
 + * This is called directly for float pairwise
   * operations where the opcode and size are calculated differently.
   */
  static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      int rn = extract32(insn, 5, 5);
      int rd = extract32(insn, 0, 5);
 -    int datasize = is_q ? 128 : 64;
 -    int esize = 32 << size;
 -    int elements = datasize / esize;
 -
      if (size == 1 && !is_q) {
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                 rn, rm, rd);
          return;
 -    case 0x1f: /* FRECPS */
 -    case 0x3f: /* FRSQRTS */
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
 -        return;
      case 0x1d: /* FMLAL  */
      case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x1b: /* FMULX */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
 +    case 0x1f: /* FRECPS */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 +    case 0x3f: /* FRSQRTS */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
       * together indicate the operation.
       */
      int fpopcode = opcode | (a << 3) | (u << 4);
 -    int datasize = is_q ? 128 : 64;
 -    int elements = datasize / 16;
      bool pairwise;
      TCGv_ptr fpst;
      int pass;
      switch (fpopcode) {
 -    case 0x7: /* FRECPS */
 -    case 0xf: /* FRSQRTS */
 -        pairwise = false;
 -        break;
      case 0x10: /* FMAXNMP */
      case 0x12: /* FADDP */
      case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x3: /* FMULX */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
 +    case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
 +    case 0xf: /* FRSQRTS */
      case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
          }
      } else {
 -        for (pass = 0; pass < elements; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 -
 -            switch (fpopcode) {
 -            case 0x7: /* FRECPS */
 -                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x0: /* FMAXNM */
 -            case 0x1: /* FMLA */
 -            case 0x2: /* FADD */
 -            case 0x3: /* FMULX */
 -            case 0x4: /* FCMEQ */
 -            case 0x6: /* FMAX */
 -            case 0x8: /* FMINNM */
 -            case 0x9: /* FMLS */
 -            case 0xa: /* FSUB */
 -            case 0xe: /* FMIN */
 -            case 0x13: /* FMUL */
 -            case 0x14: /* FCMGE */
 -            case 0x15: /* FACGE */
 -            case 0x17: /* FDIV */
 -            case 0x1a: /* FABD */
 -            case 0x1c: /* FCMGT */
 -            case 0x1d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -        }
 +        g_assert_not_reached();
      }
-+    if (cpu_isar_feature(aa64_hcx, cpu)) {
+     clear_vec_high(s, is_q, rd);
-+        define_one_arm_cp_reg(cpu, &hcrx_el2_reginfo);
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-+    }
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-+
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
- #ifdef TARGET_AARCH64
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-     if (cpu_isar_feature(aa64_pauth, cpu)) {
+-    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
-         define_arm_cp_regs(cpu, pauth_reginfo);
+     { 0x00000000, 0x00000000, NULL }
  };
 --
-.25.1
+.34.1

-New patch
+[PULL 34/42] target/arm: Convert FADDP to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/helper.h            |  4 ++
+ target/arm/tcg/a64.decode      | 12 +++++
+ target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
+ target/arm/tcg/vec_helper.c    | 23 +++++++++
+files changed, 105 insertions(+), 21 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_uclamp_s, TCG_CALL_NO_RWG,
+ DEF_HELPER_FLAGS_5(gvec_uclamp_d, TCG_CALL_NO_RWG,
+                    void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
+ #ifdef TARGET_AARCH64
+ #include "tcg/helper-a64.h"
+ #include "tcg/helper-sve.h"
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@
+ &ri             rd imm
+ &rri_sf         rd rn imm sf
+ &i              imm
++&rr_e           rd rn esz
+ &rrr_e          rd rn rm esz
+ &rrx_e          rd rn rm idx esz
+ &qrr_e          q rd rn esz
+@@ -XXX,XX +XXX,XX @@
+ &qrrx_e         q rd rn rm idx esz
+ &qrrrr_e        q rd rn rm ra esz
++@rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
++@rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
++
+ @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
+ @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+ @rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
+@@ -XXX,XX +XXX,XX @@ FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
+ FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
+ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
++### Advanced SIMD scalar pairwise
++
++FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
++FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
++
+ ### Advanced SIMD three same
+ FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+@@ -XXX,XX +XXX,XX @@ FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+ FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
+ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
++FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
++FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
++
+ ### Advanced SIMD scalar x indexed element
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
+ };
+ TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
++static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
++    gen_helper_gvec_faddp_h,
++    gen_helper_gvec_faddp_s,
++    gen_helper_gvec_faddp_d,
++};
++TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
++
+ /*
+  * Advanced SIMD scalar/vector x indexed element
+  */
+@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
+ TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
+ TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
++/*
++ * Advanced SIMD scalar pairwise
++ */
++
++static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
++{
++    switch (a->esz) {
++    case MO_64:
++        if (fp_access_check(s)) {
++            TCGv_i64 t0 = tcg_temp_new_i64();
++            TCGv_i64 t1 = tcg_temp_new_i64();
++
++            read_vec_element(s, t0, a->rn, 0, MO_64);
++            read_vec_element(s, t1, a->rn, 1, MO_64);
++            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
++            write_fp_dreg(s, a->rd, t0);
++        }
++        break;
++    case MO_32:
++        if (fp_access_check(s)) {
++            TCGv_i32 t0 = tcg_temp_new_i32();
++            TCGv_i32 t1 = tcg_temp_new_i32();
++
++            read_vec_element_i32(s, t0, a->rn, 0, MO_32);
++            read_vec_element_i32(s, t1, a->rn, 1, MO_32);
++            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
++            write_fp_sreg(s, a->rd, t0);
++        }
++        break;
++    case MO_16:
++        if (!dc_isar_feature(aa64_fp16, s)) {
++            return false;
++        }
++        if (fp_access_check(s)) {
++            TCGv_i32 t0 = tcg_temp_new_i32();
++            TCGv_i32 t1 = tcg_temp_new_i32();
++
++            read_vec_element_i32(s, t0, a->rn, 0, MO_16);
++            read_vec_element_i32(s, t1, a->rn, 1, MO_16);
++            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
++            write_fp_sreg(s, a->rd, t0);
++        }
++        break;
++    default:
++        g_assert_not_reached();
++    }
++    return true;
++}
++
++TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+         fpst = NULL;
+         break;
+     case 0xc: /* FMAXNMP */
+-    case 0xd: /* FADDP */
+     case 0xf: /* FMAXP */
+     case 0x2c: /* FMINNMP */
+     case 0x2f: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+         fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
+         break;
+     default:
++    case 0xd: /* FADDP */
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+         case 0xc: /* FMAXNMP */
+             gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+-        case 0xd: /* FADDP */
+-            gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
+-            break;
+         case 0xf: /* FMAXP */
+             gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+         default:
++        case 0xd: /* FADDP */
+             g_assert_not_reached();
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             case 0xc: /* FMAXNMP */
+                 gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0xd: /* FADDP */
+-                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FMAXP */
+                 gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0xd: /* FADDP */
+                 g_assert_not_reached();
+             }
+         } else {
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             case 0xc: /* FMAXNMP */
+                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0xd: /* FADDP */
+-                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FMAXP */
+                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0xd: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+             case 0x58: /* FMAXNMP */
+                 gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x5a: /* FADDP */
+-                gen_helper_vfp_addd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x5e: /* FMAXP */
+                 gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+                 gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x5a: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+             case 0x58: /* FMAXNMP */
+                 gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x5a: /* FADDP */
+-                gen_helper_vfp_adds(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x5e: /* FMAXP */
+                 gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+                 gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x5a: /* FADDP */
+                 g_assert_not_reached();
+             }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x58: /* FMAXNMP */
+-    case 0x5a: /* FADDP */
+     case 0x5e: /* FMAXP */
+     case 0x78: /* FMINNMP */
+     case 0x7e: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x3a: /* FSUB */
+     case 0x3e: /* FMIN */
+     case 0x3f: /* FRSQRTS */
++    case 0x5a: /* FADDP */
+     case 0x5b: /* FMUL */
+     case 0x5c: /* FCMGE */
+     case 0x5d: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x10: /* FMAXNMP */
+-    case 0x12: /* FADDP */
+     case 0x16: /* FMAXP */
+     case 0x18: /* FMINNMP */
+     case 0x1e: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     case 0xa: /* FSUB */
+     case 0xe: /* FMIN */
+     case 0xf: /* FRSQRTS */
++    case 0x12: /* FADDP */
+     case 0x13: /* FMUL */
+     case 0x14: /* FCMGE */
+     case 0x15: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
+                                            fpst);
+                 break;
+-            case 0x12: /* FADDP */
+-                gen_helper_advsimd_addh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x16: /* FMAXP */
+                 gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x12: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_NEON_PAIRWISE(neon_pmin, min)
+ #undef DO_NEON_PAIRWISE
++#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
++void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
++{                                                                          \
++    ARMVectorReg scratch;                                                  \
++    intptr_t oprsz = simd_oprsz(desc);                                     \
++    intptr_t half = oprsz / sizeof(TYPE) / 2;                              \
++    TYPE *d = vd, *n = vn, *m = vm;                                        \
++    if (unlikely(d == m)) {                                                \
++        m = memcpy(&scratch, m, oprsz);                                    \
++    }                                                                      \
++    for (intptr_t i = 0; i < half; ++i) {                                  \
++        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)], stat);                \
++    }                                                                      \
++    for (intptr_t i = 0; i < half; ++i) {                                  \
++        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)], stat);         \
++    }                                                                      \
++    clear_tail(d, oprsz, simd_maxsz(desc));                                \
++}
++
++DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
++DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
++DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
++
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
+     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+     {                                                                   \
+--
+.34.1

-[PULL 22/22] target/arm: Use FIELD definitions for CPACR, CPTR_ELx
+[PULL 35/42] target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-We had a few CPTR_* bits defined, but missed quite a few.
+These are the last instructions within disas_simd_three_reg_same_fp16,
-Complete all of the fields up to ARMv9.2.
+so remove it.
 Use FIELD_EX64 instead of manual extract32.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220517054850.177016-3-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    | 44 +++++++++++++++++++++++++++++++-----
+ target/arm/helper.h            |  16 ++
- hw/arm/boot.c       |  2 +-
+ target/arm/tcg/a64.decode      |  24 +++
- target/arm/cpu.c    | 11 ++++++---
+ target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
- target/arm/helper.c | 54 ++++++++++++++++++++++-----------------------
+ target/arm/tcg/vec_helper.c    |  16 ++
-files changed, 75 insertions(+), 36 deletions(-)
+files changed, 107 insertions(+), 245 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ void pmu_init(ARMCPU *cpu);
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- #define SCTLR_SPINTMASK (1ULL << 62) /* FEAT_NMI */
+ DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- #define SCTLR_TIDCP   (1ULL << 63) /* FEAT_TIDCP1 */
+ DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--#define CPTR_TCPAC    (1U << 31)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--#define CPTR_TTA      (1U << 20)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--#define CPTR_TFP      (1U << 10)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--#define CPTR_TZ       (1U << 8)   /* CPTR_EL2 */
++
--#define CPTR_EZ       (1U << 8)   /* CPTR_EL3 */
++DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+/* Bit definitions for CPACR (AArch32 only) */
++DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+FIELD(CPACR, CP10, 20, 2)
++DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+FIELD(CPACR, CP11, 22, 2)
++
-+FIELD(CPACR, TRCDIS, 28, 1)    /* matches CPACR_EL1.TTA */
++DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+FIELD(CPACR, D32DIS, 30, 1)    /* up to v7; RAZ in v8 */
++DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+FIELD(CPACR, ASEDIS, 31, 1)
++DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
-+/* Bit definitions for CPACR_EL1 (AArch64 only) */
++DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+FIELD(CPACR_EL1, ZEN, 16, 2)
++DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+FIELD(CPACR_EL1, FPEN, 20, 2)
++DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+FIELD(CPACR_EL1, SMEN, 24, 2)
++
-+FIELD(CPACR_EL1, TTA, 28, 1)   /* matches CPACR.TRCDIS */
+ #ifdef TARGET_AARCH64
-+
+ #include "tcg/helper-a64.h"
-+/* Bit definitions for HCPTR (AArch32 only) */
+ #include "tcg/helper-sve.h"
-+FIELD(HCPTR, TCP10, 10, 1)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 +FIELD(HCPTR, TCP11, 11, 1)
 +FIELD(HCPTR, TASE, 15, 1)
 +FIELD(HCPTR, TTA, 20, 1)
 +FIELD(HCPTR, TAM, 30, 1)       /* matches CPTR_EL2.TAM */
 +FIELD(HCPTR, TCPAC, 31, 1)     /* matches CPTR_EL2.TCPAC */
 +
 +/* Bit definitions for CPTR_EL2 (AArch64 only) */
 +FIELD(CPTR_EL2, TZ, 8, 1)      /* !E2H */
 +FIELD(CPTR_EL2, TFP, 10, 1)    /* !E2H, matches HCPTR.TCP10 */
 +FIELD(CPTR_EL2, TSM, 12, 1)    /* !E2H */
 +FIELD(CPTR_EL2, ZEN, 16, 2)    /* E2H */
 +FIELD(CPTR_EL2, FPEN, 20, 2)   /* E2H */
 +FIELD(CPTR_EL2, SMEN, 24, 2)   /* E2H */
 +FIELD(CPTR_EL2, TTA, 28, 1)
 +FIELD(CPTR_EL2, TAM, 30, 1)    /* matches HCPTR.TAM */
 +FIELD(CPTR_EL2, TCPAC, 31, 1)  /* matches HCPTR.TCPAC */
 +
 +/* Bit definitions for CPTR_EL3 (AArch64 only) */
 +FIELD(CPTR_EL3, EZ, 8, 1)
 +FIELD(CPTR_EL3, TFP, 10, 1)
 +FIELD(CPTR_EL3, ESM, 12, 1)
 +FIELD(CPTR_EL3, TTA, 20, 1)
 +FIELD(CPTR_EL3, TAM, 30, 1)
 +FIELD(CPTR_EL3, TCPAC, 31, 1)
  #define MDCR_EPMAD    (1U << 21)
  #define MDCR_EDAD     (1U << 20)
 diff --git a/hw/arm/boot.c b/hw/arm/boot.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/boot.c
+--- a/target/arm/tcg/a64.decode
-+++ b/hw/arm/boot.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static void do_cpu_reset(void *opaque)
+@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
-                         env->cp15.scr_el3 |= SCR_ATA;
+ FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
-                     }
+ FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
-                     if (cpu_isar_feature(aa64_sve, cpu)) {
--                        env->cp15.cptr_el[3] |= CPTR_EZ;
++FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
-+                        env->cp15.cptr_el[3] |= R_CPTR_EL3_EZ_MASK;
++FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
-                     }
++
-                     /* AArch64 kernels never boot in secure mode */
++FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
-                     assert(!info->secure_boot);
++FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
-diff --git a/target/arm/cpu.c b/target/arm/cpu.c
++
 +FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
 +FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
 +
 +FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
 +FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
  FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
  FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
 +FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
 +FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
 +FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
 +FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
 +FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/cpu.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(DeviceState *dev)
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
-         /* Trap on btype=3 for PACIxSP. */
+ };
-         env->cp15.sctlr_el[1] |= SCTLR_BT0;
+ TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
-         /* and to the FP/Neon instructions */
--        env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 20, 2, 3);
++static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
-+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
++    gen_helper_gvec_fmaxp_h,
-+                                         CPACR_EL1, FPEN, 3);
++    gen_helper_gvec_fmaxp_s,
-         /* and to the SVE instructions */
++    gen_helper_gvec_fmaxp_d,
--        env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 16, 2, 3);
++};
-+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
++TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
-+                                         CPACR_EL1, ZEN, 3);
++
-         /* with reasonable vector length */
++static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
-         if (cpu_isar_feature(aa64_sve, cpu)) {
++    gen_helper_gvec_fminp_h,
-             env->vfp.zcr_el[1] =
++    gen_helper_gvec_fminp_s,
-@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(DeviceState *dev)
++    gen_helper_gvec_fminp_d,
 +};
 +TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
 +    gen_helper_gvec_fmaxnump_h,
 +    gen_helper_gvec_fmaxnump_s,
 +    gen_helper_gvec_fmaxnump_d,
 +};
 +TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
 +    gen_helper_gvec_fminnump_h,
 +    gen_helper_gvec_fminnump_s,
 +    gen_helper_gvec_fminnump_d,
 +};
 +TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
  }
  TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
 +TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
 +TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
 +TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
 +TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
      int opcode = extract32(insn, 12, 5);
      int rn = extract32(insn, 5, 5);
      int rd = extract32(insn, 0, 5);
 -    TCGv_ptr fpst;
      /* For some ops (the FP ones), size[1] is part of the encoding.
       * For ADDP strictly it is not but size[1] is always 1 for valid
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
          if (!fp_access_check(s)) {
              return;
          }
 -
 -        fpst = NULL;
          break;
 +    default:
      case 0xc: /* FMAXNMP */
 +    case 0xd: /* FADDP */
      case 0xf: /* FMAXP */
      case 0x2c: /* FMINNMP */
      case 0x2f: /* FMINP */
 -        /* FP op, size[0] is 32 or 64 bit*/
 -        if (!u) {
 -            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
 -                unallocated_encoding(s);
 -                return;
 -            } else {
 -                size = MO_16;
 -            }
 -        } else {
 -            size = extract32(size, 0, 1) ? MO_64 : MO_32;
 -        }
 -
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -
 -        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
 -        break;
 -    default:
 -    case 0xd: /* FADDP */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
          case 0x3b: /* ADDP */
              tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
              break;
 -        case 0xc: /* FMAXNMP */
 -            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
 -        case 0xf: /* FMAXP */
 -            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
 -        case 0x2c: /* FMINNMP */
 -            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
 -        case 0x2f: /* FMINP */
 -            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
          default:
 +        case 0xc: /* FMAXNMP */
          case 0xd: /* FADDP */
 +        case 0xf: /* FMAXP */
 +        case 0x2c: /* FMINNMP */
 +        case 0x2f: /* FMINP */
              g_assert_not_reached();
          }
          write_fp_dreg(s, rd, tcg_res);
      } else {
- #if defined(CONFIG_USER_ONLY)
+-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-         /* Userspace expects access to cp10 and cp11 for FP/Neon */
+-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
--        env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 20, 4, 0xf);
+-        TCGv_i32 tcg_res = tcg_temp_new_i32();
-+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
+-
-+                                         CPACR, CP10, 3);
+-        read_vec_element_i32(s, tcg_op1, rn, 0, size);
-+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
+-        read_vec_element_i32(s, tcg_op2, rn, 1, size);
-+                                         CPACR, CP11, 3);
+-
- #endif
+-        if (size == MO_16) {
 -            switch (opcode) {
 -            case 0xc: /* FMAXNMP */
 -                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FMAXP */
 -                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2c: /* FMINNMP */
 -                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2f: /* FMINP */
 -                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0xd: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        } else {
 -            switch (opcode) {
 -            case 0xc: /* FMAXNMP */
 -                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FMAXP */
 -                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2c: /* FMINNMP */
 -                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2f: /* FMINP */
 -                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0xd: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        write_fp_sreg(s, rd, tcg_res);
 +        g_assert_not_reached();
      }
+ }
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
---- a/target/arm/helper.c
+ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
-+++ b/target/arm/helper.c
+                                    int size, int rn, int rm, int rd)
-@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+ {
-          */
+-    TCGv_ptr fpst;
-         if (cpu_isar_feature(aa32_vfp_simd, env_archcpu(env))) {
+     int pass;
-             /* VFP coprocessor: cp10 & cp11 [23:20] */
--            mask |= (1 << 31) | (1 << 30) | (0xf << 20);
+-    /* Floating point operations need fpst */
-+            mask |= R_CPACR_ASEDIS_MASK |
+-    if (opcode >= 0x58) {
-+                    R_CPACR_D32DIS_MASK |
+-        fpst = fpstatus_ptr(FPST_FPCR);
-+                    R_CPACR_CP11_MASK |
+-    } else {
-+                    R_CPACR_CP10_MASK;
+-        fpst = NULL;
+-    }
-             if (!arm_feature(env, ARM_FEATURE_NEON)) {
+-
-                 /* ASEDIS [31] bit is RAO/WI */
+     if (!fp_access_check(s)) {
--                value |= (1 << 31);
+         return;
-+                value |= R_CPACR_ASEDIS_MASK;
+     }
-             }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+             case 0x17: /* ADDP */
-             /* VFPv3 and upwards with NEON implement 32 double precision
+                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
-@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                 break;
-              */
+-            case 0x58: /* FMAXNMP */
-             if (!cpu_isar_feature(aa32_simd_r32, env_archcpu(env))) {
+-                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                 /* D32DIS [30] is RAO/WI if D16-31 are not implemented. */
+-                break;
--                value |= (1 << 30);
+-            case 0x5e: /* FMAXP */
-+                value |= R_CPACR_D32DIS_MASK;
+-                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
          }
-         value &= mask;
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
-@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                 genfn = fns[size][u];
-      */
+                 break;
-     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
+             }
-         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
+-            /* The FP operations are all on single floats (32 bit) */
--        value &= ~(0xf << 20);
+-            case 0x58: /* FMAXNMP */
--        value |= env->cp15.cpacr_el1 & (0xf << 20);
+-                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-+        mask = R_CPACR_CP11_MASK | R_CPACR_CP10_MASK;
+-                break;
-+        value = (value & ~mask) | (env->cp15.cpacr_el1 & mask);
+-            case 0x5e: /* FMAXP */
 -                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      }
-     env->cp15.cpacr_el1 = value;
+     switch (fpopcode) {
-@@ -XXX,XX +XXX,XX @@ static uint64_t cpacr_read(CPUARMState *env, const ARMCPRegInfo *ri)
+-    case 0x58: /* FMAXNMP */
+-    case 0x5e: /* FMAXP */
-     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
+-    case 0x78: /* FMINNMP */
-         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
+-    case 0x7e: /* FMINP */
--        value &= ~(0xf << 20);
+-        if (size && !is_q) {
-+        value = ~(R_CPACR_CP11_MASK | R_CPACR_CP10_MASK);
+-            unallocated_encoding(s);
 -            return;
 -        }
 -        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
 -                               rn, rm, rd);
 -        return;
 -
      case 0x1d: /* FMLAL  */
      case 0x3d: /* FMLSL  */
      case 0x59: /* FMLAL2 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x3f: /* FRSQRTS */
 +    case 0x58: /* FMAXNMP */
      case 0x5a: /* FADDP */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
 +    case 0x5e: /* FMAXP */
      case 0x5f: /* FDIV */
 +    case 0x78: /* FMINNMP */
      case 0x7a: /* FABD */
      case 0x7d: /* FACGT */
      case 0x7c: /* FCMGT */
 +    case 0x7e: /* FMINP */
          unallocated_encoding(s);
          return;
      }
-     return value;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      }
  }
-@@ -XXX,XX +XXX,XX @@ static CPAccessResult cpacr_access(CPUARMState *env, const ARMCPRegInfo *ri,
-     if (arm_feature(env, ARM_FEATURE_V8)) {
+-/*
-         /* Check if CPACR accesses are to be trapped to EL2 */
+- * Advanced SIMD three same (ARMv8.2 FP16 variants)
-         if (arm_current_el(env) == 1 && arm_is_el2_enabled(env) &&
+- *
--            (env->cp15.cptr_el[2] & CPTR_TCPAC)) {
+- *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
-+            FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TCPAC)) {
+- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
-             return CP_ACCESS_TRAP_EL2;
+- * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
-         /* Check if CPACR accesses are to be trapped to EL3 */
+- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
-         } else if (arm_current_el(env) < 3 &&
+- *
--                   (env->cp15.cptr_el[3] & CPTR_TCPAC)) {
+- * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
-+                   FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, TCPAC)) {
+- * (register), FACGE, FABD, FCMGT (register) and FACGT.
-             return CP_ACCESS_TRAP_EL3;
+- *
-         }
+- */
-     }
+-static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static CPAccessResult cptr_access(CPUARMState *env, const ARMCPRegInfo *ri,
+-{
-                                   bool isread)
+-    int opcode = extract32(insn, 11, 3);
- {
+-    int u = extract32(insn, 29, 1);
-     /* Check if CPTR accesses are set to trap to EL3 */
+-    int a = extract32(insn, 23, 1);
--    if (arm_current_el(env) == 2 && (env->cp15.cptr_el[3] & CPTR_TCPAC)) {
+-    int is_q = extract32(insn, 30, 1);
-+    if (arm_current_el(env) == 2 &&
+-    int rm = extract32(insn, 16, 5);
-+        FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, TCPAC)) {
+-    int rn = extract32(insn, 5, 5);
-         return CP_ACCESS_TRAP_EL3;
+-    int rd = extract32(insn, 0, 5);
-     }
+-    /*
+-     * For these floating point ops, the U, a and opcode bits
-@@ -XXX,XX +XXX,XX @@ static void cptr_el2_write(CPUARMState *env, const ARMCPRegInfo *ri,
+-     * together indicate the operation.
-      */
+-     */
-     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
+-    int fpopcode = opcode | (a << 3) | (u << 4);
-         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
+-    bool pairwise;
--        value &= ~(0x3 << 10);
+-    TCGv_ptr fpst;
--        value |= env->cp15.cptr_el[2] & (0x3 << 10);
+-    int pass;
-+        uint64_t mask = R_HCPTR_TCP11_MASK | R_HCPTR_TCP10_MASK;
+-
-+        value = (value & ~mask) | (env->cp15.cptr_el[2] & mask);
+-    switch (fpopcode) {
-     }
+-    case 0x10: /* FMAXNMP */
-     env->cp15.cptr_el[2] = value;
+-    case 0x16: /* FMAXP */
- }
+-    case 0x18: /* FMINNMP */
-@@ -XXX,XX +XXX,XX @@ static uint64_t cptr_el2_read(CPUARMState *env, const ARMCPRegInfo *ri)
+-    case 0x1e: /* FMINP */
+-        pairwise = true;
-     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
+-        break;
-         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
+-    default:
--        value |= 0x3 << 10;
+-    case 0x0: /* FMAXNM */
-+        value |= R_HCPTR_TCP11_MASK | R_HCPTR_TCP10_MASK;
+-    case 0x1: /* FMLA */
-     }
+-    case 0x2: /* FADD */
-     return value;
+-    case 0x3: /* FMULX */
- }
+-    case 0x4: /* FCMEQ */
-@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
+-    case 0x6: /* FMAX */
-     uint64_t hcr_el2 = arm_hcr_el2_eff(env);
+-    case 0x7: /* FRECPS */
+-    case 0x8: /* FMINNM */
-     if (el <= 1 && (hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
+-    case 0x9: /* FMLS */
--        /* Check CPACR.ZEN.  */
+-    case 0xa: /* FSUB */
--        switch (extract32(env->cp15.cpacr_el1, 16, 2)) {
+-    case 0xe: /* FMIN */
-+        switch (FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, ZEN)) {
+-    case 0xf: /* FRSQRTS */
-         case 1:
+-    case 0x12: /* FADDP */
-             if (el != 0) {
+-    case 0x13: /* FMUL */
-                 break;
+-    case 0x14: /* FCMGE */
-@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
+-    case 0x15: /* FACGE */
-         }
+-    case 0x17: /* FDIV */
+-    case 0x1a: /* FABD */
-         /* Check CPACR.FPEN.  */
+-    case 0x1c: /* FCMGT */
--        switch (extract32(env->cp15.cpacr_el1, 20, 2)) {
+-    case 0x1d: /* FACGT */
-+        switch (FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, FPEN)) {
+-        unallocated_encoding(s);
-         case 1:
+-        return;
-             if (el != 0) {
+-    }
-                 break;
+-
-@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
+-    if (!dc_isar_feature(aa64_fp16, s)) {
-      */
+-        unallocated_encoding(s);
-     if (el <= 2) {
+-        return;
-         if (hcr_el2 & HCR_E2H) {
+-    }
--            /* Check CPTR_EL2.ZEN.  */
+-
--            switch (extract32(env->cp15.cptr_el[2], 16, 2)) {
+-    if (!fp_access_check(s)) {
-+            switch (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, ZEN)) {
+-        return;
-             case 1:
+-    }
-                 if (el != 0 || !(hcr_el2 & HCR_TGE)) {
+-
-                     break;
+-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
+-
-                 return 2;
+-    if (pairwise) {
-             }
+-        int maxpass = is_q ? 8 : 4;
+-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
--            /* Check CPTR_EL2.FPEN.  */
+-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
--            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
+-        TCGv_i32 tcg_res[8];
-+            switch (FIELD_EX32(env->cp15.cptr_el[2], CPTR_EL2, FPEN)) {
+-
-             case 1:
+-        for (pass = 0; pass < maxpass; pass++) {
-                 if (el == 2 || !(hcr_el2 & HCR_TGE)) {
+-            int passreg = pass < (maxpass / 2) ? rn : rm;
-                     break;
+-            int passelt = (pass << 1) & (maxpass - 1);
-@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
+-
-                 return 0;
+-            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
-             }
+-            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
-         } else if (arm_is_el2_enabled(env)) {
+-            tcg_res[pass] = tcg_temp_new_i32();
--            if (env->cp15.cptr_el[2] & CPTR_TZ) {
+-
-+            if (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TZ)) {
+-            switch (fpopcode) {
-                 return 2;
+-            case 0x10: /* FMAXNMP */
-             }
+-                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
--            if (env->cp15.cptr_el[2] & CPTR_TFP) {
+-                                           fpst);
-+            if (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TFP)) {
+-                break;
-                 return 0;
+-            case 0x16: /* FMAXP */
-             }
+-                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-         }
+-                break;
-@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
+-            case 0x18: /* FMINNMP */
+-                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
-     /* CPTR_EL3.  Since EZ is negative we must check for EL3.  */
+-                                           fpst);
-     if (arm_feature(env, ARM_FEATURE_EL3)
+-                break;
--        && !(env->cp15.cptr_el[3] & CPTR_EZ)) {
+-            case 0x1e: /* FMINP */
-+        && !FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, EZ)) {
+-                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-         return 3;
+-                break;
-     }
+-            default:
- #endif
+-            case 0x12: /* FADDP */
-@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
+-                g_assert_not_reached();
-      * This register is ignored if E2H+TGE are both set.
+-            }
-      */
+-        }
-     if ((hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
+-
--        int fpen = extract32(env->cp15.cpacr_el1, 20, 2);
+-        for (pass = 0; pass < maxpass; pass++) {
-+        int fpen = FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, FPEN);
+-            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
+-        }
-         switch (fpen) {
+-    } else {
-         case 0:
+-        g_assert_not_reached();
-@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
+-    }
-      */
+-
-     if (cur_el <= 2) {
+-    clear_vec_high(s, is_q, rd);
-         if (hcr_el2 & HCR_E2H) {
+-}
--            /* Check CPTR_EL2.FPEN.  */
+-
--            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
+ /* AdvSIMD three same extra
-+            switch (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, FPEN)) {
+  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
-             case 1:
+  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
-                 if (cur_el != 0 || !(hcr_el2 & HCR_TGE)) {
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-                     break;
+     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
-@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
-                 return 2;
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-             }
+-    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-         } else if (arm_is_el2_enabled(env)) {
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
--            if (env->cp15.cptr_el[2] & CPTR_TFP) {
+     { 0x00000000, 0x00000000, NULL }
-+            if (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TFP)) {
+ };
-                 return 2;
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
-             }
+index XXXXXXX..XXXXXXX 100644
-         }
+--- a/target/arm/tcg/vec_helper.c
-     }
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
-     /* CPTR_EL3 : present in v8 */
+ DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
--    if (env->cp15.cptr_el[3] & CPTR_TFP) {
+ DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
-+    if (FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, TFP)) {
-         /* Trap all FP ops to EL3 */
++DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
-         return 3;
++DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
-     }
++DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
 +
 +DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
 +DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
 +DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
 +
 +DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
 +DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
 +DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
 +
 +DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
 +DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
 +DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
 +
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
      void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
      {                                                                   \
 --
-.25.1
+.34.1

-[PULL 18/22] hw/arm/virt: Drop #size-cells and #address-cells from gpio-keys dtb node
+[PULL 36/42] target/arm: Use gvec for neon faddp, fmaxp, fminp
-The virt board generates a gpio-keys node in the dtb, but it
+From: Richard Henderson <richard.henderson@linaro.org>
 incorrectly gives this node #size-cells and #address-cells
 properties. If you dump the dtb with 'machine dumpdtb=file.dtb'
 and run it through dtc, dtc will warn about this:
-Warning (avoid_unnecessary_addr_size): /gpio-keys: unnecessary #address-cells/#size-cells without "ranges" or child "reg" property
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/helper.h             |  7 -----
  target/arm/tcg/translate-neon.c | 55 ++-------------------------------
  target/arm/tcg/vec_helper.c     | 45 ---------------------------
 files changed, 3 insertions(+), 104 deletions(-)
-Remove the bogus properties.
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220513131316.4081539-3-peter.maydell@linaro.org
 ---
  hw/arm/virt.c | 2 --
 file changed, 2 deletions(-)
 diff --git a/hw/arm/virt.c b/hw/arm/virt.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt.c
+--- a/target/arm/helper.h
-+++ b/hw/arm/virt.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void create_gpio_keys(char *fdt, DeviceState *pl061_dev,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
+ DEF_HELPER_FLAGS_6(gvec_fcmlad, TCG_CALL_NO_RWG,
-     qemu_fdt_add_subnode(fdt, "/gpio-keys");
+                    void, ptr, ptr, ptr, ptr, ptr, i32)
-     qemu_fdt_setprop_string(fdt, "/gpio-keys", "compatible", "gpio-keys");
--    qemu_fdt_setprop_cell(fdt, "/gpio-keys", "#size-cells", 0);
+-DEF_HELPER_FLAGS_5(neon_paddh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--    qemu_fdt_setprop_cell(fdt, "/gpio-keys", "#address-cells", 1);
+-DEF_HELPER_FLAGS_5(neon_pmaxh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+-DEF_HELPER_FLAGS_5(neon_pminh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-     qemu_fdt_add_subnode(fdt, "/gpio-keys/poweroff");
+-DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-     qemu_fdt_setprop_string(fdt, "/gpio-keys/poweroff",
+-DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -
  DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-neon.c
 +++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
  DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
  DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
  DO_3S_FP_GVEC(VRSQRTS, gen_helper_gvec_rsqrts_nf_s, gen_helper_gvec_rsqrts_nf_h)
 +DO_3S_FP_GVEC(VPADD, gen_helper_gvec_faddp_s, gen_helper_gvec_faddp_h)
 +DO_3S_FP_GVEC(VPMAX, gen_helper_gvec_fmaxp_s, gen_helper_gvec_fmaxp_h)
 +DO_3S_FP_GVEC(VPMIN, gen_helper_gvec_fminp_s, gen_helper_gvec_fminp_h)
  WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
  WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
      return do_3same(s, a, gen_VMINNM_fp32_3s);
  }
 -static bool do_3same_fp_pair(DisasContext *s, arg_3same *a,
 -                             gen_helper_gvec_3_ptr *fn)
 -{
 -    /* FP pairwise operations */
 -    TCGv_ptr fpstatus;
 -
 -    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 -        return false;
 -    }
 -
 -    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vn | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    assert(a->q == 0); /* enforced by decode patterns */
 -
 -
 -    fpstatus = fpstatus_ptr(a->size == MO_16 ? FPST_STD_F16 : FPST_STD);
 -    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
 -                       vfp_reg_offset(1, a->vn),
 -                       vfp_reg_offset(1, a->vm),
 -                       fpstatus, 8, 8, 0, fn);
 -
 -    return true;
 -}
 -
 -/*
 - * For all the functions using this macro, size == 1 means fp16,
 - * which is an architecture extension we don't implement yet.
 - */
 -#define DO_3S_FP_PAIR(INSN,FUNC)                                    \
 -    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
 -    {                                                               \
 -        if (a->size == MO_16) {                                     \
 -            if (!dc_isar_feature(aa32_fp16_arith, s)) {             \
 -                return false;                                       \
 -            }                                                       \
 -            return do_3same_fp_pair(s, a, FUNC##h);                 \
 -        }                                                           \
 -        return do_3same_fp_pair(s, a, FUNC##s);                     \
 -    }
 -
 -DO_3S_FP_PAIR(VPADD, gen_helper_neon_padd)
 -DO_3S_FP_PAIR(VPMAX, gen_helper_neon_pmax)
 -DO_3S_FP_PAIR(VPMIN, gen_helper_neon_pmin)
 -
  static bool do_vector_2sh(DisasContext *s, arg_2reg_shift *a, GVecGen2iFn *fn)
  {
      /* Handle a 2-reg-shift insn which can be vectorized. */
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_d, uint64_t)
  #undef DO_ABA
 -#define DO_NEON_PAIRWISE(NAME, OP)                                      \
 -    void HELPER(NAME##s)(void *vd, void *vn, void *vm,                  \
 -                         void *stat, uint32_t oprsz)                    \
 -    {                                                                   \
 -        float_status *fpst = stat;                                      \
 -        float32 *d = vd;                                                \
 -        float32 *n = vn;                                                \
 -        float32 *m = vm;                                                \
 -        float32 r0, r1;                                                 \
 -                                                                        \
 -        /* Read all inputs before writing outputs in case vm == vd */   \
 -        r0 = float32_##OP(n[H4(0)], n[H4(1)], fpst);                    \
 -        r1 = float32_##OP(m[H4(0)], m[H4(1)], fpst);                    \
 -                                                                        \
 -        d[H4(0)] = r0;                                                  \
 -        d[H4(1)] = r1;                                                  \
 -    }                                                                   \
 -                                                                        \
 -    void HELPER(NAME##h)(void *vd, void *vn, void *vm,                  \
 -                         void *stat, uint32_t oprsz)                    \
 -    {                                                                   \
 -        float_status *fpst = stat;                                      \
 -        float16 *d = vd;                                                \
 -        float16 *n = vn;                                                \
 -        float16 *m = vm;                                                \
 -        float16 r0, r1, r2, r3;                                         \
 -                                                                        \
 -        /* Read all inputs before writing outputs in case vm == vd */   \
 -        r0 = float16_##OP(n[H2(0)], n[H2(1)], fpst);                    \
 -        r1 = float16_##OP(n[H2(2)], n[H2(3)], fpst);                    \
 -        r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
 -        r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
 -                                                                        \
 -        d[H2(0)] = r0;                                                  \
 -        d[H2(1)] = r1;                                                  \
 -        d[H2(2)] = r2;                                                  \
 -        d[H2(3)] = r3;                                                  \
 -    }
 -
 -DO_NEON_PAIRWISE(neon_padd, add)
 -DO_NEON_PAIRWISE(neon_pmax, max)
 -DO_NEON_PAIRWISE(neon_pmin, min)
 -
 -#undef DO_NEON_PAIRWISE
 -
  #define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
 --
-.25.1
+.34.1

-[PULL 02/22] target/arm: Factor out FWB=0 specific part of combine_cacheattrs()
+[PULL 37/42] target/arm: Convert ADDP to decodetree
-Factor out the part of combine_cacheattrs() that is specific to
+From: Richard Henderson <richard.henderson@linaro.org>
 handling HCR_EL2.FWB == 0.  This is the part where we combine the
 memory type and cacheability attributes.
-The "force Outer Shareable for Device or Normal Inner-NC Outer-NC"
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-logic remains in combine_cacheattrs() because it holds regardless
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-(this is the equivalent of the pseudocode EffectiveShareability()
+Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
-function).
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/helper.h            |   5 ++
  target/arm/tcg/translate.h     |   3 +
  target/arm/tcg/a64.decode      |   6 ++
  target/arm/tcg/gengvec.c       |  12 ++++
  target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
  target/arm/tcg/vec_helper.c    |  30 ++++++++
 files changed, 77 insertions(+), 107 deletions(-)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper.h b/target/arm/helper.h
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+index XXXXXXX..XXXXXXX 100644
-Message-id: 20220505183950.2781801-3-peter.maydell@linaro.org
+--- a/target/arm/helper.h
----
++++ b/target/arm/helper.h
- target/arm/helper.c | 88 +++++++++++++++++++++++++--------------------
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i
-file changed, 50 insertions(+), 38 deletions(-)
+ DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
-index XXXXXXX..XXXXXXX 100644
++DEF_HELPER_FLAGS_4(gvec_addp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
---- a/target/arm/helper.c
++DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+++ b/target/arm/helper.c
++DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@ static uint8_t combine_cacheattr_nibble(uint8_t s1, uint8_t s2)
++DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "tcg/helper-a64.h"
  #include "tcg/helper-sve.h"
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
  void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                     uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
  &qrrrr_e        q rd rn rm ra esz
  @rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
 +@rr_d           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=3
  @rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
  @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
@@ -XXX,XX +XXX,XX @@
  @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
  @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 +@qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
  @qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
                  &qrrx_e esz=1 idx=%hlm
@@ -XXX,XX +XXX,XX @@ FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
  FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
  FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
 +ADDP_s          0101 1110 1111 0001 1011 10 ..... ..... @rr_d
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
  FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
  FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/gengvec.c
 +++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      };
      tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
  }
 +
 +void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_addp_b,
 +        gen_helper_gvec_addp_h,
 +        gen_helper_gvec_addp_s,
 +        gen_helper_gvec_addp_d,
 +    };
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  };
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
  TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
  TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
 +static bool trans_ADDP_s(DisasContext *s, arg_rr_e *a)
 +{
 +    if (fp_access_check(s)) {
 +        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +        read_vec_element(s, t0, a->rn, 0, MO_64);
 +        read_vec_element(s, t1, a->rn, 1, MO_64);
 +        tcg_gen_add_i64(t0, t0, t1);
 +        write_fp_dreg(s, a->rd, t0);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
  }
-+/*
+-/* AdvSIMD scalar pairwise
-+ * Combine the memory type and cacheability attributes of
+- *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
-+ * s1 and s2 for the HCR_EL2.FWB == 0 case, returning the
+- * +-----+---+-----------+------+-----------+--------+-----+------+------+
-+ * combined attributes in MAIR_EL1 format.
+- * | 0 1 | U | 1 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
-+ */
+- * +-----+---+-----------+------+-----------+--------+-----+------+------+
-+static uint8_t combined_attrs_nofwb(CPUARMState *env,
+- */
-+                                    ARMCacheAttrs s1, ARMCacheAttrs s2)
+-static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-+{
+-{
-+    uint8_t s1lo, s2lo, s1hi, s2hi, s2_mair_attrs, ret_attrs;
+-    int u = extract32(insn, 29, 1);
-+
+-    int size = extract32(insn, 22, 2);
-+    s2_mair_attrs = convert_stage2_attrs(env, s2.attrs);
+-    int opcode = extract32(insn, 12, 5);
-+
+-    int rn = extract32(insn, 5, 5);
-+    s1lo = extract32(s1.attrs, 0, 4);
+-    int rd = extract32(insn, 0, 5);
-+    s2lo = extract32(s2_mair_attrs, 0, 4);
+-
-+    s1hi = extract32(s1.attrs, 4, 4);
+-    /* For some ops (the FP ones), size[1] is part of the encoding.
-+    s2hi = extract32(s2_mair_attrs, 4, 4);
+-     * For ADDP strictly it is not but size[1] is always 1 for valid
-+
+-     * encodings.
-+    /* Combine memory type and cacheability attributes */
+-     */
-+    if (s1hi == 0 || s2hi == 0) {
+-    opcode |= (extract32(size, 1, 1) << 5);
-+        /* Device has precedence over normal */
+-
-+        if (s1lo == 0 || s2lo == 0) {
+-    switch (opcode) {
-+            /* nGnRnE has precedence over anything */
+-    case 0x3b: /* ADDP */
-+            ret_attrs = 0;
+-        if (u || size != 3) {
-+        } else if (s1lo == 4 || s2lo == 4) {
+-            unallocated_encoding(s);
-+            /* non-Reordering has precedence over Reordering */
+-            return;
-+            ret_attrs = 4;  /* nGnRE */
+-        }
-+        } else if (s1lo == 8 || s2lo == 8) {
+-        if (!fp_access_check(s)) {
-+            /* non-Gathering has precedence over Gathering */
+-            return;
-+            ret_attrs = 8;  /* nGRE */
+-        }
-+        } else {
+-        break;
-+            ret_attrs = 0xc; /* GRE */
+-    default:
-+        }
+-    case 0xc: /* FMAXNMP */
-+    } else { /* Normal memory */
+-    case 0xd: /* FADDP */
-+        /* Outer/inner cacheability combine independently */
+-    case 0xf: /* FMAXP */
-+        ret_attrs = combine_cacheattr_nibble(s1hi, s2hi) << 4
+-    case 0x2c: /* FMINNMP */
-+                  | combine_cacheattr_nibble(s1lo, s2lo);
+-    case 0x2f: /* FMINP */
-+    }
+-        unallocated_encoding(s);
-+    return ret_attrs;
+-        return;
 -    }
 -
 -    if (size == MO_64) {
 -        TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -        TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -        TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -        read_vec_element(s, tcg_op1, rn, 0, MO_64);
 -        read_vec_element(s, tcg_op2, rn, 1, MO_64);
 -
 -        switch (opcode) {
 -        case 0x3b: /* ADDP */
 -            tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
 -            break;
 -        default:
 -        case 0xc: /* FMAXNMP */
 -        case 0xd: /* FADDP */
 -        case 0xf: /* FMAXP */
 -        case 0x2c: /* FMINNMP */
 -        case 0x2f: /* FMINP */
 -            g_assert_not_reached();
 -        }
 -
 -        write_fp_dreg(s, rd, tcg_res);
 -    } else {
 -        g_assert_not_reached();
 -    }
 -}
 -
  /*
   * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
   *
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
       * adjacent elements being operated on to produce an element in the result.
       */
      if (size == 3) {
 -        TCGv_i64 tcg_res[2];
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -            int passreg = (pass == 0) ? rn : rm;
 -
 -            read_vec_element(s, tcg_op1, passreg, 0, MO_64);
 -            read_vec_element(s, tcg_op2, passreg, 1, MO_64);
 -            tcg_res[pass] = tcg_temp_new_i64();
 -
 -            switch (opcode) {
 -            case 0x17: /* ADDP */
 -                tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
 -                break;
 -            default:
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
 -        }
 +        g_assert_not_reached();
      } else {
          int maxpass = is_q ? 4 : 2;
          TCGv_i32 tcg_res[4];
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
              tcg_res[pass] = tcg_temp_new_i32();
              switch (opcode) {
 -            case 0x17: /* ADDP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3] = {
 -                    gen_helper_neon_padd_u8,
 -                    gen_helper_neon_padd_u16,
 -                    tcg_gen_add_i32,
 -                };
 -                genfn = fns[size];
 -                break;
 -            }
              case 0x14: /* SMAXP, UMAXP */
              {
                  static NeonGenTwoOpFn * const fns[3][2] = {
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  break;
              }
              default:
 +            case 0x17: /* ADDP */
              case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
              case 0x5e: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x17: /* ADDP */
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      default:
          disas_simd_3same_int(s, insn);
          break;
 +    case 0x17: /* ADDP */
 +        unallocated_encoding(s);
 +        break;
      }
  }
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e008400, 0xdf208400, disas_simd_scalar_three_reg_same_extra },
      { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
      { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
 -    { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
  DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
  DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
 +#undef DO_3OP_PAIR
 +
 +#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
 +{                                                               \
 +    ARMVectorReg scratch;                                       \
 +    intptr_t oprsz = simd_oprsz(desc);                          \
 +    intptr_t half = oprsz / sizeof(TYPE) / 2;                   \
 +    TYPE *d = vd, *n = vn, *m = vm;                             \
 +    if (unlikely(d == m)) {                                     \
 +        m = memcpy(&scratch, m, oprsz);                         \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)]);           \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)]);    \
 +    }                                                           \
 +    clear_tail(d, oprsz, simd_maxsz(desc));                     \
 +}
 +
- /* Combine S1 and S2 cacheability/shareability attributes, per D4.5.4
++#define ADD(A, B) (A + B)
-  * and CombineS1S2Desc()
++DO_3OP_PAIR(gvec_addp_b, ADD, uint8_t, H1)
-  *
++DO_3OP_PAIR(gvec_addp_h, ADD, uint16_t, H2)
-@@ -XXX,XX +XXX,XX @@ static uint8_t combine_cacheattr_nibble(uint8_t s1, uint8_t s2)
++DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
- static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
++DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
-                                         ARMCacheAttrs s1, ARMCacheAttrs s2)
++#undef  ADD
- {
++
--    uint8_t s1lo, s2lo, s1hi, s2hi;
++#undef DO_3OP_PAIR
-     ARMCacheAttrs ret;
++
-     bool tagged = false;
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
--    uint8_t s2_mair_attrs;
+     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+     {                                                                   \
      assert(s2.is_s2_format && !s1.is_s2_format);
      ret.is_s2_format = false;
 -    s2_mair_attrs = convert_stage2_attrs(env, s2.attrs);
 -
      if (s1.attrs == 0xf0) {
          tagged = true;
          s1.attrs = 0xff;
      }
 -    s1lo = extract32(s1.attrs, 0, 4);
 -    s2lo = extract32(s2_mair_attrs, 0, 4);
 -    s1hi = extract32(s1.attrs, 4, 4);
 -    s2hi = extract32(s2_mair_attrs, 4, 4);
 -
      /* Combine shareability attributes (table D4-43) */
      if (s1.shareability == 2 || s2.shareability == 2) {
          /* if either are outer-shareable, the result is outer-shareable */
@@ -XXX,XX +XXX,XX @@ static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
      }
      /* Combine memory type and cacheability attributes */
 -    if (s1hi == 0 || s2hi == 0) {
 -        /* Device has precedence over normal */
 -        if (s1lo == 0 || s2lo == 0) {
 -            /* nGnRnE has precedence over anything */
 -            ret.attrs = 0;
 -        } else if (s1lo == 4 || s2lo == 4) {
 -            /* non-Reordering has precedence over Reordering */
 -            ret.attrs = 4;  /* nGnRE */
 -        } else if (s1lo == 8 || s2lo == 8) {
 -            /* non-Gathering has precedence over Gathering */
 -            ret.attrs = 8;  /* nGRE */
 -        } else {
 -            ret.attrs = 0xc; /* GRE */
 -        }
 +    ret.attrs = combined_attrs_nofwb(env, s1, s2);
 -        /* Any location for which the resultant memory type is any
 -         * type of Device memory is always treated as Outer Shareable.
 -         */
 +    /*
 +     * Any location for which the resultant memory type is any
 +     * type of Device memory is always treated as Outer Shareable.
 +     * Any location for which the resultant memory type is Normal
 +     * Inner Non-cacheable, Outer Non-cacheable is always treated
 +     * as Outer Shareable.
 +     * TODO: FEAT_XS adds another value (0x40) also meaning iNCoNC
 +     */
 +    if ((ret.attrs & 0xf0) == 0 || ret.attrs == 0x44) {
          ret.shareability = 2;
 -    } else { /* Normal memory */
 -        /* Outer/inner cacheability combine independently */
 -        ret.attrs = combine_cacheattr_nibble(s1hi, s2hi) << 4
 -                  | combine_cacheattr_nibble(s1lo, s2lo);
 -
 -        if (ret.attrs == 0x44) {
 -            /* Any location for which the resultant memory type is Normal
 -             * Inner Non-cacheable, Outer Non-cacheable is always treated
 -             * as Outer Shareable.
 -             */
 -            ret.shareability = 2;
 -        }
      }
      /* TODO: CombineS1S2Desc does not consider transient, only WB, RWA. */
 --
-.25.1
+.34.1

-[PULL 09/22] hw/intc/arm_gicv3_kvm.c: Stop using GIC_MIN_BPR constant
+[PULL 38/42] target/arm: Use gvec for neon padd
-The GIC_MIN_BPR constant defines the minimum BPR value that the TCG
+From: Richard Henderson <richard.henderson@linaro.org>
 emulated GICv3 supports.  We're currently using this also as the
 value we reset the KVM GICv3 ICC_BPR registers to, but this is only
 right by accident.
-We want to make the emulated GICv3 use a configurable number of
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-priority bits, which means that GIC_MIN_BPR will no longer be a
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-constant.  Replace the uses in the KVM reset code with literal 0,
+Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
-plus a constant explaining why this is reasonable.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/helper.h             | 2 --
  target/arm/tcg/neon_helper.c    | 5 -----
  target/arm/tcg/translate-neon.c | 3 +--
 files changed, 1 insertion(+), 9 deletions(-)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220512151457.3899052-4-peter.maydell@linaro.org
 Message-id: 20220506162129.2896966-3-peter.maydell@linaro.org
 ---
  hw/intc/arm_gicv3_kvm.c | 16 +++++++++++++---
 file changed, 13 insertions(+), 3 deletions(-)
 diff --git a/hw/intc/arm_gicv3_kvm.c b/hw/intc/arm_gicv3_kvm.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_kvm.c
+--- a/target/arm/helper.h
-+++ b/hw/intc/arm_gicv3_kvm.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void arm_gicv3_icc_reset(CPUARMState *env, const ARMCPRegInfo *ri)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
-     s = c->gic;
+ DEF_HELPER_2(neon_add_u8, i32, i32, i32)
-     c->icc_pmr_el1 = 0;
+ DEF_HELPER_2(neon_add_u16, i32, i32, i32)
--    c->icc_bpr[GICV3_G0] = GIC_MIN_BPR;
+-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
--    c->icc_bpr[GICV3_G1] = GIC_MIN_BPR;
+-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
--    c->icc_bpr[GICV3_G1NS] = GIC_MIN_BPR;
+ DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
-+    /*
+ DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
-+     * Architecturally the reset value of the ICC_BPR registers
+ DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
-+     * is UNKNOWN. We set them all to 0 here; when the kernel
+diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
-+     * uses these values to program the ICH_VMCR_EL2 fields that
+index XXXXXXX..XXXXXXX 100644
-+     * determine the guest-visible ICC_BPR register values, the
+--- a/target/arm/tcg/neon_helper.c
-+     * hardware's "writing a value less than the minimum sets
++++ b/target/arm/tcg/neon_helper.c
-+     * the field to the minimum value" behaviour will result in
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
-+     * them effectively resetting to the correct minimum value
+     return (a + b) ^ mask;
-+     * for the host GIC.
+ }
-+     */
-+    c->icc_bpr[GICV3_G0] = 0;
+-#define NEON_FN(dest, src1, src2) dest = src1 + src2
-+    c->icc_bpr[GICV3_G1] = 0;
+-NEON_POP(padd_u8, neon_u8, 4)
-+    c->icc_bpr[GICV3_G1NS] = 0;
+-NEON_POP(padd_u16, neon_u16, 2)
+-#undef NEON_FN
-     c->icc_sre_el1 = 0x7;
+-
-     memset(c->icc_apr, 0, sizeof(c->icc_apr));
+ #define NEON_FN(dest, src1, src2) dest = src1 - src2
  NEON_VOP(sub_u8, neon_u8, 4)
  NEON_VOP(sub_u16, neon_u16, 2)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-neon.c
 +++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
  DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
  DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
  DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
 +DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
  #define DO_3SAME_CMP(INSN, COND)                                        \
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
  #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
  #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
  #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -#define gen_helper_neon_padd_u32  tcg_gen_add_i32
  DO_3SAME_PAIR(VPMAX_S, pmax_s)
  DO_3SAME_PAIR(VPMIN_S, pmin_s)
  DO_3SAME_PAIR(VPMAX_U, pmax_u)
  DO_3SAME_PAIR(VPMIN_U, pmin_u)
 -DO_3SAME_PAIR(VPADD, padd_u)
  #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
      WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
 --
-.25.1
+.34.1

-[PULL 11/22] hw/intc/arm_gicv3: Use correct number of priority bits for the CPU
+[PULL 39/42] target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
-Make the GICv3 set its number of bits of physical priority from the
+From: Richard Henderson <richard.henderson@linaro.org>
 implementation-specific value provided in the CPU state struct, in
 the same way we already do for virtual priority bits.  Because this
 would be a migration compatibility break, we provide a property
 force-8-bit-prio which is enabled for 7.0 and earlier versioned board
 models to retain the legacy "always use 8 bits" behaviour.
+These are the last instructions within handle_simd_3same_pair
+so remove it.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220512151457.3899052-6-peter.maydell@linaro.org
-Message-id: 20220506162129.2896966-5-peter.maydell@linaro.org
 ---
- include/hw/intc/arm_gicv3_common.h |  1 +
+ target/arm/helper.h            |  16 +++++
- target/arm/cpu.h                   |  1 +
+ target/arm/tcg/translate.h     |   8 +++
- hw/core/machine.c                  |  4 +++-
+ target/arm/tcg/a64.decode      |   4 ++
- hw/intc/arm_gicv3_common.c         |  5 +++++
+ target/arm/tcg/gengvec.c       |  48 +++++++++++++
- hw/intc/arm_gicv3_cpuif.c          | 15 +++++++++++----
+ target/arm/tcg/translate-a64.c | 119 +++++----------------------------
- target/arm/cpu64.c                 |  6 ++++++
+ target/arm/tcg/vec_helper.c    |  16 +++++
-files changed, 27 insertions(+), 5 deletions(-)
+files changed, 109 insertions(+), 102 deletions(-)
-diff --git a/include/hw/intc/arm_gicv3_common.h b/include/hw/intc/arm_gicv3_common.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/intc/arm_gicv3_common.h
+--- a/target/arm/helper.h
-+++ b/include/hw/intc/arm_gicv3_common.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ struct GICv3State {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     uint32_t revision;
+ DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     bool lpi_enable;
+ DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     bool security_extn;
-+    bool force_8bit_prio;
++DEF_HELPER_FLAGS_4(gvec_smaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     bool irq_reset_nonsecure;
++DEF_HELPER_FLAGS_4(gvec_smaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     bool gicd_no_migration_shift_bug;
++DEF_HELPER_FLAGS_4(gvec_smaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
++DEF_HELPER_FLAGS_4(gvec_sminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-index XXXXXXX..XXXXXXX 100644
++DEF_HELPER_FLAGS_4(gvec_sminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
---- a/target/arm/cpu.h
++DEF_HELPER_FLAGS_4(gvec_sminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+++ b/target/arm/cpu.h
++
-@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
++DEF_HELPER_FLAGS_4(gvec_umaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     int gic_num_lrs; /* number of list registers */
++DEF_HELPER_FLAGS_4(gvec_umaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     int gic_vpribits; /* number of virtual priority bits */
++DEF_HELPER_FLAGS_4(gvec_umaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     int gic_vprebits; /* number of virtual preemption bits */
++
-+    int gic_pribits; /* number of physical priority bits */
++DEF_HELPER_FLAGS_4(gvec_uminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_uminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     /* Whether the cfgend input is high (i.e. this CPU should reset into
++DEF_HELPER_FLAGS_4(gvec_uminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-      * big-endian mode).  This setting isn't used directly: instead it modifies
++
-diff --git a/hw/core/machine.c b/hw/core/machine.c
+ #ifdef TARGET_AARCH64
-index XXXXXXX..XXXXXXX 100644
+ #include "tcg/helper-a64.h"
---- a/hw/core/machine.c
+ #include "tcg/helper-sve.h"
-+++ b/hw/core/machine.c
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@
+index XXXXXXX..XXXXXXX 100644
- #include "hw/virtio/virtio-pci.h"
+--- a/target/arm/tcg/translate.h
- #include "qom/object_interfaces.h"
++++ b/target/arm/tcg/translate.h
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
--GlobalProperty hw_compat_7_0[] = {};
-+GlobalProperty hw_compat_7_0[] = {
+ void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+    { "arm-gicv3-common", "force-8-bit-prio", "on" },
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+};
++void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
- const size_t hw_compat_7_0_len = G_N_ELEMENTS(hw_compat_7_0);
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
- GlobalProperty hw_compat_6_2[] = {
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-diff --git a/hw/intc/arm_gicv3_common.c b/hw/intc/arm_gicv3_common.c
++void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-index XXXXXXX..XXXXXXX 100644
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
---- a/hw/intc/arm_gicv3_common.c
++void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+++ b/hw/intc/arm_gicv3_common.c
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-@@ -XXX,XX +XXX,XX @@ static Property arm_gicv3_common_properties[] = {
-     DEFINE_PROP_UINT32("revision", GICv3State, revision, 3),
+ /*
-     DEFINE_PROP_BOOL("has-lpi", GICv3State, lpi_enable, 0),
+  * Forward to the isar_feature_* tests given a DisasContext pointer.
-     DEFINE_PROP_BOOL("has-security-extensions", GICv3State, security_extn, 0),
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+    /*
+index XXXXXXX..XXXXXXX 100644
-+     * Compatibility property: force 8 bits of physical priority, even
+--- a/target/arm/tcg/a64.decode
-+     * if the CPU being emulated should have fewer.
++++ b/target/arm/tcg/a64.decode
-+     */
+@@ -XXX,XX +XXX,XX @@ FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
-+    DEFINE_PROP_BOOL("force-8-bit-prio", GICv3State, force_8bit_prio, 0),
+ FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
-     DEFINE_PROP_ARRAY("redist-region-count", GICv3State, nb_redist_regions,
-                       redist_region_count, qdev_prop_uint32, uint32_t),
+ ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
-     DEFINE_PROP_LINK("sysmem", GICv3State, dma, TYPE_MEMORY_REGION,
++SMAXP_v         0.00 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
-diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
++SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
-index XXXXXXX..XXXXXXX 100644
++UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
---- a/hw/intc/arm_gicv3_cpuif.c
++UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
-+++ b/hw/intc/arm_gicv3_cpuif.c
-@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
+ ### Advanced SIMD scalar x indexed element
-          *  cpu->gic_num_lrs
-          *  cpu->gic_vpribits
+diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
-          *  cpu->gic_vprebits
+index XXXXXXX..XXXXXXX 100644
-+         *  cpu->gic_pribits
+--- a/target/arm/tcg/gengvec.c
-          */
++++ b/target/arm/tcg/gengvec.c
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-         /* Note that we can't just use the GICv3CPUState as an opaque pointer
+     };
-@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
+     tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
          define_arm_cp_regs(cpu, gicv3_cpuif_reginfo);
          /*
 -         * For the moment, retain the existing behaviour of 8 priority bits;
 -         * in a following commit we will take this from the CPU state,
 -         * as we do for the virtual priority bits.
 +         * The CPU implementation specifies the number of supported
 +         * bits of physical priority. For backwards compatibility
 +         * of migration, we have a compat property that forces use
 +         * of 8 priority bits regardless of what the CPU really has.
           */
 -        cs->pribits = 8;
 +        if (s->force_8bit_prio) {
 +            cs->pribits = 8;
 +        } else {
 +            cs->pribits = cpu->gic_pribits ?: 5;
 +        }
 +
          /*
           * The GICv3 has separate ID register fields for virtual priority
           * and preemption bit values, but only a single ID register field
 diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu64.c
 +++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
      cpu->gic_num_lrs = 4;
      cpu->gic_vpribits = 5;
      cpu->gic_vprebits = 5;
 +    cpu->gic_pribits = 5;
      define_cortex_a72_a57_a53_cp_reginfo(cpu);
  }
++
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
++void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-     cpu->gic_num_lrs = 4;
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-     cpu->gic_vpribits = 5;
++{
-     cpu->gic_vprebits = 5;
++    static gen_helper_gvec_3 * const fns[4] = {
-+    cpu->gic_pribits = 5;
++        gen_helper_gvec_smaxp_b,
-     define_cortex_a72_a57_a53_cp_reginfo(cpu);
++        gen_helper_gvec_smaxp_h,
 +        gen_helper_gvec_smaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_sminp_b,
 +        gen_helper_gvec_sminp_h,
 +        gen_helper_gvec_sminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_umaxp_b,
 +        gen_helper_gvec_umaxp_h,
 +        gen_helper_gvec_umaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_uminp_b,
 +        gen_helper_gvec_uminp_h,
 +        gen_helper_gvec_uminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
      return true;
  }
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
++static bool do_gvec_fn3_no64(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
-     cpu->gic_num_lrs = 4;
++{
-     cpu->gic_vpribits = 5;
++    if (a->esz == MO_64) {
-     cpu->gic_vprebits = 5;
++        return false;
-+    cpu->gic_pribits = 5;
++    }
-     define_cortex_a72_a57_a53_cp_reginfo(cpu);
++    if (fp_access_check(s)) {
 +        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
 +    }
 +    return true;
 +}
 +
  static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
  {
      if (!a->q && a->esz == MO_64) {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
 +TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
 +TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 +TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 +TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
  /*
   * Advanced SIMD scalar/vector x indexed element
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
      }
  }
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a76_initfn(Object *obj)
+-/* Pairwise op subgroup of C3.6.16.
-     cpu->gic_num_lrs = 4;
+- *
-     cpu->gic_vpribits = 5;
+- * This is called directly for float pairwise
-     cpu->gic_vprebits = 5;
+- * operations where the opcode and size are calculated differently.
-+    cpu->gic_pribits = 5;
+- */
+-static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
-     /* From B5.1 AdvSIMD AArch64 register summary */
+-                                   int size, int rn, int rm, int rd)
-     cpu->isar.mvfr0 = 0x10110222;
+-{
-@@ -XXX,XX +XXX,XX @@ static void aarch64_neoverse_n1_initfn(Object *obj)
+-    int pass;
-     cpu->gic_num_lrs = 4;
+-
-     cpu->gic_vpribits = 5;
+-    if (!fp_access_check(s)) {
-     cpu->gic_vprebits = 5;
+-        return;
-+    cpu->gic_pribits = 5;
+-    }
+-
-     /* From B5.1 AdvSIMD AArch64 register summary */
+-    /* These operations work on the concatenated rm:rn, with each pair of
-     cpu->isar.mvfr0 = 0x10110222;
+-     * adjacent elements being operated on to produce an element in the result.
-@@ -XXX,XX +XXX,XX @@ static void aarch64_a64fx_initfn(Object *obj)
+-     */
-     cpu->gic_num_lrs = 4;
+-    if (size == 3) {
-     cpu->gic_vpribits = 5;
+-        g_assert_not_reached();
-     cpu->gic_vprebits = 5;
+-    } else {
-+    cpu->gic_pribits = 5;
+-        int maxpass = is_q ? 4 : 2;
+-        TCGv_i32 tcg_res[4];
-     /* Suppport of A64FX's vector length are 128,256 and 512bit only */
+-
-     aarch64_add_sve_properties(obj);
+-        for (pass = 0; pass < maxpass; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            NeonGenTwoOpFn *genfn = NULL;
 -            int passreg = pass < (maxpass / 2) ? rn : rm;
 -            int passelt = (is_q && (pass & 1)) ? 2 : 0;
 -
 -            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_32);
 -            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_32);
 -            tcg_res[pass] = tcg_temp_new_i32();
 -
 -            switch (opcode) {
 -            case 0x14: /* SMAXP, UMAXP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmax_s8, gen_helper_neon_pmax_u8 },
 -                    { gen_helper_neon_pmax_s16, gen_helper_neon_pmax_u16 },
 -                    { tcg_gen_smax_i32, tcg_gen_umax_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            case 0x15: /* SMINP, UMINP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmin_s8, gen_helper_neon_pmin_u8 },
 -                    { gen_helper_neon_pmin_s16, gen_helper_neon_pmin_u16 },
 -                    { tcg_gen_smin_i32, tcg_gen_umin_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            default:
 -            case 0x17: /* ADDP */
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -
 -            /* FP ops called directly, otherwise call now */
 -            if (genfn) {
 -                genfn(tcg_res[pass], tcg_op1, tcg_op2);
 -            }
 -        }
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
 -        }
 -        clear_vec_high(s, is_q, rd);
 -    }
 -}
 -
  /* Floating point op subgroup of C3.6.16. */
  static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
  {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x14: /* SMAXP, UMAXP */
 -    case 0x15: /* SMINP, UMINP */
 -    {
 -        /* Pairwise operations */
 -        int is_q = extract32(insn, 30, 1);
 -        int u = extract32(insn, 29, 1);
 -        int size = extract32(insn, 22, 2);
 -        int rm = extract32(insn, 16, 5);
 -        int rn = extract32(insn, 5, 5);
 -        int rd = extract32(insn, 0, 5);
 -        if (opcode == 0x17) {
 -            if (u || (size == 3 && !is_q)) {
 -                unallocated_encoding(s);
 -                return;
 -            }
 -        } else {
 -            if (size == 3) {
 -                unallocated_encoding(s);
 -                return;
 -            }
 -        }
 -        handle_simd_3same_pair(s, is_q, u, opcode, size, rn, rm, rd);
 -        break;
 -    }
      case 0x18 ... 0x31:
          /* floating point ops, sz[1] and U are part of opcode */
          disas_simd_3same_float(s, insn);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      default:
          disas_simd_3same_int(s, insn);
          break;
 +    case 0x14: /* SMAXP, UMAXP */
 +    case 0x15: /* SMINP, UMINP */
      case 0x17: /* ADDP */
          unallocated_encoding(s);
          break;
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
  DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
  #undef  ADD
 +DO_3OP_PAIR(gvec_smaxp_b, MAX, int8_t, H1)
 +DO_3OP_PAIR(gvec_smaxp_h, MAX, int16_t, H2)
 +DO_3OP_PAIR(gvec_smaxp_s, MAX, int32_t, H4)
 +
 +DO_3OP_PAIR(gvec_umaxp_b, MAX, uint8_t, H1)
 +DO_3OP_PAIR(gvec_umaxp_h, MAX, uint16_t, H2)
 +DO_3OP_PAIR(gvec_umaxp_s, MAX, uint32_t, H4)
 +
 +DO_3OP_PAIR(gvec_sminp_b, MIN, int8_t, H1)
 +DO_3OP_PAIR(gvec_sminp_h, MIN, int16_t, H2)
 +DO_3OP_PAIR(gvec_sminp_s, MIN, int32_t, H4)
 +
 +DO_3OP_PAIR(gvec_uminp_b, MIN, uint8_t, H1)
 +DO_3OP_PAIR(gvec_uminp_h, MIN, uint16_t, H2)
 +DO_3OP_PAIR(gvec_uminp_s, MIN, uint32_t, H4)
 +
  #undef DO_3OP_PAIR
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
 --
-.25.1
+.34.1

-[PULL 07/22] hw/intc/arm_gicv3_cpuif: Handle CPUs that don't specify GICv3 parameters
+[PULL 40/42] target/arm: Use gvec for neon pmax, pmin
-We allow a GICv3 to be connected to any CPU, but we don't do anything
+From: Richard Henderson <richard.henderson@linaro.org>
 to handle the case where the CPU type doesn't in hardware have a
 GICv3 CPU interface and so the various GIC configuration fields
 (gic_num_lrs, vprebits, vpribits) are not specified.
-The current behaviour is that we will add the EL1 CPU interface
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-registers, but will not put in the EL2 CPU interface registers, even
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-if the CPU has EL2, which will leave the GIC in a broken state and
+Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
-probably result in the guest crashing as it tries to set it up.  This
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-only affects the virt board when using the cortex-a15 or cortex-a7
+---
-CPU types (both 32-bit) with -machine gic-version=3 (or 'max')
+ target/arm/tcg/translate-neon.c | 78 ++-------------------------------
-and -machine virtualization=on.
+file changed, 4 insertions(+), 74 deletions(-)
-Instead of failing to set up the EL2 registers, if the CPU doesn't
+diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 define the GIC configuration set it to a reasonable default, matching
 the standard configuration for most Arm CPUs.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220512151457.3899052-2-peter.maydell@linaro.org
 ---
  hw/intc/arm_gicv3_cpuif.c | 18 +++++++++++++-----
 file changed, 13 insertions(+), 5 deletions(-)
 diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/intc/arm_gicv3_cpuif.c
+--- a/target/arm/tcg/translate-neon.c
-+++ b/hw/intc/arm_gicv3_cpuif.c
++++ b/target/arm/tcg/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
-         ARMCPU *cpu = ARM_CPU(qemu_get_cpu(i));
+ DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
-         GICv3CPUState *cs = &s->cpu[i];
+ DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
+ DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
-+        /*
++DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
-+         * If the CPU doesn't define a GICv3 configuration, probably because
++DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
-+         * in real hardware it doesn't have one, then we use default values
++DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
-+         * matching the one used by most Arm CPUs. This applies to:
++DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
-+         *  cpu->gic_num_lrs
-+         *  cpu->gic_vpribits
+ #define DO_3SAME_CMP(INSN, COND)                                        \
-+         *  cpu->gic_vprebits
+     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-+         */
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
-+
+ DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
-         /* Note that we can't just use the GICv3CPUState as an opaque pointer
+ DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
-          * in define_arm_cp_regs_with_opaque(), because when we're called back
-          * it might be with code translated by CPU 0 but run by CPU 1, in
+-static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
-@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
+-{
-          * get back to the GICv3CPUState from the CPUARMState.
+-    /* Operations handled pairwise 32 bits at a time */
-          */
+-    TCGv_i32 tmp, tmp2, tmp3;
-         define_arm_cp_regs(cpu, gicv3_cpuif_reginfo);
+-
--        if (arm_feature(&cpu->env, ARM_FEATURE_EL2)
+-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
--            && cpu->gic_num_lrs) {
+-        return false;
-+        if (arm_feature(&cpu->env, ARM_FEATURE_EL2)) {
+-    }
-             int j;
+-
+-    /* UNDEF accesses to D16-D31 if they don't exist. */
--            cs->num_list_regs = cpu->gic_num_lrs;
+-    if (!dc_isar_feature(aa32_simd_r32, s) &&
--            cs->vpribits = cpu->gic_vpribits;
+-        ((a->vd | a->vn | a->vm) & 0x10)) {
--            cs->vprebits = cpu->gic_vprebits;
+-        return false;
-+            cs->num_list_regs = cpu->gic_num_lrs ?: 4;
+-    }
-+            cs->vpribits = cpu->gic_vpribits ?: 5;
+-
-+            cs->vprebits = cpu->gic_vprebits ?: 5;
+-    if (a->size == 3) {
+-        return false;
-             /* Check against architectural constraints: getting these
+-    }
-              * wrong would be a bug in the CPU code defining these,
+-
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    assert(a->q == 0); /* enforced by decode patterns */
 -
 -    /*
 -     * Note that we have to be careful not to clobber the source operands
 -     * in the "vm == vd" case by storing the result of the first pass too
 -     * early. Since Q is 0 there are always just two passes, so instead
 -     * of a complicated loop over each pass we just unroll.
 -     */
 -    tmp = tcg_temp_new_i32();
 -    tmp2 = tcg_temp_new_i32();
 -    tmp3 = tcg_temp_new_i32();
 -
 -    read_neon_element32(tmp, a->vn, 0, MO_32);
 -    read_neon_element32(tmp2, a->vn, 1, MO_32);
 -    fn(tmp, tmp, tmp2);
 -
 -    read_neon_element32(tmp3, a->vm, 0, MO_32);
 -    read_neon_element32(tmp2, a->vm, 1, MO_32);
 -    fn(tmp3, tmp3, tmp2);
 -
 -    write_neon_element32(tmp, a->vd, 0, MO_32);
 -    write_neon_element32(tmp3, a->vd, 1, MO_32);
 -
 -    return true;
 -}
 -
 -#define DO_3SAME_PAIR(INSN, func)                                       \
 -    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
 -    {                                                                   \
 -        static NeonGenTwoOpFn * const fns[] = {                         \
 -            gen_helper_neon_##func##8,                                  \
 -            gen_helper_neon_##func##16,                                 \
 -            gen_helper_neon_##func##32,                                 \
 -        };                                                              \
 -        if (a->size > 2) {                                              \
 -            return false;                                               \
 -        }                                                               \
 -        return do_3same_pair(s, a, fns[a->size]);                       \
 -    }
 -
 -/* 32-bit pairwise ops end up the same as the elementwise versions.  */
 -#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
 -#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 -#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 -#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -
 -DO_3SAME_PAIR(VPMAX_S, pmax_s)
 -DO_3SAME_PAIR(VPMIN_S, pmin_s)
 -DO_3SAME_PAIR(VPMAX_U, pmax_u)
 -DO_3SAME_PAIR(VPMIN_U, pmin_u)
 -
  #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
      WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
      WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
 --
-.25.1
+.34.1

-[PULL 19/22] ptimer: Rename PTIMER_POLICY_DEFAULT to PTIMER_POLICY_LEGACY
+[PULL 41/42] target/arm: Convert FMLAL, FMLSL to decodetree
-The traditional ptimer behaviour includes a collection of weird edge
+From: Richard Henderson <richard.henderson@linaro.org>
 case behaviours.  In 2016 we improved the ptimer implementation to
 fix these and generally make the behaviour more flexible, with
 ptimers opting in to the new behaviour by passing an appropriate set
 of policy flags to ptimer_init().  For backwards-compatibility, we
 defined PTIMER_POLICY_DEFAULT (which sets no flags) to give the old
 weird behaviour.
-This turns out to be a poor choice of name, because people writing
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-new devices which use ptimers are misled into thinking that the
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-default is probably a sensible choice of flags, when in fact it is
+Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
-almost always not what you want.  Rename PTIMER_POLICY_DEFAULT to
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-PTIMER_POLICY_LEGACY and beef up the comment to more clearly say that
+---
-new devices should not be using it.
+ target/arm/tcg/a64.decode      |  10 +++
  target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
 files changed, 51 insertions(+), 103 deletions(-)
-The code-change part of this commit was produced by
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
   sed -i -e 's/PTIMER_POLICY_DEFAULT/PTIMER_POLICY_LEGACY/g' $(git grep -l PTIMER_POLICY_DEFAULT)
 with the exception of a test name string change in
 tests/unit/ptimer-test.c which was added manually.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Francisco Iglesias <francisco.iglesias@amd.com>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220516103058.162280-1-peter.maydell@linaro.org
 ---
  include/hw/ptimer.h          | 16 ++++++++++++----
  hw/arm/musicpal.c            |  2 +-
  hw/dma/xilinx_axidma.c       |  2 +-
  hw/dma/xlnx_csu_dma.c        |  2 +-
  hw/m68k/mcf5206.c            |  2 +-
  hw/m68k/mcf5208.c            |  2 +-
  hw/net/can/xlnx-zynqmp-can.c |  2 +-
  hw/net/fsl_etsec/etsec.c     |  2 +-
  hw/net/lan9118.c             |  2 +-
  hw/rtc/exynos4210_rtc.c      |  4 ++--
  hw/timer/allwinner-a10-pit.c |  2 +-
  hw/timer/altera_timer.c      |  2 +-
  hw/timer/arm_timer.c         |  2 +-
  hw/timer/digic-timer.c       |  2 +-
  hw/timer/etraxfs_timer.c     |  6 +++---
  hw/timer/exynos4210_mct.c    |  6 +++---
  hw/timer/exynos4210_pwm.c    |  2 +-
  hw/timer/grlib_gptimer.c     |  2 +-
  hw/timer/imx_epit.c          |  4 ++--
  hw/timer/imx_gpt.c           |  2 +-
  hw/timer/mss-timer.c         |  2 +-
  hw/timer/sh_timer.c          |  2 +-
  hw/timer/slavio_timer.c      |  2 +-
  hw/timer/xilinx_timer.c      |  2 +-
  tests/unit/ptimer-test.c     |  6 +++---
 files changed, 44 insertions(+), 36 deletions(-)
 diff --git a/include/hw/ptimer.h b/include/hw/ptimer.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/ptimer.h
+--- a/target/arm/tcg/a64.decode
-+++ b/include/hw/ptimer.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
-  * to stderr when the guest attempts to enable the timer.
+ FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
  FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 +FMLAL_v         0.00 1110 001 ..... 11101 1 ..... ..... @qrrr_h
 +FMLSL_v         0.00 1110 101 ..... 11101 1 ..... ..... @qrrr_h
 +FMLAL2_v        0.10 1110 001 ..... 11001 1 ..... ..... @qrrr_h
 +FMLSL2_v        0.10 1110 101 ..... 11001 1 ..... ..... @qrrr_h
 +
  FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
  FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
@@ -XXX,XX +XXX,XX @@ FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +
 +FMLAL_vi        0.00 1111 10 .. .... 0000 . 0 ..... .....   @qrrx_h
 +FMLSL_vi        0.00 1111 10 .. .... 0100 . 0 ..... .....   @qrrx_h
 +FMLAL2_vi       0.10 1111 10 .. .... 1000 . 0 ..... .....   @qrrx_h
 +FMLSL2_vi       0.10 1111 10 .. .... 1100 . 0 ..... .....   @qrrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  };
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +static bool do_fmlal(DisasContext *s, arg_qrrr_e *a, bool is_s, bool is_2)
 +{
 +    if (fp_access_check(s)) {
 +        int data = (is_2 << 1) | is_s;
 +        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_a64);
 +    }
 +    return true;
 +}
 +
 +TRANS_FEAT(FMLAL_v, aa64_fhm, do_fmlal, a, false, false)
 +TRANS_FEAT(FMLSL_v, aa64_fhm, do_fmlal, a, true, false)
 +TRANS_FEAT(FMLAL2_v, aa64_fhm, do_fmlal, a, false, true)
 +TRANS_FEAT(FMLSL2_v, aa64_fhm, do_fmlal, a, true, true)
 +
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
  TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
  TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
  TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
  TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
 +static bool do_fmlal_idx(DisasContext *s, arg_qrrx_e *a, bool is_s, bool is_2)
 +{
 +    if (fp_access_check(s)) {
 +        int data = (a->idx << 2) | (is_2 << 1) | is_s;
 +        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_idx_a64);
 +    }
 +    return true;
 +}
 +
 +TRANS_FEAT(FMLAL_vi, aa64_fhm, do_fmlal_idx, a, false, false)
 +TRANS_FEAT(FMLSL_vi, aa64_fhm, do_fmlal_idx, a, true, false)
 +TRANS_FEAT(FMLAL2_vi, aa64_fhm, do_fmlal_idx, a, false, true)
 +TRANS_FEAT(FMLSL2_vi, aa64_fhm, do_fmlal_idx, a, true, true)
 +
  /*
   * Advanced SIMD scalar pairwise
   */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 -/* The default ptimer policy retains backward compatibility with the legacy
 - * timers. Custom policies are adjusting the default one. Consider providing
 - * a correct policy for your timer.
 +/*
 + * The 'legacy' ptimer policy retains backward compatibility with the
 + * traditional ptimer behaviour from before policy flags were introduced.
 + * It has several weird behaviours which don't match typical hardware
 + * timer behaviour. For a new device using ptimers, you should not
 + * use PTIMER_POLICY_LEGACY, but instead check the actual behaviour
 + * that you need and specify the right set of policy flags to get that.
 + *
 + * If you are overhauling an existing device that uses PTIMER_POLICY_LEGACY
 + * and are in a position to check or test the real hardware behaviour,
 + * consider updating it to specify the right policy flags.
   *
   * The rough edges of the default policy:
   *  - Starting to run with a period = 0 emits error message and stops the
@@ -XXX,XX +XXX,XX @@
   *    since the last period, effectively restarting the timer with a
   *    counter = counter value at the moment of change (.i.e. one less).
   */
 -#define PTIMER_POLICY_DEFAULT               0
 +#define PTIMER_POLICY_LEGACY                0
  /* Periodic timer counter stays with "0" for a one period before wrapping
   * around.  */
 diff --git a/hw/arm/musicpal.c b/hw/arm/musicpal.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/musicpal.c
 +++ b/hw/arm/musicpal.c
@@ -XXX,XX +XXX,XX @@ static void mv88w8618_timer_init(SysBusDevice *dev, mv88w8618_timer_state *s,
      sysbus_init_irq(dev, &s->irq);
      s->freq = freq;
 -    s->ptimer = ptimer_init(mv88w8618_timer_tick, s, PTIMER_POLICY_DEFAULT);
 +    s->ptimer = ptimer_init(mv88w8618_timer_tick, s, PTIMER_POLICY_LEGACY);
  }
  static uint64_t mv88w8618_pit_read(void *opaque, hwaddr offset,
 diff --git a/hw/dma/xilinx_axidma.c b/hw/dma/xilinx_axidma.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/dma/xilinx_axidma.c
 +++ b/hw/dma/xilinx_axidma.c
@@ -XXX,XX +XXX,XX @@ static void xilinx_axidma_realize(DeviceState *dev, Error **errp)
          st->dma = s;
          st->nr = i;
 -        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_DEFAULT);
 +        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_LEGACY);
          ptimer_transaction_begin(st->ptimer);
          ptimer_set_freq(st->ptimer, s->freqhz);
          ptimer_transaction_commit(st->ptimer);
 diff --git a/hw/dma/xlnx_csu_dma.c b/hw/dma/xlnx_csu_dma.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/dma/xlnx_csu_dma.c
 +++ b/hw/dma/xlnx_csu_dma.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_csu_dma_realize(DeviceState *dev, Error **errp)
      sysbus_init_irq(SYS_BUS_DEVICE(dev), &s->irq);
      s->src_timer = ptimer_init(xlnx_csu_dma_src_timeout_hit,
 -                               s, PTIMER_POLICY_DEFAULT);
 +                               s, PTIMER_POLICY_LEGACY);
      s->attr = MEMTXATTRS_UNSPECIFIED;
 diff --git a/hw/m68k/mcf5206.c b/hw/m68k/mcf5206.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/m68k/mcf5206.c
 +++ b/hw/m68k/mcf5206.c
@@ -XXX,XX +XXX,XX @@ static m5206_timer_state *m5206_timer_init(qemu_irq irq)
      m5206_timer_state *s;
      s = g_new0(m5206_timer_state, 1);
 -    s->timer = ptimer_init(m5206_timer_trigger, s, PTIMER_POLICY_DEFAULT);
 +    s->timer = ptimer_init(m5206_timer_trigger, s, PTIMER_POLICY_LEGACY);
      s->irq = irq;
      m5206_timer_reset(s);
      return s;
 diff --git a/hw/m68k/mcf5208.c b/hw/m68k/mcf5208.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/m68k/mcf5208.c
 +++ b/hw/m68k/mcf5208.c
@@ -XXX,XX +XXX,XX @@ static void mcf5208_sys_init(MemoryRegion *address_space, qemu_irq *pic)
      /* Timers.  */
      for (i = 0; i < 2; i++) {
          s = g_new0(m5208_timer_state, 1);
 -        s->timer = ptimer_init(m5208_timer_trigger, s, PTIMER_POLICY_DEFAULT);
 +        s->timer = ptimer_init(m5208_timer_trigger, s, PTIMER_POLICY_LEGACY);
          memory_region_init_io(&s->iomem, NULL, &m5208_timer_ops, s,
                                "m5208-timer", 0x00004000);
          memory_region_add_subregion(address_space, 0xfc080000 + 0x4000 * i,
 diff --git a/hw/net/can/xlnx-zynqmp-can.c b/hw/net/can/xlnx-zynqmp-can.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/net/can/xlnx-zynqmp-can.c
 +++ b/hw/net/can/xlnx-zynqmp-can.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_can_realize(DeviceState *dev, Error **errp)
      /* Allocate a new timer. */
      s->can_timer = ptimer_init(xlnx_zynqmp_can_ptimer_cb, s,
 -                               PTIMER_POLICY_DEFAULT);
 +                               PTIMER_POLICY_LEGACY);
      ptimer_transaction_begin(s->can_timer);
 diff --git a/hw/net/fsl_etsec/etsec.c b/hw/net/fsl_etsec/etsec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/net/fsl_etsec/etsec.c
 +++ b/hw/net/fsl_etsec/etsec.c
@@ -XXX,XX +XXX,XX @@ static void etsec_realize(DeviceState *dev, Error **errp)
                                object_get_typename(OBJECT(dev)), dev->id, etsec);
      qemu_format_nic_info_str(qemu_get_queue(etsec->nic), etsec->conf.macaddr.a);
 -    etsec->ptimer = ptimer_init(etsec_timer_hit, etsec, PTIMER_POLICY_DEFAULT);
 +    etsec->ptimer = ptimer_init(etsec_timer_hit, etsec, PTIMER_POLICY_LEGACY);
      ptimer_transaction_begin(etsec->ptimer);
      ptimer_set_freq(etsec->ptimer, 100);
      ptimer_transaction_commit(etsec->ptimer);
 diff --git a/hw/net/lan9118.c b/hw/net/lan9118.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/net/lan9118.c
 +++ b/hw/net/lan9118.c
@@ -XXX,XX +XXX,XX @@ static void lan9118_realize(DeviceState *dev, Error **errp)
      s->pmt_ctrl = 1;
      s->txp = &s->tx_packet;
 -    s->timer = ptimer_init(lan9118_tick, s, PTIMER_POLICY_DEFAULT);
 +    s->timer = ptimer_init(lan9118_tick, s, PTIMER_POLICY_LEGACY);
      ptimer_transaction_begin(s->timer);
      ptimer_set_freq(s->timer, 10000);
      ptimer_set_limit(s->timer, 0xffff, 1);
 diff --git a/hw/rtc/exynos4210_rtc.c b/hw/rtc/exynos4210_rtc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/rtc/exynos4210_rtc.c
 +++ b/hw/rtc/exynos4210_rtc.c
@@ -XXX,XX +XXX,XX @@ static void exynos4210_rtc_init(Object *obj)
      Exynos4210RTCState *s = EXYNOS4210_RTC(obj);
      SysBusDevice *dev = SYS_BUS_DEVICE(obj);
 -    s->ptimer = ptimer_init(exynos4210_rtc_tick, s, PTIMER_POLICY_DEFAULT);
 +    s->ptimer = ptimer_init(exynos4210_rtc_tick, s, PTIMER_POLICY_LEGACY);
      ptimer_transaction_begin(s->ptimer);
      ptimer_set_freq(s->ptimer, RTC_BASE_FREQ);
      exynos4210_rtc_update_freq(s, 0);
      ptimer_transaction_commit(s->ptimer);
      s->ptimer_1Hz = ptimer_init(exynos4210_rtc_1Hz_tick,
 -                                s, PTIMER_POLICY_DEFAULT);
 +                                s, PTIMER_POLICY_LEGACY);
      ptimer_transaction_begin(s->ptimer_1Hz);
      ptimer_set_freq(s->ptimer_1Hz, RTC_BASE_FREQ);
      ptimer_transaction_commit(s->ptimer_1Hz);
 diff --git a/hw/timer/allwinner-a10-pit.c b/hw/timer/allwinner-a10-pit.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/allwinner-a10-pit.c
 +++ b/hw/timer/allwinner-a10-pit.c
@@ -XXX,XX +XXX,XX @@ static void a10_pit_init(Object *obj)
          tc->container = s;
          tc->index = i;
 -        s->timer[i] = ptimer_init(a10_pit_timer_cb, tc, PTIMER_POLICY_DEFAULT);
 +        s->timer[i] = ptimer_init(a10_pit_timer_cb, tc, PTIMER_POLICY_LEGACY);
      }
  }
-diff --git a/hw/timer/altera_timer.c b/hw/timer/altera_timer.c
+-/* Floating point op subgroup of C3.6.16. */
-index XXXXXXX..XXXXXXX 100644
+-static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
---- a/hw/timer/altera_timer.c
+-{
-+++ b/hw/timer/altera_timer.c
+-    /* For floating point ops, the U, size[1] and opcode bits
-@@ -XXX,XX +XXX,XX @@ static void altera_timer_realize(DeviceState *dev, Error **errp)
+-     * together indicate the operation. size[0] indicates single
 -     * or double.
 -     */
 -    int fpopcode = extract32(insn, 11, 5)
 -        | (extract32(insn, 23, 1) << 5)
 -        | (extract32(insn, 29, 1) << 6);
 -    int is_q = extract32(insn, 30, 1);
 -    int size = extract32(insn, 22, 1);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -
 -    if (size == 1 && !is_q) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (fpopcode) {
 -    case 0x1d: /* FMLAL  */
 -    case 0x3d: /* FMLSL  */
 -    case 0x59: /* FMLAL2 */
 -    case 0x79: /* FMLSL2 */
 -        if (size & 1 || !dc_isar_feature(aa64_fhm, s)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        if (fp_access_check(s)) {
 -            int is_s = extract32(insn, 23, 1);
 -            int is_2 = extract32(insn, 29, 1);
 -            int data = (is_2 << 1) | is_s;
 -            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 -                               vec_full_reg_offset(s, rn),
 -                               vec_full_reg_offset(s, rm), tcg_env,
 -                               is_q ? 16 : 8, vec_full_reg_size(s),
 -                               data, gen_helper_gvec_fmlal_a64);
 -        }
 -        return;
 -
 -    default:
 -    case 0x18: /* FMAXNM */
 -    case 0x19: /* FMLA */
 -    case 0x1a: /* FADD */
 -    case 0x1b: /* FMULX */
 -    case 0x1c: /* FCMEQ */
 -    case 0x1e: /* FMAX */
 -    case 0x1f: /* FRECPS */
 -    case 0x38: /* FMINNM */
 -    case 0x39: /* FMLS */
 -    case 0x3a: /* FSUB */
 -    case 0x3e: /* FMIN */
 -    case 0x3f: /* FRSQRTS */
 -    case 0x58: /* FMAXNMP */
 -    case 0x5a: /* FADDP */
 -    case 0x5b: /* FMUL */
 -    case 0x5c: /* FCMGE */
 -    case 0x5d: /* FACGE */
 -    case 0x5e: /* FMAXP */
 -    case 0x5f: /* FDIV */
 -    case 0x78: /* FMINNMP */
 -    case 0x7a: /* FABD */
 -    case 0x7d: /* FACGT */
 -    case 0x7c: /* FCMGT */
 -    case 0x7e: /* FMINP */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -}
 -
  /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x18 ... 0x31:
 -        /* floating point ops, sz[1] and U are part of opcode */
 -        disas_simd_3same_float(s, insn);
 -        break;
      default:
          disas_simd_3same_int(s, insn);
          break;
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      case 0x17: /* ADDP */
 +    case 0x18 ... 0x31: /* floating point ops */
          unallocated_encoding(s);
          break;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          }
          is_fp = 2;
          break;
 -    case 0x00: /* FMLAL */
 -    case 0x04: /* FMLSL */
 -    case 0x18: /* FMLAL2 */
 -    case 0x1c: /* FMLSL2 */
 -        if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_fhm, s)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        size = MO_16;
 -        /* is_fp, but we pass tcg_env not fp_status.  */
 -        break;
      default:
 +    case 0x00: /* FMLAL */
      case 0x01: /* FMLA */
 +    case 0x04: /* FMLSL */
      case 0x05: /* FMLS */
      case 0x09: /* FMUL */
 +    case 0x18: /* FMLAL2 */
      case 0x19: /* FMULX */
 +    case 0x1c: /* FMLSL2 */
          unallocated_encoding(s);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
--    t->ptimer = ptimer_init(timer_hit, t, PTIMER_POLICY_DEFAULT);
+         }
-+    t->ptimer = ptimer_init(timer_hit, t, PTIMER_POLICY_LEGACY);
+         return;
-     ptimer_transaction_begin(t->ptimer);
-     ptimer_set_freq(t->ptimer, t->freq_hz);
+-    case 0x00: /* FMLAL */
-     ptimer_transaction_commit(t->ptimer);
+-    case 0x04: /* FMLSL */
-diff --git a/hw/timer/arm_timer.c b/hw/timer/arm_timer.c
+-    case 0x18: /* FMLAL2 */
-index XXXXXXX..XXXXXXX 100644
+-    case 0x1c: /* FMLSL2 */
---- a/hw/timer/arm_timer.c
+-        {
-+++ b/hw/timer/arm_timer.c
+-            int is_s = extract32(opcode, 2, 1);
-@@ -XXX,XX +XXX,XX @@ static arm_timer_state *arm_timer_init(uint32_t freq)
+-            int is_2 = u;
-     s->freq = freq;
+-            int data = (index << 2) | (is_2 << 1) | is_s;
-     s->control = TIMER_CTRL_IE;
+-            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
+-                               vec_full_reg_offset(s, rn),
--    s->timer = ptimer_init(arm_timer_tick, s, PTIMER_POLICY_DEFAULT);
+-                               vec_full_reg_offset(s, rm), tcg_env,
-+    s->timer = ptimer_init(arm_timer_tick, s, PTIMER_POLICY_LEGACY);
+-                               is_q ? 16 : 8, vec_full_reg_size(s),
-     vmstate_register(NULL, VMSTATE_INSTANCE_ID_ANY, &vmstate_arm_timer, s);
+-                               data, gen_helper_gvec_fmlal_idx_a64);
-     return s;
+-        }
- }
+-        return;
-diff --git a/hw/timer/digic-timer.c b/hw/timer/digic-timer.c
+-
-index XXXXXXX..XXXXXXX 100644
+     case 0x08: /* MUL */
---- a/hw/timer/digic-timer.c
+         if (!is_long && !is_scalar) {
-+++ b/hw/timer/digic-timer.c
+             static gen_helper_gvec_3 * const fns[3] = {
@@ -XXX,XX +XXX,XX @@ static void digic_timer_init(Object *obj)
  {
      DigicTimerState *s = DIGIC_TIMER(obj);
 -    s->ptimer = ptimer_init(digic_timer_tick, NULL, PTIMER_POLICY_DEFAULT);
 +    s->ptimer = ptimer_init(digic_timer_tick, NULL, PTIMER_POLICY_LEGACY);
      /*
       * FIXME: there is no documentation on Digic timer
 diff --git a/hw/timer/etraxfs_timer.c b/hw/timer/etraxfs_timer.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/etraxfs_timer.c
 +++ b/hw/timer/etraxfs_timer.c
@@ -XXX,XX +XXX,XX @@ static void etraxfs_timer_realize(DeviceState *dev, Error **errp)
      ETRAXTimerState *t = ETRAX_TIMER(dev);
      SysBusDevice *sbd = SYS_BUS_DEVICE(dev);
 -    t->ptimer_t0 = ptimer_init(timer0_hit, t, PTIMER_POLICY_DEFAULT);
 -    t->ptimer_t1 = ptimer_init(timer1_hit, t, PTIMER_POLICY_DEFAULT);
 -    t->ptimer_wd = ptimer_init(watchdog_hit, t, PTIMER_POLICY_DEFAULT);
 +    t->ptimer_t0 = ptimer_init(timer0_hit, t, PTIMER_POLICY_LEGACY);
 +    t->ptimer_t1 = ptimer_init(timer1_hit, t, PTIMER_POLICY_LEGACY);
 +    t->ptimer_wd = ptimer_init(watchdog_hit, t, PTIMER_POLICY_LEGACY);
      sysbus_init_irq(sbd, &t->irq);
      sysbus_init_irq(sbd, &t->nmi);
 diff --git a/hw/timer/exynos4210_mct.c b/hw/timer/exynos4210_mct.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/exynos4210_mct.c
 +++ b/hw/timer/exynos4210_mct.c
@@ -XXX,XX +XXX,XX @@ static void exynos4210_mct_init(Object *obj)
      /* Global timer */
      s->g_timer.ptimer_frc = ptimer_init(exynos4210_gfrc_event, s,
 -                                        PTIMER_POLICY_DEFAULT);
 +                                        PTIMER_POLICY_LEGACY);
      memset(&s->g_timer.reg, 0, sizeof(struct gregs));
      /* Local timers */
      for (i = 0; i < 2; i++) {
          s->l_timer[i].tick_timer.ptimer_tick =
              ptimer_init(exynos4210_ltick_event, &s->l_timer[i],
 -                        PTIMER_POLICY_DEFAULT);
 +                        PTIMER_POLICY_LEGACY);
          s->l_timer[i].ptimer_frc =
              ptimer_init(exynos4210_lfrc_event, &s->l_timer[i],
 -                        PTIMER_POLICY_DEFAULT);
 +                        PTIMER_POLICY_LEGACY);
          s->l_timer[i].id = i;
      }
 diff --git a/hw/timer/exynos4210_pwm.c b/hw/timer/exynos4210_pwm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/exynos4210_pwm.c
 +++ b/hw/timer/exynos4210_pwm.c
@@ -XXX,XX +XXX,XX @@ static void exynos4210_pwm_init(Object *obj)
          sysbus_init_irq(dev, &s->timer[i].irq);
          s->timer[i].ptimer = ptimer_init(exynos4210_pwm_tick,
                                           &s->timer[i],
 -                                         PTIMER_POLICY_DEFAULT);
 +                                         PTIMER_POLICY_LEGACY);
          s->timer[i].id = i;
          s->timer[i].parent = s;
      }
 diff --git a/hw/timer/grlib_gptimer.c b/hw/timer/grlib_gptimer.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/grlib_gptimer.c
 +++ b/hw/timer/grlib_gptimer.c
@@ -XXX,XX +XXX,XX @@ static void grlib_gptimer_realize(DeviceState *dev, Error **errp)
          timer->unit   = unit;
          timer->ptimer = ptimer_init(grlib_gptimer_hit, timer,
 -                                    PTIMER_POLICY_DEFAULT);
 +                                    PTIMER_POLICY_LEGACY);
          timer->id     = i;
          /* One IRQ line for each timer */
 diff --git a/hw/timer/imx_epit.c b/hw/timer/imx_epit.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/imx_epit.c
 +++ b/hw/timer/imx_epit.c
@@ -XXX,XX +XXX,XX @@ static void imx_epit_realize(DeviceState *dev, Error **errp)
 x00001000);
      sysbus_init_mmio(sbd, &s->iomem);
 -    s->timer_reload = ptimer_init(imx_epit_reload, s, PTIMER_POLICY_DEFAULT);
 +    s->timer_reload = ptimer_init(imx_epit_reload, s, PTIMER_POLICY_LEGACY);
 -    s->timer_cmp = ptimer_init(imx_epit_cmp, s, PTIMER_POLICY_DEFAULT);
 +    s->timer_cmp = ptimer_init(imx_epit_cmp, s, PTIMER_POLICY_LEGACY);
  }
  static void imx_epit_class_init(ObjectClass *klass, void *data)
 diff --git a/hw/timer/imx_gpt.c b/hw/timer/imx_gpt.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/imx_gpt.c
 +++ b/hw/timer/imx_gpt.c
@@ -XXX,XX +XXX,XX @@ static void imx_gpt_realize(DeviceState *dev, Error **errp)
 x00001000);
      sysbus_init_mmio(sbd, &s->iomem);
 -    s->timer = ptimer_init(imx_gpt_timeout, s, PTIMER_POLICY_DEFAULT);
 +    s->timer = ptimer_init(imx_gpt_timeout, s, PTIMER_POLICY_LEGACY);
  }
  static void imx_gpt_class_init(ObjectClass *klass, void *data)
 diff --git a/hw/timer/mss-timer.c b/hw/timer/mss-timer.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/mss-timer.c
 +++ b/hw/timer/mss-timer.c
@@ -XXX,XX +XXX,XX @@ static void mss_timer_init(Object *obj)
      for (i = 0; i < NUM_TIMERS; i++) {
          struct Msf2Timer *st = &t->timers[i];
 -        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_DEFAULT);
 +        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_LEGACY);
          ptimer_transaction_begin(st->ptimer);
          ptimer_set_freq(st->ptimer, t->freq_hz);
          ptimer_transaction_commit(st->ptimer);
 diff --git a/hw/timer/sh_timer.c b/hw/timer/sh_timer.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/sh_timer.c
 +++ b/hw/timer/sh_timer.c
@@ -XXX,XX +XXX,XX @@ static void *sh_timer_init(uint32_t freq, int feat, qemu_irq irq)
      s->enabled = 0;
      s->irq = irq;
 -    s->timer = ptimer_init(sh_timer_tick, s, PTIMER_POLICY_DEFAULT);
 +    s->timer = ptimer_init(sh_timer_tick, s, PTIMER_POLICY_LEGACY);
      sh_timer_write(s, OFFSET_TCOR >> 2, s->tcor);
      sh_timer_write(s, OFFSET_TCNT >> 2, s->tcnt);
 diff --git a/hw/timer/slavio_timer.c b/hw/timer/slavio_timer.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/slavio_timer.c
 +++ b/hw/timer/slavio_timer.c
@@ -XXX,XX +XXX,XX @@ static void slavio_timer_init(Object *obj)
          tc->timer_index = i;
          s->cputimer[i].timer = ptimer_init(slavio_timer_irq, tc,
 -                                           PTIMER_POLICY_DEFAULT);
 +                                           PTIMER_POLICY_LEGACY);
          ptimer_transaction_begin(s->cputimer[i].timer);
          ptimer_set_period(s->cputimer[i].timer, TIMER_PERIOD);
          ptimer_transaction_commit(s->cputimer[i].timer);
 diff --git a/hw/timer/xilinx_timer.c b/hw/timer/xilinx_timer.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/timer/xilinx_timer.c
 +++ b/hw/timer/xilinx_timer.c
@@ -XXX,XX +XXX,XX @@ static void xilinx_timer_realize(DeviceState *dev, Error **errp)
          xt->parent = t;
          xt->nr = i;
 -        xt->ptimer = ptimer_init(timer_hit, xt, PTIMER_POLICY_DEFAULT);
 +        xt->ptimer = ptimer_init(timer_hit, xt, PTIMER_POLICY_LEGACY);
          ptimer_transaction_begin(xt->ptimer);
          ptimer_set_freq(xt->ptimer, t->freq_hz);
          ptimer_transaction_commit(xt->ptimer);
 diff --git a/tests/unit/ptimer-test.c b/tests/unit/ptimer-test.c
 index XXXXXXX..XXXXXXX 100644
 --- a/tests/unit/ptimer-test.c
 +++ b/tests/unit/ptimer-test.c
@@ -XXX,XX +XXX,XX @@ static void add_ptimer_tests(uint8_t policy)
      char policy_name[256] = "";
      char *tmp;
 -    if (policy == PTIMER_POLICY_DEFAULT) {
 -        g_sprintf(policy_name, "default");
 +    if (policy == PTIMER_POLICY_LEGACY) {
 +        g_sprintf(policy_name, "legacy");
      }
      if (policy & PTIMER_POLICY_WRAP_AFTER_ONE_PERIOD) {
@@ -XXX,XX +XXX,XX @@ static void add_ptimer_tests(uint8_t policy)
  static void add_all_ptimer_policies_comb_tests(void)
  {
      int last_policy = PTIMER_POLICY_TRIGGER_ONLY_ON_DECREMENT;
 -    int policy = PTIMER_POLICY_DEFAULT;
 +    int policy = PTIMER_POLICY_LEGACY;
      for (; policy < (last_policy << 1); policy++) {
          if ((policy & PTIMER_POLICY_TRIGGER_ONLY_ON_DECREMENT) &&
 --
-.25.1
+.34.1

-[PULL 04/22] target/arm: Enable FEAT_S2FWB for -cpu max
+[PULL 42/42] target/arm: Convert disas_simd_3same_logic to decodetree
-Enable the FEAT_S2FWB for -cpu max. Since FEAT_S2FWB requires that
+From: Richard Henderson <richard.henderson@linaro.org>
 CLIDR_EL1.{LoUU,LoUIS} are zero, we explicitly squash these (the
 inherited CLIDR_EL1 value from the Cortex-A57 has them as 1).
+This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220505183950.2781801-5-peter.maydell@linaro.org
 ---
- docs/system/arm/emulation.rst |  1 +
+ target/arm/tcg/a64.decode      | 10 +++++
- target/arm/cpu64.c            | 11 +++++++++++
+ target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
-files changed, 12 insertions(+)
+files changed, 29 insertions(+), 49 deletions(-)
-diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/docs/system/arm/emulation.rst
+--- a/target/arm/tcg/a64.decode
-+++ b/docs/system/arm/emulation.rst
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ the following architecture extensions:
+@@ -XXX,XX +XXX,XX @@
- - FEAT_RAS (Reliability, availability, and serviceability)
+ @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
- - FEAT_RDM (Advanced SIMD rounding double multiply accumulate instructions)
+ @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
- - FEAT_RNG (Random number generator)
-+- FEAT_S2FWB (Stage 2 forced Write-Back)
++@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
- - FEAT_SB (Speculation Barrier)
+ @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
- - FEAT_SEL2 (Secure EL2)
+ @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
- - FEAT_SHA1 (SHA1 instructions)
+ @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
-diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
+@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
  UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
  UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 +AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
 +BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
 +ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
 +ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
 +EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
 +BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
 +BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
 +BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu64.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/cpu64.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
  TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
  TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
 +TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
 +TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
 +TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
 +TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
 +TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
 +
 +static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
 +{
 +    if (fp_access_check(s)) {
 +        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
 +    }
 +    return true;
 +}
 +
 +TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
 +TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
 +TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
      }
  }
 -/* Logic op (opcode == 3) subgroup of C3.6.16. */
 -static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rm = extract32(insn, 16, 5);
 -    int size = extract32(insn, 22, 2);
 -    bool is_u = extract32(insn, 29, 1);
 -    bool is_q = extract32(insn, 30, 1);
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    switch (size + 4 * is_u) {
 -    case 0: /* AND */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
 -        return;
 -    case 1: /* BIC */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
 -        return;
 -    case 2: /* ORR */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
 -        return;
 -    case 3: /* ORN */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
 -        return;
 -    case 4: /* EOR */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
 -        return;
 -
 -    case 5: /* BSL bitwise select */
 -        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 6: /* BIT, bitwise insert if true */
 -        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 7: /* BIF, bitwise insert if false */
 -        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
 -        return;
 -
 -    default:
 -        g_assert_not_reached();
 -    }
 -}
 -
  /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
-     ARMCPU *cpu = ARM_CPU(obj);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
-     uint64_t t;
+     int opcode = extract32(insn, 11, 5);
-+    uint32_t u;
+     switch (opcode) {
-     if (kvm_enabled() || hvf_enabled()) {
+-    case 0x3: /* logic ops */
-         /* With KVM or HVF, '-cpu max' is identical to '-cpu host' */
+-        disas_simd_3same_logic(s, insn);
-@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
+-        break;
-     t = FIELD_DP64(t, MIDR_EL1, REVISION, 0);
+     default:
-     cpu->midr = t;
+         disas_simd_3same_int(s, insn);
+         break;
-+    /*
++    case 0x3: /* logic ops */
-+     * We're going to set FEAT_S2FWB, which mandates that CLIDR_EL1.{LoUU,LoUIS}
+     case 0x14: /* SMAXP, UMAXP */
-+     * are zero.
+     case 0x15: /* SMINP, UMINP */
-+     */
+     case 0x17: /* ADDP */
 +    u = cpu->clidr;
 +    u = FIELD_DP32(u, CLIDR_EL1, LOUIS, 0);
 +    u = FIELD_DP32(u, CLIDR_EL1, LOUU, 0);
 +    cpu->clidr = u;
 +
      t = cpu->isar.id_aa64isar0;
      t = FIELD_DP64(t, ID_AA64ISAR0, AES, 2);      /* FEAT_PMULL */
      t = FIELD_DP64(t, ID_AA64ISAR0, SHA1, 1);     /* FEAT_SHA1 */
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
      t = FIELD_DP64(t, ID_AA64MMFR2, IESB, 1);     /* FEAT_IESB */
      t = FIELD_DP64(t, ID_AA64MMFR2, VARANGE, 1);  /* FEAT_LVA */
      t = FIELD_DP64(t, ID_AA64MMFR2, ST, 1);       /* FEAT_TTST */
 +    t = FIELD_DP64(t, ID_AA64MMFR2, FWB, 1);      /* FEAT_S2FWB */
      t = FIELD_DP64(t, ID_AA64MMFR2, TTL, 1);      /* FEAT_TTL */
      t = FIELD_DP64(t, ID_AA64MMFR2, BBM, 2);      /* FEAT_BBM at level 2 */
      cpu->isar.id_aa64mmfr2 = t;
 --
-.25.1
+.34.1

target-arm queue: mostly patches from me this time round.
Nothing too exciting.

-- PMM

The following changes since commit 78ac2eebbab9150edf5d0d00e3648f5ebb599001:

Merge tag 'artist-cursor-fix-final-pull-request' of https://github.com/hdeller/qemu-hppa into staging (2022-05-18 09:32:15 -0700)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20220519

for you to fetch changes up to fab8ad39fb75a0d9f097db67b2a334444754e88e:

target/arm: Use FIELD definitions for CPACR, CPTR_ELx (2022-05-19 18:34:10 +0100)

----------------------------------------------------------------
target-arm queue:
 * Implement FEAT_S2FWB
 * Implement FEAT_IDST
 * Drop unsupported_encoding() macro
 * hw/intc/arm_gicv3: Use correct number of priority bits for the CPU
 * Fix aarch64 debug register names
 * hw/adc/zynq-xadc: Use qemu_irq typedef
 * target/arm/helper.c: Delete stray obsolete comment
 * Make number of counters in PMCR follow the CPU
 * hw/arm/virt: Fix dtb nits
 * ptimer: Rename PTIMER_POLICY_DEFAULT to PTIMER_POLICY_LEGACY
 * target/arm: Fix PAuth keys access checks for disabled SEL2
 * Enable FEAT_HCX for -cpu max
 * Use FIELD definitions for CPACR, CPTR_ELx

----------------------------------------------------------------
Chris Howard (1):
      Fix aarch64 debug register names.

Florian Lugou (1):
      target/arm: Fix PAuth keys access checks for disabled SEL2

Peter Maydell (17):
      target/arm: Postpone interpretation of stage 2 descriptor attribute bits
      target/arm: Factor out FWB=0 specific part of combine_cacheattrs()
      target/arm: Implement FEAT_S2FWB
      target/arm: Enable FEAT_S2FWB for -cpu max
      target/arm: Implement FEAT_IDST
      target/arm: Drop unsupported_encoding() macro
      hw/intc/arm_gicv3_cpuif: Handle CPUs that don't specify GICv3 parameters
      hw/intc/arm_gicv3: report correct PRIbits field in ICV_CTLR_EL1
      hw/intc/arm_gicv3_kvm.c: Stop using GIC_MIN_BPR constant
      hw/intc/arm_gicv3: Support configurable number of physical priority bits
      hw/intc/arm_gicv3: Use correct number of priority bits for the CPU
      hw/intc/arm_gicv3: Provide ich_num_aprs()
      target/arm/helper.c: Delete stray obsolete comment
      target/arm: Make number of counters in PMCR follow the CPU
      hw/arm/virt: Fix incorrect non-secure flash dtb node name
      hw/arm/virt: Drop #size-cells and #address-cells from gpio-keys dtb node
      ptimer: Rename PTIMER_POLICY_DEFAULT to PTIMER_POLICY_LEGACY

Philippe Mathieu-Daudé (1):
      hw/adc/zynq-xadc: Use qemu_irq typedef

Richard Henderson (2):
      target/arm: Enable FEAT_HCX for -cpu max
      target/arm: Use FIELD definitions for CPACR, CPTR_ELx

In the original Arm v8 two-stage translation, both stage 1 and stage
2 specify memory attributes (memory type, cacheability,
shareability); these are then combined to produce the overall memory
attributes for the whole stage 1+2 access.  In QEMU we implement this
by having get_phys_addr() fill in an ARMCacheAttrs struct, and we
convert both the stage 1 and stage 2 attribute bit formats to the
same encoding (an 8-bit attribute value matching the MAIR_EL1 fields,
plus a 2-bit shareability value).

The new FEAT_S2FWB feature allows the guest to enable a different
interpretation of the attribute bits in the stage 2 descriptors.
These bits can now be used to control details of how the stage 1 and
2 attributes should be combined (for instance they can say "always
use the stage 1 attributes" or "ignore the stage 1 attributes and
always be Device memory").  This means we need to pass the raw bit
information for stage 2 down to the function which combines the stage
1 and stage 2 information.

Add a field to ARMCacheAttrs that indicates whether the attrs field
should be interpreted as MAIR format, or as the raw stage 2 attribute
bits from the descriptor, and store the appropriate values when
filling in cacheattrs.

We only need to interpret the attrs field in a few places:
 * in do_ats_write(), where we know to expect a MAIR value
   (there is no ATS instruction to do a stage-2-only walk)
 * in S1_ptw_translate(), where we want to know whether the
   combined S1 + S2 attributes indicate Device memory that
   should provoke a fault
 * in combine_cacheattrs(), which does the S1 + S2 combining
Update those places accordingly.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220505183950.2781801-2-peter.maydell@linaro.org
---
 target/arm/internals.h |  7 ++++++-
 target/arm/helper.c    | 42 ++++++++++++++++++++++++++++++++++++------
 2 files changed, 42 insertions(+), 7 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ bool pmsav8_mpu_lookup(CPUARMState *env, uint32_t address,
 
 /* Cacheability and shareability attributes for a memory access */
 typedef struct ARMCacheAttrs {
-    unsigned int attrs:8; /* as in the MAIR register encoding */
+    /*
+     * If is_s2_format is true, attrs is the S2 descriptor bits [5:2]
+     * Otherwise, attrs is the same as the MAIR_EL1 8-bit format
+     */
+    unsigned int attrs:8;
     unsigned int shareability:2; /* as in the SH field of the VMSAv8-64 PTEs */
+    bool is_s2_format:1;
 } ARMCacheAttrs;
 
 bool get_phys_addr(CPUARMState *env, target_ulong address,
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t do_ats_write(CPUARMState *env, uint64_t value,
     ret = get_phys_addr(env, value, access_type, mmu_idx, &phys_addr, &attrs,
                         &prot, &page_size, &fi, &cacheattrs);
 
+    /*
+     * ATS operations only do S1 or S1+S2 translations, so we never
+     * have to deal with the ARMCacheAttrs format for S2 only.
+     */
+    assert(!cacheattrs.is_s2_format);
+
     if (ret) {
         /*
          * Some kinds of translation fault must cause exceptions rather
@@ -XXX,XX +XXX,XX @@ static bool get_level1_table_address(CPUARMState *env, ARMMMUIdx mmu_idx,
     return true;
 }
 
+static bool ptw_attrs_are_device(CPUARMState *env, ARMCacheAttrs cacheattrs)
+{
+    /*
+     * For an S1 page table walk, the stage 1 attributes are always
+     * some form of "this is Normal memory". The combined S1+S2
+     * attributes are therefore only Device if stage 2 specifies Device.
+     * With HCR_EL2.FWB == 0 this is when descriptor bits [5:4] are 0b00,
+     * ie when cacheattrs.attrs bits [3:2] are 0b00.
+     */
+    assert(cacheattrs.is_s2_format);
+    return (cacheattrs.attrs & 0xc) == 0;
+}
+
 /* Translate a S1 pagetable walk through S2 if needed.  */
 static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
                                hwaddr addr, bool *is_secure,
@@ -XXX,XX +XXX,XX @@ static hwaddr S1_ptw_translate(CPUARMState *env, ARMMMUIdx mmu_idx,
             return ~0;
         }
         if ((arm_hcr_el2_eff(env) & HCR_PTW) &&
-            (cacheattrs.attrs & 0xf0) == 0) {
+            ptw_attrs_are_device(env, cacheattrs)) {
             /*
              * PTW set and S1 walk touched S2 Device memory:
              * generate Permission fault.
@@ -XXX,XX +XXX,XX @@ static bool get_phys_addr_lpae(CPUARMState *env, uint64_t address,
     }
 
     if (mmu_idx == ARMMMUIdx_Stage2 || mmu_idx == ARMMMUIdx_Stage2_S) {
-        cacheattrs->attrs = convert_stage2_attrs(env, extract32(attrs, 0, 4));
+        cacheattrs->is_s2_format = true;
+        cacheattrs->attrs = extract32(attrs, 0, 4);
     } else {
         /* Index into MAIR registers for cache attributes */
         uint8_t attrindx = extract32(attrs, 0, 3);
         uint64_t mair = env->cp15.mair_el[regime_el(env, mmu_idx)];
         assert(attrindx <= 7);
+        cacheattrs->is_s2_format = false;
         cacheattrs->attrs = extract64(mair, attrindx * 8, 8);
     }
 
@@ -XXX,XX +XXX,XX @@ static uint8_t combine_cacheattr_nibble(uint8_t s1, uint8_t s2)
 /* Combine S1 and S2 cacheability/shareability attributes, per D4.5.4
  * and CombineS1S2Desc()
  *
+ * @env:     CPUARMState
  * @s1:      Attributes from stage 1 walk
  * @s2:      Attributes from stage 2 walk
  */
-static ARMCacheAttrs combine_cacheattrs(ARMCacheAttrs s1, ARMCacheAttrs s2)
+static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
+                                        ARMCacheAttrs s1, ARMCacheAttrs s2)
 {
     uint8_t s1lo, s2lo, s1hi, s2hi;
     ARMCacheAttrs ret;
     bool tagged = false;
+    uint8_t s2_mair_attrs;
+
+    assert(s2.is_s2_format && !s1.is_s2_format);
+    ret.is_s2_format = false;
+
+    s2_mair_attrs = convert_stage2_attrs(env, s2.attrs);
 
     if (s1.attrs == 0xf0) {
         tagged = true;
@@ -XXX,XX +XXX,XX @@ static ARMCacheAttrs combine_cacheattrs(ARMCacheAttrs s1, ARMCacheAttrs s2)
     }
 
     s1lo = extract32(s1.attrs, 0, 4);
-    s2lo = extract32(s2.attrs, 0, 4);
+    s2lo = extract32(s2_mair_attrs, 0, 4);
     s1hi = extract32(s1.attrs, 4, 4);
-    s2hi = extract32(s2.attrs, 4, 4);
+    s2hi = extract32(s2_mair_attrs, 4, 4);
 
     /* Combine shareability attributes (table D4-43) */
     if (s1.shareability == 2 || s2.shareability == 2) {
@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
                 }
                 cacheattrs->shareability = 0;
             }
-            *cacheattrs = combine_cacheattrs(*cacheattrs, cacheattrs2);
+            *cacheattrs = combine_cacheattrs(env, *cacheattrs, cacheattrs2);
 
             /* Check if IPA translates to secure or non-secure PA space. */
             if (arm_is_secure_below_el3(env)) {
@@ -XXX,XX +XXX,XX @@ bool get_phys_addr(CPUARMState *env, target_ulong address,
         /* Fill in cacheattr a-la AArch64.TranslateAddressS1Off. */
         hcr = arm_hcr_el2_eff(env);
         cacheattrs->shareability = 0;
+        cacheattrs->is_s2_format = false;
         if (hcr & HCR_DC) {
             if (hcr & HCR_DCT) {
                 memattr = 0xf0;  /* Tagged, Normal, WB, RWA */
-- 
2.25.1

Factor out the part of combine_cacheattrs() that is specific to
handling HCR_EL2.FWB == 0.  This is the part where we combine the
memory type and cacheability attributes.

The "force Outer Shareable for Device or Normal Inner-NC Outer-NC"
logic remains in combine_cacheattrs() because it holds regardless
(this is the equivalent of the pseudocode EffectiveShareability()
function).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220505183950.2781801-3-peter.maydell@linaro.org
---
 target/arm/helper.c | 88 +++++++++++++++++++++++++--------------------
 1 file changed, 50 insertions(+), 38 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint8_t combine_cacheattr_nibble(uint8_t s1, uint8_t s2)
     }
 }
 
+/*
+ * Combine the memory type and cacheability attributes of
+ * s1 and s2 for the HCR_EL2.FWB == 0 case, returning the
+ * combined attributes in MAIR_EL1 format.
+ */
+static uint8_t combined_attrs_nofwb(CPUARMState *env,
+                                    ARMCacheAttrs s1, ARMCacheAttrs s2)
+{
+    uint8_t s1lo, s2lo, s1hi, s2hi, s2_mair_attrs, ret_attrs;
+
+    s2_mair_attrs = convert_stage2_attrs(env, s2.attrs);
+
+    s1lo = extract32(s1.attrs, 0, 4);
+    s2lo = extract32(s2_mair_attrs, 0, 4);
+    s1hi = extract32(s1.attrs, 4, 4);
+    s2hi = extract32(s2_mair_attrs, 4, 4);
+
+    /* Combine memory type and cacheability attributes */
+    if (s1hi == 0 || s2hi == 0) {
+        /* Device has precedence over normal */
+        if (s1lo == 0 || s2lo == 0) {
+            /* nGnRnE has precedence over anything */
+            ret_attrs = 0;
+        } else if (s1lo == 4 || s2lo == 4) {
+            /* non-Reordering has precedence over Reordering */
+            ret_attrs = 4;  /* nGnRE */
+        } else if (s1lo == 8 || s2lo == 8) {
+            /* non-Gathering has precedence over Gathering */
+            ret_attrs = 8;  /* nGRE */
+        } else {
+            ret_attrs = 0xc; /* GRE */
+        }
+    } else { /* Normal memory */
+        /* Outer/inner cacheability combine independently */
+        ret_attrs = combine_cacheattr_nibble(s1hi, s2hi) << 4
+                  | combine_cacheattr_nibble(s1lo, s2lo);
+    }
+    return ret_attrs;
+}
+
 /* Combine S1 and S2 cacheability/shareability attributes, per D4.5.4
  * and CombineS1S2Desc()
  *
@@ -XXX,XX +XXX,XX @@ static uint8_t combine_cacheattr_nibble(uint8_t s1, uint8_t s2)
 static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
                                         ARMCacheAttrs s1, ARMCacheAttrs s2)
 {
-    uint8_t s1lo, s2lo, s1hi, s2hi;
     ARMCacheAttrs ret;
     bool tagged = false;
-    uint8_t s2_mair_attrs;
 
     assert(s2.is_s2_format && !s1.is_s2_format);
     ret.is_s2_format = false;
 
-    s2_mair_attrs = convert_stage2_attrs(env, s2.attrs);
-
     if (s1.attrs == 0xf0) {
         tagged = true;
         s1.attrs = 0xff;
     }
 
-    s1lo = extract32(s1.attrs, 0, 4);
-    s2lo = extract32(s2_mair_attrs, 0, 4);
-    s1hi = extract32(s1.attrs, 4, 4);
-    s2hi = extract32(s2_mair_attrs, 4, 4);
-
     /* Combine shareability attributes (table D4-43) */
     if (s1.shareability == 2 || s2.shareability == 2) {
         /* if either are outer-shareable, the result is outer-shareable */
@@ -XXX,XX +XXX,XX @@ static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
     }
 
     /* Combine memory type and cacheability attributes */
-    if (s1hi == 0 || s2hi == 0) {
-        /* Device has precedence over normal */
-        if (s1lo == 0 || s2lo == 0) {
-            /* nGnRnE has precedence over anything */
-            ret.attrs = 0;
-        } else if (s1lo == 4 || s2lo == 4) {
-            /* non-Reordering has precedence over Reordering */
-            ret.attrs = 4;  /* nGnRE */
-        } else if (s1lo == 8 || s2lo == 8) {
-            /* non-Gathering has precedence over Gathering */
-            ret.attrs = 8;  /* nGRE */
-        } else {
-            ret.attrs = 0xc; /* GRE */
-        }
+    ret.attrs = combined_attrs_nofwb(env, s1, s2);
 
-        /* Any location for which the resultant memory type is any
-         * type of Device memory is always treated as Outer Shareable.
-         */
+    /*
+     * Any location for which the resultant memory type is any
+     * type of Device memory is always treated as Outer Shareable.
+     * Any location for which the resultant memory type is Normal
+     * Inner Non-cacheable, Outer Non-cacheable is always treated
+     * as Outer Shareable.
+     * TODO: FEAT_XS adds another value (0x40) also meaning iNCoNC
+     */
+    if ((ret.attrs & 0xf0) == 0 || ret.attrs == 0x44) {
         ret.shareability = 2;
-    } else { /* Normal memory */
-        /* Outer/inner cacheability combine independently */
-        ret.attrs = combine_cacheattr_nibble(s1hi, s2hi) << 4
-                  | combine_cacheattr_nibble(s1lo, s2lo);
-
-        if (ret.attrs == 0x44) {
-            /* Any location for which the resultant memory type is Normal
-             * Inner Non-cacheable, Outer Non-cacheable is always treated
-             * as Outer Shareable.
-             */
-            ret.shareability = 2;
-        }
     }
 
     /* TODO: CombineS1S2Desc does not consider transient, only WB, RWA. */
-- 
2.25.1

Implement the handling of FEAT_S2FWB; the meat of this is in the new
combined_attrs_fwb() function which combines S1 and S2 attributes
when HCR_EL2.FWB is set.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220505183950.2781801-4-peter.maydell@linaro.org
---
 target/arm/cpu.h    |  5 +++
 target/arm/helper.c | 84 +++++++++++++++++++++++++++++++++++++++++++--
 2 files changed, 86 insertions(+), 3 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_st(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, ST) != 0;
 }
 
+static inline bool isar_feature_aa64_fwb(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, FWB) != 0;
+}
+
 static inline bool isar_feature_aa64_bti(const ARMISARegisters *id)
 {
     return FIELD_EX64(id->id_aa64pfr1, ID_AA64PFR1, BT) != 0;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void do_hcr_write(CPUARMState *env, uint64_t value, uint64_t valid_mask)
         if (cpu_isar_feature(aa64_scxtnum, cpu)) {
             valid_mask |= HCR_ENSCXT;
         }
+        if (cpu_isar_feature(aa64_fwb, cpu)) {
+            valid_mask |= HCR_FWB;
+        }
     }
 
     /* Clear RES0 bits.  */
@@ -XXX,XX +XXX,XX @@ static void do_hcr_write(CPUARMState *env, uint64_t value, uint64_t valid_mask)
      * HCR_PTW forbids certain page-table setups
      * HCR_DC disables stage1 and enables stage2 translation
      * HCR_DCT enables tagging on (disabled) stage1 translation
+     * HCR_FWB changes the interpretation of stage2 descriptor bits
      */
-    if ((env->cp15.hcr_el2 ^ value) & (HCR_VM | HCR_PTW | HCR_DC | HCR_DCT)) {
+    if ((env->cp15.hcr_el2 ^ value) &
+        (HCR_VM | HCR_PTW | HCR_DC | HCR_DCT | HCR_FWB)) {
         tlb_flush(CPU(cpu));
     }
     env->cp15.hcr_el2 = value;
@@ -XXX,XX +XXX,XX @@ static bool ptw_attrs_are_device(CPUARMState *env, ARMCacheAttrs cacheattrs)
      * attributes are therefore only Device if stage 2 specifies Device.
      * With HCR_EL2.FWB == 0 this is when descriptor bits [5:4] are 0b00,
      * ie when cacheattrs.attrs bits [3:2] are 0b00.
+     * With HCR_EL2.FWB == 1 this is when descriptor bit [4] is 0, ie
+     * when cacheattrs.attrs bit [2] is 0.
      */
     assert(cacheattrs.is_s2_format);
-    return (cacheattrs.attrs & 0xc) == 0;
+    if (arm_hcr_el2_eff(env) & HCR_FWB) {
+        return (cacheattrs.attrs & 0x4) == 0;
+    } else {
+        return (cacheattrs.attrs & 0xc) == 0;
+    }
 }
 
 /* Translate a S1 pagetable walk through S2 if needed.  */
@@ -XXX,XX +XXX,XX @@ static uint8_t combined_attrs_nofwb(CPUARMState *env,
     return ret_attrs;
 }
 
+static uint8_t force_cacheattr_nibble_wb(uint8_t attr)
+{
+    /*
+     * Given the 4 bits specifying the outer or inner cacheability
+     * in MAIR format, return a value specifying Normal Write-Back,
+     * with the allocation and transient hints taken from the input
+     * if the input specified some kind of cacheable attribute.
+     */
+    if (attr == 0 || attr == 4) {
+        /*
+         * 0 == an UNPREDICTABLE encoding
+         * 4 == Non-cacheable
+         * Either way, force Write-Back RW allocate non-transient
+         */
+        return 0xf;
+    }
+    /* Change WriteThrough to WriteBack, keep allocation and transient hints */
+    return attr | 4;
+}
+
+/*
+ * Combine the memory type and cacheability attributes of
+ * s1 and s2 for the HCR_EL2.FWB == 1 case, returning the
+ * combined attributes in MAIR_EL1 format.
+ */
+static uint8_t combined_attrs_fwb(CPUARMState *env,
+                                  ARMCacheAttrs s1, ARMCacheAttrs s2)
+{
+    switch (s2.attrs) {
+    case 7:
+        /* Use stage 1 attributes */
+        return s1.attrs;
+    case 6:
+        /*
+         * Force Normal Write-Back. Note that if S1 is Normal cacheable
+         * then we take the allocation hints from it; otherwise it is
+         * RW allocate, non-transient.
+         */
+        if ((s1.attrs & 0xf0) == 0) {
+            /* S1 is Device */
+            return 0xff;
+        }
+        /* Need to check the Inner and Outer nibbles separately */
+        return force_cacheattr_nibble_wb(s1.attrs & 0xf) |
+            force_cacheattr_nibble_wb(s1.attrs >> 4) << 4;
+    case 5:
+        /* If S1 attrs are Device, use them; otherwise Normal Non-cacheable */
+        if ((s1.attrs & 0xf0) == 0) {
+            return s1.attrs;
+        }
+        return 0x44;
+    case 0 ... 3:
+        /* Force Device, of subtype specified by S2 */
+        return s2.attrs << 2;
+    default:
+        /*
+         * RESERVED values (including RES0 descriptor bit [5] being nonzero);
+         * arbitrarily force Device.
+         */
+        return 0;
+    }
+}
+
 /* Combine S1 and S2 cacheability/shareability attributes, per D4.5.4
  * and CombineS1S2Desc()
  *
@@ -XXX,XX +XXX,XX @@ static ARMCacheAttrs combine_cacheattrs(CPUARMState *env,
     }
 
     /* Combine memory type and cacheability attributes */
-    ret.attrs = combined_attrs_nofwb(env, s1, s2);
+    if (arm_hcr_el2_eff(env) & HCR_FWB) {
+        ret.attrs = combined_attrs_fwb(env, s1, s2);
+    } else {
+        ret.attrs = combined_attrs_nofwb(env, s1, s2);
+    }
 
     /*
      * Any location for which the resultant memory type is any
-- 
2.25.1

Enable the FEAT_S2FWB for -cpu max. Since FEAT_S2FWB requires that
CLIDR_EL1.{LoUU,LoUIS} are zero, we explicitly squash these (the
inherited CLIDR_EL1 value from the Cortex-A57 has them as 1).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220505183950.2781801-5-peter.maydell@linaro.org
---
 docs/system/arm/emulation.rst |  1 +
 target/arm/cpu64.c            | 11 +++++++++++
 2 files changed, 12 insertions(+)

The Armv8.4 feature FEAT_IDST specifies that exceptions generated by
read accesses to the feature ID space should report a syndrome code
of 0x18 (EC_SYSTEMREGISTERTRAP) rather than 0x00 (EC_UNCATEGORIZED).
The feature ID space is defined to be:
 op0 == 3, op1 == {0,1,3}, CRn == 0, CRm == {0-7}, op2 == {0-7}

In our implementation we might return the EC_UNCATEGORIZED syndrome
value for a system register access in four cases:
 * no reginfo struct in the hashtable
 * cp_access_ok() fails (ie ri->access doesn't permit the access)
 * ri->accessfn returns CP_ACCESS_TRAP_UNCATEGORIZED at runtime
 * ri->type includes ARM_CP_RAISES_EXC, and the readfn raises
   an UNDEF exception at runtime

We have very few regdefs that set ARM_CP_RAISES_EXC, and none of
them are in the feature ID space. (In the unlikely event that any
are added in future they would need to take care of setting the
correct syndrome themselves.) This patch deals with the other
three cases, and enables FEAT_IDST for AArch64 -cpu max.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220509155457.3560724-1-peter.maydell@linaro.org
---
 docs/system/arm/emulation.rst |  1 +
 target/arm/cpregs.h           | 24 ++++++++++++++++++++++++
 target/arm/cpu.h              |  5 +++++
 target/arm/cpu64.c            |  1 +
 target/arm/op_helper.c        |  9 +++++++++
 target/arm/translate-a64.c    | 28 ++++++++++++++++++++++++++--
 6 files changed, 66 insertions(+), 2 deletions(-)

diff --git a/docs/system/arm/emulation.rst b/docs/system/arm/emulation.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/arm/emulation.rst
+++ b/docs/system/arm/emulation.rst
@@ -XXX,XX +XXX,XX @@ the following architecture extensions:
 - FEAT_FlagM2 (Enhancements to flag manipulation instructions)
 - FEAT_HPDS (Hierarchical permission disables)
 - FEAT_I8MM (AArch64 Int8 matrix multiplication instructions)
+- FEAT_IDST (ID space trap handling)
 - FEAT_IESB (Implicit error synchronization event)
 - FEAT_JSCVT (JavaScript conversion instructions)
 - FEAT_LOR (Limited ordering regions)
diff --git a/target/arm/cpregs.h b/target/arm/cpregs.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpregs.h
+++ b/target/arm/cpregs.h
@@ -XXX,XX +XXX,XX @@ static inline bool cp_access_ok(int current_el,
 /* Raw read of a coprocessor register (as needed for migration, etc) */
 uint64_t read_raw_cp_reg(CPUARMState *env, const ARMCPRegInfo *ri);
 
+/*
+ * Return true if the cp register encoding is in the "feature ID space" as
+ * defined by FEAT_IDST (and thus should be reported with ER_ELx.EC
+ * as EC_SYSTEMREGISTERTRAP rather than EC_UNCATEGORIZED).
+ */
+static inline bool arm_cpreg_encoding_in_idspace(uint8_t opc0, uint8_t opc1,
+                                                 uint8_t opc2,
+                                                 uint8_t crn, uint8_t crm)
+{
+    return opc0 == 3 && (opc1 == 0 || opc1 == 1 || opc1 == 3) &&
+        crn == 0 && crm < 8;
+}
+
+/*
+ * As arm_cpreg_encoding_in_idspace(), but take the encoding from an
+ * ARMCPRegInfo.
+ */
+static inline bool arm_cpreg_in_idspace(const ARMCPRegInfo *ri)
+{
+    return ri->state == ARM_CP_STATE_AA64 &&
+        arm_cpreg_encoding_in_idspace(ri->opc0, ri->opc1, ri->opc2,
+                                      ri->crn, ri->crm);
+}
+
 #endif /* TARGET_ARM_CPREGS_H */
diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_fwb(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, FWB) != 0;
 }
 
+static inline bool isar_feature_aa64_ids(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, IDS) != 0;
+}
+
 static inline bool isar_feature_aa64_bti(const ARMISARegisters *id)
 {
     return FIELD_EX64(id->id_aa64pfr1, ID_AA64PFR1, BT) != 0;
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
     t = FIELD_DP64(t, ID_AA64MMFR2, IESB, 1);     /* FEAT_IESB */
     t = FIELD_DP64(t, ID_AA64MMFR2, VARANGE, 1);  /* FEAT_LVA */
     t = FIELD_DP64(t, ID_AA64MMFR2, ST, 1);       /* FEAT_TTST */
+    t = FIELD_DP64(t, ID_AA64MMFR2, IDS, 1);      /* FEAT_IDST */
     t = FIELD_DP64(t, ID_AA64MMFR2, FWB, 1);      /* FEAT_S2FWB */
     t = FIELD_DP64(t, ID_AA64MMFR2, TTL, 1);      /* FEAT_TTL */
     t = FIELD_DP64(t, ID_AA64MMFR2, BBM, 2);      /* FEAT_BBM at level 2 */
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mrs_banked)(CPUARMState *env, uint32_t tgtmode, uint32_t regno)
 void HELPER(access_check_cp_reg)(CPUARMState *env, void *rip, uint32_t syndrome,
                                  uint32_t isread)
 {
+    ARMCPU *cpu = env_archcpu(env);
     const ARMCPRegInfo *ri = rip;
     CPAccessResult res = CP_ACCESS_OK;
     int target_el;
@@ -XXX,XX +XXX,XX @@ void HELPER(access_check_cp_reg)(CPUARMState *env, void *rip, uint32_t syndrome,
     case CP_ACCESS_TRAP:
         break;
     case CP_ACCESS_TRAP_UNCATEGORIZED:
+        if (cpu_isar_feature(aa64_ids, cpu) && isread &&
+            arm_cpreg_in_idspace(ri)) {
+            /*
+             * FEAT_IDST says this should be reported as EC_SYSTEMREGISTERTRAP,
+             * not EC_UNCATEGORIZED
+             */
+            break;
+        }
         syndrome = syn_uncategorized();
         break;
     default:
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_set_nzcv(TCGv_i64 tcg_rt)
     tcg_temp_free_i32(nzcv);
 }
 
+static void gen_sysreg_undef(DisasContext *s, bool isread,
+                             uint8_t op0, uint8_t op1, uint8_t op2,
+                             uint8_t crn, uint8_t crm, uint8_t rt)
+{
+    /*
+     * Generate code to emit an UNDEF with correct syndrome
+     * information for a failed system register access.
+     * This is EC_UNCATEGORIZED (ie a standard UNDEF) in most cases,
+     * but if FEAT_IDST is implemented then read accesses to registers
+     * in the feature ID space are reported with the EC_SYSTEMREGISTERTRAP
+     * syndrome.
+     */
+    uint32_t syndrome;
+
+    if (isread && dc_isar_feature(aa64_ids, s) &&
+        arm_cpreg_encoding_in_idspace(op0, op1, op2, crn, crm)) {
+        syndrome = syn_aa64_sysregtrap(op0, op1, op2, crn, crm, rt, isread);
+    } else {
+        syndrome = syn_uncategorized();
+    }
+    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syndrome,
+                       default_exception_el(s));
+}
+
 /* MRS - move from system register
  * MSR (register) - move to system register
  * SYS
@@ -XXX,XX +XXX,XX @@ static void handle_sys(DisasContext *s, uint32_t insn, bool isread,
         qemu_log_mask(LOG_UNIMP, "%s access to unsupported AArch64 "
                       "system register op0:%d op1:%d crn:%d crm:%d op2:%d\n",
                       isread ? "read" : "write", op0, op1, crn, crm, op2);
-        unallocated_encoding(s);
+        gen_sysreg_undef(s, isread, op0, op1, op2, crn, crm, rt);
         return;
     }
 
     /* Check access permissions */
     if (!cp_access_ok(s->current_el, ri, isread)) {
-        unallocated_encoding(s);
+        gen_sysreg_undef(s, isread, op0, op1, op2, crn, crm, rt);
         return;
     }
 
-- 
2.25.1

The unsupported_encoding() macro logs a LOG_UNIMP message and then
generates code to raise the usual exception for an unallocated
encoding.  Back when we were still implementing the A64 decoder this
was helpful for flagging up when guest code was using something we
hadn't yet implemented.  Now we completely cover the A64 instruction
set it is barely used.  The only remaining uses are for five
instructions whose semantics are "UNDEF, unless being run under
external halting debug":
 * HLT (when not being used for semihosting)
 * DCPSR1, DCPS2, DCPS3
 * DRPS

QEMU doesn't implement external halting debug, so for us the UNDEF is
the architecturally correct behaviour (because it's not possible to
execute these instructions with halting debug enabled).  The
LOG_UNIMP doesn't serve a useful purpose; replace these uses of
unsupported_encoding() with unallocated_encoding(), and delete the
macro.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220509160443.3561604-1-peter.maydell@linaro.org
---
 target/arm/translate-a64.h | 9 ---------
 target/arm/translate-a64.c | 8 ++++----
 2 files changed, 4 insertions(+), 13 deletions(-)

diff --git a/target/arm/translate-a64.h b/target/arm/translate-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.h
+++ b/target/arm/translate-a64.h
@@ -XXX,XX +XXX,XX @@
 #ifndef TARGET_ARM_TRANSLATE_A64_H
 #define TARGET_ARM_TRANSLATE_A64_H
 
-#define unsupported_encoding(s, insn)                                    \
-    do {                                                                 \
-        qemu_log_mask(LOG_UNIMP,                                         \
-                      "%s:%d: unsupported instruction encoding 0x%08x "  \
-                      "at pc=%016" PRIx64 "\n",                          \
-                      __FILE__, __LINE__, insn, s->pc_curr);             \
-        unallocated_encoding(s);                                         \
-    } while (0)
-
 TCGv_i64 new_tmp_a64(DisasContext *s);
 TCGv_i64 new_tmp_a64_local(DisasContext *s);
 TCGv_i64 new_tmp_a64_zero(DisasContext *s);
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
              * with our 32-bit semihosting).
              */
             if (s->current_el == 0) {
-                unsupported_encoding(s, insn);
+                unallocated_encoding(s);
                 break;
             }
 #endif
             gen_exception_internal_insn(s, s->pc_curr, EXCP_SEMIHOST);
         } else {
-            unsupported_encoding(s, insn);
+            unallocated_encoding(s);
         }
         break;
     case 5:
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
             break;
         }
         /* DCPS1, DCPS2, DCPS3 */
-        unsupported_encoding(s, insn);
+        unallocated_encoding(s);
         break;
     default:
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
         if (op3 != 0 || op4 != 0 || rn != 0x1f) {
             goto do_unallocated;
         } else {
-            unsupported_encoding(s, insn);
+            unallocated_encoding(s);
         }
         return;
 
-- 
2.25.1

We allow a GICv3 to be connected to any CPU, but we don't do anything
to handle the case where the CPU type doesn't in hardware have a
GICv3 CPU interface and so the various GIC configuration fields
(gic_num_lrs, vprebits, vpribits) are not specified.

The current behaviour is that we will add the EL1 CPU interface
registers, but will not put in the EL2 CPU interface registers, even
if the CPU has EL2, which will leave the GIC in a broken state and
probably result in the guest crashing as it tries to set it up.  This
only affects the virt board when using the cortex-a15 or cortex-a7
CPU types (both 32-bit) with -machine gic-version=3 (or 'max')
and -machine virtualization=on.

Instead of failing to set up the EL2 registers, if the CPU doesn't
define the GIC configuration set it to a reasonable default, matching
the standard configuration for most Arm CPUs.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220512151457.3899052-2-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_cpuif.c | 18 +++++++++++++-----
 1 file changed, 13 insertions(+), 5 deletions(-)

diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_cpuif.c
+++ b/hw/intc/arm_gicv3_cpuif.c
@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
         ARMCPU *cpu = ARM_CPU(qemu_get_cpu(i));
         GICv3CPUState *cs = &s->cpu[i];
 
+        /*
+         * If the CPU doesn't define a GICv3 configuration, probably because
+         * in real hardware it doesn't have one, then we use default values
+         * matching the one used by most Arm CPUs. This applies to:
+         *  cpu->gic_num_lrs
+         *  cpu->gic_vpribits
+         *  cpu->gic_vprebits
+         */
+
         /* Note that we can't just use the GICv3CPUState as an opaque pointer
          * in define_arm_cp_regs_with_opaque(), because when we're called back
          * it might be with code translated by CPU 0 but run by CPU 1, in
@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
          * get back to the GICv3CPUState from the CPUARMState.
          */
         define_arm_cp_regs(cpu, gicv3_cpuif_reginfo);
-        if (arm_feature(&cpu->env, ARM_FEATURE_EL2)
-            && cpu->gic_num_lrs) {
+        if (arm_feature(&cpu->env, ARM_FEATURE_EL2)) {
             int j;
 
-            cs->num_list_regs = cpu->gic_num_lrs;
-            cs->vpribits = cpu->gic_vpribits;
-            cs->vprebits = cpu->gic_vprebits;
+            cs->num_list_regs = cpu->gic_num_lrs ?: 4;
+            cs->vpribits = cpu->gic_vpribits ?: 5;
+            cs->vprebits = cpu->gic_vprebits ?: 5;
 
             /* Check against architectural constraints: getting these
              * wrong would be a bug in the CPU code defining these,
-- 
2.25.1

As noted in the comment, the PRIbits field in ICV_CTLR_EL1 is
supposed to match the ICH_VTR_EL2 PRIbits setting; that is, it is the
virtual priority bit setting, not the physical priority bit setting.
(For QEMU currently we always implement 8 bits of physical priority,
so the PRIbits field was previously 7, since it is defined to be
"priority bits - 1".)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220512151457.3899052-3-peter.maydell@linaro.org
Message-id: 20220506162129.2896966-2-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_cpuif.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_cpuif.c
+++ b/hw/intc/arm_gicv3_cpuif.c
@@ -XXX,XX +XXX,XX @@ static uint64_t icv_ctlr_read(CPUARMState *env, const ARMCPRegInfo *ri)
      * should match the ones reported in ich_vtr_read().
      */
     value = ICC_CTLR_EL1_A3V | (1 << ICC_CTLR_EL1_IDBITS_SHIFT) |
-        (7 << ICC_CTLR_EL1_PRIBITS_SHIFT);
+        ((cs->vpribits - 1) << ICC_CTLR_EL1_PRIBITS_SHIFT);
 
     if (cs->ich_vmcr_el2 & ICH_VMCR_EL2_VEOIM) {
         value |= ICC_CTLR_EL1_EOIMODE;
-- 
2.25.1

The GIC_MIN_BPR constant defines the minimum BPR value that the TCG
emulated GICv3 supports.  We're currently using this also as the
value we reset the KVM GICv3 ICC_BPR registers to, but this is only
right by accident.

We want to make the emulated GICv3 use a configurable number of
priority bits, which means that GIC_MIN_BPR will no longer be a
constant.  Replace the uses in the KVM reset code with literal 0,
plus a constant explaining why this is reasonable.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220512151457.3899052-4-peter.maydell@linaro.org
Message-id: 20220506162129.2896966-3-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_kvm.c | 16 +++++++++++++---
 1 file changed, 13 insertions(+), 3 deletions(-)

diff --git a/hw/intc/arm_gicv3_kvm.c b/hw/intc/arm_gicv3_kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_kvm.c
+++ b/hw/intc/arm_gicv3_kvm.c
@@ -XXX,XX +XXX,XX @@ static void arm_gicv3_icc_reset(CPUARMState *env, const ARMCPRegInfo *ri)
     s = c->gic;
 
     c->icc_pmr_el1 = 0;
-    c->icc_bpr[GICV3_G0] = GIC_MIN_BPR;
-    c->icc_bpr[GICV3_G1] = GIC_MIN_BPR;
-    c->icc_bpr[GICV3_G1NS] = GIC_MIN_BPR;
+    /*
+     * Architecturally the reset value of the ICC_BPR registers
+     * is UNKNOWN. We set them all to 0 here; when the kernel
+     * uses these values to program the ICH_VMCR_EL2 fields that
+     * determine the guest-visible ICC_BPR register values, the
+     * hardware's "writing a value less than the minimum sets
+     * the field to the minimum value" behaviour will result in
+     * them effectively resetting to the correct minimum value
+     * for the host GIC.
+     */
+    c->icc_bpr[GICV3_G0] = 0;
+    c->icc_bpr[GICV3_G1] = 0;
+    c->icc_bpr[GICV3_G1NS] = 0;
 
     c->icc_sre_el1 = 0x7;
     memset(c->icc_apr, 0, sizeof(c->icc_apr));
-- 
2.25.1

The GICv3 code has always supported a configurable number of virtual
priority and preemption bits, but our implementation currently
hardcodes the number of physical priority bits at 8.  This is not
what most hardware implementations provide; for instance the
Cortex-A53 provides only 5 bits of physical priority.

Make the number of physical priority/preemption bits driven by fields
in the GICv3CPUState, the way that we already do for virtual
priority/preemption bits.  We set cs->pribits to 8, so there is no
behavioural change in this commit.  A following commit will add the
machinery for CPUs to set this to the correct value for their
implementation.

Note that changing the number of priority bits would be a migration
compatibility break, because the semantics of the icc_apr[][] array
changes.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220512151457.3899052-5-peter.maydell@linaro.org
Message-id: 20220506162129.2896966-4-peter.maydell@linaro.org
---
 include/hw/intc/arm_gicv3_common.h |   7 +-
 hw/intc/arm_gicv3_cpuif.c          | 182 ++++++++++++++++++++---------
 2 files changed, 130 insertions(+), 59 deletions(-)

diff --git a/include/hw/intc/arm_gicv3_common.h b/include/hw/intc/arm_gicv3_common.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/intc/arm_gicv3_common.h
+++ b/include/hw/intc/arm_gicv3_common.h
@@ -XXX,XX +XXX,XX @@
 /* Maximum number of list registers (architectural limit) */
 #define GICV3_LR_MAX 16
 
-/* Minimum BPR for Secure, or when security not enabled */
-#define GIC_MIN_BPR 0
-/* Minimum BPR for Nonsecure when security is enabled */
-#define GIC_MIN_BPR_NS (GIC_MIN_BPR + 1)
-
 /* For some distributor fields we want to model the array of 32-bit
  * register values which hold various bitmaps corresponding to enabled,
  * pending, etc bits. These macros and functions facilitate that; the
@@ -XXX,XX +XXX,XX @@ struct GICv3CPUState {
     int num_list_regs;
     int vpribits; /* number of virtual priority bits */
     int vprebits; /* number of virtual preemption bits */
+    int pribits; /* number of physical priority bits */
+    int prebits; /* number of physical preemption bits */
 
     /* Current highest priority pending interrupt for this CPU.
      * This is cached information that can be recalculated from the
diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_cpuif.c
+++ b/hw/intc/arm_gicv3_cpuif.c
@@ -XXX,XX +XXX,XX @@ static uint64_t icv_iar_read(CPUARMState *env, const ARMCPRegInfo *ri)
     return intid;
 }
 
+static uint32_t icc_fullprio_mask(GICv3CPUState *cs)
+{
+    /*
+     * Return a mask word which clears the unimplemented priority bits
+     * from a priority value for a physical interrupt. (Not to be confused
+     * with the group priority, whose mask depends on the value of BPR
+     * for the interrupt group.)
+     */
+    return ~0U << (8 - cs->pribits);
+}
+
+static inline int icc_min_bpr(GICv3CPUState *cs)
+{
+    /* The minimum BPR for the physical interface. */
+    return 7 - cs->prebits;
+}
+
+static inline int icc_min_bpr_ns(GICv3CPUState *cs)
+{
+    return icc_min_bpr(cs) + 1;
+}
+
+static inline int icc_num_aprs(GICv3CPUState *cs)
+{
+    /* Return the number of APR registers (1, 2, or 4) */
+    int aprmax = 1 << MAX(cs->prebits - 5, 0);
+    assert(aprmax <= ARRAY_SIZE(cs->icc_apr[0]));
+    return aprmax;
+}
+
 static int icc_highest_active_prio(GICv3CPUState *cs)
 {
     /* Calculate the current running priority based on the set bits
@@ -XXX,XX +XXX,XX @@ static int icc_highest_active_prio(GICv3CPUState *cs)
      */
     int i;
 
-    for (i = 0; i < ARRAY_SIZE(cs->icc_apr[0]); i++) {
+    for (i = 0; i < icc_num_aprs(cs); i++) {
         uint32_t apr = cs->icc_apr[GICV3_G0][i] |
             cs->icc_apr[GICV3_G1][i] | cs->icc_apr[GICV3_G1NS][i];
 
         if (!apr) {
             continue;
         }
-        return (i * 32 + ctz32(apr)) << (GIC_MIN_BPR + 1);
+        return (i * 32 + ctz32(apr)) << (icc_min_bpr(cs) + 1);
     }
     /* No current active interrupts: return idle priority */
     return 0xff;
@@ -XXX,XX +XXX,XX @@ static void icc_pmr_write(CPUARMState *env, const ARMCPRegInfo *ri,
 
     trace_gicv3_icc_pmr_write(gicv3_redist_affid(cs), value);
 
-    value &= 0xff;
+    value &= icc_fullprio_mask(cs);
 
     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_is_secure(env) &&
         (env->cp15.scr_el3 & SCR_FIQ)) {
@@ -XXX,XX +XXX,XX @@ static void icc_activate_irq(GICv3CPUState *cs, int irq)
      */
     uint32_t mask = icc_gprio_mask(cs, cs->hppi.grp);
     int prio = cs->hppi.prio & mask;
-    int aprbit = prio >> 1;
+    int aprbit = prio >> (8 - cs->prebits);
     int regno = aprbit / 32;
     int regbit = aprbit % 32;
 
@@ -XXX,XX +XXX,XX @@ static void icc_drop_prio(GICv3CPUState *cs, int grp)
      */
     int i;
 
-    for (i = 0; i < ARRAY_SIZE(cs->icc_apr[grp]); i++) {
+    for (i = 0; i < icc_num_aprs(cs); i++) {
         uint64_t *papr = &cs->icc_apr[grp][i];
 
         if (!*papr) {
@@ -XXX,XX +XXX,XX @@ static void icc_bpr_write(CPUARMState *env, const ARMCPRegInfo *ri,
         return;
     }
 
-    minval = (grp == GICV3_G1NS) ? GIC_MIN_BPR_NS : GIC_MIN_BPR;
+    minval = (grp == GICV3_G1NS) ? icc_min_bpr_ns(cs) : icc_min_bpr(cs);
     if (value < minval) {
         value = minval;
     }
@@ -XXX,XX +XXX,XX @@ static void icc_reset(CPUARMState *env, const ARMCPRegInfo *ri)
 
     cs->icc_ctlr_el1[GICV3_S] = ICC_CTLR_EL1_A3V |
         (1 << ICC_CTLR_EL1_IDBITS_SHIFT) |
-        (7 << ICC_CTLR_EL1_PRIBITS_SHIFT);
+        ((cs->pribits - 1) << ICC_CTLR_EL1_PRIBITS_SHIFT);
     cs->icc_ctlr_el1[GICV3_NS] = ICC_CTLR_EL1_A3V |
         (1 << ICC_CTLR_EL1_IDBITS_SHIFT) |
-        (7 << ICC_CTLR_EL1_PRIBITS_SHIFT);
+        ((cs->pribits - 1) << ICC_CTLR_EL1_PRIBITS_SHIFT);
     cs->icc_pmr_el1 = 0;
-    cs->icc_bpr[GICV3_G0] = GIC_MIN_BPR;
-    cs->icc_bpr[GICV3_G1] = GIC_MIN_BPR;
-    cs->icc_bpr[GICV3_G1NS] = GIC_MIN_BPR_NS;
+    cs->icc_bpr[GICV3_G0] = icc_min_bpr(cs);
+    cs->icc_bpr[GICV3_G1] = icc_min_bpr(cs);
+    cs->icc_bpr[GICV3_G1NS] = icc_min_bpr_ns(cs);
     memset(cs->icc_apr, 0, sizeof(cs->icc_apr));
     memset(cs->icc_igrpen, 0, sizeof(cs->icc_igrpen));
     cs->icc_ctlr_el3 = ICC_CTLR_EL3_NDS | ICC_CTLR_EL3_A3V |
         (1 << ICC_CTLR_EL3_IDBITS_SHIFT) |
-        (7 << ICC_CTLR_EL3_PRIBITS_SHIFT);
+        ((cs->pribits - 1) << ICC_CTLR_EL3_PRIBITS_SHIFT);
 
     memset(cs->ich_apr, 0, sizeof(cs->ich_apr));
     cs->ich_hcr_el2 = 0;
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo gicv3_cpuif_reginfo[] = {
       .readfn = icc_ap_read,
       .writefn = icc_ap_write,
     },
-    { .name = "ICC_AP0R1_EL1", .state = ARM_CP_STATE_BOTH,
-      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 5,
-      .type = ARM_CP_IO | ARM_CP_NO_RAW,
-      .access = PL1_RW, .accessfn = gicv3_fiq_access,
-      .readfn = icc_ap_read,
-      .writefn = icc_ap_write,
-    },
-    { .name = "ICC_AP0R2_EL1", .state = ARM_CP_STATE_BOTH,
-      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 6,
-      .type = ARM_CP_IO | ARM_CP_NO_RAW,
-      .access = PL1_RW, .accessfn = gicv3_fiq_access,
-      .readfn = icc_ap_read,
-      .writefn = icc_ap_write,
-    },
-    { .name = "ICC_AP0R3_EL1", .state = ARM_CP_STATE_BOTH,
-      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 7,
-      .type = ARM_CP_IO | ARM_CP_NO_RAW,
-      .access = PL1_RW, .accessfn = gicv3_fiq_access,
-      .readfn = icc_ap_read,
-      .writefn = icc_ap_write,
-    },
     /* All the ICC_AP1R*_EL1 registers are banked */
     { .name = "ICC_AP1R0_EL1", .state = ARM_CP_STATE_BOTH,
       .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 0,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo gicv3_cpuif_reginfo[] = {
       .readfn = icc_ap_read,
       .writefn = icc_ap_write,
     },
-    { .name = "ICC_AP1R1_EL1", .state = ARM_CP_STATE_BOTH,
-      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 1,
-      .type = ARM_CP_IO | ARM_CP_NO_RAW,
-      .access = PL1_RW, .accessfn = gicv3_irq_access,
-      .readfn = icc_ap_read,
-      .writefn = icc_ap_write,
-    },
-    { .name = "ICC_AP1R2_EL1", .state = ARM_CP_STATE_BOTH,
-      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 2,
-      .type = ARM_CP_IO | ARM_CP_NO_RAW,
-      .access = PL1_RW, .accessfn = gicv3_irq_access,
-      .readfn = icc_ap_read,
-      .writefn = icc_ap_write,
-    },
-    { .name = "ICC_AP1R3_EL1", .state = ARM_CP_STATE_BOTH,
-      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 3,
-      .type = ARM_CP_IO | ARM_CP_NO_RAW,
-      .access = PL1_RW, .accessfn = gicv3_irq_access,
-      .readfn = icc_ap_read,
-      .writefn = icc_ap_write,
-    },
     { .name = "ICC_DIR_EL1", .state = ARM_CP_STATE_BOTH,
       .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 11, .opc2 = 1,
       .type = ARM_CP_IO | ARM_CP_NO_RAW,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo gicv3_cpuif_reginfo[] = {
     },
 };
 
+static const ARMCPRegInfo gicv3_cpuif_icc_apxr1_reginfo[] = {
+    { .name = "ICC_AP0R1_EL1", .state = ARM_CP_STATE_BOTH,
+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 5,
+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+      .readfn = icc_ap_read,
+      .writefn = icc_ap_write,
+    },
+    { .name = "ICC_AP1R1_EL1", .state = ARM_CP_STATE_BOTH,
+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 1,
+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+      .access = PL1_RW, .accessfn = gicv3_irq_access,
+      .readfn = icc_ap_read,
+      .writefn = icc_ap_write,
+    },
+};
+
+static const ARMCPRegInfo gicv3_cpuif_icc_apxr23_reginfo[] = {
+    { .name = "ICC_AP0R2_EL1", .state = ARM_CP_STATE_BOTH,
+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 6,
+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+      .readfn = icc_ap_read,
+      .writefn = icc_ap_write,
+    },
+    { .name = "ICC_AP0R3_EL1", .state = ARM_CP_STATE_BOTH,
+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 8, .opc2 = 7,
+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+      .access = PL1_RW, .accessfn = gicv3_fiq_access,
+      .readfn = icc_ap_read,
+      .writefn = icc_ap_write,
+    },
+    { .name = "ICC_AP1R2_EL1", .state = ARM_CP_STATE_BOTH,
+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 2,
+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+      .access = PL1_RW, .accessfn = gicv3_irq_access,
+      .readfn = icc_ap_read,
+      .writefn = icc_ap_write,
+    },
+    { .name = "ICC_AP1R3_EL1", .state = ARM_CP_STATE_BOTH,
+      .opc0 = 3, .opc1 = 0, .crn = 12, .crm = 9, .opc2 = 3,
+      .type = ARM_CP_IO | ARM_CP_NO_RAW,
+      .access = PL1_RW, .accessfn = gicv3_irq_access,
+      .readfn = icc_ap_read,
+      .writefn = icc_ap_write,
+    },
+};
+
 static uint64_t ich_ap_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
     GICv3CPUState *cs = icc_cs_from_env(env);
@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
          * get back to the GICv3CPUState from the CPUARMState.
          */
         define_arm_cp_regs(cpu, gicv3_cpuif_reginfo);
+
+        /*
+         * For the moment, retain the existing behaviour of 8 priority bits;
+         * in a following commit we will take this from the CPU state,
+         * as we do for the virtual priority bits.
+         */
+        cs->pribits = 8;
+        /*
+         * The GICv3 has separate ID register fields for virtual priority
+         * and preemption bit values, but only a single ID register field
+         * for the physical priority bits. The preemption bit count is
+         * always the same as the priority bit count, except that 8 bits
+         * of priority means 7 preemption bits. We precalculate the
+         * preemption bits because it simplifies the code and makes the
+         * parallels between the virtual and physical bits of the GIC
+         * a bit clearer.
+         */
+        cs->prebits = cs->pribits;
+        if (cs->prebits == 8) {
+            cs->prebits--;
+        }
+        /*
+         * Check that CPU code defining pribits didn't violate
+         * architectural constraints our implementation relies on.
+         */
+        g_assert(cs->pribits >= 4 && cs->pribits <= 8);
+
+        /*
+         * gicv3_cpuif_reginfo[] defines ICC_AP*R0_EL1; add definitions
+         * for ICC_AP*R{1,2,3}_EL1 if the prebits value requires them.
+         */
+        if (cs->prebits >= 6) {
+            define_arm_cp_regs(cpu, gicv3_cpuif_icc_apxr1_reginfo);
+        }
+        if (cs->prebits == 7) {
+            define_arm_cp_regs(cpu, gicv3_cpuif_icc_apxr23_reginfo);
+        }
+
         if (arm_feature(&cpu->env, ARM_FEATURE_EL2)) {
             int j;
 
-- 
2.25.1

Make the GICv3 set its number of bits of physical priority from the
implementation-specific value provided in the CPU state struct, in
the same way we already do for virtual priority bits.  Because this
would be a migration compatibility break, we provide a property
force-8-bit-prio which is enabled for 7.0 and earlier versioned board
models to retain the legacy "always use 8 bits" behaviour.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220512151457.3899052-6-peter.maydell@linaro.org
Message-id: 20220506162129.2896966-5-peter.maydell@linaro.org
---
 include/hw/intc/arm_gicv3_common.h |  1 +
 target/arm/cpu.h                   |  1 +
 hw/core/machine.c                  |  4 +++-
 hw/intc/arm_gicv3_common.c         |  5 +++++
 hw/intc/arm_gicv3_cpuif.c          | 15 +++++++++++----
 target/arm/cpu64.c                 |  6 ++++++
 6 files changed, 27 insertions(+), 5 deletions(-)

diff --git a/include/hw/intc/arm_gicv3_common.h b/include/hw/intc/arm_gicv3_common.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/intc/arm_gicv3_common.h
+++ b/include/hw/intc/arm_gicv3_common.h
@@ -XXX,XX +XXX,XX @@ struct GICv3State {
     uint32_t revision;
     bool lpi_enable;
     bool security_extn;
+    bool force_8bit_prio;
     bool irq_reset_nonsecure;
     bool gicd_no_migration_shift_bug;
 
diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
     int gic_num_lrs; /* number of list registers */
     int gic_vpribits; /* number of virtual priority bits */
     int gic_vprebits; /* number of virtual preemption bits */
+    int gic_pribits; /* number of physical priority bits */
 
     /* Whether the cfgend input is high (i.e. this CPU should reset into
      * big-endian mode).  This setting isn't used directly: instead it modifies
diff --git a/hw/core/machine.c b/hw/core/machine.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/core/machine.c
+++ b/hw/core/machine.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/virtio/virtio-pci.h"
 #include "qom/object_interfaces.h"
 
-GlobalProperty hw_compat_7_0[] = {};
+GlobalProperty hw_compat_7_0[] = {
+    { "arm-gicv3-common", "force-8-bit-prio", "on" },
+};
 const size_t hw_compat_7_0_len = G_N_ELEMENTS(hw_compat_7_0);
 
 GlobalProperty hw_compat_6_2[] = {
diff --git a/hw/intc/arm_gicv3_common.c b/hw/intc/arm_gicv3_common.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_common.c
+++ b/hw/intc/arm_gicv3_common.c
@@ -XXX,XX +XXX,XX @@ static Property arm_gicv3_common_properties[] = {
     DEFINE_PROP_UINT32("revision", GICv3State, revision, 3),
     DEFINE_PROP_BOOL("has-lpi", GICv3State, lpi_enable, 0),
     DEFINE_PROP_BOOL("has-security-extensions", GICv3State, security_extn, 0),
+    /*
+     * Compatibility property: force 8 bits of physical priority, even
+     * if the CPU being emulated should have fewer.
+     */
+    DEFINE_PROP_BOOL("force-8-bit-prio", GICv3State, force_8bit_prio, 0),
     DEFINE_PROP_ARRAY("redist-region-count", GICv3State, nb_redist_regions,
                       redist_region_count, qdev_prop_uint32, uint32_t),
     DEFINE_PROP_LINK("sysmem", GICv3State, dma, TYPE_MEMORY_REGION,
diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_cpuif.c
+++ b/hw/intc/arm_gicv3_cpuif.c
@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
          *  cpu->gic_num_lrs
          *  cpu->gic_vpribits
          *  cpu->gic_vprebits
+         *  cpu->gic_pribits
          */
 
         /* Note that we can't just use the GICv3CPUState as an opaque pointer
@@ -XXX,XX +XXX,XX @@ void gicv3_init_cpuif(GICv3State *s)
         define_arm_cp_regs(cpu, gicv3_cpuif_reginfo);
 
         /*
-         * For the moment, retain the existing behaviour of 8 priority bits;
-         * in a following commit we will take this from the CPU state,
-         * as we do for the virtual priority bits.
+         * The CPU implementation specifies the number of supported
+         * bits of physical priority. For backwards compatibility
+         * of migration, we have a compat property that forces use
+         * of 8 priority bits regardless of what the CPU really has.
          */
-        cs->pribits = 8;
+        if (s->force_8bit_prio) {
+            cs->pribits = 8;
+        } else {
+            cs->pribits = cpu->gic_pribits ?: 5;
+        }
+
         /*
          * The GICv3 has separate ID register fields for virtual priority
          * and preemption bit values, but only a single ID register field
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
     cpu->gic_num_lrs = 4;
     cpu->gic_vpribits = 5;
     cpu->gic_vprebits = 5;
+    cpu->gic_pribits = 5;
     define_cortex_a72_a57_a53_cp_reginfo(cpu);
 }
 
@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
     cpu->gic_num_lrs = 4;
     cpu->gic_vpribits = 5;
     cpu->gic_vprebits = 5;
+    cpu->gic_pribits = 5;
     define_cortex_a72_a57_a53_cp_reginfo(cpu);
 }
 
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
     cpu->gic_num_lrs = 4;
     cpu->gic_vpribits = 5;
     cpu->gic_vprebits = 5;
+    cpu->gic_pribits = 5;
     define_cortex_a72_a57_a53_cp_reginfo(cpu);
 }
 
@@ -XXX,XX +XXX,XX @@ static void aarch64_a76_initfn(Object *obj)
     cpu->gic_num_lrs = 4;
     cpu->gic_vpribits = 5;
     cpu->gic_vprebits = 5;
+    cpu->gic_pribits = 5;
 
     /* From B5.1 AdvSIMD AArch64 register summary */
     cpu->isar.mvfr0 = 0x10110222;
@@ -XXX,XX +XXX,XX @@ static void aarch64_neoverse_n1_initfn(Object *obj)
     cpu->gic_num_lrs = 4;
     cpu->gic_vpribits = 5;
     cpu->gic_vprebits = 5;
+    cpu->gic_pribits = 5;
 
     /* From B5.1 AdvSIMD AArch64 register summary */
     cpu->isar.mvfr0 = 0x10110222;
@@ -XXX,XX +XXX,XX @@ static void aarch64_a64fx_initfn(Object *obj)
     cpu->gic_num_lrs = 4;
     cpu->gic_vpribits = 5;
     cpu->gic_vprebits = 5;
+    cpu->gic_pribits = 5;
 
     /* Suppport of A64FX's vector length are 128,256 and 512bit only */
     aarch64_add_sve_properties(obj);
-- 
2.25.1

We previously open-coded the expression for the number of virtual APR
registers and the assertion that it was not going to cause us to
overflow the cs->ich_apr[] array.  Factor this out into a new
ich_num_aprs() function, for consistency with the icc_num_aprs()
function we just added for the physical APR handling.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220512151457.3899052-7-peter.maydell@linaro.org
Message-id: 20220506162129.2896966-6-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_cpuif.c | 16 ++++++++++------
 1 file changed, 10 insertions(+), 6 deletions(-)

diff --git a/hw/intc/arm_gicv3_cpuif.c b/hw/intc/arm_gicv3_cpuif.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_cpuif.c
+++ b/hw/intc/arm_gicv3_cpuif.c
@@ -XXX,XX +XXX,XX @@ static inline int icv_min_vbpr(GICv3CPUState *cs)
     return 7 - cs->vprebits;
 }
 
+static inline int ich_num_aprs(GICv3CPUState *cs)
+{
+    /* Return the number of virtual APR registers (1, 2, or 4) */
+    int aprmax = 1 << (cs->vprebits - 5);
+    assert(aprmax <= ARRAY_SIZE(cs->ich_apr[0]));
+    return aprmax;
+}
+
 /* Simple accessor functions for LR fields */
 static uint32_t ich_lr_vintid(uint64_t lr)
 {
@@ -XXX,XX +XXX,XX @@ static int ich_highest_active_virt_prio(GICv3CPUState *cs)
      * in the ICH Active Priority Registers.
      */
     int i;
-    int aprmax = 1 << (cs->vprebits - 5);
-
-    assert(aprmax <= ARRAY_SIZE(cs->ich_apr[0]));
+    int aprmax = ich_num_aprs(cs);
 
     for (i = 0; i < aprmax; i++) {
         uint32_t apr = cs->ich_apr[GICV3_G0][i] |
@@ -XXX,XX +XXX,XX @@ static int icv_drop_prio(GICv3CPUState *cs)
      * 32 bits are actually relevant.
      */
     int i;
-    int aprmax = 1 << (cs->vprebits - 5);
-
-    assert(aprmax <= ARRAY_SIZE(cs->ich_apr[0]));
+    int aprmax = ich_num_aprs(cs);
 
     for (i = 0; i < aprmax; i++) {
         uint64_t *papr0 = &cs->ich_apr[GICV3_G0][i];
-- 
2.25.1

From: Chris Howard <cvz185@web.de>

Give all the debug registers their correct names including the
index, rather than having multiple registers all with the
same name string, which is confusing when viewed over the
gdbstub interface.

Signed-off-by: CHRIS HOWARD <cvz185@web.de>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 4127D8CA-D54A-47C7-A039-0DB7361E30C0@web.de
[PMM: expanded commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 16 ++++++++++++----
 1 file changed, 12 insertions(+), 4 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
     }
 
     for (i = 0; i < brps; i++) {
+        char *dbgbvr_el1_name = g_strdup_printf("DBGBVR%d_EL1", i);
+        char *dbgbcr_el1_name = g_strdup_printf("DBGBCR%d_EL1", i);
         ARMCPRegInfo dbgregs[] = {
-            { .name = "DBGBVR", .state = ARM_CP_STATE_BOTH,
+            { .name = dbgbvr_el1_name, .state = ARM_CP_STATE_BOTH,
               .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 4,
               .access = PL1_RW, .accessfn = access_tda,
               .fieldoffset = offsetof(CPUARMState, cp15.dbgbvr[i]),
               .writefn = dbgbvr_write, .raw_writefn = raw_write
             },
-            { .name = "DBGBCR", .state = ARM_CP_STATE_BOTH,
+            { .name = dbgbcr_el1_name, .state = ARM_CP_STATE_BOTH,
               .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 5,
               .access = PL1_RW, .accessfn = access_tda,
               .fieldoffset = offsetof(CPUARMState, cp15.dbgbcr[i]),
@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
             },
         };
         define_arm_cp_regs(cpu, dbgregs);
+        g_free(dbgbvr_el1_name);
+        g_free(dbgbcr_el1_name);
     }
 
     for (i = 0; i < wrps; i++) {
+        char *dbgwvr_el1_name = g_strdup_printf("DBGWVR%d_EL1", i);
+        char *dbgwcr_el1_name = g_strdup_printf("DBGWCR%d_EL1", i);
         ARMCPRegInfo dbgregs[] = {
-            { .name = "DBGWVR", .state = ARM_CP_STATE_BOTH,
+            { .name = dbgwvr_el1_name, .state = ARM_CP_STATE_BOTH,
               .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 6,
               .access = PL1_RW, .accessfn = access_tda,
               .fieldoffset = offsetof(CPUARMState, cp15.dbgwvr[i]),
               .writefn = dbgwvr_write, .raw_writefn = raw_write
             },
-            { .name = "DBGWCR", .state = ARM_CP_STATE_BOTH,
+            { .name = dbgwcr_el1_name, .state = ARM_CP_STATE_BOTH,
               .cp = 14, .opc0 = 2, .opc1 = 0, .crn = 0, .crm = i, .opc2 = 7,
               .access = PL1_RW, .accessfn = access_tda,
               .fieldoffset = offsetof(CPUARMState, cp15.dbgwcr[i]),
@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
             },
         };
         define_arm_cp_regs(cpu, dbgregs);
+        g_free(dbgwvr_el1_name);
+        g_free(dbgwcr_el1_name);
     }
 }
 
-- 
2.25.1

From: Philippe Mathieu-Daudé <f4bug@amsat.org>

Except hw/core/irq.c which implements the forward-declared opaque
qemu_irq structure, hw/adc/zynq-xadc.{c,h} are the only files not
using the typedef. Fix this single exception.

Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Bernhard Beschow <shentey@gmail.com>
Message-id: 20220509202035.50335-1-philippe.mathieu.daude@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/adc/zynq-xadc.h | 3 +--
 hw/adc/zynq-xadc.c         | 4 ++--
 2 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/include/hw/adc/zynq-xadc.h b/include/hw/adc/zynq-xadc.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/adc/zynq-xadc.h
+++ b/include/hw/adc/zynq-xadc.h
@@ -XXX,XX +XXX,XX @@ struct ZynqXADCState {
     uint16_t xadc_dfifo[ZYNQ_XADC_FIFO_DEPTH];
     uint16_t xadc_dfifo_entries;
 
-    struct IRQState *qemu_irq;
-
+    qemu_irq irq;
 };
 
 #endif /* ZYNQ_XADC_H */
diff --git a/hw/adc/zynq-xadc.c b/hw/adc/zynq-xadc.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/adc/zynq-xadc.c
+++ b/hw/adc/zynq-xadc.c
@@ -XXX,XX +XXX,XX @@ static void zynq_xadc_update_ints(ZynqXADCState *s)
         s->regs[INT_STS] |= INT_DFIFO_GTH;
     }
 
-    qemu_set_irq(s->qemu_irq, !!(s->regs[INT_STS] & ~s->regs[INT_MASK]));
+    qemu_set_irq(s->irq, !!(s->regs[INT_STS] & ~s->regs[INT_MASK]));
 }
 
 static void zynq_xadc_reset(DeviceState *d)
@@ -XXX,XX +XXX,XX @@ static void zynq_xadc_init(Object *obj)
     memory_region_init_io(&s->iomem, obj, &xadc_ops, s, "zynq-xadc",
                           ZYNQ_XADC_MMIO_SIZE);
     sysbus_init_mmio(sbd, &s->iomem);
-    sysbus_init_irq(sbd, &s->qemu_irq);
+    sysbus_init_irq(sbd, &s->irq);
 }
 
 static const VMStateDescription vmstate_zynq_xadc = {
-- 
2.25.1

In commit 88ce6c6ee85d we switched from directly fishing the number
of breakpoints and watchpoints out of the ID register fields to
abstracting out functions to do this job, but we forgot to delete the
now-obsolete comment in define_debug_regs() about the relation
between the ID field value and the actual number of breakpoints and
watchpoints.  Delete the obsolete comment.

Reported-by: CHRIS HOWARD <cvz185@web.de>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220513131801.4082712-1-peter.maydell@linaro.org
---
 target/arm/helper.c | 1 -
 1 file changed, 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void define_debug_regs(ARMCPU *cpu)
         define_one_arm_cp_reg(cpu, &dbgdidr);
     }
 
-    /* Note that all these register fields hold "number of Xs minus 1". */
     brps = arm_num_brps(cpu);
     wrps = arm_num_wrps(cpu);
     ctx_cmps = arm_num_ctx_cmps(cpu);
-- 
2.25.1

Currently we give all the v7-and-up CPUs a PMU with 4 counters.  This
means that we don't provide the 6 counters that are required by the
Arm BSA (Base System Architecture) specification if the CPU supports
the Virtualization extensions.

Instead of having a single PMCR_NUM_COUNTERS, make each CPU type
specify the PMCR reset value (obtained from the appropriate TRM), and
use the 'N' field of that value to define the number of counters
provided.

This means that we now supply 6 counters instead of 4 for:
 Cortex-A9, Cortex-A15, Cortex-A53, Cortex-A57, Cortex-A72,
 Cortex-A76, Neoverse-N1, '-cpu max'
This CPU goes from 4 to 8 counters:
 A64FX
These CPUs remain with 4 counters:
 Cortex-A7, Cortex-A8
This CPU goes down from 4 to 3 counters:
 Cortex-R5

Note that because we now use the PMCR reset value of the specific
implementation, we no longer set the LC bit out of reset.  This has
an UNKNOWN value out of reset for all cores with any AArch32 support,
so guest software should be setting it anyway if it wants it.

This change was originally landed in commit f7fb73b8cdd3f7 (during
the 6.0 release cycle) but was then reverted by commit
21c2dd77a6aa517 before that release because it did not work with KVM.
This version fixes that by creating the scratch vCPU in
kvm_arm_get_host_cpu_features() with the KVM_ARM_VCPU_PMU_V3 feature
if KVM supports it, and then only asking KVM for the PMCR_EL0 value
if the vCPU has a PMU.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
[PMM: Added the correct value for a64fx]
Message-id: 20220513122852.4063586-1-peter.maydell@linaro.org
---
 target/arm/cpu.h       |  1 +
 target/arm/internals.h |  4 +++-
 target/arm/cpu64.c     | 11 +++++++++++
 target/arm/cpu_tcg.c   |  6 ++++++
 target/arm/helper.c    | 25 ++++++++++++++-----------
 target/arm/kvm64.c     | 12 ++++++++++++
 6 files changed, 47 insertions(+), 12 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
         uint64_t id_aa64dfr0;
         uint64_t id_aa64dfr1;
         uint64_t id_aa64zfr0;
+        uint64_t reset_pmcr_el0;
     } isar;
     uint64_t midr;
     uint32_t revidr;
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ enum MVEECIState {
 
 static inline uint32_t pmu_num_counters(CPUARMState *env)
 {
-  return (env->cp15.c9_pmcr & PMCRN_MASK) >> PMCRN_SHIFT;
+    ARMCPU *cpu = env_archcpu(env);
+
+    return (cpu->isar.reset_pmcr_el0 & PMCRN_MASK) >> PMCRN_SHIFT;
 }
 
 /* Bits allowed to be set/cleared for PMCNTEN* and PMINTEN* */
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_a57_initfn(Object *obj)
     cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->isar.id_aa64mmfr0 = 0x00001124;
     cpu->isar.dbgdidr = 0x3516d000;
+    cpu->isar.reset_pmcr_el0 = 0x41013000;
     cpu->clidr = 0x0a200023;
     cpu->ccsidr[0] = 0x701fe00a; /* 32KB L1 dcache */
     cpu->ccsidr[1] = 0x201fe012; /* 48KB L1 icache */
@@ -XXX,XX +XXX,XX @@ static void aarch64_a53_initfn(Object *obj)
     cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->isar.id_aa64mmfr0 = 0x00001122; /* 40 bit physical addr */
     cpu->isar.dbgdidr = 0x3516d000;
+    cpu->isar.reset_pmcr_el0 = 0x41033000;
     cpu->clidr = 0x0a200023;
     cpu->ccsidr[0] = 0x700fe01a; /* 32KB L1 dcache */
     cpu->ccsidr[1] = 0x201fe00a; /* 32KB L1 icache */
@@ -XXX,XX +XXX,XX @@ static void aarch64_a72_initfn(Object *obj)
     cpu->isar.id_aa64isar0 = 0x00011120;
     cpu->isar.id_aa64mmfr0 = 0x00001124;
     cpu->isar.dbgdidr = 0x3516d000;
+    cpu->isar.reset_pmcr_el0 = 0x41023000;
     cpu->clidr = 0x0a200023;
     cpu->ccsidr[0] = 0x701fe00a; /* 32KB L1 dcache */
     cpu->ccsidr[1] = 0x201fe012; /* 48KB L1 icache */
@@ -XXX,XX +XXX,XX @@ static void aarch64_a76_initfn(Object *obj)
     cpu->isar.mvfr0 = 0x10110222;
     cpu->isar.mvfr1 = 0x13211111;
     cpu->isar.mvfr2 = 0x00000043;
+
+    /* From D5.1 AArch64 PMU register summary */
+    cpu->isar.reset_pmcr_el0 = 0x410b3000;
 }
 
 static void aarch64_neoverse_n1_initfn(Object *obj)
@@ -XXX,XX +XXX,XX @@ static void aarch64_neoverse_n1_initfn(Object *obj)
     cpu->isar.mvfr0 = 0x10110222;
     cpu->isar.mvfr1 = 0x13211111;
     cpu->isar.mvfr2 = 0x00000043;
+
+    /* From D5.1 AArch64 PMU register summary */
+    cpu->isar.reset_pmcr_el0 = 0x410c3000;
 }
 
 void arm_cpu_sve_finalize(ARMCPU *cpu, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void aarch64_a64fx_initfn(Object *obj)
     set_bit(1, cpu->sve_vq_supported); /* 256bit */
     set_bit(3, cpu->sve_vq_supported); /* 512bit */
 
+    cpu->isar.reset_pmcr_el0 = 0x46014040;
+
     /* TODO:  Add A64FX specific HPC extension registers */
 }
 
diff --git a/target/arm/cpu_tcg.c b/target/arm/cpu_tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu_tcg.c
+++ b/target/arm/cpu_tcg.c
@@ -XXX,XX +XXX,XX @@ static void cortex_a8_initfn(Object *obj)
     cpu->ccsidr[1] = 0x2007e01a; /* 16k L1 icache. */
     cpu->ccsidr[2] = 0xf0000000; /* No L2 icache. */
     cpu->reset_auxcr = 2;
+    cpu->isar.reset_pmcr_el0 = 0x41002000;
     define_arm_cp_regs(cpu, cortexa8_cp_reginfo);
 }
 
@@ -XXX,XX +XXX,XX @@ static void cortex_a9_initfn(Object *obj)
     cpu->clidr = (1 << 27) | (1 << 24) | 3;
     cpu->ccsidr[0] = 0xe00fe019; /* 16k L1 dcache. */
     cpu->ccsidr[1] = 0x200fe019; /* 16k L1 icache. */
+    cpu->isar.reset_pmcr_el0 = 0x41093000;
     define_arm_cp_regs(cpu, cortexa9_cp_reginfo);
 }
 
@@ -XXX,XX +XXX,XX @@ static void cortex_a7_initfn(Object *obj)
     cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
     cpu->ccsidr[1] = 0x201fe00a; /* 32K L1 icache */
     cpu->ccsidr[2] = 0x711fe07a; /* 4096K L2 unified cache */
+    cpu->isar.reset_pmcr_el0 = 0x41072000;
     define_arm_cp_regs(cpu, cortexa15_cp_reginfo); /* Same as A15 */
 }
 
@@ -XXX,XX +XXX,XX @@ static void cortex_a15_initfn(Object *obj)
     cpu->ccsidr[0] = 0x701fe00a; /* 32K L1 dcache */
     cpu->ccsidr[1] = 0x201fe00a; /* 32K L1 icache */
     cpu->ccsidr[2] = 0x711fe07a; /* 4096K L2 unified cache */
+    cpu->isar.reset_pmcr_el0 = 0x410F3000;
     define_arm_cp_regs(cpu, cortexa15_cp_reginfo);
 }
 
@@ -XXX,XX +XXX,XX @@ static void cortex_r5_initfn(Object *obj)
     cpu->isar.id_isar6 = 0x0;
     cpu->mp_is_up = true;
     cpu->pmsav7_dregion = 16;
+    cpu->isar.reset_pmcr_el0 = 0x41151800;
     define_arm_cp_regs(cpu, cortexr5_cp_reginfo);
 }
 
@@ -XXX,XX +XXX,XX @@ static void arm_max_initfn(Object *obj)
     cpu->isar.id_isar5 = 0x00011121;
     cpu->isar.id_isar6 = 0;
     cpu->isar.dbgdidr = 0x3516d000;
+    cpu->isar.reset_pmcr_el0 = 0x41013000;
     cpu->clidr = 0x0a200023;
     cpu->ccsidr[0] = 0x701fe00a; /* 32KB L1 dcache */
     cpu->ccsidr[1] = 0x201fe012; /* 48KB L1 icache */
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@
 #include "cpregs.h"
 
 #define ARM_CPU_FREQ 1000000000 /* FIXME: 1 GHz, should be configurable */
-#define PMCR_NUM_COUNTERS 4 /* QEMU IMPDEF choice */
 
 #ifndef CONFIG_USER_ONLY
 
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo el2_cp_reginfo[] = {
       .resetvalue = 0,
       .writefn = gt_hyp_ctl_write, .raw_writefn = raw_write },
 #endif
-    /* The only field of MDCR_EL2 that has a defined architectural reset value
-     * is MDCR_EL2.HPMN which should reset to the value of PMCR_EL0.N.
-     */
-    { .name = "MDCR_EL2", .state = ARM_CP_STATE_BOTH,
-      .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 1,
-      .access = PL2_RW, .resetvalue = PMCR_NUM_COUNTERS,
-      .fieldoffset = offsetof(CPUARMState, cp15.mdcr_el2), },
     { .name = "HPFAR", .state = ARM_CP_STATE_AA32,
       .cp = 15, .opc1 = 4, .crn = 6, .crm = 0, .opc2 = 4,
       .access = PL2_RW, .accessfn = access_el3_aa32ns,
@@ -XXX,XX +XXX,XX @@ static void define_pmu_regs(ARMCPU *cpu)
      * field as main ID register, and we implement four counters in
      * addition to the cycle count register.
      */
-    unsigned int i, pmcrn = PMCR_NUM_COUNTERS;
+    unsigned int i, pmcrn = pmu_num_counters(&cpu->env);
     ARMCPRegInfo pmcr = {
         .name = "PMCR", .cp = 15, .crn = 9, .crm = 12, .opc1 = 0, .opc2 = 0,
         .access = PL0_RW,
@@ -XXX,XX +XXX,XX @@ static void define_pmu_regs(ARMCPU *cpu)
         .access = PL0_RW, .accessfn = pmreg_access,
         .type = ARM_CP_IO,
         .fieldoffset = offsetof(CPUARMState, cp15.c9_pmcr),
-        .resetvalue = (cpu->midr & 0xff000000) | (pmcrn << PMCRN_SHIFT) |
-                      PMCRLC,
+        .resetvalue = cpu->isar.reset_pmcr_el0,
         .writefn = pmcr_write, .raw_writefn = raw_write,
     };
+
     define_one_arm_cp_reg(cpu, &pmcr);
     define_one_arm_cp_reg(cpu, &pmcr64);
     for (i = 0; i < pmcrn; i++) {
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
               .type = ARM_CP_EL3_NO_EL2_C_NZ,
               .fieldoffset = offsetof(CPUARMState, cp15.vmpidr_el2) },
         };
+        /*
+         * The only field of MDCR_EL2 that has a defined architectural reset
+         * value is MDCR_EL2.HPMN which should reset to the value of PMCR_EL0.N.
+         */
+        ARMCPRegInfo mdcr_el2 = {
+            .name = "MDCR_EL2", .state = ARM_CP_STATE_BOTH,
+            .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 1, .opc2 = 1,
+            .access = PL2_RW, .resetvalue = pmu_num_counters(env),
+            .fieldoffset = offsetof(CPUARMState, cp15.mdcr_el2),
+        };
+        define_one_arm_cp_reg(cpu, &mdcr_el2);
         define_arm_cp_regs(cpu, vpidr_regs);
         define_arm_cp_regs(cpu, el2_cp_reginfo);
         if (arm_feature(env, ARM_FEATURE_V8)) {
diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm64.c
+++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
      */
     int fdarray[3];
     bool sve_supported;
+    bool pmu_supported = false;
     uint64_t features = 0;
     uint64_t t;
     int err;
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
                              1 << KVM_ARM_VCPU_PTRAUTH_GENERIC);
     }
 
+    if (kvm_arm_pmu_supported()) {
+        init.features[0] |= 1 << KVM_ARM_VCPU_PMU_V3;
+        pmu_supported = true;
+    }
+
     if (!kvm_arm_create_scratch_host_vcpu(cpus_to_try, fdarray, &init)) {
         return false;
     }
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_get_host_cpu_features(ARMHostCPUFeatures *ahcf)
             dbgdidr |= (1 << 15); /* RES1 bit */
             ahcf->isar.dbgdidr = dbgdidr;
         }
+
+        if (pmu_supported) {
+            /* PMCR_EL0 is only accessible if the vCPU has feature PMU_V3 */
+            err |= read_sys_reg64(fdarray[2], &ahcf->isar.reset_pmcr_el0,
+                                  ARM64_SYS_REG(3, 3, 9, 12, 0));
+        }
     }
 
     sve_supported = ioctl(fdarray[0], KVM_CHECK_EXTENSION, KVM_CAP_ARM_SVE) > 0;
-- 
2.25.1

In the virt board with secure=on we put two nodes in the dtb
for flash devices: one for the secure-only flash, and one
for the non-secure flash. We get the reg properties for these
correct, but in the DT node name, which by convention includes
the base address of devices, we used the wrong address. Fix it.

Spotted by dtc, which will complain
Warning (unique_unit_address): /flash@0: duplicate unit-address (also used in node /secflash@0)
if you dump the dtb from QEMU with -machine dumpdtb=file.dtb
and then decompile it with dtc.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220513131316.4081539-2-peter.maydell@linaro.org
---
 hw/arm/virt.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void virt_flash_fdt(VirtMachineState *vms,
         qemu_fdt_setprop_string(ms->fdt, nodename, "secure-status", "okay");
         g_free(nodename);
 
-        nodename = g_strdup_printf("/flash@%" PRIx64, flashbase);
+        nodename = g_strdup_printf("/flash@%" PRIx64, flashbase + flashsize);
         qemu_fdt_add_subnode(ms->fdt, nodename);
         qemu_fdt_setprop_string(ms->fdt, nodename, "compatible", "cfi-flash");
         qemu_fdt_setprop_sized_cells(ms->fdt, nodename, "reg",
-- 
2.25.1

The virt board generates a gpio-keys node in the dtb, but it
incorrectly gives this node #size-cells and #address-cells
properties. If you dump the dtb with 'machine dumpdtb=file.dtb'
and run it through dtc, dtc will warn about this:

Warning (avoid_unnecessary_addr_size): /gpio-keys: unnecessary #address-cells/#size-cells without "ranges" or child "reg" property

Remove the bogus properties.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220513131316.4081539-3-peter.maydell@linaro.org
---
 hw/arm/virt.c | 2 --
 1 file changed, 2 deletions(-)

diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void create_gpio_keys(char *fdt, DeviceState *pl061_dev,
 
     qemu_fdt_add_subnode(fdt, "/gpio-keys");
     qemu_fdt_setprop_string(fdt, "/gpio-keys", "compatible", "gpio-keys");
-    qemu_fdt_setprop_cell(fdt, "/gpio-keys", "#size-cells", 0);
-    qemu_fdt_setprop_cell(fdt, "/gpio-keys", "#address-cells", 1);
 
     qemu_fdt_add_subnode(fdt, "/gpio-keys/poweroff");
     qemu_fdt_setprop_string(fdt, "/gpio-keys/poweroff",
-- 
2.25.1

The traditional ptimer behaviour includes a collection of weird edge
case behaviours.  In 2016 we improved the ptimer implementation to
fix these and generally make the behaviour more flexible, with
ptimers opting in to the new behaviour by passing an appropriate set
of policy flags to ptimer_init().  For backwards-compatibility, we
defined PTIMER_POLICY_DEFAULT (which sets no flags) to give the old
weird behaviour.

This turns out to be a poor choice of name, because people writing
new devices which use ptimers are misled into thinking that the
default is probably a sensible choice of flags, when in fact it is
almost always not what you want.  Rename PTIMER_POLICY_DEFAULT to
PTIMER_POLICY_LEGACY and beef up the comment to more clearly say that
new devices should not be using it.

The code-change part of this commit was produced by
  sed -i -e 's/PTIMER_POLICY_DEFAULT/PTIMER_POLICY_LEGACY/g' $(git grep -l PTIMER_POLICY_DEFAULT)
with the exception of a test name string change in
tests/unit/ptimer-test.c which was added manually.

diff --git a/include/hw/ptimer.h b/include/hw/ptimer.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/ptimer.h
+++ b/include/hw/ptimer.h
@@ -XXX,XX +XXX,XX @@
  * to stderr when the guest attempts to enable the timer.
  */
 
-/* The default ptimer policy retains backward compatibility with the legacy
- * timers. Custom policies are adjusting the default one. Consider providing
- * a correct policy for your timer.
+/*
+ * The 'legacy' ptimer policy retains backward compatibility with the
+ * traditional ptimer behaviour from before policy flags were introduced.
+ * It has several weird behaviours which don't match typical hardware
+ * timer behaviour. For a new device using ptimers, you should not
+ * use PTIMER_POLICY_LEGACY, but instead check the actual behaviour
+ * that you need and specify the right set of policy flags to get that.
+ *
+ * If you are overhauling an existing device that uses PTIMER_POLICY_LEGACY
+ * and are in a position to check or test the real hardware behaviour,
+ * consider updating it to specify the right policy flags.
  *
  * The rough edges of the default policy:
  *  - Starting to run with a period = 0 emits error message and stops the
@@ -XXX,XX +XXX,XX @@
  *    since the last period, effectively restarting the timer with a
  *    counter = counter value at the moment of change (.i.e. one less).
  */
-#define PTIMER_POLICY_DEFAULT               0
+#define PTIMER_POLICY_LEGACY                0
 
 /* Periodic timer counter stays with "0" for a one period before wrapping
  * around.  */
diff --git a/hw/arm/musicpal.c b/hw/arm/musicpal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/musicpal.c
+++ b/hw/arm/musicpal.c
@@ -XXX,XX +XXX,XX @@ static void mv88w8618_timer_init(SysBusDevice *dev, mv88w8618_timer_state *s,
     sysbus_init_irq(dev, &s->irq);
     s->freq = freq;
 
-    s->ptimer = ptimer_init(mv88w8618_timer_tick, s, PTIMER_POLICY_DEFAULT);
+    s->ptimer = ptimer_init(mv88w8618_timer_tick, s, PTIMER_POLICY_LEGACY);
 }
 
 static uint64_t mv88w8618_pit_read(void *opaque, hwaddr offset,
diff --git a/hw/dma/xilinx_axidma.c b/hw/dma/xilinx_axidma.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/xilinx_axidma.c
+++ b/hw/dma/xilinx_axidma.c
@@ -XXX,XX +XXX,XX @@ static void xilinx_axidma_realize(DeviceState *dev, Error **errp)
 
         st->dma = s;
         st->nr = i;
-        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_DEFAULT);
+        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_LEGACY);
         ptimer_transaction_begin(st->ptimer);
         ptimer_set_freq(st->ptimer, s->freqhz);
         ptimer_transaction_commit(st->ptimer);
diff --git a/hw/dma/xlnx_csu_dma.c b/hw/dma/xlnx_csu_dma.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/xlnx_csu_dma.c
+++ b/hw/dma/xlnx_csu_dma.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_csu_dma_realize(DeviceState *dev, Error **errp)
     sysbus_init_irq(SYS_BUS_DEVICE(dev), &s->irq);
 
     s->src_timer = ptimer_init(xlnx_csu_dma_src_timeout_hit,
-                               s, PTIMER_POLICY_DEFAULT);
+                               s, PTIMER_POLICY_LEGACY);
 
     s->attr = MEMTXATTRS_UNSPECIFIED;
 
diff --git a/hw/m68k/mcf5206.c b/hw/m68k/mcf5206.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/m68k/mcf5206.c
+++ b/hw/m68k/mcf5206.c
@@ -XXX,XX +XXX,XX @@ static m5206_timer_state *m5206_timer_init(qemu_irq irq)
     m5206_timer_state *s;
 
     s = g_new0(m5206_timer_state, 1);
-    s->timer = ptimer_init(m5206_timer_trigger, s, PTIMER_POLICY_DEFAULT);
+    s->timer = ptimer_init(m5206_timer_trigger, s, PTIMER_POLICY_LEGACY);
     s->irq = irq;
     m5206_timer_reset(s);
     return s;
diff --git a/hw/m68k/mcf5208.c b/hw/m68k/mcf5208.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/m68k/mcf5208.c
+++ b/hw/m68k/mcf5208.c
@@ -XXX,XX +XXX,XX @@ static void mcf5208_sys_init(MemoryRegion *address_space, qemu_irq *pic)
     /* Timers.  */
     for (i = 0; i < 2; i++) {
         s = g_new0(m5208_timer_state, 1);
-        s->timer = ptimer_init(m5208_timer_trigger, s, PTIMER_POLICY_DEFAULT);
+        s->timer = ptimer_init(m5208_timer_trigger, s, PTIMER_POLICY_LEGACY);
         memory_region_init_io(&s->iomem, NULL, &m5208_timer_ops, s,
                               "m5208-timer", 0x00004000);
         memory_region_add_subregion(address_space, 0xfc080000 + 0x4000 * i,
diff --git a/hw/net/can/xlnx-zynqmp-can.c b/hw/net/can/xlnx-zynqmp-can.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/can/xlnx-zynqmp-can.c
+++ b/hw/net/can/xlnx-zynqmp-can.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_can_realize(DeviceState *dev, Error **errp)
 
     /* Allocate a new timer. */
     s->can_timer = ptimer_init(xlnx_zynqmp_can_ptimer_cb, s,
-                               PTIMER_POLICY_DEFAULT);
+                               PTIMER_POLICY_LEGACY);
 
     ptimer_transaction_begin(s->can_timer);
 
diff --git a/hw/net/fsl_etsec/etsec.c b/hw/net/fsl_etsec/etsec.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/fsl_etsec/etsec.c
+++ b/hw/net/fsl_etsec/etsec.c
@@ -XXX,XX +XXX,XX @@ static void etsec_realize(DeviceState *dev, Error **errp)
                               object_get_typename(OBJECT(dev)), dev->id, etsec);
     qemu_format_nic_info_str(qemu_get_queue(etsec->nic), etsec->conf.macaddr.a);
 
-    etsec->ptimer = ptimer_init(etsec_timer_hit, etsec, PTIMER_POLICY_DEFAULT);
+    etsec->ptimer = ptimer_init(etsec_timer_hit, etsec, PTIMER_POLICY_LEGACY);
     ptimer_transaction_begin(etsec->ptimer);
     ptimer_set_freq(etsec->ptimer, 100);
     ptimer_transaction_commit(etsec->ptimer);
diff --git a/hw/net/lan9118.c b/hw/net/lan9118.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/net/lan9118.c
+++ b/hw/net/lan9118.c
@@ -XXX,XX +XXX,XX @@ static void lan9118_realize(DeviceState *dev, Error **errp)
     s->pmt_ctrl = 1;
     s->txp = &s->tx_packet;
 
-    s->timer = ptimer_init(lan9118_tick, s, PTIMER_POLICY_DEFAULT);
+    s->timer = ptimer_init(lan9118_tick, s, PTIMER_POLICY_LEGACY);
     ptimer_transaction_begin(s->timer);
     ptimer_set_freq(s->timer, 10000);
     ptimer_set_limit(s->timer, 0xffff, 1);
diff --git a/hw/rtc/exynos4210_rtc.c b/hw/rtc/exynos4210_rtc.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/rtc/exynos4210_rtc.c
+++ b/hw/rtc/exynos4210_rtc.c
@@ -XXX,XX +XXX,XX @@ static void exynos4210_rtc_init(Object *obj)
     Exynos4210RTCState *s = EXYNOS4210_RTC(obj);
     SysBusDevice *dev = SYS_BUS_DEVICE(obj);
 
-    s->ptimer = ptimer_init(exynos4210_rtc_tick, s, PTIMER_POLICY_DEFAULT);
+    s->ptimer = ptimer_init(exynos4210_rtc_tick, s, PTIMER_POLICY_LEGACY);
     ptimer_transaction_begin(s->ptimer);
     ptimer_set_freq(s->ptimer, RTC_BASE_FREQ);
     exynos4210_rtc_update_freq(s, 0);
     ptimer_transaction_commit(s->ptimer);
 
     s->ptimer_1Hz = ptimer_init(exynos4210_rtc_1Hz_tick,
-                                s, PTIMER_POLICY_DEFAULT);
+                                s, PTIMER_POLICY_LEGACY);
     ptimer_transaction_begin(s->ptimer_1Hz);
     ptimer_set_freq(s->ptimer_1Hz, RTC_BASE_FREQ);
     ptimer_transaction_commit(s->ptimer_1Hz);
diff --git a/hw/timer/allwinner-a10-pit.c b/hw/timer/allwinner-a10-pit.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/allwinner-a10-pit.c
+++ b/hw/timer/allwinner-a10-pit.c
@@ -XXX,XX +XXX,XX @@ static void a10_pit_init(Object *obj)
 
         tc->container = s;
         tc->index = i;
-        s->timer[i] = ptimer_init(a10_pit_timer_cb, tc, PTIMER_POLICY_DEFAULT);
+        s->timer[i] = ptimer_init(a10_pit_timer_cb, tc, PTIMER_POLICY_LEGACY);
     }
 }
 
diff --git a/hw/timer/altera_timer.c b/hw/timer/altera_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/altera_timer.c
+++ b/hw/timer/altera_timer.c
@@ -XXX,XX +XXX,XX @@ static void altera_timer_realize(DeviceState *dev, Error **errp)
         return;
     }
 
-    t->ptimer = ptimer_init(timer_hit, t, PTIMER_POLICY_DEFAULT);
+    t->ptimer = ptimer_init(timer_hit, t, PTIMER_POLICY_LEGACY);
     ptimer_transaction_begin(t->ptimer);
     ptimer_set_freq(t->ptimer, t->freq_hz);
     ptimer_transaction_commit(t->ptimer);
diff --git a/hw/timer/arm_timer.c b/hw/timer/arm_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/arm_timer.c
+++ b/hw/timer/arm_timer.c
@@ -XXX,XX +XXX,XX @@ static arm_timer_state *arm_timer_init(uint32_t freq)
     s->freq = freq;
     s->control = TIMER_CTRL_IE;
 
-    s->timer = ptimer_init(arm_timer_tick, s, PTIMER_POLICY_DEFAULT);
+    s->timer = ptimer_init(arm_timer_tick, s, PTIMER_POLICY_LEGACY);
     vmstate_register(NULL, VMSTATE_INSTANCE_ID_ANY, &vmstate_arm_timer, s);
     return s;
 }
diff --git a/hw/timer/digic-timer.c b/hw/timer/digic-timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/digic-timer.c
+++ b/hw/timer/digic-timer.c
@@ -XXX,XX +XXX,XX @@ static void digic_timer_init(Object *obj)
 {
     DigicTimerState *s = DIGIC_TIMER(obj);
 
-    s->ptimer = ptimer_init(digic_timer_tick, NULL, PTIMER_POLICY_DEFAULT);
+    s->ptimer = ptimer_init(digic_timer_tick, NULL, PTIMER_POLICY_LEGACY);
 
     /*
      * FIXME: there is no documentation on Digic timer
diff --git a/hw/timer/etraxfs_timer.c b/hw/timer/etraxfs_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/etraxfs_timer.c
+++ b/hw/timer/etraxfs_timer.c
@@ -XXX,XX +XXX,XX @@ static void etraxfs_timer_realize(DeviceState *dev, Error **errp)
     ETRAXTimerState *t = ETRAX_TIMER(dev);
     SysBusDevice *sbd = SYS_BUS_DEVICE(dev);
 
-    t->ptimer_t0 = ptimer_init(timer0_hit, t, PTIMER_POLICY_DEFAULT);
-    t->ptimer_t1 = ptimer_init(timer1_hit, t, PTIMER_POLICY_DEFAULT);
-    t->ptimer_wd = ptimer_init(watchdog_hit, t, PTIMER_POLICY_DEFAULT);
+    t->ptimer_t0 = ptimer_init(timer0_hit, t, PTIMER_POLICY_LEGACY);
+    t->ptimer_t1 = ptimer_init(timer1_hit, t, PTIMER_POLICY_LEGACY);
+    t->ptimer_wd = ptimer_init(watchdog_hit, t, PTIMER_POLICY_LEGACY);
 
     sysbus_init_irq(sbd, &t->irq);
     sysbus_init_irq(sbd, &t->nmi);
diff --git a/hw/timer/exynos4210_mct.c b/hw/timer/exynos4210_mct.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/exynos4210_mct.c
+++ b/hw/timer/exynos4210_mct.c
@@ -XXX,XX +XXX,XX @@ static void exynos4210_mct_init(Object *obj)
 
     /* Global timer */
     s->g_timer.ptimer_frc = ptimer_init(exynos4210_gfrc_event, s,
-                                        PTIMER_POLICY_DEFAULT);
+                                        PTIMER_POLICY_LEGACY);
     memset(&s->g_timer.reg, 0, sizeof(struct gregs));
 
     /* Local timers */
     for (i = 0; i < 2; i++) {
         s->l_timer[i].tick_timer.ptimer_tick =
             ptimer_init(exynos4210_ltick_event, &s->l_timer[i],
-                        PTIMER_POLICY_DEFAULT);
+                        PTIMER_POLICY_LEGACY);
         s->l_timer[i].ptimer_frc =
             ptimer_init(exynos4210_lfrc_event, &s->l_timer[i],
-                        PTIMER_POLICY_DEFAULT);
+                        PTIMER_POLICY_LEGACY);
         s->l_timer[i].id = i;
     }
 
diff --git a/hw/timer/exynos4210_pwm.c b/hw/timer/exynos4210_pwm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/exynos4210_pwm.c
+++ b/hw/timer/exynos4210_pwm.c
@@ -XXX,XX +XXX,XX @@ static void exynos4210_pwm_init(Object *obj)
         sysbus_init_irq(dev, &s->timer[i].irq);
         s->timer[i].ptimer = ptimer_init(exynos4210_pwm_tick,
                                          &s->timer[i],
-                                         PTIMER_POLICY_DEFAULT);
+                                         PTIMER_POLICY_LEGACY);
         s->timer[i].id = i;
         s->timer[i].parent = s;
     }
diff --git a/hw/timer/grlib_gptimer.c b/hw/timer/grlib_gptimer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/grlib_gptimer.c
+++ b/hw/timer/grlib_gptimer.c
@@ -XXX,XX +XXX,XX @@ static void grlib_gptimer_realize(DeviceState *dev, Error **errp)
 
         timer->unit   = unit;
         timer->ptimer = ptimer_init(grlib_gptimer_hit, timer,
-                                    PTIMER_POLICY_DEFAULT);
+                                    PTIMER_POLICY_LEGACY);
         timer->id     = i;
 
         /* One IRQ line for each timer */
diff --git a/hw/timer/imx_epit.c b/hw/timer/imx_epit.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/imx_epit.c
+++ b/hw/timer/imx_epit.c
@@ -XXX,XX +XXX,XX @@ static void imx_epit_realize(DeviceState *dev, Error **errp)
                           0x00001000);
     sysbus_init_mmio(sbd, &s->iomem);
 
-    s->timer_reload = ptimer_init(imx_epit_reload, s, PTIMER_POLICY_DEFAULT);
+    s->timer_reload = ptimer_init(imx_epit_reload, s, PTIMER_POLICY_LEGACY);
 
-    s->timer_cmp = ptimer_init(imx_epit_cmp, s, PTIMER_POLICY_DEFAULT);
+    s->timer_cmp = ptimer_init(imx_epit_cmp, s, PTIMER_POLICY_LEGACY);
 }
 
 static void imx_epit_class_init(ObjectClass *klass, void *data)
diff --git a/hw/timer/imx_gpt.c b/hw/timer/imx_gpt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/imx_gpt.c
+++ b/hw/timer/imx_gpt.c
@@ -XXX,XX +XXX,XX @@ static void imx_gpt_realize(DeviceState *dev, Error **errp)
                           0x00001000);
     sysbus_init_mmio(sbd, &s->iomem);
 
-    s->timer = ptimer_init(imx_gpt_timeout, s, PTIMER_POLICY_DEFAULT);
+    s->timer = ptimer_init(imx_gpt_timeout, s, PTIMER_POLICY_LEGACY);
 }
 
 static void imx_gpt_class_init(ObjectClass *klass, void *data)
diff --git a/hw/timer/mss-timer.c b/hw/timer/mss-timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/mss-timer.c
+++ b/hw/timer/mss-timer.c
@@ -XXX,XX +XXX,XX @@ static void mss_timer_init(Object *obj)
     for (i = 0; i < NUM_TIMERS; i++) {
         struct Msf2Timer *st = &t->timers[i];
 
-        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_DEFAULT);
+        st->ptimer = ptimer_init(timer_hit, st, PTIMER_POLICY_LEGACY);
         ptimer_transaction_begin(st->ptimer);
         ptimer_set_freq(st->ptimer, t->freq_hz);
         ptimer_transaction_commit(st->ptimer);
diff --git a/hw/timer/sh_timer.c b/hw/timer/sh_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/sh_timer.c
+++ b/hw/timer/sh_timer.c
@@ -XXX,XX +XXX,XX @@ static void *sh_timer_init(uint32_t freq, int feat, qemu_irq irq)
     s->enabled = 0;
     s->irq = irq;
 
-    s->timer = ptimer_init(sh_timer_tick, s, PTIMER_POLICY_DEFAULT);
+    s->timer = ptimer_init(sh_timer_tick, s, PTIMER_POLICY_LEGACY);
 
     sh_timer_write(s, OFFSET_TCOR >> 2, s->tcor);
     sh_timer_write(s, OFFSET_TCNT >> 2, s->tcnt);
diff --git a/hw/timer/slavio_timer.c b/hw/timer/slavio_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/slavio_timer.c
+++ b/hw/timer/slavio_timer.c
@@ -XXX,XX +XXX,XX @@ static void slavio_timer_init(Object *obj)
         tc->timer_index = i;
 
         s->cputimer[i].timer = ptimer_init(slavio_timer_irq, tc,
-                                           PTIMER_POLICY_DEFAULT);
+                                           PTIMER_POLICY_LEGACY);
         ptimer_transaction_begin(s->cputimer[i].timer);
         ptimer_set_period(s->cputimer[i].timer, TIMER_PERIOD);
         ptimer_transaction_commit(s->cputimer[i].timer);
diff --git a/hw/timer/xilinx_timer.c b/hw/timer/xilinx_timer.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/xilinx_timer.c
+++ b/hw/timer/xilinx_timer.c
@@ -XXX,XX +XXX,XX @@ static void xilinx_timer_realize(DeviceState *dev, Error **errp)
 
         xt->parent = t;
         xt->nr = i;
-        xt->ptimer = ptimer_init(timer_hit, xt, PTIMER_POLICY_DEFAULT);
+        xt->ptimer = ptimer_init(timer_hit, xt, PTIMER_POLICY_LEGACY);
         ptimer_transaction_begin(xt->ptimer);
         ptimer_set_freq(xt->ptimer, t->freq_hz);
         ptimer_transaction_commit(xt->ptimer);
diff --git a/tests/unit/ptimer-test.c b/tests/unit/ptimer-test.c
index XXXXXXX..XXXXXXX 100644
--- a/tests/unit/ptimer-test.c
+++ b/tests/unit/ptimer-test.c
@@ -XXX,XX +XXX,XX @@ static void add_ptimer_tests(uint8_t policy)
     char policy_name[256] = "";
     char *tmp;
 
-    if (policy == PTIMER_POLICY_DEFAULT) {
-        g_sprintf(policy_name, "default");
+    if (policy == PTIMER_POLICY_LEGACY) {
+        g_sprintf(policy_name, "legacy");
     }
 
     if (policy & PTIMER_POLICY_WRAP_AFTER_ONE_PERIOD) {
@@ -XXX,XX +XXX,XX @@ static void add_ptimer_tests(uint8_t policy)
 static void add_all_ptimer_policies_comb_tests(void)
 {
     int last_policy = PTIMER_POLICY_TRIGGER_ONLY_ON_DECREMENT;
-    int policy = PTIMER_POLICY_DEFAULT;
+    int policy = PTIMER_POLICY_LEGACY;
 
     for (; policy < (last_policy << 1); policy++) {
         if ((policy & PTIMER_POLICY_TRIGGER_ONLY_ON_DECREMENT) &&
-- 
2.25.1

From: Florian Lugou <florian.lugou@provenrun.com>

As per the description of the HCR_EL2.APK field in the ARMv8 ARM,
Pointer Authentication keys accesses should only be trapped to Secure
EL2 if it is enabled.

Signed-off-by: Florian Lugou <florian.lugou@provenrun.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220517145242.1215271-1-florian.lugou@provenrun.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static CPAccessResult access_pauth(CPUARMState *env, const ARMCPRegInfo *ri,
     int el = arm_current_el(env);
 
     if (el < 2 &&
-        arm_feature(env, ARM_FEATURE_EL2) &&
+        arm_is_el2_enabled(env) &&
         !(arm_hcr_el2_eff(env) & HCR_APK)) {
         return CP_ACCESS_TRAP_EL2;
     }
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

This feature adds a new register, HCRX_EL2, which controls
many of the newer AArch64 features.  So far the register is
effectively RES0, because none of the new features are done.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220517054850.177016-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 20 ++++++++++++++++++
 target/arm/cpu64.c  |  1 +
 target/arm/helper.c | 50 +++++++++++++++++++++++++++++++++++++++++++++
 3 files changed, 71 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef struct CPUArchState {
         uint32_t pmsav5_data_ap; /* PMSAv5 MPU data access permissions */
         uint32_t pmsav5_insn_ap; /* PMSAv5 MPU insn access permissions */
         uint64_t hcr_el2; /* Hypervisor configuration register */
+        uint64_t hcrx_el2; /* Extended Hypervisor configuration register */
         uint64_t scr_el3; /* Secure configuration register.  */
         union { /* Fault status registers.  */
             struct {
@@ -XXX,XX +XXX,XX @@ static inline void xpsr_write(CPUARMState *env, uint32_t val, uint32_t mask)
 #define HCR_TWEDEN    (1ULL << 59)
 #define HCR_TWEDEL    MAKE_64BIT_MASK(60, 4)
 
+#define HCRX_ENAS0    (1ULL << 0)
+#define HCRX_ENALS    (1ULL << 1)
+#define HCRX_ENASR    (1ULL << 2)
+#define HCRX_FNXS     (1ULL << 3)
+#define HCRX_FGTNXS   (1ULL << 4)
+#define HCRX_SMPME    (1ULL << 5)
+#define HCRX_TALLINT  (1ULL << 6)
+#define HCRX_VINMI    (1ULL << 7)
+#define HCRX_VFNMI    (1ULL << 8)
+#define HCRX_CMOW     (1ULL << 9)
+#define HCRX_MCE2     (1ULL << 10)
+#define HCRX_MSCEN    (1ULL << 11)
+
 #define HPFAR_NS      (1ULL << 63)
 
 #define SCR_NS                (1U << 0)
@@ -XXX,XX +XXX,XX @@ static inline bool arm_is_el2_enabled(CPUARMState *env)
  * Not included here is HCR_RW.
  */
 uint64_t arm_hcr_el2_eff(CPUARMState *env);
+uint64_t arm_hcrx_el2_eff(CPUARMState *env);
 
 /* Return true if the specified exception level is running in AArch64 state. */
 static inline bool arm_el_is_aa64(CPUARMState *env, int el)
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_ats1e1(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64mmfr1, ID_AA64MMFR1, PAN) >= 2;
 }
 
+static inline bool isar_feature_aa64_hcx(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64mmfr1, ID_AA64MMFR1, HCX) != 0;
+}
+
 static inline bool isar_feature_aa64_uao(const ARMISARegisters *id)
 {
     return FIELD_EX64(id->id_aa64mmfr2, ID_AA64MMFR2, UAO) != 0;
diff --git a/target/arm/cpu64.c b/target/arm/cpu64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu64.c
+++ b/target/arm/cpu64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_max_initfn(Object *obj)
     t = FIELD_DP64(t, ID_AA64MMFR1, LO, 1);       /* FEAT_LOR */
     t = FIELD_DP64(t, ID_AA64MMFR1, PAN, 2);      /* FEAT_PAN2 */
     t = FIELD_DP64(t, ID_AA64MMFR1, XNX, 1);      /* FEAT_XNX */
+    t = FIELD_DP64(t, ID_AA64MMFR1, HCX, 1);      /* FEAT_HCX */
     cpu->isar.id_aa64mmfr1 = t;
 
     t = cpu->isar.id_aa64mmfr2;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t arm_hcr_el2_eff(CPUARMState *env)
     return ret;
 }
 
+static void hcrx_write(CPUARMState *env, const ARMCPRegInfo *ri,
+                       uint64_t value)
+{
+    uint64_t valid_mask = 0;
+
+    /* No features adding bits to HCRX are implemented. */
+
+    /* Clear RES0 bits.  */
+    env->cp15.hcrx_el2 = value & valid_mask;
+}
+
+static CPAccessResult access_hxen(CPUARMState *env, const ARMCPRegInfo *ri,
+                                  bool isread)
+{
+    if (arm_current_el(env) < 3
+        && arm_feature(env, ARM_FEATURE_EL3)
+        && !(env->cp15.scr_el3 & SCR_HXEN)) {
+        return CP_ACCESS_TRAP_EL3;
+    }
+    return CP_ACCESS_OK;
+}
+
+static const ARMCPRegInfo hcrx_el2_reginfo = {
+    .name = "HCRX_EL2", .state = ARM_CP_STATE_AA64,
+    .opc0 = 3, .opc1 = 4, .crn = 1, .crm = 2, .opc2 = 2,
+    .access = PL2_RW, .writefn = hcrx_write, .accessfn = access_hxen,
+    .fieldoffset = offsetof(CPUARMState, cp15.hcrx_el2),
+};
+
+/* Return the effective value of HCRX_EL2.  */
+uint64_t arm_hcrx_el2_eff(CPUARMState *env)
+{
+    /*
+     * The bits in this register behave as 0 for all purposes other than
+     * direct reads of the register if:
+     *   - EL2 is not enabled in the current security state,
+     *   - SCR_EL3.HXEn is 0.
+     */
+    if (!arm_is_el2_enabled(env)
+        || (arm_feature(env, ARM_FEATURE_EL3)
+            && !(env->cp15.scr_el3 & SCR_HXEN))) {
+        return 0;
+    }
+    return env->cp15.hcrx_el2;
+}
+
 static void cptr_el2_write(CPUARMState *env, const ARMCPRegInfo *ri,
                            uint64_t value)
 {
@@ -XXX,XX +XXX,XX @@ void register_cp_regs_for_features(ARMCPU *cpu)
         define_arm_cp_regs(cpu, zcr_reginfo);
     }
 
+    if (cpu_isar_feature(aa64_hcx, cpu)) {
+        define_one_arm_cp_reg(cpu, &hcrx_el2_reginfo);
+    }
+
 #ifdef TARGET_AARCH64
     if (cpu_isar_feature(aa64_pauth, cpu)) {
         define_arm_cp_regs(cpu, pauth_reginfo);
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

We had a few CPTR_* bits defined, but missed quite a few.
Complete all of the fields up to ARMv9.2.
Use FIELD_EX64 instead of manual extract32.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220517054850.177016-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 44 +++++++++++++++++++++++++++++++-----
 hw/arm/boot.c       |  2 +-
 target/arm/cpu.c    | 11 ++++++---
 target/arm/helper.c | 54 ++++++++++++++++++++++-----------------------
 4 files changed, 75 insertions(+), 36 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ void pmu_init(ARMCPU *cpu);
 #define SCTLR_SPINTMASK (1ULL << 62) /* FEAT_NMI */
 #define SCTLR_TIDCP   (1ULL << 63) /* FEAT_TIDCP1 */
 
-#define CPTR_TCPAC    (1U << 31)
-#define CPTR_TTA      (1U << 20)
-#define CPTR_TFP      (1U << 10)
-#define CPTR_TZ       (1U << 8)   /* CPTR_EL2 */
-#define CPTR_EZ       (1U << 8)   /* CPTR_EL3 */
+/* Bit definitions for CPACR (AArch32 only) */
+FIELD(CPACR, CP10, 20, 2)
+FIELD(CPACR, CP11, 22, 2)
+FIELD(CPACR, TRCDIS, 28, 1)    /* matches CPACR_EL1.TTA */
+FIELD(CPACR, D32DIS, 30, 1)    /* up to v7; RAZ in v8 */
+FIELD(CPACR, ASEDIS, 31, 1)
+
+/* Bit definitions for CPACR_EL1 (AArch64 only) */
+FIELD(CPACR_EL1, ZEN, 16, 2)
+FIELD(CPACR_EL1, FPEN, 20, 2)
+FIELD(CPACR_EL1, SMEN, 24, 2)
+FIELD(CPACR_EL1, TTA, 28, 1)   /* matches CPACR.TRCDIS */
+
+/* Bit definitions for HCPTR (AArch32 only) */
+FIELD(HCPTR, TCP10, 10, 1)
+FIELD(HCPTR, TCP11, 11, 1)
+FIELD(HCPTR, TASE, 15, 1)
+FIELD(HCPTR, TTA, 20, 1)
+FIELD(HCPTR, TAM, 30, 1)       /* matches CPTR_EL2.TAM */
+FIELD(HCPTR, TCPAC, 31, 1)     /* matches CPTR_EL2.TCPAC */
+
+/* Bit definitions for CPTR_EL2 (AArch64 only) */
+FIELD(CPTR_EL2, TZ, 8, 1)      /* !E2H */
+FIELD(CPTR_EL2, TFP, 10, 1)    /* !E2H, matches HCPTR.TCP10 */
+FIELD(CPTR_EL2, TSM, 12, 1)    /* !E2H */
+FIELD(CPTR_EL2, ZEN, 16, 2)    /* E2H */
+FIELD(CPTR_EL2, FPEN, 20, 2)   /* E2H */
+FIELD(CPTR_EL2, SMEN, 24, 2)   /* E2H */
+FIELD(CPTR_EL2, TTA, 28, 1)
+FIELD(CPTR_EL2, TAM, 30, 1)    /* matches HCPTR.TAM */
+FIELD(CPTR_EL2, TCPAC, 31, 1)  /* matches HCPTR.TCPAC */
+
+/* Bit definitions for CPTR_EL3 (AArch64 only) */
+FIELD(CPTR_EL3, EZ, 8, 1)
+FIELD(CPTR_EL3, TFP, 10, 1)
+FIELD(CPTR_EL3, ESM, 12, 1)
+FIELD(CPTR_EL3, TTA, 20, 1)
+FIELD(CPTR_EL3, TAM, 30, 1)
+FIELD(CPTR_EL3, TCPAC, 31, 1)
 
 #define MDCR_EPMAD    (1U << 21)
 #define MDCR_EDAD     (1U << 20)
diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void do_cpu_reset(void *opaque)
                         env->cp15.scr_el3 |= SCR_ATA;
                     }
                     if (cpu_isar_feature(aa64_sve, cpu)) {
-                        env->cp15.cptr_el[3] |= CPTR_EZ;
+                        env->cp15.cptr_el[3] |= R_CPTR_EL3_EZ_MASK;
                     }
                     /* AArch64 kernels never boot in secure mode */
                     assert(!info->secure_boot);
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(DeviceState *dev)
         /* Trap on btype=3 for PACIxSP. */
         env->cp15.sctlr_el[1] |= SCTLR_BT0;
         /* and to the FP/Neon instructions */
-        env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 20, 2, 3);
+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
+                                         CPACR_EL1, FPEN, 3);
         /* and to the SVE instructions */
-        env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 16, 2, 3);
+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
+                                         CPACR_EL1, ZEN, 3);
         /* with reasonable vector length */
         if (cpu_isar_feature(aa64_sve, cpu)) {
             env->vfp.zcr_el[1] =
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_reset(DeviceState *dev)
     } else {
 #if defined(CONFIG_USER_ONLY)
         /* Userspace expects access to cp10 and cp11 for FP/Neon */
-        env->cp15.cpacr_el1 = deposit64(env->cp15.cpacr_el1, 20, 4, 0xf);
+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
+                                         CPACR, CP10, 3);
+        env->cp15.cpacr_el1 = FIELD_DP64(env->cp15.cpacr_el1,
+                                         CPACR, CP11, 3);
 #endif
     }
 
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
          */
         if (cpu_isar_feature(aa32_vfp_simd, env_archcpu(env))) {
             /* VFP coprocessor: cp10 & cp11 [23:20] */
-            mask |= (1 << 31) | (1 << 30) | (0xf << 20);
+            mask |= R_CPACR_ASEDIS_MASK |
+                    R_CPACR_D32DIS_MASK |
+                    R_CPACR_CP11_MASK |
+                    R_CPACR_CP10_MASK;
 
             if (!arm_feature(env, ARM_FEATURE_NEON)) {
                 /* ASEDIS [31] bit is RAO/WI */
-                value |= (1 << 31);
+                value |= R_CPACR_ASEDIS_MASK;
             }
 
             /* VFPv3 and upwards with NEON implement 32 double precision
@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
              */
             if (!cpu_isar_feature(aa32_simd_r32, env_archcpu(env))) {
                 /* D32DIS [30] is RAO/WI if D16-31 are not implemented. */
-                value |= (1 << 30);
+                value |= R_CPACR_D32DIS_MASK;
             }
         }
         value &= mask;
@@ -XXX,XX +XXX,XX @@ static void cpacr_write(CPUARMState *env, const ARMCPRegInfo *ri,
      */
     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
-        value &= ~(0xf << 20);
-        value |= env->cp15.cpacr_el1 & (0xf << 20);
+        mask = R_CPACR_CP11_MASK | R_CPACR_CP10_MASK;
+        value = (value & ~mask) | (env->cp15.cpacr_el1 & mask);
     }
 
     env->cp15.cpacr_el1 = value;
@@ -XXX,XX +XXX,XX @@ static uint64_t cpacr_read(CPUARMState *env, const ARMCPRegInfo *ri)
 
     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
-        value &= ~(0xf << 20);
+        value = ~(R_CPACR_CP11_MASK | R_CPACR_CP10_MASK);
     }
     return value;
 }
@@ -XXX,XX +XXX,XX @@ static CPAccessResult cpacr_access(CPUARMState *env, const ARMCPRegInfo *ri,
     if (arm_feature(env, ARM_FEATURE_V8)) {
         /* Check if CPACR accesses are to be trapped to EL2 */
         if (arm_current_el(env) == 1 && arm_is_el2_enabled(env) &&
-            (env->cp15.cptr_el[2] & CPTR_TCPAC)) {
+            FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TCPAC)) {
             return CP_ACCESS_TRAP_EL2;
         /* Check if CPACR accesses are to be trapped to EL3 */
         } else if (arm_current_el(env) < 3 &&
-                   (env->cp15.cptr_el[3] & CPTR_TCPAC)) {
+                   FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, TCPAC)) {
             return CP_ACCESS_TRAP_EL3;
         }
     }
@@ -XXX,XX +XXX,XX @@ static CPAccessResult cptr_access(CPUARMState *env, const ARMCPRegInfo *ri,
                                   bool isread)
 {
     /* Check if CPTR accesses are set to trap to EL3 */
-    if (arm_current_el(env) == 2 && (env->cp15.cptr_el[3] & CPTR_TCPAC)) {
+    if (arm_current_el(env) == 2 &&
+        FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, TCPAC)) {
         return CP_ACCESS_TRAP_EL3;
     }
 
@@ -XXX,XX +XXX,XX @@ static void cptr_el2_write(CPUARMState *env, const ARMCPRegInfo *ri,
      */
     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
-        value &= ~(0x3 << 10);
-        value |= env->cp15.cptr_el[2] & (0x3 << 10);
+        uint64_t mask = R_HCPTR_TCP11_MASK | R_HCPTR_TCP10_MASK;
+        value = (value & ~mask) | (env->cp15.cptr_el[2] & mask);
     }
     env->cp15.cptr_el[2] = value;
 }
@@ -XXX,XX +XXX,XX @@ static uint64_t cptr_el2_read(CPUARMState *env, const ARMCPRegInfo *ri)
 
     if (arm_feature(env, ARM_FEATURE_EL3) && !arm_el_is_aa64(env, 3) &&
         !arm_is_secure(env) && !extract32(env->cp15.nsacr, 10, 1)) {
-        value |= 0x3 << 10;
+        value |= R_HCPTR_TCP11_MASK | R_HCPTR_TCP10_MASK;
     }
     return value;
 }
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
     uint64_t hcr_el2 = arm_hcr_el2_eff(env);
 
     if (el <= 1 && (hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
-        /* Check CPACR.ZEN.  */
-        switch (extract32(env->cp15.cpacr_el1, 16, 2)) {
+        switch (FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, ZEN)) {
         case 1:
             if (el != 0) {
                 break;
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
         }
 
         /* Check CPACR.FPEN.  */
-        switch (extract32(env->cp15.cpacr_el1, 20, 2)) {
+        switch (FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, FPEN)) {
         case 1:
             if (el != 0) {
                 break;
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
      */
     if (el <= 2) {
         if (hcr_el2 & HCR_E2H) {
-            /* Check CPTR_EL2.ZEN.  */
-            switch (extract32(env->cp15.cptr_el[2], 16, 2)) {
+            switch (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, ZEN)) {
             case 1:
                 if (el != 0 || !(hcr_el2 & HCR_TGE)) {
                     break;
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
                 return 2;
             }
 
-            /* Check CPTR_EL2.FPEN.  */
-            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
+            switch (FIELD_EX32(env->cp15.cptr_el[2], CPTR_EL2, FPEN)) {
             case 1:
                 if (el == 2 || !(hcr_el2 & HCR_TGE)) {
                     break;
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
                 return 0;
             }
         } else if (arm_is_el2_enabled(env)) {
-            if (env->cp15.cptr_el[2] & CPTR_TZ) {
+            if (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TZ)) {
                 return 2;
             }
-            if (env->cp15.cptr_el[2] & CPTR_TFP) {
+            if (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TFP)) {
                 return 0;
             }
         }
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
 
     /* CPTR_EL3.  Since EZ is negative we must check for EL3.  */
     if (arm_feature(env, ARM_FEATURE_EL3)
-        && !(env->cp15.cptr_el[3] & CPTR_EZ)) {
+        && !FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, EZ)) {
         return 3;
     }
 #endif
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
      * This register is ignored if E2H+TGE are both set.
      */
     if ((hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
-        int fpen = extract32(env->cp15.cpacr_el1, 20, 2);
+        int fpen = FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, FPEN);
 
         switch (fpen) {
         case 0:
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
      */
     if (cur_el <= 2) {
         if (hcr_el2 & HCR_E2H) {
-            /* Check CPTR_EL2.FPEN.  */
-            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
+            switch (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, FPEN)) {
             case 1:
                 if (cur_el != 0 || !(hcr_el2 & HCR_TGE)) {
                     break;
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
                 return 2;
             }
         } else if (arm_is_el2_enabled(env)) {
-            if (env->cp15.cptr_el[2] & CPTR_TFP) {
+            if (FIELD_EX64(env->cp15.cptr_el[2], CPTR_EL2, TFP)) {
                 return 2;
             }
         }
     }
 
     /* CPTR_EL3 : present in v8 */
-    if (env->cp15.cptr_el[3] & CPTR_TFP) {
+    if (FIELD_EX64(env->cp15.cptr_el[3], CPTR_EL3, TFP)) {
         /* Trap all FP ops to EL3 */
         return 3;
     }
-- 
2.25.1

Hi; most of this is the first half of the A64 simd decodetree
conversion; the rest is a mix of fixes from the last couple of weeks.

v2 uses patches from the v2 decodetree series to avoid a few
regressions in some A32 insns.

(Richard: I'm still planning to review the second half of the
v2 decodetree series; I just wanted to get the respin of this
pullreq out today...)

thanks
-- PMM

The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:

Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528

for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:

target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)

----------------------------------------------------------------
target-arm queue:
 * xlnx_dpdma: fix descriptor endianness bug
 * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
 * hw/arm/npcm7xx: remove setting of mp-affinity
 * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
 * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
 * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
 * hw: arm: Remove use of tabs in some source files
 * docs/system: Remove ADC from raspi documentation
 * target/arm: Start of the conversion of A64 SIMD to decodetree

----------------------------------------------------------------
Alexandra Diupina (1):
      xlnx_dpdma: fix descriptor endianness bug

Andrey Shumilin (1):
      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>

Dorjoy Chowdhury (1):
      hw/arm/npcm7xx: remove setting of mp-affinity

Inès Varhol (1):
      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size

Philippe Mathieu-Daudé (1):
      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()

Rayhan Faizel (1):
      docs/system: Remove ADC from raspi documentation

Richard Henderson (34):
      target/arm: Use PLD, PLDW, PLI not NOP for t32
      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
      target/arm: Fix decode of FMOV (hp) vs MOVI
      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
      target/arm: Split out gengvec.c
      target/arm: Split out gengvec64.c
      target/arm: Convert Cryptographic AES to decodetree
      target/arm: Convert Cryptographic 3-register SHA to decodetree
      target/arm: Convert Cryptographic 2-register SHA to decodetree
      target/arm: Convert Cryptographic 3-register SHA512 to decodetree
      target/arm: Convert Cryptographic 2-register SHA512 to decodetree
      target/arm: Convert Cryptographic 4-register to decodetree
      target/arm: Convert Cryptographic 3-register, imm2 to decodetree
      target/arm: Convert XAR to decodetree
      target/arm: Convert Advanced SIMD copy to decodetree
      target/arm: Convert FMULX to decodetree
      target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
      target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
      target/arm: Introduce vfp_load_reg16
      target/arm: Expand vfp neg and abs inline
      target/arm: Convert FNMUL to decodetree
      target/arm: Convert FMLA, FMLS to decodetree
      target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
      target/arm: Convert FABD to decodetree
      target/arm: Convert FRECPS, FRSQRTS to decodetree
      target/arm: Convert FADDP to decodetree
      target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
      target/arm: Use gvec for neon faddp, fmaxp, fminp
      target/arm: Convert ADDP to decodetree
      target/arm: Use gvec for neon padd
      target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
      target/arm: Use gvec for neon pmax, pmin
      target/arm: Convert FMLAL, FMLSL to decodetree
      target/arm: Convert disas_simd_3same_logic to decodetree

Tanmay Patil (1):
      hw: arm: Remove use of tabs in some source files

Zenghui Yu (1):
      hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers

From: Alexandra Diupina <adiupina@astralinux.ru>

Add xlnx_dpdma_read_descriptor() and
xlnx_dpdma_write_descriptor() functions.
xlnx_dpdma_read_descriptor() combines reading a
descriptor from desc_addr by calling dma_memory_read()
and swapping the desc fields from guest memory order
to host memory order. xlnx_dpdma_write_descriptor()
performs similar actions when writing a descriptor.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Fixes: d3c6369a96 ("introduce xlnx-dpdma")
Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
[PMM: tweaked indent, dropped behaviour change for write-failure case]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 64 insertions(+), 4 deletions(-)

diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/xlnx_dpdma.c
+++ b/hw/dma/xlnx_dpdma.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
     type_register_static(&xlnx_dpdma_info);
 }
 
+static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
+                                              uint64_t desc_addr,
+                                              DPDMADescriptor *desc)
+{
+    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
+                                      &desc, sizeof(DPDMADescriptor),
+                                      MEMTXATTRS_UNSPECIFIED);
+    if (res) {
+        return res;
+    }
+
+    /* Convert from LE into host endianness.  */
+    desc->control = le32_to_cpu(desc->control);
+    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
+    desc->xfer_size = le32_to_cpu(desc->xfer_size);
+    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
+    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
+    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
+    desc->address_extension = le32_to_cpu(desc->address_extension);
+    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
+    desc->source_address = le32_to_cpu(desc->source_address);
+    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
+    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
+    desc->source_address2 = le32_to_cpu(desc->source_address2);
+    desc->source_address3 = le32_to_cpu(desc->source_address3);
+    desc->source_address4 = le32_to_cpu(desc->source_address4);
+    desc->source_address5 = le32_to_cpu(desc->source_address5);
+    desc->crc = le32_to_cpu(desc->crc);
+
+    return res;
+}
+
+static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
+                                               DPDMADescriptor *desc)
+{
+    DPDMADescriptor tmp_desc = *desc;
+
+    /* Convert from host endianness into LE.  */
+    tmp_desc.control = cpu_to_le32(tmp_desc.control);
+    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
+    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
+    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
+    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
+    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
+    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
+    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
+    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
+    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
+    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
+    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
+    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
+    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
+    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
+    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
+
+    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
+                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+}
+
 size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
                                     bool one_desc)
 {
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
         }
 
-        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
-                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
+        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
             s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
             xlnx_dpdma_update_irq(s);
             s->operation_finished[channel] = true;
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             /* The descriptor need to be updated when it's completed. */
             DPRINTF("update the descriptor with the done flag set.\n");
             xlnx_dpdma_desc_set_done(&desc);
-            dma_memory_write(&address_space_memory, desc_addr, &desc,
-                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
+                DPRINTF("Can't write the descriptor.\n");
+                /* TODO: check hardware behaviour for memory write failure */
+            }
         }
 
         if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
-- 
2.34.1

From: Zenghui Yu <zenghui.yu@linux.dev>

We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
wrong key.

Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
guest can properly detect FEAT_SSBS2 on my M1 HW.

All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
it.

Cc: qemu-stable@nongnu.org
Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
Reviewed-by: Alexander Graf <agraf@csgraf.de>
Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
 1 file changed, 65 insertions(+), 65 deletions(-)

diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/hvf/hvf.c
+++ b/target/arm/hvf/hvf.c
@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
 };
 
 static struct hvf_sreg_match hvf_sreg_match[] = {
-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
 
 #ifdef SYNC_NO_RAW_REGS
     /*
@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
     { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
     { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
 #endif
-    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
+    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
     { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
-- 
2.34.1

From: Dorjoy Chowdhury <dorjoychy111@gmail.com>

The value of the mp-affinity property being set in npcm7xx_realize is
always the same as the default value it would have when arm_cpu_realizefn
is called if the property is not set here. So there is no need to set
the property value in npcm7xx_realize function.

Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/npcm7xx.c | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
 
     /* CPUs */
     for (i = 0; i < nc->num_cpus; i++) {
-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
-                                &error_abort);
         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
-- 
2.34.1

From: Inès Varhol <ines.varhol@telecom-paris.fr>

Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/char/stm32l4x5_usart.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/stm32l4x5_usart.c
+++ b/hw/char/stm32l4x5_usart.c
@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
     FIELD(CR1, UE, 0, 1)     /* USART enable */
 REG32(CR2, 0x04)
     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
+    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
-- 
2.34.1

From: Andrey Shumilin <shum.sdl@nppct.ru>

In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
reading and writing the Non-Secure view of the GICC_APR<n> registers
to functions gic_apr_ns_view() and gic_apr_write_ns_view().
Unfortunately we got the order of the arguments wrong, swapping the
CPU number and the register number (which the compiler doesn't catch
because they're both integers).

Most guests probably didn't notice this bug because directly
accessing the APR registers is typically something only done by
firmware when it is doing state save for going into a sleep mode.

Correct the mismatched call arguments.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Cc: qemu-stable@nongnu.org
Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
[PMM: Rewrote commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
---
 hw/intc/arm_gic.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gic.c
+++ b/hw/intc/arm_gic.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            *data = gic_apr_ns_view(s, regno, cpu);
+            *data = gic_apr_ns_view(s, cpu, regno);
         } else {
             *data = s->apr[regno][cpu];
         }
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            gic_apr_write_ns_view(s, regno, cpu, value);
+            gic_apr_write_ns_view(s, cpu, regno, value);
         } else {
             s->apr[regno][cpu] = value;
         }
-- 
2.34.1

From: Philippe Mathieu-Daudé <philmd@linaro.org>

Check the function index is in range and use an unsigned
variable to avoid the following warning with GCC 13.2.0:

[666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
  hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
  hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
    416 |     s->dav |= mode_regs[s->function];
        |                         ~^~~~~~~~~~

Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240508143513.44996-1-philmd@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: fixed missing ')']
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/input/tsc2005.c | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
 static void tsc2005_timer_tick(void *opaque)
 {
     TSC2005State *s = opaque;
+    unsigned int function = s->function;
+
+    assert(function < ARRAY_SIZE(mode_regs));
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
         return;
 
     s->busy = false;
-    s->dav |= mode_regs[s->function];
+    s->dav |= mode_regs[function];
     s->function = -1;
     tsc2005_pin_update(s);
 }
-- 
2.34.1

From: Tanmay Patil <tanmaynpatil105@gmail.com>

Some of the source files for older devices use hardcoded tabs
instead of our current coding standard's required spaces.
Fix these in the following files:
	- hw/arm/boot.c
	- hw/char/omap_uart.c
	- hw/gpio/zaurus.c
	- hw/input/tsc2005.c

This commit is mostly whitespace-only changes; it also
adds curly-braces to some 'if' statements.

This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
but some other files remain to be handled.

Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: tweaked commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/boot.c       |   8 +--
 hw/char/omap_uart.c |  49 +++++++++--------
 hw/gpio/zaurus.c    |  59 ++++++++++----------
 hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
 4 files changed, 130 insertions(+), 116 deletions(-)

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
     WRITE_WORD(p, info->ram_size / 4096);
     /* ramdisk_size */
     WRITE_WORD(p, 0);
-#define FLAG_READONLY	1
-#define FLAG_RDLOAD	4
-#define FLAG_RDPROMPT	8
+#define FLAG_READONLY 1
+#define FLAG_RDLOAD   4
+#define FLAG_RDPROMPT 8
     /* flags */
     WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
     /* rootdev */
-    WRITE_WORD(p, (31 << 8) | 0);	/* /dev/mtdblock0 */
+    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
     /* video_num_cols */
     WRITE_WORD(p, 0);
     /* video_num_rows */
diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/omap_uart.c
+++ b/hw/char/omap_uart.c
@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
     s->fclk = fclk;
     s->irq = irq;
     s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
-                               omap_clk_getrate(fclk)/16,
+                               omap_clk_getrate(fclk) / 16,
                                chr ?: qemu_chr_new(label, "null", NULL),
                                DEVICE_NATIVE_ENDIAN);
     return s;
@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         return s->mdr[0];
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         return s->mdr[1];
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         return s->scr;
-    case 0x44:	/* SSR */
+    case 0x44:  /* SSR */
         return 0x0;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         return s->eblr;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         return s->clksel;
-    case 0x50:	/* MVR */
+    case 0x50:  /* MVR */
         return 0x30;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         return s->syscontrol;
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x58:  /* SYSS (OMAP2) */
         return 1;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         return s->wkup;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         return s->cfps;
     }
 
@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         s->mdr[0] = value & 0x7f;
         break;
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         s->mdr[1] = value & 0xff;
         break;
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         s->scr = value & 0xff;
         break;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         s->eblr = value & 0xff;
         break;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         s->clksel = value & 1;
         break;
-    case 0x44:	/* SSR */
-    case 0x50:	/* MVR */
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x44:  /* SSR */
+    case 0x50:  /* MVR */
+    case 0x58:  /* SYSS (OMAP2) */
         OMAP_RO_REG(addr);
         break;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         s->syscontrol = value & 0x1d;
-        if (value & 2)
+        if (value & 2) {
             omap_uart_reset(s);
+        }
         break;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         s->wkup = value & 0x7f;
         break;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         s->cfps = value & 0xff;
         break;
     default:
diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/gpio/zaurus.c
+++ b/hw/gpio/zaurus.c
@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
     uint16_t isr;
 };
 
-#define SCOOP_MCR	0x00
-#define SCOOP_CDR	0x04
-#define SCOOP_CSR	0x08
-#define SCOOP_CPR	0x0c
-#define SCOOP_CCR	0x10
-#define SCOOP_IRR_IRM	0x14
-#define SCOOP_IMR	0x18
-#define SCOOP_ISR	0x1c
-#define SCOOP_GPCR	0x20
-#define SCOOP_GPWR	0x24
-#define SCOOP_GPRR	0x28
+#define SCOOP_MCR       0x00
+#define SCOOP_CDR       0x04
+#define SCOOP_CSR       0x08
+#define SCOOP_CPR       0x0c
+#define SCOOP_CCR       0x10
+#define SCOOP_IRR_IRM   0x14
+#define SCOOP_IMR       0x18
+#define SCOOP_ISR       0x1c
+#define SCOOP_GPCR      0x20
+#define SCOOP_GPWR      0x24
+#define SCOOP_GPRR      0x28
 
-static inline void scoop_gpio_handler_update(ScoopInfo *s) {
+static inline void scoop_gpio_handler_update(ScoopInfo *s)
+{
     uint32_t level, diff;
     int bit;
     level = s->gpio_level & s->gpio_dir;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         break;
     case SCOOP_CPR:
         s->power = value;
-        if (value & 0x80)
+        if (value & 0x80) {
             s->power |= 0x8040;
+        }
         break;
     case SCOOP_CCR:
         s->ccr = value;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         scoop_gpio_handler_update(s);
         break;
     case SCOOP_GPWR:
-    case SCOOP_GPRR:	/* GPRR is probably R/O in real HW */
+    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
         s->gpio_level = value & s->gpio_dir;
         scoop_gpio_handler_update(s);
         break;
@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
 {
     ScoopInfo *s = (ScoopInfo *) opaque;
 
-    if (level)
+    if (level) {
         s->gpio_level |= (1 << line);
-    else
+    } else {
         s->gpio_level &= ~(1 << line);
+    }
 }
 
 static void scoop_init(Object *obj)
@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
     return 0;
 }
 
-static bool is_version_0 (void *opaque, int version_id)
+static bool is_version_0(void *opaque, int version_id)
 {
     return version_id == 0;
 }
@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
 
 /* Write the bootloader parameters memory area.  */
 
-#define MAGIC_CHG(a, b, c, d)	((d << 24) | (c << 16) | (b << 8) | a)
+#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
 
 static struct QEMU_PACKED sl_param_info {
     uint32_t comadj_keyword;
@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
     uint32_t phad_keyword;
     int32_t phadadj;
 } zaurus_bootparam = {
-    .comadj_keyword	= MAGIC_CHG('C', 'M', 'A', 'D'),
-    .comadj		= 125,
-    .uuid_keyword	= MAGIC_CHG('U', 'U', 'I', 'D'),
-    .uuid		= { -1 },
-    .touch_keyword	= MAGIC_CHG('T', 'U', 'C', 'H'),
-    .touch_xp		= -1,
-    .adadj_keyword	= MAGIC_CHG('B', 'V', 'A', 'D'),
-    .adadj		= -1,
-    .phad_keyword	= MAGIC_CHG('P', 'H', 'A', 'D'),
-    .phadadj		= 0x01,
+    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
+    .comadj             = 125,
+    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
+    .uuid               = { -1 },
+    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
+    .touch_xp           = -1,
+    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
+    .adadj              = -1,
+    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
+    .phadadj            = 0x01,
 };
 
 void sl_bootparam_write(hwaddr ptr)
diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@
 #include "migration/vmstate.h"
 #include "trace.h"
 
-#define TSC_CUT_RESOLUTION(value, p)	((value) >> (16 - (p ? 12 : 10)))
+#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
 
 typedef struct {
-    qemu_irq pint;	/* Combination of the nPENIRQ and DAV signals */
+    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
     QEMUTimer *timer;
     uint16_t model;
 
@@ -XXX,XX +XXX,XX @@ typedef struct {
 } TSC2005State;
 
 enum {
-    TSC_MODE_XYZ_SCAN	= 0x0,
+    TSC_MODE_XYZ_SCAN = 0x0,
     TSC_MODE_XY_SCAN,
     TSC_MODE_X,
     TSC_MODE_Y,
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 static const uint16_t mode_regs[16] = {
-    0xf000,	/* X, Y, Z scan */
-    0xc000,	/* X, Y scan */
-    0x8000,	/* X */
-    0x4000,	/* Y */
-    0x3000,	/* Z */
-    0x0800,	/* AUX */
-    0x0400,	/* TEMP1 */
-    0x0200,	/* TEMP2 */
-    0x0800,	/* AUX scan */
-    0x0040,	/* X test */
-    0x0020,	/* Y test */
-    0x0080,	/* Short-circuit test */
-    0x0000,	/* Reserved */
-    0x0000,	/* X+, X- drivers */
-    0x0000,	/* Y+, Y- drivers */
-    0x0000,	/* Y+, X- drivers */
+    0xf000, /* X, Y, Z scan */
+    0xc000, /* X, Y scan */
+    0x8000, /* X */
+    0x4000, /* Y */
+    0x3000, /* Z */
+    0x0800, /* AUX */
+    0x0400, /* TEMP1 */
+    0x0200, /* TEMP2 */
+    0x0800, /* AUX scan */
+    0x0040, /* X test */
+    0x0020, /* Y test */
+    0x0080, /* Short-circuit test */
+    0x0000, /* Reserved */
+    0x0000, /* X+, X- drivers */
+    0x0000, /* Y+, Y- drivers */
+    0x0000, /* Y+, X- drivers */
 };
 
-#define X_TRANSFORM(s)			\
+#define X_TRANSFORM(s)      \
     ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
-#define Y_TRANSFORM(s)			\
+#define Y_TRANSFORM(s)      \
     ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
-#define Z1_TRANSFORM(s)			\
+#define Z1_TRANSFORM(s)     \
     ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
-#define Z2_TRANSFORM(s)			\
+#define Z2_TRANSFORM(s)     \
     ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
 
-#define AUX_VAL				(700 << 4)	/* +/- 3 at 12-bit */
-#define TEMP1_VAL			(1264 << 4)	/* +/- 5 at 12-bit */
-#define TEMP2_VAL			(1531 << 4)	/* +/- 5 at 12-bit */
+#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
+#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
+#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
 
 static uint16_t tsc2005_read(TSC2005State *s, int reg)
 {
     uint16_t ret;
 
     switch (reg) {
-    case 0x0:	/* X */
+    case 0x0: /* X */
         s->dav &= ~mode_regs[TSC_MODE_X];
         return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
                 (s->noise & 3);
-    case 0x1:	/* Y */
+    case 0x1: /* Y */
         s->dav &= ~mode_regs[TSC_MODE_Y];
-        s->noise ++;
+        s->noise++;
         return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
                 (s->noise & 3);
-    case 0x2:	/* Z1 */
+    case 0x2: /* Z1 */
         s->dav &= 0xdfff;
         return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
                 (s->noise & 3);
-    case 0x3:	/* Z2 */
+    case 0x3: /* Z2 */
         s->dav &= 0xefff;
         return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
                 (s->noise & 3);
 
-    case 0x4:	/* AUX */
+    case 0x4: /* AUX */
         s->dav &= ~mode_regs[TSC_MODE_AUX];
         return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
 
-    case 0x5:	/* TEMP1 */
+    case 0x5: /* TEMP1 */
         s->dav &= ~mode_regs[TSC_MODE_TEMP1];
         return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
                 (s->noise & 5);
-    case 0x6:	/* TEMP2 */
+    case 0x6: /* TEMP2 */
         s->dav &= 0xdfff;
         s->dav &= ~mode_regs[TSC_MODE_TEMP2];
         return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
                 (s->noise & 3);
 
-    case 0x7:	/* Status */
+    case 0x7: /* Status */
         ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
         s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
                         mode_regs[TSC_MODE_TS_TEST]);
         s->reset = true;
         return ret;
 
-    case 0x8:   /* AUX high threshold */
+    case 0x8: /* AUX high threshold */
         return s->aux_thr[1];
-    case 0x9:   /* AUX low threshold */
+    case 0x9: /* AUX low threshold */
         return s->aux_thr[0];
 
-    case 0xa:   /* TEMP high threshold */
+    case 0xa: /* TEMP high threshold */
         return s->temp_thr[1];
-    case 0xb:   /* TEMP low threshold */
+    case 0xb: /* TEMP low threshold */
         return s->temp_thr[0];
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         return (s->pressure << 15) | ((!s->busy) << 14) |
-                (s->nextprecision << 13) | s->timing[0]; 
-    case 0xd:	/* CFR1 */
+                (s->nextprecision << 13) | s->timing[0];
+    case 0xd: /* CFR1 */
         return s->timing[1];
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         return (s->pin_func << 14) | s->filter;
 
-    case 0xf:	/* Function select status */
+    case 0xf: /* Function select status */
         return s->function >= 0 ? 1 << s->function : 0;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
         s->temp_thr[0] = data;
         break;
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         s->host_mode = (data >> 15) != 0;
         if (s->enabled != !(data & 0x4000)) {
             s->enabled = !(data & 0x4000);
             trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-            if (s->busy && !s->enabled)
+            if (s->busy && !s->enabled) {
                 timer_del(s->timer);
+            }
             s->busy = s->busy && s->enabled;
         }
         s->nextprecision = (data >> 13) & 1;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
                           "tsc2005_write: illegal conversion clock setting\n");
         }
         break;
-    case 0xd:	/* CFR1 */
+    case 0xd: /* CFR1 */
         s->timing[1] = data & 0xf07;
         break;
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         s->pin_func = (data >> 14) & 3;
         s->filter = data & 0x3fff;
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     switch (s->nextfunction) {
     case TSC_MODE_XYZ_SCAN:
     case TSC_MODE_XY_SCAN:
-        if (!s->host_mode && s->dav)
+        if (!s->host_mode && s->dav) {
             s->enabled = false;
-        if (!s->pressure)
+        }
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX_SCAN:
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X:
     case TSC_MODE_Y:
     case TSC_MODE_Z:
-        if (!s->pressure)
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX:
     case TSC_MODE_TEMP1:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X_TEST:
     case TSC_MODE_Y_TEST:
     case TSC_MODE_TS_TEST:
-        if (s->dav)
+        if (s->dav) {
             s->enabled = false;
+        }
         break;
 
     case TSC_MODE_RESERVED:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
         return;
     }
 
-    if (!s->enabled || s->busy)
+    if (!s->enabled || s->busy) {
         return;
+    }
 
     s->busy = true;
     s->precision = s->nextprecision;
     s->function = s->nextfunction;
-    s->pdst = !s->pnd0;	/* Synchronised on internal clock */
+    s->pdst = !s->pnd0; /* Synchronised on internal clock */
     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
         (NANOSECONDS_PER_SECOND >> 7);
     timer_mod(s->timer, expires);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
     TSC2005State *s = opaque;
     uint32_t ret = 0;
 
-    switch (s->state ++) {
+    switch (s->state++) {
     case 0:
         if (value & 0x80) {
             /* Command */
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
                 if (s->enabled != !(value & 1)) {
                     s->enabled = !(value & 1);
                     trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-                    if (s->busy && !s->enabled)
+                    if (s->busy && !s->enabled) {
                         timer_del(s->timer);
+                    }
                     s->busy = s->busy && s->enabled;
                 }
                 tsc2005_pin_update(s);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
         break;
 
     case 1:
-        if (s->command)
+        if (s->command) {
             ret = (s->data >> 8) & 0xff;
-        else
+        } else {
             s->data |= value << 8;
+        }
         break;
 
     case 2:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
-    if (!s->busy)
+    if (!s->busy) {
         return;
+    }
 
     s->busy = false;
     s->dav |= mode_regs[function];
@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
      * signaling TS events immediately, but for now we simulate
      * the first conversion delay for sake of correctness.
      */
-    if (p != s->pressure)
+    if (p != s->pressure) {
         tsc2005_pin_update(s);
+    }
 }
 
 static int tsc2005_post_load(void *opaque, int version_id)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
but are introduced with ARMv7 and ARMv7MP respectively.
For clarity, do not use NOP for PLD.

Note that there is no PLDW (literal). Architecturally in the
T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
that it should be zero and if it is not then the behaviour
is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
value of the bit).

In our implementation we have patterns for both:

+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)

and so we effectively ignore the value of bit 5.  (This is a
permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
behaviour change in this commit, since we previously had NOP lines
for both those patterns.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
[PMM: adjusted commit message to note that PLD (lit) T1 bit 5
being 1 is an UNPREDICTABLE case.]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
 target/arm/tcg/translate.c |  4 ++--
 2 files changed, 14 insertions(+), 15 deletions(-)

diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/t32.decode
+++ b/target/arm/tcg/t32.decode
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
 # Note that Load, unsigned (literal) overlaps all other load encodings.
 {
   {
-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
+    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
     LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
   }
   LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
+    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
+    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
     LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
 {
   {
-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
+    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
   }
   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
+    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
     LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
+    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
     LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
   }
 }
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
   LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
   LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
 }
-# NOPs here are PLI.
 {
   {
-    NOP          1111 1001 -001 1111 1111 ------------
+    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
     LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1001 1001 ---- 1111 ------------
+    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
     LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
   }
   LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1001 0001 ---- 1111 1100 --------
+    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1001 0001 ---- 1111 000000 -- ----
+    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
     LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
     return ENABLE_ARCH_5TE;
 }
 
-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
+static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
 {
     return arm_dc_feature(s, ARM_FEATURE_V7MP);
 }
 
-static bool trans_PLI(DisasContext *s, arg_PLD *a)
+static bool trans_PLI(DisasContext *s, arg_PLI *a)
 {
     return ENABLE_ARCH_7;
 }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Fixes RISU mismatch for "fcvtzs h31, h0, #14".

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
             read_vec_element_i32(s, tcg_op, rn, pass, size);
             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
             if (is_scalar) {
+                if (size == MO_16 && !is_u) {
+                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
+                }
                 write_fp_sreg(s, rd, tcg_op);
             } else {
                 write_vec_element_i32(s, tcg_op, rd, pass, size);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

The decode of FMOV (vector, immediate, half-precision) vs
invalid cases of MOVI are incorrect.

Fixes RISU mismatch for invalid insn 0x2f01fd31.

Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
 1 file changed, 14 insertions(+), 10 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     bool is_q = extract32(insn, 30, 1);
     uint64_t imm = 0;
 
-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
-        /* Check for FMOV (vector, immediate) - half-precision */
-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
+    if (o2) {
+        if (cmode != 0xf || is_neg) {
             unallocated_encoding(s);
             return;
         }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (cmode == 15 && o2 && !is_neg) {
         /* FMOV (vector, immediate) - half-precision */
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = vfp_expand_imm(MO_16, abcdefgh);
         /* now duplicate across the lanes */
         imm = dup_const(MO_16, imm);
     } else {
+        if (cmode == 0xf && is_neg && !is_q) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
     }
 
+    if (!fp_access_check(s)) {
+        return;
+    }
+
     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
         /* MOVI or MVNI, with MVNI negation handled above.  */
         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
Fixes a RISU miscompare for invalid insn 0x5ef0c87a.

Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate.h |    5 +
 target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
 target/arm/tcg/translate.c | 1588 -----------------------------------
 target/arm/tcg/meson.build |    1 +
 4 files changed, 1618 insertions(+), 1588 deletions(-)
 create mode 100644 target/arm/tcg/gengvec.c

diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+
 void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  ARM generic vector expansion
+ *
+ *  Copyright (c) 2003 Fabrice Bellard
+ *  Copyright (c) 2005-2007 CodeSourcery
+ *  Copyright (c) 2007 OpenedHand, Ltd.
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+
+
+static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+                            uint32_t opr_sz, uint32_t max_sz,
+                            gen_helper_gvec_3_ptr *fn)
+{
+    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
+                       opr_sz, max_sz, 0, fn);
+}
+
+void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+#define GEN_CMP0(NAME, COND)                              \
+    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
+              uint32_t opr_sz, uint32_t max_sz)           \
+    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
+
+GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
+GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
+GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
+GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
+GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
+
+#undef GEN_CMP0
+
+static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_sari_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_sari_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_sari_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ssra8_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_ssra16_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ssra32_i32,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ssra64_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.
+     */
+    shift = MIN(shift, (8 << vece) - 1);
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_shri_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_usra8_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8, },
+        { .fni8 = gen_usra16_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16, },
+        { .fni4 = gen_usra32_i32,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32, },
+        { .fni8 = gen_usra64_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64, },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Unsigned results in all zeros as input to accumulate: nop.
+     */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+/*
+ * Shift one less than the requested amount, and the low bit is
+ * the rounding bit.  For the 8 and 16-bit operations, because we
+ * mask the low bit, we can perform a normal integer shift instead
+ * of a vector shift.
+ */
+static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_sar8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_sar16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
+    if (sh == 32) {
+        tcg_gen_movi_i32(d, 0);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_sari_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+ void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_sari_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, sh - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_sari_vec(vece, d, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srshr8_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_srshr16_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_srshr32_i32,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_srshr64_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Signed results in all sign bits.  With rounding, this produces
+         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+         * I.e. always zero.
+         */
+        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr8_i64(t, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr16_i64(t, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    gen_srshr32_i32(t, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr64_i64(t, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    gen_srshr_vec(vece, t, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srsra8_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_srsra16_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_srsra32_i32,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_srsra64_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.  With rounding, this produces
+     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+     * I.e. always zero.  With accumulation, this leaves D unchanged.
+     */
+    if (shift == (8 << vece)) {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_shr8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_shr16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
+    if (sh == 32) {
+        tcg_gen_extract_i32(d, a, sh - 1, 1);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_shri_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_shri_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, shift - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_shri_vec(vece, d, a, shift);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_urshr8_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_urshr16_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_urshr32_i32,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_urshr64_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Unsigned results in zero.  With rounding, this produces a
+         * copy of the most significant bit.
+         */
+        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 8) {
+        tcg_gen_vec_shr8i_i64(t, a, 7);
+    } else {
+        gen_urshr8_i64(t, a, sh);
+    }
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 16) {
+        tcg_gen_vec_shr16i_i64(t, a, 15);
+    } else {
+        gen_urshr16_i64(t, a, sh);
+    }
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    if (sh == 32) {
+        tcg_gen_shri_i32(t, a, 31);
+    } else {
+        gen_urshr32_i32(t, a, sh);
+    }
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 64) {
+        tcg_gen_shri_i64(t, a, 63);
+    } else {
+        gen_urshr64_i64(t, a, sh);
+    }
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    if (sh == (8 << vece)) {
+        tcg_gen_shri_vec(vece, t, a, sh - 1);
+    } else {
+        gen_urshr_vec(vece, t, a, sh);
+    }
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ursra8_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_ursra16_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_ursra32_i32,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_ursra64_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+}
+
+static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+}
+
+static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
+    tcg_gen_shri_vec(vece, t, a, sh);
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shr8_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shr16_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shr32_ins_i32,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shr64_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /* Shift of esize leaves destination unchanged. */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+}
+
+static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+}
+
+static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shli_vec(vece, t, a, sh);
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shl8_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shl16_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shl32_ins_i32,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shl64_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [0..esize-1]. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift < (8 << vece));
+
+    if (shift == 0) {
+        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_add_u8(d, d, a);
+}
+
+static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_sub_u8(d, d, a);
+}
+
+static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_add_u16(d, d, a);
+}
+
+static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_sub_u16(d, d, a);
+}
+
+static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_sub_i32(d, d, a);
+}
+
+static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_sub_i64(d, d, a);
+}
+
+static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_sub_vec(vece, d, d, a);
+}
+
+/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
+ * these tables are shared with AArch64 which does support them.
+ */
+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mla8_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mla16_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mla32_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mla64_i64,
+          .fniv = gen_mla_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mls8_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mls16_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mls32_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mls64_i64,
+          .fniv = gen_mls_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+/* CMTST : test is "if (X & Y != 0)". */
+static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_and_i32(d, a, b);
+    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
+}
+
+void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_and_i64(d, a, b);
+    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
+}
+
+static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_and_vec(vece, d, a, b);
+    tcg_gen_dupi_vec(vece, a, 0);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+}
+
+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_helper_neon_tst_u8,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_helper_neon_tst_u16,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_cmtst_i32,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_cmtst_i64,
+          .fniv = gen_cmtst_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(32);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_shr_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(64);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_shr_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec msk, max;
+
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        msk = tcg_temp_new_vec_matching(dst);
+        tcg_gen_dupi_vec(vece, msk, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, msk);
+        tcg_gen_and_vec(vece, rsh, rsh, msk);
+    }
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_shrv_vec(vece, rval, src, rsh);
+
+    max = tcg_temp_new_vec_matching(dst);
+    tcg_gen_dupi_vec(vece, max, 8 << vece);
+
+    /*
+     * The choice of LT (signed) and GEU (unsigned) are biased toward
+     * the instructions of the x86_64 host.  For MO_8, the whole byte
+     * is significant so we must use an unsigned compare; otherwise we
+     * have already masked to a byte and so a signed compare works.
+     * Other tcg hosts have a full set of comparisons and do not care.
+     */
+    if (vece == MO_8) {
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
+        tcg_gen_andc_vec(vece, lval, lval, lsh);
+        tcg_gen_andc_vec(vece, rval, rval, rsh);
+    } else {
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
+        tcg_gen_and_vec(vece, lval, lval, lsh);
+        tcg_gen_and_vec(vece, rval, rval, rsh);
+    }
+    tcg_gen_or_vec(vece, dst, lval, rval);
+}
+
+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_shlv_vec,
+        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ushl_i32,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ushl_i64,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(31);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_umin_i32(rsh, rsh, max);
+    tcg_gen_sar_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(63);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_umin_i64(rsh, rsh, max);
+    tcg_gen_sar_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, tmp);
+        tcg_gen_and_vec(vece, rsh, rsh, tmp);
+    }
+
+    /* Bound rsh so out of bound right shift gets -1.  */
+    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
+    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
+    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
+
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_sarv_vec(vece, rval, src, rsh);
+
+    /* Select in-bound left shift.  */
+    tcg_gen_andc_vec(vece, lval, lval, tmp);
+
+    /* Select between left and right shift.  */
+    if (vece == MO_8) {
+        tcg_gen_dupi_vec(vece, tmp, 0);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0x80);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
+    }
+}
+
+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
+        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sshl_i32,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sshl_i64,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_usadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_b,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_h,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_s,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_d,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_ssadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_ussub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_sssub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_smin_vec(vece, t, a, b);
+    tcg_gen_smax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sabd_i32,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sabd_i64,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_umin_vec(vece, t, a, b);
+    tcg_gen_umax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_uabd_i32,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_uabd_i64,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_sabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_sabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_sabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_saba_i32,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_saba_i64,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_uabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_uabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_uabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_uaba_i32,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_uaba_i64,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
     gen_rfe(s, pc, load_cpu_field(spsr));
 }
 
-static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
-                            uint32_t opr_sz, uint32_t max_sz,
-                            gen_helper_gvec_3_ptr *fn)
-{
-    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
-
-    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
-                       opr_sz, max_sz, 0, fn);
-}
-
-void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-#define GEN_CMP0(NAME, COND)                              \
-    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
-              uint32_t opr_sz, uint32_t max_sz)           \
-    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
-
-GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
-GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
-GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
-GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
-GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
-
-#undef GEN_CMP0
-
-static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_sari_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_sari_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_sari_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ssra8_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_ssra16_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ssra32_i32,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ssra64_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.
-     */
-    shift = MIN(shift, (8 << vece) - 1);
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_shri_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_usra8_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8, },
-        { .fni8 = gen_usra16_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16, },
-        { .fni4 = gen_usra32_i32,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32, },
-        { .fni8 = gen_usra64_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64, },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Unsigned results in all zeros as input to accumulate: nop.
-     */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-/*
- * Shift one less than the requested amount, and the low bit is
- * the rounding bit.  For the 8 and 16-bit operations, because we
- * mask the low bit, we can perform a normal integer shift instead
- * of a vector shift.
- */
-static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_sar8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_sar16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
-    if (sh == 32) {
-        tcg_gen_movi_i32(d, 0);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_sari_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_sari_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, sh - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_sari_vec(vece, d, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srshr8_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_srshr16_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_srshr32_i32,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_srshr64_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Signed results in all sign bits.  With rounding, this produces
-         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-         * I.e. always zero.
-         */
-        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr8_i64(t, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr16_i64(t, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    gen_srshr32_i32(t, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr64_i64(t, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    gen_srshr_vec(vece, t, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srsra8_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_srsra16_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_srsra32_i32,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_srsra64_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.  With rounding, this produces
-     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-     * I.e. always zero.  With accumulation, this leaves D unchanged.
-     */
-    if (shift == (8 << vece)) {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_shr8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_shr16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
-    if (sh == 32) {
-        tcg_gen_extract_i32(d, a, sh - 1, 1);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_shri_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_shri_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, shift - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_shri_vec(vece, d, a, shift);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_urshr8_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_urshr16_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_urshr32_i32,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_urshr64_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Unsigned results in zero.  With rounding, this produces a
-         * copy of the most significant bit.
-         */
-        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 8) {
-        tcg_gen_vec_shr8i_i64(t, a, 7);
-    } else {
-        gen_urshr8_i64(t, a, sh);
-    }
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 16) {
-        tcg_gen_vec_shr16i_i64(t, a, 15);
-    } else {
-        gen_urshr16_i64(t, a, sh);
-    }
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    if (sh == 32) {
-        tcg_gen_shri_i32(t, a, 31);
-    } else {
-        gen_urshr32_i32(t, a, sh);
-    }
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 64) {
-        tcg_gen_shri_i64(t, a, 63);
-    } else {
-        gen_urshr64_i64(t, a, sh);
-    }
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    if (sh == (8 << vece)) {
-        tcg_gen_shri_vec(vece, t, a, sh - 1);
-    } else {
-        gen_urshr_vec(vece, t, a, sh);
-    }
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ursra8_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_ursra16_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_ursra32_i32,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_ursra64_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
-}
-
-static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
-}
-
-static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
-    tcg_gen_shri_vec(vece, t, a, sh);
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shr8_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shr16_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shr32_ins_i32,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shr64_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /* Shift of esize leaves destination unchanged. */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
-}
-
-static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
-}
-
-static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shli_vec(vece, t, a, sh);
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shl8_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shl16_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shl32_ins_i32,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shl64_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [0..esize-1]. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift < (8 << vece));
-
-    if (shift == 0) {
-        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_add_u8(d, d, a);
-}
-
-static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_sub_u8(d, d, a);
-}
-
-static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_add_u16(d, d, a);
-}
-
-static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_sub_u16(d, d, a);
-}
-
-static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_sub_i32(d, d, a);
-}
-
-static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_sub_i64(d, d, a);
-}
-
-static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_sub_vec(vece, d, d, a);
-}
-
-/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
- * these tables are shared with AArch64 which does support them.
- */
-void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mla8_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mla16_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mla32_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mla64_i64,
-          .fniv = gen_mla_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mls8_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mls16_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mls32_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mls64_i64,
-          .fniv = gen_mls_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-/* CMTST : test is "if (X & Y != 0)". */
-static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_and_i32(d, a, b);
-    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
-}
-
-void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_and_i64(d, a, b);
-    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
-}
-
-static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_and_vec(vece, d, a, b);
-    tcg_gen_dupi_vec(vece, a, 0);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
-}
-
-void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_helper_neon_tst_u8,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_helper_neon_tst_u16,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_cmtst_i32,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_cmtst_i64,
-          .fniv = gen_cmtst_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(32);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_shr_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(64);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_shr_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec msk, max;
-
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        msk = tcg_temp_new_vec_matching(dst);
-        tcg_gen_dupi_vec(vece, msk, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, msk);
-        tcg_gen_and_vec(vece, rsh, rsh, msk);
-    }
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_shrv_vec(vece, rval, src, rsh);
-
-    max = tcg_temp_new_vec_matching(dst);
-    tcg_gen_dupi_vec(vece, max, 8 << vece);
-
-    /*
-     * The choice of LT (signed) and GEU (unsigned) are biased toward
-     * the instructions of the x86_64 host.  For MO_8, the whole byte
-     * is significant so we must use an unsigned compare; otherwise we
-     * have already masked to a byte and so a signed compare works.
-     * Other tcg hosts have a full set of comparisons and do not care.
-     */
-    if (vece == MO_8) {
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
-        tcg_gen_andc_vec(vece, lval, lval, lsh);
-        tcg_gen_andc_vec(vece, rval, rval, rsh);
-    } else {
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
-        tcg_gen_and_vec(vece, lval, lval, lsh);
-        tcg_gen_and_vec(vece, rval, rval, rsh);
-    }
-    tcg_gen_or_vec(vece, dst, lval, rval);
-}
-
-void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_shlv_vec,
-        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ushl_i32,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ushl_i64,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(31);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_umin_i32(rsh, rsh, max);
-    tcg_gen_sar_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(63);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_umin_i64(rsh, rsh, max);
-    tcg_gen_sar_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, tmp);
-        tcg_gen_and_vec(vece, rsh, rsh, tmp);
-    }
-
-    /* Bound rsh so out of bound right shift gets -1.  */
-    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
-    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
-
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_sarv_vec(vece, rval, src, rsh);
-
-    /* Select in-bound left shift.  */
-    tcg_gen_andc_vec(vece, lval, lval, tmp);
-
-    /* Select between left and right shift.  */
-    if (vece == MO_8) {
-        tcg_gen_dupi_vec(vece, tmp, 0);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0x80);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
-    }
-}
-
-void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
-        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sshl_i32,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sshl_i64,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_usadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_b,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_h,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_s,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_d,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_ssadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_ussub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_sssub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_smin_vec(vece, t, a, b);
-    tcg_gen_smax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sabd_i32,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sabd_i64,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_umin_vec(vece, t, a, b);
-    tcg_gen_umax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_uabd_i32,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_uabd_i64,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_sabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_sabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_sabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_saba_i32,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_saba_i64,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_uabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_uabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_uabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_uaba_i32,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_uaba_i64,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
 static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
 {
     static const uint16_t mask[3] = {
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
 
 arm_ss.add(files(
   'cpu32.c',
+  'gengvec.c',
   'translate.c',
   'translate-m-nocp.c',
   'translate-mve.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Split some routines out of translate-a64.c and translate-sve.c
that are used by both.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.h |   4 +
 target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
 target/arm/tcg/translate-a64.c |  26 -----
 target/arm/tcg/translate-sve.c | 145 +------------------------
 target/arm/tcg/meson.build     |   1 +
 5 files changed, 197 insertions(+), 169 deletions(-)
 create mode 100644 target/arm/tcg/gengvec64.c

diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.h
+++ b/target/arm/tcg/translate-a64.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                   uint32_t rm_ofs, int64_t shift,
                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
 
 void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
 void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec64.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  AArch64 generic vector expansion
+ *
+ *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+#include "translate-a64.h"
+
+
+static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
+{
+    tcg_gen_rotli_i64(d, m, 1);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
+{
+    tcg_gen_rotli_vec(vece, d, m, 1);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3 op = {
+        .fni8 = gen_rax1_i64,
+        .fniv = gen_rax1_vec,
+        .opt_opc = vecop_list,
+        .fno = gen_helper_crypto_rax1,
+        .vece = MO_64,
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
+}
+
+static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_8, 0xff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 8 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 16 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
+{
+    tcg_gen_xor_i32(d, n, m);
+    tcg_gen_rotri_i32(d, d, sh);
+}
+
+static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_rotri_i64(d, d, sh);
+}
+
+static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                        TCGv_vec m, int64_t sh)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_rotri_vec(vece, d, d, sh);
+}
+
+void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, int64_t shift,
+                  uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3i ops[4] = {
+        { .fni8 = gen_xar8_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_b,
+          .opt_opc = vecop,
+          .vece = MO_8 },
+        { .fni8 = gen_xar16_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_h,
+          .opt_opc = vecop,
+          .vece = MO_16 },
+        { .fni4 = gen_xar_i32,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_s,
+          .opt_opc = vecop,
+          .vece = MO_32 },
+        { .fni8 = gen_xar_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_gvec_xar_d,
+          .opt_opc = vecop,
+          .vece = MO_64 }
+    };
+    int esize = 8 << vece;
+
+    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift <= esize);
+    shift &= esize - 1;
+
+    if (shift == 0) {
+        /* xar with no rotate devolves to xor. */
+        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
+                        shift, &ops[vece]);
+    }
+}
+
+static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_xor_i64(d, d, k);
+}
+
+static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_xor_vec(vece, d, d, k);
+}
+
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_eor3_i64,
+        .fniv = gen_eor3_vec,
+        .fno = gen_helper_sve2_eor3,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
+static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_andc_i64(d, m, k);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_andc_vec(vece, d, m, k);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_bcax_i64,
+        .fniv = gen_bcax_vec,
+        .fno = gen_helper_sve2_bcax,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
 }
 
-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
-{
-    tcg_gen_rotli_i64(d, m, 1);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
-{
-    tcg_gen_rotli_vec(vece, d, m, 1);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3 op = {
-        .fni8 = gen_rax1_i64,
-        .fniv = gen_rax1_vec,
-        .opt_opc = vecop_list,
-        .fno = gen_helper_crypto_rax1,
-        .vece = MO_64,
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
-}
-
 /* Crypto three-reg SHA512
  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
  * +-----------------------+------+---+---+-----+--------+------+------+
diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-sve.c
+++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
 TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
 TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
 
-static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_8, 0xff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 8 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 16 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
-{
-    tcg_gen_xor_i32(d, n, m);
-    tcg_gen_rotri_i32(d, d, sh);
-}
-
-static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_rotri_i64(d, d, sh);
-}
-
-static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                        TCGv_vec m, int64_t sh)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_rotri_vec(vece, d, d, sh);
-}
-
-void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, int64_t shift,
-                  uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3i ops[4] = {
-        { .fni8 = gen_xar8_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_b,
-          .opt_opc = vecop,
-          .vece = MO_8 },
-        { .fni8 = gen_xar16_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_h,
-          .opt_opc = vecop,
-          .vece = MO_16 },
-        { .fni4 = gen_xar_i32,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_s,
-          .opt_opc = vecop,
-          .vece = MO_32 },
-        { .fni8 = gen_xar_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_gvec_xar_d,
-          .opt_opc = vecop,
-          .vece = MO_64 }
-    };
-    int esize = 8 << vece;
-
-    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift <= esize);
-    shift &= esize - 1;
-
-    if (shift == 0) {
-        /* xar with no rotate devolves to xor. */
-        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
-                        shift, &ops[vece]);
-    }
-}
-
 static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
 {
     if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
     return true;
 }
 
-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_xor_i64(d, d, k);
-}
-
-static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_xor_vec(vece, d, d, k);
-}
-
-static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_eor3_i64,
-        .fniv = gen_eor3_vec,
-        .fno = gen_helper_sve2_eor3,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
-
-static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_andc_i64(d, m, k);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_andc_vec(vece, d, m, k);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_bcax_i64,
-        .fniv = gen_bcax_vec,
-        .fno = gen_helper_sve2_bcax,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
+TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
+TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
 
 static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
 
 arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
   'cpu64.c',
+  'gengvec64.c',
   'translate-a64.c',
   'translate-sve.c',
   'translate-sme.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 21 +++++++--
 target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
 2 files changed, 54 insertions(+), 53 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 # This file is processed by scripts/decodetree.py
 #
 
-&r               rn
-&ri              rd imm
-&rri_sf          rd rn imm sf
-&i               imm
+%rd             0:5
 
+&r              rn
+&ri             rd imm
+&rri_sf         rd rn imm sf
+&i              imm
+&qrr_e          q rd rn esz
+&qrrr_e         q rd rn rm esz
+
+@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
 CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
 CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
 CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
+
+### Cryptographic AES
+
+AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
+AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
+AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
+AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
     return true;
 }
 
+/*
+ * Expanders for AdvSIMD translation functions.
+ */
+
+static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
+                            gen_helper_gvec_2 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
+    }
+    return true;
+}
+
+static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
+                            gen_helper_gvec_3 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
     return true;
 }
 
+/*
+ * Cryptographic AES
+ */
+
+TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
+TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
+TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
+TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto AES
- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
- * +-----------------+------+-----------+--------+-----+------+------+
- * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
- * +-----------------+------+-----------+--------+-----+------+------+
- */
-static void disas_crypto_aes(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_2 *genfn2 = NULL;
-    gen_helper_gvec_3 *genfn3 = NULL;
-
-    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0x4: /* AESE */
-        genfn3 = gen_helper_crypto_aese;
-        break;
-    case 0x6: /* AESMC */
-        genfn2 = gen_helper_crypto_aesmc;
-        break;
-    case 0x5: /* AESD */
-        genfn3 = gen_helper_crypto_aesd;
-        break;
-    case 0x7: /* AESIMC */
-        genfn2 = gen_helper_crypto_aesimc;
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    if (genfn2) {
-        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
-    } else {
-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
-    }
-}
-
 /* Crypto three-reg SHA
  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
  * +-----------------+------+---+------+---+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 +++++
 target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
 2 files changed, 21 insertions(+), 68 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
+@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
 AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
 AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
 AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
+
+### Cryptographic three-register SHA
+
+SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
+SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
+SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
+SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
+SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
+SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
+SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES
+ * Cryptographic AES, SHA
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
 TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
 TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
 
+TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
+TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
+TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
+TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
+
+TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
+TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
+TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA
- *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
- * +-----------------+------+---+------+---+--------+-----+------+------+
- * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
- * +-----------------+------+---+------+---+--------+-----+------+------+
- */
-static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 3);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_3 *genfn;
-    bool feature;
-
-    if (size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0: /* SHA1C */
-        genfn = gen_helper_crypto_sha1c;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 1: /* SHA1P */
-        genfn = gen_helper_crypto_sha1p;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 2: /* SHA1M */
-        genfn = gen_helper_crypto_sha1m;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 3: /* SHA1SU0 */
-        genfn = gen_helper_crypto_sha1su0;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 4: /* SHA256H */
-        genfn = gen_helper_crypto_sha256h;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 5: /* SHA256H2 */
-        genfn = gen_helper_crypto_sha256h2;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 6: /* SHA256SU1 */
-        genfn = gen_helper_crypto_sha256su1;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
-}
-
 /* Crypto two-reg SHA
  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----------------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 54 +++-------------------------------
 2 files changed, 10 insertions(+), 50 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 ++++
 target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
 2 files changed, 32 insertions(+), 76 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
+@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
 SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
 SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
 SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
+
+### Cryptographic three-register SHA512
+
+SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
+SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
+SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
+RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
+SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
+SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
+SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
     return true;
 }
 
+static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES, SHA
+ * Cryptographic AES, SHA, SHA512
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
 TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
 TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
 
+TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
+TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
+TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
+TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
+TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
+TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
+TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA512
- *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
- * +-----------------------+------+---+---+-----+--------+------+------+
- * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
- * +-----------------------+------+---+---+-----+--------+------+------+
- */
-static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 10, 2);
-    int o =  extract32(insn, 14, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-    gen_helper_gvec_3 *oolfn = NULL;
-    GVecGen3Fn *gvecfn = NULL;
-
-    if (o == 0) {
-        switch (opcode) {
-        case 0: /* SHA512H */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h;
-            break;
-        case 1: /* SHA512H2 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h2;
-            break;
-        case 2: /* SHA512SU1 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512su1;
-            break;
-        case 3: /* RAX1 */
-            feature = dc_isar_feature(aa64_sha3, s);
-            gvecfn = gen_gvec_rax1;
-            break;
-        default:
-            g_assert_not_reached();
-        }
-    } else {
-        switch (opcode) {
-        case 0: /* SM3PARTW1 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw1;
-            break;
-        case 1: /* SM3PARTW2 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw2;
-            break;
-        case 2: /* SM4EKEY */
-            feature = dc_isar_feature(aa64_sm4, s);
-            oolfn = gen_helper_crypto_sm4ekey;
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (oolfn) {
-        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
-    } else {
-        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
-    }
-}
-
 /* Crypto two-reg SHA512
  *  31                                     12  11  10  9    5 4    0
  * +-----------------------------------------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
     { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  5 ++++
 target/arm/tcg/translate-a64.c | 50 ++--------------------------------
 2 files changed, 8 insertions(+), 47 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   8 ++
 target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
 2 files changed, 51 insertions(+), 89 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 &i              imm
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrrr_e        q rd rn rm ra esz
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
+@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 
 SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
 SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
+
+### Cryptographic four-register
+
+EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
+BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
+SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
     return true;
 }
 
+static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
 TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 
+TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
+TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
+
+static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
+{
+    if (!dc_isar_feature(aa64_sm3, s)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
+        TCGv_i32 tcg_res = tcg_temp_new_i32();
+        unsigned vsz, dofs;
+
+        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
+        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
+        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
+
+        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
+        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
+
+        /* Clear the whole register first, then store bits [127:96]. */
+        vsz = vec_full_reg_size(s);
+        dofs = vec_full_reg_offset(s, a->rd);
+        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
+        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
+    }
+    return true;
+}
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto four-register
- *  31               23 22 21 20  16 15  14  10 9    5 4    0
- * +-------------------+-----+------+---+------+------+------+
- * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
- * +-------------------+-----+------+---+------+------+------+
- */
-static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
-{
-    int op0 = extract32(insn, 21, 2);
-    int rm = extract32(insn, 16, 5);
-    int ra = extract32(insn, 10, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-
-    switch (op0) {
-    case 0: /* EOR3 */
-    case 1: /* BCAX */
-        feature = dc_isar_feature(aa64_sha3, s);
-        break;
-    case 2: /* SM3SS1 */
-        feature = dc_isar_feature(aa64_sm3, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (op0 < 2) {
-        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
-        int pass;
-
-        tcg_op1 = tcg_temp_new_i64();
-        tcg_op2 = tcg_temp_new_i64();
-        tcg_op3 = tcg_temp_new_i64();
-        tcg_res[0] = tcg_temp_new_i64();
-        tcg_res[1] = tcg_temp_new_i64();
-
-        for (pass = 0; pass < 2; pass++) {
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-            read_vec_element(s, tcg_op3, ra, pass, MO_64);
-
-            if (op0 == 0) {
-                /* EOR3 */
-                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            } else {
-                /* BCAX */
-                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            }
-            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
-        }
-        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
-        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
-    } else {
-        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
-
-        tcg_op1 = tcg_temp_new_i32();
-        tcg_op2 = tcg_temp_new_i32();
-        tcg_op3 = tcg_temp_new_i32();
-        tcg_res = tcg_temp_new_i32();
-        tcg_zero = tcg_constant_i32(0);
-
-        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
-        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
-        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
-
-        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
-        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
-
-        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
-        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
-    }
-}
-
 /* Crypto XAR
  *  31                   21 20  16 15    10 9    5 4    0
  * +-----------------------+------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 ++++++++
 target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
 2 files changed, 22 insertions(+), 31 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  4 ++++
 target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
 2 files changed, 18 insertions(+), 29 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  13 +
 target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
 2 files changed, 152 insertions(+), 287 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 ### Cryptographic XAR
 
 XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
+
+### Advanced SIMD scalar copy
+
+DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
+
+### Advanced SIMD copy
+
+DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
+DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
+INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
+SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
+UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
+INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
     return true;
 }
 
+/*
+ * Advanced SIMD copy
+ */
+
+static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
+{
+    unsigned esz = ctz32(imm);
+    if (esz <= MO_64) {
+        *pesz = esz;
+        *pidx = imm >> (esz + 1);
+        return true;
+    }
+    return false;
+}
+
+static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        /*
+         * This instruction just extracts the specified element and
+         * zero-extends it into the bottom of the destination register.
+         */
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        read_vec_element(s, tmp, a->rn, idx, esz);
+        write_fp_dreg(s, a->rd, tmp);
+    }
+    return true;
+}
+
+static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
+                             vec_reg_offset(s, a->rn, idx, esz),
+                             a->q ? 16 : 8, vec_full_reg_size(s));
+    }
+    return true;
+}
+
+static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
+                             a->q ? 16 : 8, vec_full_reg_size(s),
+                             cpu_reg(s, a->rn));
+    }
+    return true;
+}
+
+static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (is_signed) {
+        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
+            return false;
+        }
+    } else {
+        if (esz == MO_64 ? !a->q : a->q) {
+            return false;
+        }
+    }
+    if (fp_access_check(s)) {
+        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
+        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
+        if (is_signed && !a->q) {
+            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+        }
+    }
+    return true;
+}
+
+TRANS(SMOV, do_smov_umov, a, MO_SIGN)
+TRANS(UMOV, do_smov_umov, a, 0)
+
+static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
+static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
+{
+    MemOp esz;
+    unsigned didx, sidx;
+
+    if (!decode_esz_idx(a->di, &esz, &didx)) {
+        return false;
+    }
+    sidx = a->si >> esz;
+    if (fp_access_check(s)) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+
+        read_vec_element(s, tmp, a->rn, sidx, esz);
+        write_vec_element(s, tmp, a->rd, didx, esz);
+
+        /* INS is considered a 128-bit write for SVE. */
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_res);
 }
 
-/* DUP (Element, Vector)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-
-    if (size > 3 || (size == 3 && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
-                         vec_reg_offset(s, rn, index, size),
-                         is_q ? 16 : 8, vec_full_reg_size(s));
-}
-
-/* DUP (element, scalar)
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- */
-static void handle_simd_dupes(DisasContext *s, int rd, int rn,
-                              int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-
-    /* This instruction just extracts the specified element and
-     * zero-extends it into the bottom of the destination register.
-     */
-    tmp = tcg_temp_new_i64();
-    read_vec_element(s, tmp, rn, index, size);
-    write_fp_dreg(s, rd, tmp);
-}
-
-/* DUP (General)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    uint32_t dofs, oprsz, maxsz;
-
-    if (size > 3 || ((size == 3) && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dofs = vec_full_reg_offset(s, rd);
-    oprsz = is_q ? 16 : 8;
-    maxsz = vec_full_reg_size(s);
-
-    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
-}
-
-/* INS (Element)
- *
- *  31                   21 20    16 15  14    11  10 9    5 4    0
- * +-----------------------+--------+------------+---+------+------+
- * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
- * +-----------------------+--------+------------+---+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_inse(DisasContext *s, int rd, int rn,
-                             int imm4, int imm5)
-{
-    int size = ctz32(imm5);
-    int src_index, dst_index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dst_index = extract32(imm5, 1+size, 5);
-    src_index = extract32(imm4, size, 4);
-
-    tmp = tcg_temp_new_i64();
-
-    read_vec_element(s, tmp, rn, src_index, size);
-    write_vec_element(s, tmp, rd, dst_index, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-
-/* INS (General)
- *
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
-{
-    int size = ctz32(imm5);
-    int idx;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    idx = extract32(imm5, 1 + size, 4 - size);
-    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-/*
- * UMOV (General)
- * SMOV (General)
- *
- *  31  30   29              21 20    16 15    12   10 9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * U: unsigned when set
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
-                                  int rn, int rd, int imm5)
-{
-    int size = ctz32(imm5);
-    int element;
-    TCGv_i64 tcg_rd;
-
-    /* Check for UnallocatedEncodings */
-    if (is_signed) {
-        if (size > 2 || (size == 2 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    } else {
-        if (size > 3
-            || (size < 3 && is_q)
-            || (size == 3 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    element = extract32(imm5, 1+size, 4);
-
-    tcg_rd = cpu_reg(s, rd);
-    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
-    if (is_signed && !is_q) {
-        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
-    }
-}
-
-/* AdvSIMD copy
- *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +---+---+----+-----------------+------+---+------+---+------+------+
- * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +---+---+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int op = extract32(insn, 29, 1);
-    int is_q = extract32(insn, 30, 1);
-    int imm5 = extract32(insn, 16, 5);
-
-    if (op) {
-        if (is_q) {
-            /* INS (element) */
-            handle_simd_inse(s, rd, rn, imm4, imm5);
-        } else {
-            unallocated_encoding(s);
-        }
-    } else {
-        switch (imm4) {
-        case 0:
-            /* DUP (element - vector) */
-            handle_simd_dupe(s, is_q, rd, rn, imm5);
-            break;
-        case 1:
-            /* DUP (general) */
-            handle_simd_dupg(s, is_q, rd, rn, imm5);
-            break;
-        case 3:
-            if (is_q) {
-                /* INS (general) */
-                handle_simd_insg(s, rd, rn, imm5);
-            } else {
-                unallocated_encoding(s);
-            }
-            break;
-        case 5:
-        case 7:
-            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
-            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
-            break;
-        default:
-            unallocated_encoding(s);
-            break;
-        }
-    }
-}
-
 /* AdvSIMD modified immediate
  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     }
 }
 
-/* AdvSIMD scalar copy
- *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +-----+----+-----------------+------+---+------+---+------+------+
- * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +-----+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int imm5 = extract32(insn, 16, 5);
-    int op = extract32(insn, 29, 1);
-
-    if (op != 0 || imm4 != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    /* DUP (element, scalar) */
-    handle_simd_dupes(s, rd, rn, imm5);
-}
-
 /* AdvSIMD scalar pairwise
  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----+---+-----------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
-    { 0x0e000400, 0x9fe08400, disas_simd_copy },
     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
-    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert all forms (scalar, vector, scalar indexed, vector indexed),
which allows us to remove switch table entries elsewhere.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   8 ++
 target/arm/tcg/a64.decode      |  45 +++++++
 target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
 target/arm/tcg/vec_helper.c    |  39 +++---
 4 files changed, 259 insertions(+), 54 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 #
 
 %rd             0:5
+%esz_sd         22:1 !function=plus_2
+%hl             11:1 21:1
+%hlm            11:1 20:2
 
 &r              rn
 &ri             rd imm
 &rri_sf         rd rn imm sf
 &i              imm
+&rrr_e          rd rn rm esz
+&rrx_e          rd rn rm idx esz
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrx_e         q rd rn rm idx esz
 &qrrrr_e        q rd rn rm ra esz
 
+@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
+@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+
+@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
+@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
+@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
+
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
+@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
+
+@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
+                &qrrx_e esz=1 idx=%hlm
+@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
+                &qrrx_e esz=2 idx=%hl
+@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
+                &qrrx_e esz=3
+
 ### Data Processing - Immediate
 
 # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
+
+### Advanced SIMD scalar three same
+
+FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
+FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
+
+### Advanced SIMD three same
+
+FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
+### Advanced SIMD scalar x indexed element
+
+FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
+### Advanced SIMD vector x indexed element
+
+FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
     return true;
 }
 
+/*
+ * Advanced SIMD three same
+ */
+
+typedef struct FPScalar {
+    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
+} FPScalar;
+
+static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        return false;
+    }
+    return true;
+}
+
+static const FPScalar f_scalar_fmulx = {
+    gen_helper_advsimd_mulxh,
+    gen_helper_vfp_mulxs,
+    gen_helper_vfp_mulxd,
+};
+TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
+                          gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, 0, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
+    gen_helper_gvec_fmulx_h,
+    gen_helper_gvec_fmulx_s,
+    gen_helper_gvec_fmulx_d,
+};
+TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
+
+/*
+ * Advanced SIMD scalar/vector x indexed element
+ */
+
+static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = tcg_temp_new_i64();
+
+            read_vec_element(s, t1, a->rm, a->idx, MO_64);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
+                              gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, a->idx, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
+    gen_helper_gvec_fmulx_idx_h,
+    gen_helper_gvec_fmulx_idx_s,
+    gen_helper_gvec_fmulx_idx_d,
+};
+TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         /* Floating point: U, size[1] and opcode indicate operation */
         int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
         switch (fpopcode) {
-        case 0x1b: /* FMULX */
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
         case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         case 0x7a: /* FABD */
             break;
         default:
+        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
     case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     case 0x1d: /* FACGT */
         break;
     default:
+    case 0x03: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
-        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x04: /* FCMEQ (reg) */
         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     default:
+    case 0x03: /* FMULX */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1b: /* FMULX */
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1b: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
-    case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x3: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x2: /* FADD */
                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3: /* FMULX */
-                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x3: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
     case 0x09: /* FMUL */
-    case 0x19: /* FMULX */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             case 0x09: /* FMUL */
                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
                 break;
-            case 0x19: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x19: /* FMULX */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
-                                                  tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
+DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
+DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 
 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
 
 #undef DO_MLA_IDX
 
-#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
+#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
         TYPE mm = m[H(i + idx)];                                           \
         for (j = 0; j < segment; j++) {                                    \
-            d[i + j] = TYPE##_##ADD(d[i + j],                              \
-                                    TYPE##_mul(n[i + j], mm, stat), stat); \
+            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
         }                                                                  \
     }                                                                      \
     clear_tail(d, oprsz, simd_maxsz(desc));                                \
 }
 
-#define float16_nop(N, M, S) (M)
-#define float32_nop(N, M, S) (M)
-#define float64_nop(N, M, S) (M)
+#define nop(N, M, S) (M)
 
-DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
-DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
-DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
+DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
+
+#ifdef TARGET_AARCH64
+
+DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
+DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
+DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
+
+#endif
+
+#undef nop
 
 /*
  * Non-fused multiply-accumulate operations, for Neon. NB that unlike
  * the fused ops below they assume accumulate both from and into Vd.
  */
-DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
-DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
-DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
-DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
+DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 
-#undef float16_nop
-#undef float32_nop
-#undef float64_nop
 #undef DO_FMUL_IDX
 
 #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   4 +
 target/arm/tcg/translate.h     |   5 +
 target/arm/tcg/a64.decode      |  27 +++++
 target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 5 files changed, 143 insertions(+), 102 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
     return x << 12;
 }
 
+static inline int xor_2(DisasContext *s, int x)
+{
+    return x ^ 2;
+}
+
 static inline int neon_3same_fp_size(DisasContext *s, int x)
 {
     /* Convert 0==fp32, 1==fp16 into a MO_* value */
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 %rd             0:5
 %esz_sd         22:1 !function=plus_2
+%esz_hsd        22:2 !function=xor_2
 %hl             11:1 21:1
 %hlm            11:1 20:2
 
@@ -XXX,XX +XXX,XX @@
 
 @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
 @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
 
 @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
 @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 
 ### Advanced SIMD scalar three same
 
+FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
+FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
+FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
+FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
 ### Advanced SIMD three same
 
+FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
+FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
 ### Advanced SIMD scalar x indexed element
 
+FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
 ### Advanced SIMD vector x indexed element
 
+FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
     return true;
 }
 
+static const FPScalar f_scalar_fadd = {
+    gen_helper_vfp_addh,
+    gen_helper_vfp_adds,
+    gen_helper_vfp_addd,
+};
+TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
+
+static const FPScalar f_scalar_fsub = {
+    gen_helper_vfp_subh,
+    gen_helper_vfp_subs,
+    gen_helper_vfp_subd,
+};
+TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
+
+static const FPScalar f_scalar_fdiv = {
+    gen_helper_vfp_divh,
+    gen_helper_vfp_divs,
+    gen_helper_vfp_divd,
+};
+TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
+
+static const FPScalar f_scalar_fmul = {
+    gen_helper_vfp_mulh,
+    gen_helper_vfp_muls,
+    gen_helper_vfp_muld,
+};
+TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
+    gen_helper_gvec_fadd_h,
+    gen_helper_gvec_fadd_s,
+    gen_helper_gvec_fadd_d,
+};
+TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
+
+static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
+    gen_helper_gvec_fsub_h,
+    gen_helper_gvec_fsub_s,
+    gen_helper_gvec_fsub_d,
+};
+TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
+
+static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
+    gen_helper_gvec_fdiv_h,
+    gen_helper_gvec_fdiv_s,
+    gen_helper_gvec_fdiv_d,
+};
+TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
+    gen_helper_gvec_fmul_h,
+    gen_helper_gvec_fmul_s,
+    gen_helper_gvec_fmul_d,
+};
+TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
     return true;
 }
 
+TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
+    gen_helper_gvec_fmul_idx_h,
+    gen_helper_gvec_fmul_idx_s,
+    gen_helper_gvec_fmul_idx_d,
+};
+TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
     gen_helper_gvec_fmulx_idx_h,
     gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_sreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_dreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
         break;
     default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x18: /* FMAXNM */
                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_absd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
     case 0x18: /* FMAXNM */
-    case 0x1a: /* FADD */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
-    case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
-    case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
-    case 0x5f: /* FDIV */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x3a: /* FSUB */
+    case 0x5b: /* FMUL */
+    case 0x5f: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     switch (fpopcode) {
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
-    case 0x2: /* FADD */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
-    case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
     case 0x1a: /* FABD */
     case 0x1c: /* FCMGT */
     case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0xa: /* FSUB */
+    case 0x13: /* FMUL */
+    case 0x17: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0x2: /* FADD */
-                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xa: /* FSUB */
-                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xe: /* FMIN */
                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x13: /* FMUL */
-                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x14: /* FCMGE */
                 gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x15: /* FACGE */
                 gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x17: /* FDIV */
-                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0xa: /* FSUB */
+            case 0x13: /* FMUL */
+            case 0x17: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         break;
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
-    case 0x09: /* FMUL */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
                 gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                 break;
-            case 0x09: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x09: /* FMUL */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
-                                                tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fdiv_h, float16_div, float16)
+DO_3OP(gvec_fdiv_s, float32_div, float32)
+DO_3OP(gvec_fdiv_d, float64_div, float64)
+
 DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
 DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
 DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   4 +
 target/arm/tcg/a64.decode      |  17 ++++
 target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 4 files changed, 113 insertions(+), 80 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
 FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
 FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 
+FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
+FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
+FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
+FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
 };
 TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 
+static const FPScalar f_scalar_fmax = {
+    gen_helper_advsimd_maxh,
+    gen_helper_vfp_maxs,
+    gen_helper_vfp_maxd,
+};
+TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
+
+static const FPScalar f_scalar_fmin = {
+    gen_helper_advsimd_minh,
+    gen_helper_vfp_mins,
+    gen_helper_vfp_mind,
+};
+TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
+
+static const FPScalar f_scalar_fmaxnm = {
+    gen_helper_advsimd_maxnumh,
+    gen_helper_vfp_maxnums,
+    gen_helper_vfp_maxnumd,
+};
+TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
+
+static const FPScalar f_scalar_fminnm = {
+    gen_helper_advsimd_minnumh,
+    gen_helper_vfp_minnums,
+    gen_helper_vfp_minnumd,
+};
+TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
 };
 TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
+    gen_helper_gvec_fmax_h,
+    gen_helper_gvec_fmax_s,
+    gen_helper_gvec_fmax_d,
+};
+TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
+    gen_helper_gvec_fmin_h,
+    gen_helper_gvec_fmin_s,
+    gen_helper_gvec_fmin_d,
+};
+TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
+    gen_helper_gvec_fmaxnum_h,
+    gen_helper_gvec_fmaxnum_s,
+    gen_helper_gvec_fmaxnum_d,
+};
+TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
+    gen_helper_gvec_fminnum_h,
+    gen_helper_gvec_fminnum_s,
+    gen_helper_gvec_fminnum_d,
+};
+TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x7d: /* FACGT */
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
-    case 0x18: /* FMAXNM */
     case 0x1c: /* FCMEQ */
-    case 0x1e: /* FMAX */
-    case 0x38: /* FMINNM */
-    case 0x3e: /* FMIN */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x18: /* FMAXNM */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1e: /* FMAX */
+    case 0x38: /* FMINNM */
     case 0x3a: /* FSUB */
+    case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
     case 0x5f: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x0: /* FMAXNM */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x6: /* FMAX */
+    case 0x8: /* FMINNM */
     case 0xa: /* FSUB */
+    case 0xe: /* FMIN */
     case 0x13: /* FMUL */
     case 0x17: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x0: /* FMAXNM */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x6: /* FMAX */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x8: /* FMINNM */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x9: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xe: /* FMIN */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x0: /* FMAXNM */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x6: /* FMAX */
+            case 0x8: /* FMINNM */
             case 0xa: /* FSUB */
+            case 0xe: /* FMIN */
             case 0x13: /* FMUL */
             case 0x17: /* FDIV */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
+DO_3OP(gvec_fmax_d, float64_max, float64)
 
 DO_3OP(gvec_fmin_h, float16_min, float16)
 DO_3OP(gvec_fmin_s, float32_min, float32)
+DO_3OP(gvec_fmin_d, float64_min, float64)
 
 DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
 DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
+DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
 
 DO_3OP(gvec_fminnum_h, float16_minnum, float16)
 DO_3OP(gvec_fminnum_s, float32_minnum, float32)
+DO_3OP(gvec_fminnum_d, float64_minnum, float64)
 
 DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
 DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Load and zero-extend float16 into a TCGv_i32 before
all scalar operations.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
 1 file changed, 22 insertions(+), 17 deletions(-)

diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
 }
 
+static inline void vfp_load_reg16(TCGv_i32 var, int reg)
+{
+    tcg_gen_ld16u_i32(var, tcg_env,
+                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
+}
+
 /*
  * The imm8 encodes the sign bit, enough bits to represent an exponent in
  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
     if (a->l) {
         /* VFP to general purpose register */
         tmp = tcg_temp_new_i32();
-        vfp_load_reg32(tmp, a->vn);
-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
+        vfp_load_reg16(tmp, a->vn);
         store_reg(s, a->rt, tmp);
     } else {
         /* general purpose register to VFP */
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
     fd = tcg_temp_new_i32();
     fpst = fpstatus_ptr(FPST_FPCR_F16);
 
-    vfp_load_reg32(f0, vn);
-    vfp_load_reg32(f1, vm);
+    vfp_load_reg16(f0, vn);
+    vfp_load_reg16(f1, vm);
 
     if (reads_vd) {
-        vfp_load_reg32(fd, vd);
+        vfp_load_reg16(fd, vd);
     }
     fn(fd, f0, f1, fpst);
     vfp_store_reg32(fd, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
     }
 
     f0 = tcg_temp_new_i32();
-    vfp_load_reg32(f0, vm);
+    vfp_load_reg16(f0, vm);
     fn(f0, f0);
     vfp_store_reg32(f0, vd);
 
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vm = tcg_temp_new_i32();
     vd = tcg_temp_new_i32();
 
-    vfp_load_reg32(vn, a->vn);
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vn, a->vn);
+    vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
         gen_helper_vfp_negh(vn, vn);
     }
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
         gen_helper_vfp_negh(vd, vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
     vd = tcg_temp_new_i32();
     vm = tcg_temp_new_i32();
 
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (a->z) {
         tcg_gen_movi_i32(vm, 0);
     } else {
-        vfp_load_reg32(vm, a->vm);
+        vfp_load_reg16(vm, a->vm);
     }
 
     if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
     gen_helper_rinth(tmp, tmp, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth_exact(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
 
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     vm = tcg_temp_new_i32();
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vm, a->vm);
 
     if (a->s) {
         if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
     /* Insert low half of Vm into high half of Vd */
     rm = tcg_temp_new_i32();
     rd = tcg_temp_new_i32();
-    vfp_load_reg32(rm, a->vm);
-    vfp_load_reg32(rd, a->vd);
+    vfp_load_reg16(rm, a->vm);
+    vfp_load_reg16(rd, a->vd);
     tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
     vfp_store_reg32(rd, a->vd);
     return true;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  6 ----
 target/arm/tcg/translate.h     | 30 +++++++++++++++++++
 target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
 target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
 target/arm/vfp_helper.c        | 30 -------------------
 5 files changed, 79 insertions(+), 85 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
 DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
-DEF_HELPER_1(vfp_negh, f16, f16)
-DEF_HELPER_1(vfp_negs, f32, f32)
-DEF_HELPER_1(vfp_negd, f64, f64)
-DEF_HELPER_1(vfp_absh, f16, f16)
-DEF_HELPER_1(vfp_abss, f32, f32)
-DEF_HELPER_1(vfp_absd, f64, f64)
 DEF_HELPER_2(vfp_sqrth, f16, f16, env)
 DEF_HELPER_2(vfp_sqrts, f32, f32, env)
 DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
  */
 uint64_t vfp_expand_imm(int size, uint8_t imm8);
 
+static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT16_MAX);
+}
+
+static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT32_MAX);
+}
+
+static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_andi_i64(d, s, INT64_MAX);
+}
+
+static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 15);
+}
+
+static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 31);
+}
+
+static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_xori_i64(d, s, 1ull << 63);
+}
+
 /* Vector operations shared between ARM and AArch64.  */
 void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    uint32_t opr_sz, uint32_t max_sz);
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         break;
     case 0x1: /* FABS */
-        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
+        gen_vfp_absh(tcg_res, tcg_op);
         break;
     case 0x2: /* FNEG */
-        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_op);
         break;
     case 0x3: /* FSQRT */
         fpst = fpstatus_ptr(FPST_FPCR_F16);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         goto done;
     case 0x1: /* FABS */
-        gen_helper_vfp_abss(tcg_res, tcg_op);
+        gen_vfp_abss(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negs(tcg_res, tcg_op);
+        gen_vfp_negs(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
 
     switch (opcode) {
     case 0x1: /* FABS */
-        gen_helper_vfp_absd(tcg_res, tcg_op);
+        gen_vfp_absd(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negd(tcg_res, tcg_op);
+        gen_vfp_negd(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negs(tcg_res, tcg_res);
+        gen_vfp_negs(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negd(tcg_res, tcg_res);
+        gen_vfp_negd(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negs(tcg_op3, tcg_op3);
+        gen_vfp_negs(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negs(tcg_op1, tcg_op1);
+        gen_vfp_negs(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negd(tcg_op3, tcg_op3);
+        gen_vfp_negd(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negd(tcg_op1, tcg_op1);
+        gen_vfp_negd(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op1, tcg_op1);
+                gen_vfp_negd(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_absd(tcg_res, tcg_res);
+                gen_vfp_absd(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negs(tcg_op1, tcg_op1);
+                gen_vfp_negs(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_abss(tcg_res, tcg_res);
+                gen_vfp_abss(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
         }
         break;
     case 0x2f: /* FABS */
-        gen_helper_vfp_absd(tcg_rd, tcg_rn);
+        gen_vfp_absd(tcg_rd, tcg_rn);
         break;
     case 0x6f: /* FNEG */
-        gen_helper_vfp_negd(tcg_rd, tcg_rn);
+        gen_vfp_negd(tcg_rd, tcg_rn);
         break;
     case 0x7f: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                     }
                     break;
                 case 0x2f: /* FABS */
-                    gen_helper_vfp_abss(tcg_res, tcg_op);
+                    gen_vfp_abss(tcg_res, tcg_op);
                     break;
                 case 0x6f: /* FNEG */
-                    gen_helper_vfp_negs(tcg_res, tcg_op);
+                    gen_vfp_negs(tcg_res, tcg_op);
                     break;
                 case 0x7f: /* FSQRT */
                     gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             switch (16 * u + opcode) {
             case 0x05: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op, tcg_op);
+                gen_vfp_negd(tcg_op, tcg_op);
                 /* fall through */
             case 0x01: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
+    gen_vfp_negh(tmp, tmp);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
+    gen_vfp_negs(tmp, tmp);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
+    gen_vfp_negd(tmp, tmp);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(tmp, tmp);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(tmp, tmp);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(tmp, tmp);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_mulh(vd, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
 }
 
 static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muls(vd, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
 }
 
 static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muld(vd, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
 }
 
 static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negh(vn, vn);
+        gen_vfp_negh(vn, vn);
     }
     vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negh(vd, vd);
+        gen_vfp_negh(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg32(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negs(vn, vn);
+        gen_vfp_negs(vn, vn);
     }
     vfp_load_reg32(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negs(vd, vd);
+        gen_vfp_negs(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
     vfp_load_reg64(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negd(vn, vn);
+        gen_vfp_negd(vn, vn);
     }
     vfp_load_reg64(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negd(vd, vd);
+        gen_vfp_negd(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
 DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
 DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
 
-DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
-DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
-DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
+DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
+DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
+DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
 
-DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
-DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
-DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
+DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
+DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
+DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
 
 static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
 {
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
 VFP_BINOP(maxnum)
 #undef VFP_BINOP
 
-dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
-{
-    return float16_chs(a);
-}
-
-float32 VFP_HELPER(neg, s)(float32 a)
-{
-    return float32_chs(a);
-}
-
-float64 VFP_HELPER(neg, d)(float64 a)
-{
-    return float64_chs(a);
-}
-
-dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
-{
-    return float16_abs(a);
-}
-
-float32 VFP_HELPER(abs, s)(float32 a)
-{
-    return float32_abs(a);
-}
-
-float64 VFP_HELPER(abs, d)(float64 a)
-{
-    return float64_abs(a);
-}
-
 dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
 {
     return float16_sqrt(a, &env->vfp.fp_status_f16);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This is the last instruction within disas_fp_2src,
so remove that and its subroutines.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   1 +
 target/arm/tcg/translate-a64.c | 177 +++++----------------------------
 2 files changed, 27 insertions(+), 151 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   2 +
 target/arm/tcg/a64.decode      |  22 +++
 target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |  14 ++
 4 files changed, 163 insertions(+), 116 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
+FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
+
+FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
+FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
+FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
+FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
+FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
+
+FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
+FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
+FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 
+FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
+FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
+FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
+
+FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
+FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
+FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
 };
 TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
+    gen_helper_gvec_vfma_h,
+    gen_helper_gvec_vfma_s,
+    gen_helper_gvec_vfma_d,
+};
+TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
+    gen_helper_gvec_vfms_h,
+    gen_helper_gvec_vfms_s,
+    gen_helper_gvec_vfms_d,
+};
+TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
 TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
+static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t2 = tcg_temp_new_i64();
+
+            read_vec_element(s, t2, a->rm, a->idx, MO_64);
+            if (neg) {
+                gen_vfp_negd(t1, t1);
+            }
+            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
+            if (neg) {
+                gen_vfp_negs(t1, t1);
+            }
+            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
+            if (neg) {
+                gen_vfp_negh(t1, t1);
+            }
+            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
+                                       fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
+TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
+
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
                               gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
 };
 TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 
+static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
+{
+    static gen_helper_gvec_4_ptr * const fns[3] = {
+        gen_helper_gvec_fmla_idx_h,
+        gen_helper_gvec_fmla_idx_s,
+        gen_helper_gvec_fmla_idx_d,
+    };
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
+                          esz == MO_16, (a->idx << 1) | neg,
+                          fns[esz - 1]);
+    }
+    return true;
+}
+
+TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
+TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
+
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negs(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
     case 0x7d: /* FACGT */
-    case 0x19: /* FMLA */
-    case 0x39: /* FMLS */
     case 0x1c: /* FCMEQ */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
 
     default:
     case 0x18: /* FMAXNM */
+    case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
+    case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
-    case 0x9: /* FMLS */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         break;
     default:
     case 0x0: /* FMAXNM */
+    case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
+    case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x1: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x9: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 break;
             default:
             case 0x0: /* FMAXNM */
+            case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
+            case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x0c: /* SQDMULH */
     case 0x0d: /* SQRDMULH */
         break;
-    case 0x01: /* FMLA */
-    case 0x05: /* FMLS */
-        is_fp = 1;
-        break;
     case 0x1d: /* SQRDMLAH */
     case 0x1f: /* SQRDMLSH */
         if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x01: /* FMLA */
+    case 0x05: /* FMLS */
     case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
 
     switch (is_fp) {
     case 1: /* normal fp */
-        /* convert insn encoded size to MemOp size */
-        switch (size) {
-        case 0: /* half-precision */
-            size = MO_16;
-            is_fp16 = true;
-            break;
-        case MO_32: /* single precision */
-        case MO_64: /* double precision */
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-        break;
+        unallocated_encoding(s); /* in decodetree */
+        return;
 
     case 2: /* complex fp */
         /* Each indexable element is a complex pair.  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 
     if (size == 3) {
-        TCGv_i64 tcg_idx = tcg_temp_new_i64();
-        int pass;
-
-        assert(is_fp && is_q && !is_long);
-
-        read_vec_element(s, tcg_idx, rm, index, MO_64);
-
-        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
-            TCGv_i64 tcg_op = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op, rn, pass, MO_64);
-
-            switch (16 * u + opcode) {
-            case 0x05: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op, tcg_op);
-                /* fall through */
-            case 0x01: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
-                break;
-            default:
-            case 0x09: /* FMUL */
-            case 0x19: /* FMULX */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        }
-
-        clear_vec_high(s, !is_scalar, rd);
+        g_assert_not_reached();
     } else if (!is_long) {
         /* 32 bit floating point, or 16 or 32 bit integer.
          * For the 16 bit scalar case we use the usual Neon helpers and
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 genfn(tcg_res, tcg_op, tcg_res);
                 break;
             }
-            case 0x05: /* FMLS */
-            case 0x01: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass,
-                                     is_scalar ? size : MO_32);
-                switch (size) {
-                case 1:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for fused
-                         * multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
-                    }
-                    if (is_scalar) {
-                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
-                                                   tcg_res, fpst);
-                    } else {
-                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
-                                                    tcg_res, fpst);
-                    }
-                    break;
-                case 2:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for
-                         * fused multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
-                    }
-                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
-                                           tcg_res, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x01: /* FMLA */
+            case 0x05: /* FMLS */
             case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(op1, op2, dest, 0, stat);
 }
 
+static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(op1, op2, dest, 0, stat);
+}
+
 static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
                                  float_status *stat)
 {
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
 }
 
+static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
+}
+
 #define DO_MULADD(NAME, FUNC, TYPE)                                     \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
 
 DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
 DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
+DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
 
 DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
 DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
+DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
 
 /* For the indexed ops, SVE applies the index per 128-bit vector segment.
  * For AdvSIMD, there is of course only one such vector segment.
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 +
 target/arm/tcg/a64.decode      |  30 ++++++
 target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
 target/arm/tcg/vec_helper.c    |  30 ++++++
 4 files changed, 174 insertions(+), 79 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
+FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
+FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
+FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
+
+FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
+FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
 FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
 FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 
+FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
+FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
+FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
+
+FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
+FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
 };
 TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 
+static const FPScalar f_scalar_fcmeq = {
+    gen_helper_advsimd_ceq_f16,
+    gen_helper_neon_ceq_f32,
+    gen_helper_neon_ceq_f64,
+};
+TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
+
+static const FPScalar f_scalar_fcmge = {
+    gen_helper_advsimd_cge_f16,
+    gen_helper_neon_cge_f32,
+    gen_helper_neon_cge_f64,
+};
+TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
+
+static const FPScalar f_scalar_fcmgt = {
+    gen_helper_advsimd_cgt_f16,
+    gen_helper_neon_cgt_f32,
+    gen_helper_neon_cgt_f64,
+};
+TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
+
+static const FPScalar f_scalar_facge = {
+    gen_helper_advsimd_acge_f16,
+    gen_helper_neon_acge_f32,
+    gen_helper_neon_acge_f64,
+};
+TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
+
+static const FPScalar f_scalar_facgt = {
+    gen_helper_advsimd_acgt_f16,
+    gen_helper_neon_acgt_f32,
+    gen_helper_neon_acgt_f64,
+};
+TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 };
 TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 
+static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
+    gen_helper_gvec_fceq_h,
+    gen_helper_gvec_fceq_s,
+    gen_helper_gvec_fceq_d,
+};
+TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
+    gen_helper_gvec_fcge_h,
+    gen_helper_gvec_fcge_s,
+    gen_helper_gvec_fcge_d,
+};
+TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
+    gen_helper_gvec_fcgt_h,
+    gen_helper_gvec_fcgt_s,
+    gen_helper_gvec_fcgt_d,
+};
+TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
+
+static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
+    gen_helper_gvec_facge_h,
+    gen_helper_gvec_facge_s,
+    gen_helper_gvec_facge_d,
+};
+TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
+
+static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
+    gen_helper_gvec_facgt_h,
+    gen_helper_gvec_facgt_s,
+    gen_helper_gvec_facgt_d,
+};
+TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_absd(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_abss(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         switch (fpopcode) {
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
+        case 0x7a: /* FABD */
+            break;
+        default:
+        case 0x1b: /* FMULX */
         case 0x5d: /* FACGE */
         case 0x7d: /* FACGT */
         case 0x1c: /* FCMEQ */
         case 0x5c: /* FCMGE */
         case 0x7c: /* FCMGT */
-        case 0x7a: /* FABD */
-            break;
-        default:
-        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
         break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
-        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x07: /* FRECPS */
         gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     case 0x0f: /* FRSQRTS */
         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
-    case 0x14: /* FCMGE (reg) */
-        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x15: /* FACGE */
-        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x1a: /* FABD */
         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
         break;
-    case 0x1c: /* FCMGT (reg) */
-        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1d: /* FACGT */
-        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
-    case 0x5d: /* FACGE */
-    case 0x7d: /* FACGT */
-    case 0x1c: /* FCMEQ */
-    case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
-    case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
+    case 0x5c: /* FCMGE */
+    case 0x5d: /* FACGE */
     case 0x5f: /* FDIV */
+    case 0x7d: /* FACGT */
+    case 0x7c: /* FCMGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
     case 0xf: /* FRSQRTS */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
         pairwise = false;
         break;
     case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
+    case 0x14: /* FCMGE */
+    case 0x15: /* FACGE */
     case 0x17: /* FDIV */
+    case 0x1c: /* FCMGT */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x4: /* FCMEQ */
-                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x14: /* FCMGE */
-                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x15: /* FACGE */
-                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                 break;
-            case 0x1c: /* FCMGT */
-                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x1d: /* FACGT */
-                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x0: /* FMAXNM */
             case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x4: /* FCMEQ */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
             case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
+            case 0x14: /* FCMGE */
+            case 0x15: /* FACGE */
             case 0x17: /* FDIV */
+            case 0x1c: /* FCMGT */
+            case 0x1d: /* FACGT */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
     return -float32_eq_quiet(op1, op2, stat);
 }
 
+static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_eq_quiet(op1, op2, stat);
+}
+
 static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(op2, op1, stat);
 }
 
+static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(op2, op1, stat);
+}
+
 static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(op2, op1, stat);
 }
 
+static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(op2, op1, stat);
+}
+
 static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static int16_t vfp_tosszh(float16 x, void *fpstp)
 {
     float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
 
 DO_3OP(gvec_fceq_h, float16_ceq, float16)
 DO_3OP(gvec_fceq_s, float32_ceq, float32)
+DO_3OP(gvec_fceq_d, float64_ceq, float64)
 
 DO_3OP(gvec_fcge_h, float16_cge, float16)
 DO_3OP(gvec_fcge_s, float32_cge, float32)
+DO_3OP(gvec_fcge_d, float64_cge, float64)
 
 DO_3OP(gvec_fcgt_h, float16_cgt, float16)
 DO_3OP(gvec_fcgt_s, float32_cgt, float32)
+DO_3OP(gvec_fcgt_d, float64_cgt, float64)
 
 DO_3OP(gvec_facge_h, float16_acge, float16)
 DO_3OP(gvec_facge_s, float32_acge, float32)
+DO_3OP(gvec_facge_d, float64_acge, float64)
 
 DO_3OP(gvec_facgt_h, float16_acgt, float16)
 DO_3OP(gvec_facgt_s, float32_acgt, float32)
+DO_3OP(gvec_facgt_d, float64_acgt, float64)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  1 +
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
 target/arm/tcg/vec_helper.c    |  6 ++++
 4 files changed, 53 insertions(+), 20 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_3same_float
and disas_simd_scalar_three_reg_same_fp16 so remove them.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  12 ++
 target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
 2 files changed, 46 insertions(+), 259 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
 FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 
+FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
+FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
+
+FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
+FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
+FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
 };
 TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 
+static const FPScalar f_scalar_frecps = {
+    gen_helper_recpsf_f16,
+    gen_helper_recpsf_f32,
+    gen_helper_recpsf_f64,
+};
+TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
+
+static const FPScalar f_scalar_frsqrts = {
+    gen_helper_rsqrtsf_f16,
+    gen_helper_rsqrtsf_f32,
+    gen_helper_rsqrtsf_f64,
+};
+TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
 };
 TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 
+static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
+    gen_helper_gvec_recps_h,
+    gen_helper_gvec_recps_s,
+    gen_helper_gvec_recps_d,
+};
+TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
+
+static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
+    gen_helper_gvec_rsqrts_h,
+    gen_helper_gvec_rsqrts_s,
+    gen_helper_gvec_rsqrts_d,
+};
+TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
     }
 }
 
-/* Handle the 3-same-operands float operations; shared by the scalar
- * and vector encodings. The caller must filter out any encodings
- * not allocated for the encoding it is dealing with.
- */
-static void handle_3same_float(DisasContext *s, int size, int elements,
-                               int fpopcode, int rd, int rn, int rm)
-{
-    int pass;
-    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-
-    for (pass = 0; pass < elements; pass++) {
-        if (size) {
-            /* Double */
-            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
-            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        } else {
-            /* Single */
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            if (elements == 1) {
-                /* scalar single so clear high part */
-                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-
-                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
-                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
-            } else {
-                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-            }
-        }
-    }
-
-    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
-}
-
 /* AdvSIMD scalar three same
  *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
  * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     bool u = extract32(insn, 29, 1);
     TCGv_i64 tcg_rd;
 
-    if (opcode >= 0x18) {
-        /* Floating point: U, size[1] and opcode indicate operation */
-        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
-        switch (fpopcode) {
-        case 0x1f: /* FRECPS */
-        case 0x3f: /* FRSQRTS */
-            break;
-        default:
-        case 0x1b: /* FMULX */
-        case 0x5d: /* FACGE */
-        case 0x7d: /* FACGT */
-        case 0x1c: /* FCMEQ */
-        case 0x5c: /* FCMGE */
-        case 0x7a: /* FABD */
-        case 0x7c: /* FCMGT */
-            unallocated_encoding(s);
-            return;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
-        return;
-    }
-
     switch (opcode) {
     case 0x1: /* SQADD, UQADD */
     case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_rd);
 }
 
-/* AdvSIMD scalar three same FP16
- *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
- * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
- */
-static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-                                                  uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int opcode = extract32(insn, 11, 3);
-    int rm = extract32(insn, 16, 5);
-    bool u = extract32(insn, 29, 1);
-    bool a = extract32(insn, 23, 1);
-    int fpopcode = opcode | (a << 3) |  (u << 4);
-    TCGv_ptr fpst;
-    TCGv_i32 tcg_op1;
-    TCGv_i32 tcg_op2;
-    TCGv_i32 tcg_res;
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-    case 0x0f: /* FRSQRTS */
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    tcg_op1 = read_fp_hreg(s, rn);
-    tcg_op2 = read_fp_hreg(s, rm);
-    tcg_res = tcg_temp_new_i32();
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x0f: /* FRSQRTS */
-        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        g_assert_not_reached();
-    }
-
-    write_fp_sreg(s, rd, tcg_res);
-}
-
 /* AdvSIMD scalar three same extra
  *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 
 /* Pairwise op subgroup of C3.6.16.
  *
- * This is called directly or via the handle_3same_float for float pairwise
+ * This is called directly for float pairwise
  * operations where the opcode and size are calculated differently.
  */
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
 
-    int datasize = is_q ? 128 : 64;
-    int esize = 32 << size;
-    int elements = datasize / esize;
-
     if (size == 1 && !is_q) {
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1f: /* FRECPS */
-    case 0x3f: /* FRSQRTS */
-        if (!fp_access_check(s)) {
-            return;
-        }
-        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
-        return;
 
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x1b: /* FMULX */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
+    case 0x1f: /* FRECPS */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
+    case 0x3f: /* FRSQRTS */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      * together indicate the operation.
      */
     int fpopcode = opcode | (a << 3) | (u << 4);
-    int datasize = is_q ? 128 : 64;
-    int elements = datasize / 16;
     bool pairwise;
     TCGv_ptr fpst;
     int pass;
 
     switch (fpopcode) {
-    case 0x7: /* FRECPS */
-    case 0xf: /* FRSQRTS */
-        pairwise = false;
-        break;
     case 0x10: /* FMAXNMP */
     case 0x12: /* FADDP */
     case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
+    case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
+    case 0xf: /* FRSQRTS */
     case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
         }
     } else {
-        for (pass = 0; pass < elements; pass++) {
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
-
-            switch (fpopcode) {
-            case 0x7: /* FRECPS */
-                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FRSQRTS */
-                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x0: /* FMAXNM */
-            case 0x1: /* FMLA */
-            case 0x2: /* FADD */
-            case 0x3: /* FMULX */
-            case 0x4: /* FCMEQ */
-            case 0x6: /* FMAX */
-            case 0x8: /* FMINNM */
-            case 0x9: /* FMLS */
-            case 0xa: /* FSUB */
-            case 0xe: /* FMIN */
-            case 0x13: /* FMUL */
-            case 0x14: /* FCMGE */
-            case 0x15: /* FACGE */
-            case 0x17: /* FDIV */
-            case 0x1a: /* FABD */
-            case 0x1c: /* FCMGT */
-            case 0x1d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-        }
+        g_assert_not_reached();
     }
 
     clear_vec_high(s, is_q, rd);
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  4 ++
 target/arm/tcg/a64.decode      | 12 +++++
 target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
 target/arm/tcg/vec_helper.c    | 23 +++++++++
 4 files changed, 105 insertions(+), 21 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within disas_simd_three_reg_same_fp16,
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 ++
 target/arm/tcg/a64.decode      |  24 +++
 target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  16 ++
 4 files changed, 107 insertions(+), 245 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 #ifdef TARGET_AARCH64
 #include "tcg/helper-a64.h"
 #include "tcg/helper-sve.h"
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
 FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
 
+FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
+FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
+
+FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
+FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
+
+FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
+FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
+
+FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
+FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
 };
 TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
+    gen_helper_gvec_fmaxp_h,
+    gen_helper_gvec_fmaxp_s,
+    gen_helper_gvec_fmaxp_d,
+};
+TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
+    gen_helper_gvec_fminp_h,
+    gen_helper_gvec_fminp_s,
+    gen_helper_gvec_fminp_d,
+};
+TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
+    gen_helper_gvec_fmaxnump_h,
+    gen_helper_gvec_fmaxnump_s,
+    gen_helper_gvec_fmaxnump_d,
+};
+TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
+    gen_helper_gvec_fminnump_h,
+    gen_helper_gvec_fminnump_s,
+    gen_helper_gvec_fminnump_d,
+};
+TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
 }
 
 TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
+TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
+TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
+TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
+TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 12, 5);
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
-    TCGv_ptr fpst;
 
     /* For some ops (the FP ones), size[1] is part of the encoding.
      * For ADDP strictly it is not but size[1] is always 1 for valid
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         if (!fp_access_check(s)) {
             return;
         }
-
-        fpst = NULL;
         break;
+    default:
     case 0xc: /* FMAXNMP */
+    case 0xd: /* FADDP */
     case 0xf: /* FMAXP */
     case 0x2c: /* FMINNMP */
     case 0x2f: /* FMINP */
-        /* FP op, size[0] is 32 or 64 bit*/
-        if (!u) {
-            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
-                unallocated_encoding(s);
-                return;
-            } else {
-                size = MO_16;
-            }
-        } else {
-            size = extract32(size, 0, 1) ? MO_64 : MO_32;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-        break;
-    default:
-    case 0xd: /* FADDP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         case 0x3b: /* ADDP */
             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
             break;
-        case 0xc: /* FMAXNMP */
-            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0xf: /* FMAXP */
-            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2c: /* FMINNMP */
-            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2f: /* FMINP */
-            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
         default:
+        case 0xc: /* FMAXNMP */
         case 0xd: /* FADDP */
+        case 0xf: /* FMAXP */
+        case 0x2c: /* FMINNMP */
+        case 0x2f: /* FMINP */
             g_assert_not_reached();
         }
 
         write_fp_dreg(s, rd, tcg_res);
     } else {
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-        read_vec_element_i32(s, tcg_op1, rn, 0, size);
-        read_vec_element_i32(s, tcg_op2, rn, 1, size);
-
-        if (size == MO_16) {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        } else {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        write_fp_sreg(s, rd, tcg_res);
+        g_assert_not_reached();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                                    int size, int rn, int rm, int rd)
 {
-    TCGv_ptr fpst;
     int pass;
 
-    /* Floating point operations need fpst */
-    if (opcode >= 0x58) {
-        fpst = fpstatus_ptr(FPST_FPCR);
-    } else {
-        fpst = NULL;
-    }
-
     if (!fp_access_check(s)) {
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
             case 0x17: /* ADDP */
                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
                 break;
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
         }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                 genfn = fns[size][u];
                 break;
             }
-            /* The FP operations are all on single floats (32 bit) */
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     }
 
     switch (fpopcode) {
-    case 0x58: /* FMAXNMP */
-    case 0x5e: /* FMAXP */
-    case 0x78: /* FMINNMP */
-    case 0x7e: /* FMINP */
-        if (size && !is_q) {
-            unallocated_encoding(s);
-            return;
-        }
-        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
-                               rn, rm, rd);
-        return;
-
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
     case 0x59: /* FMLAL2 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x3f: /* FRSQRTS */
+    case 0x58: /* FMAXNMP */
     case 0x5a: /* FADDP */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
+    case 0x5e: /* FMAXP */
     case 0x5f: /* FDIV */
+    case 0x78: /* FMINNMP */
     case 0x7a: /* FABD */
     case 0x7d: /* FACGT */
     case 0x7c: /* FCMGT */
+    case 0x7e: /* FMINP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     }
 }
 
-/*
- * Advanced SIMD three same (ARMv8.2 FP16 variants)
- *
- *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- *
- * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
- * (register), FACGE, FABD, FCMGT (register) and FACGT.
- *
- */
-static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 11, 3);
-    int u = extract32(insn, 29, 1);
-    int a = extract32(insn, 23, 1);
-    int is_q = extract32(insn, 30, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    /*
-     * For these floating point ops, the U, a and opcode bits
-     * together indicate the operation.
-     */
-    int fpopcode = opcode | (a << 3) | (u << 4);
-    bool pairwise;
-    TCGv_ptr fpst;
-    int pass;
-
-    switch (fpopcode) {
-    case 0x10: /* FMAXNMP */
-    case 0x16: /* FMAXP */
-    case 0x18: /* FMINNMP */
-    case 0x1e: /* FMINP */
-        pairwise = true;
-        break;
-    default:
-    case 0x0: /* FMAXNM */
-    case 0x1: /* FMLA */
-    case 0x2: /* FADD */
-    case 0x3: /* FMULX */
-    case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
-    case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
-    case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
-    case 0xe: /* FMIN */
-    case 0xf: /* FRSQRTS */
-    case 0x12: /* FADDP */
-    case 0x13: /* FMUL */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    if (pairwise) {
-        int maxpass = is_q ? 8 : 4;
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res[8];
-
-        for (pass = 0; pass < maxpass; pass++) {
-            int passreg = pass < (maxpass / 2) ? rn : rm;
-            int passelt = (pass << 1) & (maxpass - 1);
-
-            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
-            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
-            tcg_res[pass] = tcg_temp_new_i32();
-
-            switch (fpopcode) {
-            case 0x10: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x16: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x18: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x1e: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x12: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        for (pass = 0; pass < maxpass; pass++) {
-            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
-        }
-    } else {
-        g_assert_not_reached();
-    }
-
-    clear_vec_high(s, is_q, rd);
-}
-
 /* AdvSIMD three same extra
  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
 DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
 DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
 
+DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
+DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
+DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
+
+DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
+DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
+DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
+
+DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
+DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
+DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
+
+DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
+DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
+DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
+
 #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
     {                                                                   \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             |  7 -----
 target/arm/tcg/translate-neon.c | 55 ++-------------------------------
 target/arm/tcg/vec_helper.c     | 45 ---------------------------
 3 files changed, 3 insertions(+), 104 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 ++
 target/arm/tcg/translate.h     |   3 +
 target/arm/tcg/a64.decode      |   6 ++
 target/arm/tcg/gengvec.c       |  12 ++++
 target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  30 ++++++++
 6 files changed, 77 insertions(+), 107 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             | 2 --
 target/arm/tcg/neon_helper.c    | 5 -----
 target/arm/tcg/translate-neon.c | 3 +--
 3 files changed, 1 insertion(+), 9 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
 
 DEF_HELPER_2(neon_add_u8, i32, i32, i32)
 DEF_HELPER_2(neon_add_u16, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
 DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/neon_helper.c
+++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
     return (a + b) ^ mask;
 }
 
-#define NEON_FN(dest, src1, src2) dest = src1 + src2
-NEON_POP(padd_u8, neon_u8, 4)
-NEON_POP(padd_u16, neon_u16, 2)
-#undef NEON_FN
-
 #define NEON_FN(dest, src1, src2) dest = src1 - src2
 NEON_VOP(sub_u8, neon_u8, 4)
 NEON_VOP(sub_u16, neon_u16, 2)
diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
 DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
+DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
 #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-#define gen_helper_neon_padd_u32  tcg_gen_add_i32
 
 DO_3SAME_PAIR(VPMAX_S, pmax_s)
 DO_3SAME_PAIR(VPMIN_S, pmin_s)
 DO_3SAME_PAIR(VPMAX_U, pmax_u)
 DO_3SAME_PAIR(VPMIN_U, pmin_u)
-DO_3SAME_PAIR(VPADD, padd_u)
 
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_simd_3same_pair
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 +++++
 target/arm/tcg/translate.h     |   8 +++
 target/arm/tcg/a64.decode      |   4 ++
 target/arm/tcg/gengvec.c       |  48 +++++++++++++
 target/arm/tcg/translate-a64.c | 119 +++++----------------------------
 target/arm/tcg/vec_helper.c    |  16 +++++
 6 files changed, 109 insertions(+), 102 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-neon.c | 78 ++-------------------------------
 1 file changed, 4 insertions(+), 74 deletions(-)

diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
 DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
+DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
+DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
+DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
+DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
 DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
 DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
 
-static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
-{
-    /* Operations handled pairwise 32 bits at a time */
-    TCGv_i32 tmp, tmp2, tmp3;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-        return false;
-    }
-
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vn | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if (a->size == 3) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    assert(a->q == 0); /* enforced by decode patterns */
-
-    /*
-     * Note that we have to be careful not to clobber the source operands
-     * in the "vm == vd" case by storing the result of the first pass too
-     * early. Since Q is 0 there are always just two passes, so instead
-     * of a complicated loop over each pass we just unroll.
-     */
-    tmp = tcg_temp_new_i32();
-    tmp2 = tcg_temp_new_i32();
-    tmp3 = tcg_temp_new_i32();
-
-    read_neon_element32(tmp, a->vn, 0, MO_32);
-    read_neon_element32(tmp2, a->vn, 1, MO_32);
-    fn(tmp, tmp, tmp2);
-
-    read_neon_element32(tmp3, a->vm, 0, MO_32);
-    read_neon_element32(tmp2, a->vm, 1, MO_32);
-    fn(tmp3, tmp3, tmp2);
-
-    write_neon_element32(tmp, a->vd, 0, MO_32);
-    write_neon_element32(tmp3, a->vd, 1, MO_32);
-
-    return true;
-}
-
-#define DO_3SAME_PAIR(INSN, func)                                       \
-    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-    {                                                                   \
-        static NeonGenTwoOpFn * const fns[] = {                         \
-            gen_helper_neon_##func##8,                                  \
-            gen_helper_neon_##func##16,                                 \
-            gen_helper_neon_##func##32,                                 \
-        };                                                              \
-        if (a->size > 2) {                                              \
-            return false;                                               \
-        }                                                               \
-        return do_3same_pair(s, a, fns[a->size]);                       \
-    }
-
-/* 32-bit pairwise ops end up the same as the elementwise versions.  */
-#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
-#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
-#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
-#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-
-DO_3SAME_PAIR(VPMAX_S, pmax_s)
-DO_3SAME_PAIR(VPMIN_S, pmin_s)
-DO_3SAME_PAIR(VPMAX_U, pmax_u)
-DO_3SAME_PAIR(VPMIN_U, pmin_u)
-
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
     WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  10 +++
 target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
 2 files changed, 51 insertions(+), 103 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 +++++
 target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
 2 files changed, 29 insertions(+), 49 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
 @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 
+AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
 
+TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
+TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
+TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
+TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
+TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
+
+static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
+{
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
+    }
+    return true;
+}
+
+TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
+TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
+TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Logic op (opcode == 3) subgroup of C3.6.16. */
-static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int rm = extract32(insn, 16, 5);
-    int size = extract32(insn, 22, 2);
-    bool is_u = extract32(insn, 29, 1);
-    bool is_q = extract32(insn, 30, 1);
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    switch (size + 4 * is_u) {
-    case 0: /* AND */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
-        return;
-    case 1: /* BIC */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
-        return;
-    case 2: /* ORR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
-        return;
-    case 3: /* ORN */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
-        return;
-    case 4: /* EOR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
-        return;
-
-    case 5: /* BSL bitwise select */
-        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 6: /* BIT, bitwise insert if true */
-        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 7: /* BIF, bitwise insert if false */
-        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
-        return;
-
-    default:
-        g_assert_not_reached();
-    }
-}
-
 /* Integer op subgroup of C3.6.16. */
 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
 {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 11, 5);
 
     switch (opcode) {
-    case 0x3: /* logic ops */
-        disas_simd_3same_logic(s, insn);
-        break;
     default:
         disas_simd_3same_int(s, insn);
         break;
+    case 0x3: /* logic ops */
     case 0x14: /* SMAXP, UMAXP */
     case 0x15: /* SMINP, UMINP */
     case 0x17: /* ADDP */
-- 
2.34.1