Series comparison

-[PULL 00/29] target-arm queue
+[PULL v2 00/42] target-arm queue
-Hi; this mostly contains the first slice of A64 decodetree
+Hi; most of this is the first half of the A64 simd decodetree
-patches, plus some other minor pieces. It also has the
+conversion; the rest is a mix of fixes from the last couple of weeks.
-enablement of MTE for KVM guests.
 v2 uses patches from the v2 decodetree series to avoid a few
 regressions in some A32 insns.
 (Richard: I'm still planning to review the second half of the
 v2 decodetree series; I just wanted to get the respin of this
 pullreq out today...)
 thanks
 -- PMM
-The following changes since commit d27e7c359330ba7020bdbed7ed2316cb4cf6ffc1:
+The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:
-  qapi/parser: Drop two bad type hints for now (2023-05-17 10:18:33 -0700)
+  Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20230518
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528
-for you to fetch changes up to 91608e2a44f36e79cb83f863b8a7bb57d2c98061:
+for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:
-  docs: Convert u2f.txt to rST (2023-05-18 11:40:32 +0100)
+  target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * Fix vd == vm overlap in sve_ldff1_z
+ * xlnx_dpdma: fix descriptor endianness bug
- * Add support for MTE with KVM guests
+ * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
- * Add RAZ/WI handling for DBGDTR[TX|RX]
+ * hw/arm/npcm7xx: remove setting of mp-affinity
- * Start of conversion of A64 decoder to decodetree
+ * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
- * Saturate L2CTLR_EL1 core count field rather than overflowing
+ * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
- * vexpress: Avoid trivial memory leak of 'flashalias'
+ * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
- * sbsa-ref: switch default cpu core to Neoverse-N1
+ * hw: arm: Remove use of tabs in some source files
- * sbsa-ref: use Bochs graphics card instead of VGA
+ * docs/system: Remove ADC from raspi documentation
- * MAINTAINERS: Add Marcin Juszkiewicz to sbsa-ref reviewer list
+ * target/arm: Start of the conversion of A64 SIMD to decodetree
  * docs: Convert u2f.txt to rST
 ----------------------------------------------------------------
-Alex Bennée (1):
+Alexandra Diupina (1):
-      target/arm: add RAZ/WI handling for DBGDTR[TX|RX]
+      xlnx_dpdma: fix descriptor endianness bug
-Cornelia Huck (1):
+Andrey Shumilin (1):
-      arm/kvm: add support for MTE
+      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
-Marcin Juszkiewicz (3):
+Dorjoy Chowdhury (1):
-      sbsa-ref: switch default cpu core to Neoverse-N1
+      hw/arm/npcm7xx: remove setting of mp-affinity
       Maintainers: add myself as reviewer for sbsa-ref
       sbsa-ref: use Bochs graphics card instead of VGA
-Peter Maydell (14):
+Inès Varhol (1):
-      target/arm: Create decodetree skeleton for A64
+      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
       target/arm: Pull calls to disas_sve() and disas_sme() out of legacy decoder
       target/arm: Convert Extract instructions to decodetree
       target/arm: Convert unconditional branch immediate to decodetree
       target/arm: Convert CBZ, CBNZ to decodetree
       target/arm: Convert TBZ, TBNZ to decodetree
       target/arm: Convert conditional branch insns to decodetree
       target/arm: Convert BR, BLR, RET to decodetree
       target/arm: Convert BRA[AB]Z, BLR[AB]Z, RETA[AB] to decodetree
       target/arm: Convert BRAA, BRAB, BLRAA, BLRAB to decodetree
       target/arm: Convert ERET, ERETAA, ERETAB to decodetree
       target/arm: Saturate L2CTLR_EL1 core count field rather than overflowing
       hw/arm/vexpress: Avoid trivial memory leak of 'flashalias'
       docs: Convert u2f.txt to rST
-Richard Henderson (10):
+Philippe Mathieu-Daudé (1):
-      target/arm: Fix vd == vm overlap in sve_ldff1_z
+      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
       target/arm: Split out disas_a64_legacy
       target/arm: Convert PC-rel addressing to decodetree
       target/arm: Split gen_add_CC and gen_sub_CC
       target/arm: Convert Add/subtract (immediate) to decodetree
       target/arm: Convert Add/subtract (immediate with tags) to decodetree
       target/arm: Replace bitmask64 with MAKE_64BIT_MASK
       target/arm: Convert Logical (immediate) to decodetree
       target/arm: Convert Move wide (immediate) to decodetree
       target/arm: Convert Bitfield to decodetree
- MAINTAINERS                      |    1 +
+Rayhan Faizel (1):
- docs/system/device-emulation.rst |    1 +
+      docs/system: Remove ADC from raspi documentation
  docs/system/devices/usb-u2f.rst  |   93 +++
  docs/system/devices/usb.rst      |    2 +-
  docs/u2f.txt                     |  110 ----
  target/arm/cpu.h                 |    4 +
  target/arm/kvm_arm.h             |   19 +
  target/arm/tcg/translate.h       |    5 +
  target/arm/tcg/a64.decode        |  152 +++++
  hw/arm/sbsa-ref.c                |    4 +-
  hw/arm/vexpress.c                |   40 +-
  hw/arm/virt.c                    |   73 ++-
  target/arm/cortex-regs.c         |   11 +-
  target/arm/cpu.c                 |    9 +-
  target/arm/debug_helper.c        |   11 +-
  target/arm/kvm.c                 |   35 +
  target/arm/kvm64.c               |    5 +
  target/arm/tcg/sve_helper.c      |    6 +
  target/arm/tcg/translate-a64.c   | 1321 ++++++++++++++++----------------------
  target/arm/tcg/meson.build       |    1 +
 files changed, 979 insertions(+), 924 deletions(-)
  create mode 100644 docs/system/devices/usb-u2f.rst
  delete mode 100644 docs/u2f.txt
  create mode 100644 target/arm/tcg/a64.decode
+Richard Henderson (34):
+      target/arm: Use PLD, PLDW, PLI not NOP for t32
+      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
+      target/arm: Fix decode of FMOV (hp) vs MOVI
+      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
+      target/arm: Split out gengvec.c
+      target/arm: Split out gengvec64.c
+      target/arm: Convert Cryptographic AES to decodetree
+      target/arm: Convert Cryptographic 3-register SHA to decodetree
+      target/arm: Convert Cryptographic 2-register SHA to decodetree
+      target/arm: Convert Cryptographic 3-register SHA512 to decodetree
+      target/arm: Convert Cryptographic 2-register SHA512 to decodetree
+      target/arm: Convert Cryptographic 4-register to decodetree
+      target/arm: Convert Cryptographic 3-register, imm2 to decodetree
+      target/arm: Convert XAR to decodetree
+      target/arm: Convert Advanced SIMD copy to decodetree
+      target/arm: Convert FMULX to decodetree
+      target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
+      target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
+      target/arm: Introduce vfp_load_reg16
+      target/arm: Expand vfp neg and abs inline
+      target/arm: Convert FNMUL to decodetree
+      target/arm: Convert FMLA, FMLS to decodetree
+      target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
+      target/arm: Convert FABD to decodetree
+      target/arm: Convert FRECPS, FRSQRTS to decodetree
+      target/arm: Convert FADDP to decodetree
+      target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
+      target/arm: Use gvec for neon faddp, fmaxp, fminp
+      target/arm: Convert ADDP to decodetree
+      target/arm: Use gvec for neon padd
+      target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
+      target/arm: Use gvec for neon pmax, pmin
+      target/arm: Convert FMLAL, FMLSL to decodetree
+      target/arm: Convert disas_simd_3same_logic to decodetree
+Tanmay Patil (1):
+      hw: arm: Remove use of tabs in some source files
+Zenghui Yu (1):
+      hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
+ docs/system/arm/raspi.rst       |    1 -
+ target/arm/helper.h             |   68 +-
+ target/arm/tcg/helper-a64.h     |   12 +
+ target/arm/tcg/translate-a64.h  |    4 +
+ target/arm/tcg/translate.h      |   51 +
+ target/arm/tcg/a64.decode       |  315 +++-
+ target/arm/tcg/t32.decode       |   25 +-
+ hw/arm/boot.c                   |    8 +-
+ hw/arm/npcm7xx.c                |    3 -
+ hw/char/omap_uart.c             |   49 +-
+ hw/char/stm32l4x5_usart.c       |    2 +-
+ hw/dma/xlnx_dpdma.c             |   68 +-
+ hw/gpio/zaurus.c                |   59 +-
+ hw/input/tsc2005.c              |  135 +-
+ hw/intc/arm_gic.c               |    4 +-
+ target/arm/hvf/hvf.c            |  130 +-
+ target/arm/tcg/gengvec.c        | 1672 +++++++++++++++++++++
+ target/arm/tcg/gengvec64.c      |  190 +++
+ target/arm/tcg/neon_helper.c    |    5 -
+ target/arm/tcg/translate-a64.c  | 3137 +++++++++++++--------------------------
+ target/arm/tcg/translate-neon.c |  136 +-
+ target/arm/tcg/translate-sve.c  |  145 +-
+ target/arm/tcg/translate-vfp.c  |   93 +-
+ target/arm/tcg/translate.c      | 1592 +-------------------
+ target/arm/tcg/vec_helper.c     |  221 ++-
+ target/arm/vfp_helper.c         |   30 -
+ target/arm/tcg/meson.build      |    2 +
+files changed, 3860 insertions(+), 4297 deletions(-)
+ create mode 100644 target/arm/tcg/gengvec.c
+ create mode 100644 target/arm/tcg/gengvec64.c

-[PULL 04/29] arm/kvm: add support for MTE
+[PULL 01/42] xlnx_dpdma: fix descriptor endianness bug
-From: Cornelia Huck <cohuck@redhat.com>
+From: Alexandra Diupina <adiupina@astralinux.ru>
-Extend the 'mte' property for the virt machine to cover KVM as
+Add xlnx_dpdma_read_descriptor() and
-well. For KVM, we don't allocate tag memory, but instead enable the
+xlnx_dpdma_write_descriptor() functions.
-capability.
+xlnx_dpdma_read_descriptor() combines reading a
 descriptor from desc_addr by calling dma_memory_read()
 and swapping the desc fields from guest memory order
 to host memory order. xlnx_dpdma_write_descriptor()
 performs similar actions when writing a descriptor.
-If MTE has been enabled, we need to disable migration, as we do not
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
 yet have a way to migrate the tags as well. Therefore, MTE will stay
 off with KVM unless requested explicitly.
-Signed-off-by: Cornelia Huck <cohuck@redhat.com>
+Fixes: d3c6369a96 ("introduce xlnx-dpdma")
 Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
 [PMM: tweaked indent, dropped behaviour change for write-failure case]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230428095533.21747-2-cohuck@redhat.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h     |  4 +++
+ hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
- target/arm/kvm_arm.h | 19 ++++++++++++
+file changed, 64 insertions(+), 4 deletions(-)
  hw/arm/virt.c        | 73 +++++++++++++++++++++++++-------------------
  target/arm/cpu.c     |  9 +++---
  target/arm/kvm.c     | 35 +++++++++++++++++++++
  target/arm/kvm64.c   |  5 +++
 files changed, 109 insertions(+), 36 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/hw/dma/xlnx_dpdma.c
-+++ b/target/arm/cpu.h
++++ b/hw/dma/xlnx_dpdma.c
-@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
+@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
-      */
+     type_register_static(&xlnx_dpdma_info);
-     uint32_t psci_conduit;
+ }
-+    /* CPU has Memory Tag Extension */
++static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
-+    bool has_mte;
++                                              uint64_t desc_addr,
 +                                              DPDMADescriptor *desc)
 +{
 +    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
 +                                      &desc, sizeof(DPDMADescriptor),
 +                                      MEMTXATTRS_UNSPECIFIED);
 +    if (res) {
 +        return res;
 +    }
 +
-     /* For v8M, initial value of the Secure VTOR */
++    /* Convert from LE into host endianness.  */
-     uint32_t init_svtor;
++    desc->control = le32_to_cpu(desc->control);
-     /* For v8M, initial value of the Non-secure VTOR */
++    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
-@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
++    desc->xfer_size = le32_to_cpu(desc->xfer_size);
-     bool prop_pauth;
++    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
-     bool prop_pauth_impdef;
++    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
-     bool prop_lpa2;
++    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
-+    OnOffAuto prop_mte;
++    desc->address_extension = le32_to_cpu(desc->address_extension);
++    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
-     /* DCZ blocksize, in log_2(words), ie low 4 bits of DCZID_EL0 */
++    desc->source_address = le32_to_cpu(desc->source_address);
-     uint32_t dcz_blocksize;
++    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
-diff --git a/target/arm/kvm_arm.h b/target/arm/kvm_arm.h
++    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
-index XXXXXXX..XXXXXXX 100644
++    desc->source_address2 = le32_to_cpu(desc->source_address2);
---- a/target/arm/kvm_arm.h
++    desc->source_address3 = le32_to_cpu(desc->source_address3);
-+++ b/target/arm/kvm_arm.h
++    desc->source_address4 = le32_to_cpu(desc->source_address4);
-@@ -XXX,XX +XXX,XX @@ bool kvm_arm_pmu_supported(void);
++    desc->source_address5 = le32_to_cpu(desc->source_address5);
-  */
++    desc->crc = le32_to_cpu(desc->crc);
  bool kvm_arm_sve_supported(void);
 +/**
 + * kvm_arm_mte_supported:
 + *
 + * Returns: true if KVM can enable MTE, and false otherwise.
 + */
 +bool kvm_arm_mte_supported(void);
 +
- /**
++    return res;
   * kvm_arm_get_max_vm_ipa_size:
   * @ms: Machine state handle
@@ -XXX,XX +XXX,XX @@ void kvm_arm_pvtime_init(CPUState *cs, uint64_t ipa);
  int kvm_arm_set_irq(int cpu, int irqtype, int irq, int level);
 +void kvm_arm_enable_mte(Object *cpuobj, Error **errp);
 +
  #else
  /*
@@ -XXX,XX +XXX,XX @@ static inline bool kvm_arm_steal_time_supported(void)
      return false;
  }
 +static inline bool kvm_arm_mte_supported(void)
 +{
 +    return false;
 +}
 +
- /*
++static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
-  * These functions should never actually be called without KVM support.
++                                               DPDMADescriptor *desc)
   */
@@ -XXX,XX +XXX,XX @@ static inline uint32_t kvm_arm_sve_get_vls(CPUState *cs)
      g_assert_not_reached();
  }
 +static inline void kvm_arm_enable_mte(Object *cpuobj, Error **errp)
 +{
-+    g_assert_not_reached();
++    DPDMADescriptor tmp_desc = *desc;
 +
 +    /* Convert from host endianness into LE.  */
 +    tmp_desc.control = cpu_to_le32(tmp_desc.control);
 +    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
 +    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
 +    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
 +    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
 +    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
 +    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
 +    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
 +    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
 +    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
 +    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
 +    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
 +    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
 +    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
 +    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
 +    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
 +
 +    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
 +                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
 +}
 +
- #endif
+ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
+                                     bool one_desc)
- static inline const char *gic_class_name(void)
+ {
-diff --git a/hw/arm/virt.c b/hw/arm/virt.c
+@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
-index XXXXXXX..XXXXXXX 100644
+             desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
 --- a/hw/arm/virt.c
 +++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
          exit(1);
      }
 -    if (vms->mte && (kvm_enabled() || hvf_enabled())) {
 +    if (vms->mte && hvf_enabled()) {
          error_report("mach-virt: %s does not support providing "
                       "MTE to the guest CPU",
                       current_accel_name());
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
          }
-         if (vms->mte) {
+-        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
--            /* Create the memory region only once, but link to all cpus. */
+-                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
--            if (!tag_sysmem) {
++        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
--                /*
+             s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
--                 * The property exists only if MemTag is supported.
+             xlnx_dpdma_update_irq(s);
--                 * If it is, we must allocate the ram to back that up.
+             s->operation_finished[channel] = true;
--                 */
+@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
--                if (!object_property_find(cpuobj, "tag-memory")) {
+             /* The descriptor need to be updated when it's completed. */
--                    error_report("MTE requested, but not supported "
+             DPRINTF("update the descriptor with the done flag set.\n");
--                                 "by the guest CPU");
+             xlnx_dpdma_desc_set_done(&desc);
-+            if (tcg_enabled()) {
+-            dma_memory_write(&address_space_memory, desc_addr, &desc,
-+                /* Create the memory region only once, but link to all cpus. */
+-                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
-+                if (!tag_sysmem) {
++            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
-+                    /*
++                DPRINTF("Can't write the descriptor.\n");
-+                     * The property exists only if MemTag is supported.
++                /* TODO: check hardware behaviour for memory write failure */
-+                     * If it is, we must allocate the ram to back that up.
++            }
 +                     */
 +                    if (!object_property_find(cpuobj, "tag-memory")) {
 +                        error_report("MTE requested, but not supported "
 +                                     "by the guest CPU");
 +                        exit(1);
 +                    }
 +
 +                    tag_sysmem = g_new(MemoryRegion, 1);
 +                    memory_region_init(tag_sysmem, OBJECT(machine),
 +                                       "tag-memory", UINT64_MAX / 32);
 +
 +                    if (vms->secure) {
 +                        secure_tag_sysmem = g_new(MemoryRegion, 1);
 +                        memory_region_init(secure_tag_sysmem, OBJECT(machine),
 +                                           "secure-tag-memory",
 +                                           UINT64_MAX / 32);
 +
 +                        /* As with ram, secure-tag takes precedence over tag. */
 +                        memory_region_add_subregion_overlap(secure_tag_sysmem,
 +                                                            0, tag_sysmem, -1);
 +                    }
 +                }
 +
 +                object_property_set_link(cpuobj, "tag-memory",
 +                                         OBJECT(tag_sysmem), &error_abort);
 +                if (vms->secure) {
 +                    object_property_set_link(cpuobj, "secure-tag-memory",
 +                                             OBJECT(secure_tag_sysmem),
 +                                             &error_abort);
 +                }
 +            } else if (kvm_enabled()) {
 +                if (!kvm_arm_mte_supported()) {
 +                    error_report("MTE requested, but not supported by KVM");
                      exit(1);
                  }
 -
 -                tag_sysmem = g_new(MemoryRegion, 1);
 -                memory_region_init(tag_sysmem, OBJECT(machine),
 -                                   "tag-memory", UINT64_MAX / 32);
 -
 -                if (vms->secure) {
 -                    secure_tag_sysmem = g_new(MemoryRegion, 1);
 -                    memory_region_init(secure_tag_sysmem, OBJECT(machine),
 -                                       "secure-tag-memory", UINT64_MAX / 32);
 -
 -                    /* As with ram, secure-tag takes precedence over tag.  */
 -                    memory_region_add_subregion_overlap(secure_tag_sysmem, 0,
 -                                                        tag_sysmem, -1);
 -                }
 -            }
 -
 -            object_property_set_link(cpuobj, "tag-memory", OBJECT(tag_sysmem),
 -                                     &error_abort);
 -            if (vms->secure) {
 -                object_property_set_link(cpuobj, "secure-tag-memory",
 -                                         OBJECT(secure_tag_sysmem),
 -                                         &error_abort);
 +                kvm_arm_enable_mte(cpuobj, &error_abort);
              }
          }
-diff --git a/target/arm/cpu.c b/target/arm/cpu.c
+         if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.c
 +++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ void arm_cpu_post_init(Object *obj)
                                       qdev_prop_allow_set_link_before_realize,
                                       OBJ_PROP_LINK_STRONG);
          }
 +        cpu->has_mte = true;
      }
  #endif
  }
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
          }
          if (cpu->tag_memory) {
              error_setg(errp,
 -                       "Cannot enable %s when guest CPUs has MTE enabled",
 +                       "Cannot enable %s when guest CPUs has tag memory enabled",
                         current_accel_name());
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
      }
  #ifndef CONFIG_USER_ONLY
 -    if (cpu->tag_memory == NULL && cpu_isar_feature(aa64_mte, cpu)) {
 +    if (!cpu->has_mte && cpu_isar_feature(aa64_mte, cpu)) {
          /*
 -         * Disable the MTE feature bits if we do not have tag-memory
 -         * provided by the machine.
 +         * Disable the MTE feature bits if we do not have the feature
 +         * setup by the machine.
           */
          cpu->isar.id_aa64pfr1 =
              FIELD_DP64(cpu->isar.id_aa64pfr1, ID_AA64PFR1, MTE, 0);
 diff --git a/target/arm/kvm.c b/target/arm/kvm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm.c
 +++ b/target/arm/kvm.c
@@ -XXX,XX +XXX,XX @@
  #include "hw/boards.h"
  #include "hw/irq.h"
  #include "qemu/log.h"
 +#include "migration/blocker.h"
  const KVMCapabilityInfo kvm_arch_required_capabilities[] = {
      KVM_CAP_LAST_INFO
@@ -XXX,XX +XXX,XX @@ bool kvm_arch_cpu_check_are_resettable(void)
  void kvm_arch_accel_class_init(ObjectClass *oc)
  {
  }
 +
 +void kvm_arm_enable_mte(Object *cpuobj, Error **errp)
 +{
 +    static bool tried_to_enable;
 +    static bool succeeded_to_enable;
 +    Error *mte_migration_blocker = NULL;
 +    int ret;
 +
 +    if (!tried_to_enable) {
 +        /*
 +         * MTE on KVM is enabled on a per-VM basis (and retrying doesn't make
 +         * sense), and we only want a single migration blocker as well.
 +         */
 +        tried_to_enable = true;
 +
 +        ret = kvm_vm_enable_cap(kvm_state, KVM_CAP_ARM_MTE, 0);
 +        if (ret) {
 +            error_setg_errno(errp, -ret, "Failed to enable KVM_CAP_ARM_MTE");
 +            return;
 +        }
 +
 +        /* TODO: add proper migration support with MTE enabled */
 +        error_setg(&mte_migration_blocker,
 +                   "Live migration disabled due to MTE enabled");
 +        if (migrate_add_blocker(mte_migration_blocker, errp)) {
 +            error_free(mte_migration_blocker);
 +            return;
 +        }
 +        succeeded_to_enable = true;
 +    }
 +    if (succeeded_to_enable) {
 +        object_property_set_bool(cpuobj, "has_mte", true, NULL);
 +    }
 +}
 diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm64.c
 +++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_steal_time_supported(void)
      return kvm_check_extension(kvm_state, KVM_CAP_STEAL_TIME);
  }
 +bool kvm_arm_mte_supported(void)
 +{
 +    return kvm_check_extension(kvm_state, KVM_CAP_ARM_MTE);
 +}
 +
  QEMU_BUILD_BUG_ON(KVM_ARM64_SVE_VQ_MIN != 1);
  uint32_t kvm_arm_sve_get_vls(CPUState *cs)
 --
 .34.1

-New patch
+[PULL 02/42] hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
+From: Zenghui Yu <zenghui.yu@linux.dev>
+We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
+we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
+wrong key.
+Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
+guest can properly detect FEAT_SSBS2 on my M1 HW.
+All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
+It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
+HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
+it.
+Cc: qemu-stable@nongnu.org
+Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
+Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
+Reviewed-by: Alexander Graf <agraf@csgraf.de>
+Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
+file changed, 65 insertions(+), 65 deletions(-)
+diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/hvf/hvf.c
++++ b/target/arm/hvf/hvf.c
+@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
+ };
+ static struct hvf_sreg_match hvf_sreg_match[] = {
+-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
+ #ifdef SYNC_NO_RAW_REGS
+     /*
+@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
+     { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
+     { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
+ #endif
+-    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
++    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
+     { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
+     { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
+     { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
+--
+.34.1

-New patch
+[PULL 03/42] hw/arm/npcm7xx: remove setting of mp-affinity
+From: Dorjoy Chowdhury <dorjoychy111@gmail.com>
+The value of the mp-affinity property being set in npcm7xx_realize is
+always the same as the default value it would have when arm_cpu_realizefn
+is called if the property is not set here. So there is no need to set
+the property value in npcm7xx_realize function.
+Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/arm/npcm7xx.c | 3 ---
+file changed, 3 deletions(-)
+diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/npcm7xx.c
++++ b/hw/arm/npcm7xx.c
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
+     /* CPUs */
+     for (i = 0; i < nc->num_cpus; i++) {
+-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
+-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
+-                                &error_abort);
+         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
+                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
+         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
+--
+.34.1

-New patch
+[PULL 04/42] hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
+From: Inès Varhol <ines.varhol@telecom-paris.fr>
+Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
+Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
+Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/char/stm32l4x5_usart.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/char/stm32l4x5_usart.c
++++ b/hw/char/stm32l4x5_usart.c
+@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
+     FIELD(CR1, UE, 0, 1)     /* USART enable */
+ REG32(CR2, 0x04)
+     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
+-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
++    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
+     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
+     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
+     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
+--
+.34.1

-New patch
+[PULL 05/42] hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
+From: Andrey Shumilin <shum.sdl@nppct.ru>
+In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
+reading and writing the Non-Secure view of the GICC_APR<n> registers
+to functions gic_apr_ns_view() and gic_apr_write_ns_view().
+Unfortunately we got the order of the arguments wrong, swapping the
+CPU number and the register number (which the compiler doesn't catch
+because they're both integers).
+Most guests probably didn't notice this bug because directly
+accessing the APR registers is typically something only done by
+firmware when it is doing state save for going into a sleep mode.
+Correct the mismatched call arguments.
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
+Cc: qemu-stable@nongnu.org
+Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
+Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
+[PMM: Rewrote commit message]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
+---
+ hw/intc/arm_gic.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/intc/arm_gic.c
++++ b/hw/intc/arm_gic.c
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
+             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
+-            *data = gic_apr_ns_view(s, regno, cpu);
++            *data = gic_apr_ns_view(s, cpu, regno);
+         } else {
+             *data = s->apr[regno][cpu];
+         }
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
+             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
+-            gic_apr_write_ns_view(s, regno, cpu, value);
++            gic_apr_write_ns_view(s, cpu, regno, value);
+         } else {
+             s->apr[regno][cpu] = value;
+         }
+--
+.34.1

-[PULL 05/29] target/arm: add RAZ/WI handling for DBGDTR[TX|RX]
+[PULL 06/42] hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
-From: Alex Bennée <alex.bennee@linaro.org>
+From: Philippe Mathieu-Daudé <philmd@linaro.org>
-The commit b3aa2f2128 (target/arm: provide stubs for more external
+Check the function index is in range and use an unsigned
-debug registers) was added to handle HyperV's unconditional usage of
+variable to avoid the following warning with GCC 13.2.0:
 Debug Communications Channel. It turns out that Linux will similarly
 break if you enable CONFIG_HVC_DCC "ARM JTAG DCC console".
-Extend the registers we RAZ/WI set to avoid this.
+  [666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
   hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
   hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
 |     s->dav |= mode_regs[s->function];
         |                         ~^~~~~~~~~~
-Cc: Anders Roxell <anders.roxell@linaro.org>
+Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Cc: Evgeny Iakovlev <eiakovlev@linux.microsoft.com>
+Message-id: 20240508143513.44996-1-philmd@linaro.org
-Signed-off-by: Alex Bennée <alex.bennee@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+[PMM: fixed missing ')']
 Message-id: 20230516104420.407912-1-alex.bennee@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/debug_helper.c | 11 +++++++++--
+ hw/input/tsc2005.c | 5 ++++-
-file changed, 9 insertions(+), 2 deletions(-)
+file changed, 4 insertions(+), 1 deletion(-)
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
+diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/debug_helper.c
+--- a/hw/input/tsc2005.c
-+++ b/target/arm/debug_helper.c
++++ b/hw/input/tsc2005.c
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_cp_reginfo[] = {
+@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
-       .access = PL0_R, .accessfn = access_tdcc,
+ static void tsc2005_timer_tick(void *opaque)
-       .type = ARM_CP_CONST, .resetvalue = 0 },
+ {
-     /*
+     TSC2005State *s = opaque;
--     * OSDTRRX_EL1/OSDTRTX_EL1 are used for save and restore of DBGDTRRX_EL0.
++    unsigned int function = s->function;
--     * It is a component of the Debug Communications Channel, which is not implemented.
++
-+     * These registers belong to the Debug Communications Channel,
++    assert(function < ARRAY_SIZE(mode_regs));
-+     * which is not implemented. However we implement RAZ/WI behaviour
-+     * with trapping to prevent spurious SIGILLs if the guest OS does
+     /* Timer ticked -- a set of conversions has been finished.  */
-+     * access them as the support cannot be probed for.
-      */
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
-     { .name = "OSDTRRX_EL1", .state = ARM_CP_STATE_BOTH, .cp = 14,
+         return;
-       .opc0 = 2, .opc1 = 0, .crn = 0, .crm = 0, .opc2 = 2,
-@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_cp_reginfo[] = {
+     s->busy = false;
-       .opc0 = 2, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 2,
+-    s->dav |= mode_regs[s->function];
-       .access = PL1_RW, .accessfn = access_tdcc,
++    s->dav |= mode_regs[function];
-       .type = ARM_CP_CONST, .resetvalue = 0 },
+     s->function = -1;
-+    /* DBGDTRTX_EL0/DBGDTRRX_EL0 depend on direction */
+     tsc2005_pin_update(s);
-+    { .name = "DBGDTR_EL0", .state = ARM_CP_STATE_BOTH, .cp = 14,
+ }
 +      .opc0 = 2, .opc1 = 3, .crn = 0, .crm = 5, .opc2 = 0,
 +      .access = PL0_RW, .accessfn = access_tdcc,
 +      .type = ARM_CP_CONST, .resetvalue = 0 },
      /*
       * OSECCR_EL1 provides a mechanism for an operating system
       * to access the contents of EDECCR. EDECCR is not implemented though,
 --
 .34.1

-New patch
+[PULL 07/42] hw: arm: Remove use of tabs in some source files
+From: Tanmay Patil <tanmaynpatil105@gmail.com>
+Some of the source files for older devices use hardcoded tabs
+instead of our current coding standard's required spaces.
+Fix these in the following files:
+    - hw/arm/boot.c
+    - hw/char/omap_uart.c
+    - hw/gpio/zaurus.c
+    - hw/input/tsc2005.c
+This commit is mostly whitespace-only changes; it also
+adds curly-braces to some 'if' statements.
+This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
+but some other files remain to be handled.
+Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
+Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+[PMM: tweaked commit message]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/arm/boot.c       |   8 +--
+ hw/char/omap_uart.c |  49 +++++++++--------
+ hw/gpio/zaurus.c    |  59 ++++++++++----------
+ hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
+files changed, 130 insertions(+), 116 deletions(-)
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/boot.c
++++ b/hw/arm/boot.c
+@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
+     WRITE_WORD(p, info->ram_size / 4096);
+     /* ramdisk_size */
+     WRITE_WORD(p, 0);
+-#define FLAG_READONLY    1
+-#define FLAG_RDLOAD    4
+-#define FLAG_RDPROMPT    8
++#define FLAG_READONLY 1
++#define FLAG_RDLOAD   4
++#define FLAG_RDPROMPT 8
+     /* flags */
+     WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
+     /* rootdev */
+-    WRITE_WORD(p, (31 << 8) | 0);    /* /dev/mtdblock0 */
++    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
+     /* video_num_cols */
+     WRITE_WORD(p, 0);
+     /* video_num_rows */
+diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/char/omap_uart.c
++++ b/hw/char/omap_uart.c
+@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
+     s->fclk = fclk;
+     s->irq = irq;
+     s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
+-                               omap_clk_getrate(fclk)/16,
++                               omap_clk_getrate(fclk) / 16,
+                                chr ?: qemu_chr_new(label, "null", NULL),
+                                DEVICE_NATIVE_ENDIAN);
+     return s;
+@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
+     }
+     switch (addr) {
+-    case 0x20:    /* MDR1 */
++    case 0x20:  /* MDR1 */
+         return s->mdr[0];
+-    case 0x24:    /* MDR2 */
++    case 0x24:  /* MDR2 */
+         return s->mdr[1];
+-    case 0x40:    /* SCR */
++    case 0x40:  /* SCR */
+         return s->scr;
+-    case 0x44:    /* SSR */
++    case 0x44:  /* SSR */
+         return 0x0;
+-    case 0x48:    /* EBLR (OMAP2) */
++    case 0x48:  /* EBLR (OMAP2) */
+         return s->eblr;
+-    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
++    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
+         return s->clksel;
+-    case 0x50:    /* MVR */
++    case 0x50:  /* MVR */
+         return 0x30;
+-    case 0x54:    /* SYSC (OMAP2) */
++    case 0x54:  /* SYSC (OMAP2) */
+         return s->syscontrol;
+-    case 0x58:    /* SYSS (OMAP2) */
++    case 0x58:  /* SYSS (OMAP2) */
+         return 1;
+-    case 0x5c:    /* WER (OMAP2) */
++    case 0x5c:  /* WER (OMAP2) */
+         return s->wkup;
+-    case 0x60:    /* CFPS (OMAP2) */
++    case 0x60:  /* CFPS (OMAP2) */
+         return s->cfps;
+     }
+@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
+     }
+     switch (addr) {
+-    case 0x20:    /* MDR1 */
++    case 0x20:  /* MDR1 */
+         s->mdr[0] = value & 0x7f;
+         break;
+-    case 0x24:    /* MDR2 */
++    case 0x24:  /* MDR2 */
+         s->mdr[1] = value & 0xff;
+         break;
+-    case 0x40:    /* SCR */
++    case 0x40:  /* SCR */
+         s->scr = value & 0xff;
+         break;
+-    case 0x48:    /* EBLR (OMAP2) */
++    case 0x48:  /* EBLR (OMAP2) */
+         s->eblr = value & 0xff;
+         break;
+-    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
++    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
+         s->clksel = value & 1;
+         break;
+-    case 0x44:    /* SSR */
+-    case 0x50:    /* MVR */
+-    case 0x58:    /* SYSS (OMAP2) */
++    case 0x44:  /* SSR */
++    case 0x50:  /* MVR */
++    case 0x58:  /* SYSS (OMAP2) */
+         OMAP_RO_REG(addr);
+         break;
+-    case 0x54:    /* SYSC (OMAP2) */
++    case 0x54:  /* SYSC (OMAP2) */
+         s->syscontrol = value & 0x1d;
+-        if (value & 2)
++        if (value & 2) {
+             omap_uart_reset(s);
++        }
+         break;
+-    case 0x5c:    /* WER (OMAP2) */
++    case 0x5c:  /* WER (OMAP2) */
+         s->wkup = value & 0x7f;
+         break;
+-    case 0x60:    /* CFPS (OMAP2) */
++    case 0x60:  /* CFPS (OMAP2) */
+         s->cfps = value & 0xff;
+         break;
+     default:
+diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/gpio/zaurus.c
++++ b/hw/gpio/zaurus.c
+@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
+     uint16_t isr;
+ };
+-#define SCOOP_MCR    0x00
+-#define SCOOP_CDR    0x04
+-#define SCOOP_CSR    0x08
+-#define SCOOP_CPR    0x0c
+-#define SCOOP_CCR    0x10
+-#define SCOOP_IRR_IRM    0x14
+-#define SCOOP_IMR    0x18
+-#define SCOOP_ISR    0x1c
+-#define SCOOP_GPCR    0x20
+-#define SCOOP_GPWR    0x24
+-#define SCOOP_GPRR    0x28
++#define SCOOP_MCR       0x00
++#define SCOOP_CDR       0x04
++#define SCOOP_CSR       0x08
++#define SCOOP_CPR       0x0c
++#define SCOOP_CCR       0x10
++#define SCOOP_IRR_IRM   0x14
++#define SCOOP_IMR       0x18
++#define SCOOP_ISR       0x1c
++#define SCOOP_GPCR      0x20
++#define SCOOP_GPWR      0x24
++#define SCOOP_GPRR      0x28
+-static inline void scoop_gpio_handler_update(ScoopInfo *s) {
++static inline void scoop_gpio_handler_update(ScoopInfo *s)
++{
+     uint32_t level, diff;
+     int bit;
+     level = s->gpio_level & s->gpio_dir;
+@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
+         break;
+     case SCOOP_CPR:
+         s->power = value;
+-        if (value & 0x80)
++        if (value & 0x80) {
+             s->power |= 0x8040;
++        }
+         break;
+     case SCOOP_CCR:
+         s->ccr = value;
+@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
+         scoop_gpio_handler_update(s);
+         break;
+     case SCOOP_GPWR:
+-    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
++    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
+         s->gpio_level = value & s->gpio_dir;
+         scoop_gpio_handler_update(s);
+         break;
+@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
+ {
+     ScoopInfo *s = (ScoopInfo *) opaque;
+-    if (level)
++    if (level) {
+         s->gpio_level |= (1 << line);
+-    else
++    } else {
+         s->gpio_level &= ~(1 << line);
++    }
+ }
+ static void scoop_init(Object *obj)
+@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
+     return 0;
+ }
+-static bool is_version_0 (void *opaque, int version_id)
++static bool is_version_0(void *opaque, int version_id)
+ {
+     return version_id == 0;
+ }
+@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
+ /* Write the bootloader parameters memory area.  */
+-#define MAGIC_CHG(a, b, c, d)    ((d << 24) | (c << 16) | (b << 8) | a)
++#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
+ static struct QEMU_PACKED sl_param_info {
+     uint32_t comadj_keyword;
+@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
+     uint32_t phad_keyword;
+     int32_t phadadj;
+ } zaurus_bootparam = {
+-    .comadj_keyword    = MAGIC_CHG('C', 'M', 'A', 'D'),
+-    .comadj        = 125,
+-    .uuid_keyword    = MAGIC_CHG('U', 'U', 'I', 'D'),
+-    .uuid        = { -1 },
+-    .touch_keyword    = MAGIC_CHG('T', 'U', 'C', 'H'),
+-    .touch_xp        = -1,
+-    .adadj_keyword    = MAGIC_CHG('B', 'V', 'A', 'D'),
+-    .adadj        = -1,
+-    .phad_keyword    = MAGIC_CHG('P', 'H', 'A', 'D'),
+-    .phadadj        = 0x01,
++    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
++    .comadj             = 125,
++    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
++    .uuid               = { -1 },
++    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
++    .touch_xp           = -1,
++    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
++    .adadj              = -1,
++    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
++    .phadadj            = 0x01,
+ };
+ void sl_bootparam_write(hwaddr ptr)
+diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/input/tsc2005.c
++++ b/hw/input/tsc2005.c
+@@ -XXX,XX +XXX,XX @@
+ #include "migration/vmstate.h"
+ #include "trace.h"
+-#define TSC_CUT_RESOLUTION(value, p)    ((value) >> (16 - (p ? 12 : 10)))
++#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
+ typedef struct {
+-    qemu_irq pint;    /* Combination of the nPENIRQ and DAV signals */
++    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
+     QEMUTimer *timer;
+     uint16_t model;
+@@ -XXX,XX +XXX,XX @@ typedef struct {
+ } TSC2005State;
+ enum {
+-    TSC_MODE_XYZ_SCAN    = 0x0,
++    TSC_MODE_XYZ_SCAN = 0x0,
+     TSC_MODE_XY_SCAN,
+     TSC_MODE_X,
+     TSC_MODE_Y,
+@@ -XXX,XX +XXX,XX @@ enum {
+ };
+ static const uint16_t mode_regs[16] = {
+-    0xf000,    /* X, Y, Z scan */
+-    0xc000,    /* X, Y scan */
+-    0x8000,    /* X */
+-    0x4000,    /* Y */
+-    0x3000,    /* Z */
+-    0x0800,    /* AUX */
+-    0x0400,    /* TEMP1 */
+-    0x0200,    /* TEMP2 */
+-    0x0800,    /* AUX scan */
+-    0x0040,    /* X test */
+-    0x0020,    /* Y test */
+-    0x0080,    /* Short-circuit test */
+-    0x0000,    /* Reserved */
+-    0x0000,    /* X+, X- drivers */
+-    0x0000,    /* Y+, Y- drivers */
+-    0x0000,    /* Y+, X- drivers */
++    0xf000, /* X, Y, Z scan */
++    0xc000, /* X, Y scan */
++    0x8000, /* X */
++    0x4000, /* Y */
++    0x3000, /* Z */
++    0x0800, /* AUX */
++    0x0400, /* TEMP1 */
++    0x0200, /* TEMP2 */
++    0x0800, /* AUX scan */
++    0x0040, /* X test */
++    0x0020, /* Y test */
++    0x0080, /* Short-circuit test */
++    0x0000, /* Reserved */
++    0x0000, /* X+, X- drivers */
++    0x0000, /* Y+, Y- drivers */
++    0x0000, /* Y+, X- drivers */
+ };
+-#define X_TRANSFORM(s)            \
++#define X_TRANSFORM(s)      \
+     ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
+-#define Y_TRANSFORM(s)            \
++#define Y_TRANSFORM(s)      \
+     ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
+-#define Z1_TRANSFORM(s)            \
++#define Z1_TRANSFORM(s)     \
+     ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
+-#define Z2_TRANSFORM(s)            \
++#define Z2_TRANSFORM(s)     \
+     ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
+-#define AUX_VAL                (700 << 4)    /* +/- 3 at 12-bit */
+-#define TEMP1_VAL            (1264 << 4)    /* +/- 5 at 12-bit */
+-#define TEMP2_VAL            (1531 << 4)    /* +/- 5 at 12-bit */
++#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
++#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
++#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
+ static uint16_t tsc2005_read(TSC2005State *s, int reg)
+ {
+     uint16_t ret;
+     switch (reg) {
+-    case 0x0:    /* X */
++    case 0x0: /* X */
+         s->dav &= ~mode_regs[TSC_MODE_X];
+         return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
+                 (s->noise & 3);
+-    case 0x1:    /* Y */
++    case 0x1: /* Y */
+         s->dav &= ~mode_regs[TSC_MODE_Y];
+-        s->noise ++;
++        s->noise++;
+         return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
+                 (s->noise & 3);
+-    case 0x2:    /* Z1 */
++    case 0x2: /* Z1 */
+         s->dav &= 0xdfff;
+         return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
+                 (s->noise & 3);
+-    case 0x3:    /* Z2 */
++    case 0x3: /* Z2 */
+         s->dav &= 0xefff;
+         return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
+                 (s->noise & 3);
+-    case 0x4:    /* AUX */
++    case 0x4: /* AUX */
+         s->dav &= ~mode_regs[TSC_MODE_AUX];
+         return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
+-    case 0x5:    /* TEMP1 */
++    case 0x5: /* TEMP1 */
+         s->dav &= ~mode_regs[TSC_MODE_TEMP1];
+         return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
+                 (s->noise & 5);
+-    case 0x6:    /* TEMP2 */
++    case 0x6: /* TEMP2 */
+         s->dav &= 0xdfff;
+         s->dav &= ~mode_regs[TSC_MODE_TEMP2];
+         return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
+                 (s->noise & 3);
+-    case 0x7:    /* Status */
++    case 0x7: /* Status */
+         ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
+         s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
+                         mode_regs[TSC_MODE_TS_TEST]);
+         s->reset = true;
+         return ret;
+-    case 0x8:   /* AUX high threshold */
++    case 0x8: /* AUX high threshold */
+         return s->aux_thr[1];
+-    case 0x9:   /* AUX low threshold */
++    case 0x9: /* AUX low threshold */
+         return s->aux_thr[0];
+-    case 0xa:   /* TEMP high threshold */
++    case 0xa: /* TEMP high threshold */
+         return s->temp_thr[1];
+-    case 0xb:   /* TEMP low threshold */
++    case 0xb: /* TEMP low threshold */
+         return s->temp_thr[0];
+-    case 0xc:    /* CFR0 */
++    case 0xc: /* CFR0 */
+         return (s->pressure << 15) | ((!s->busy) << 14) |
+-                (s->nextprecision << 13) | s->timing[0];
+-    case 0xd:    /* CFR1 */
++                (s->nextprecision << 13) | s->timing[0];
++    case 0xd: /* CFR1 */
+         return s->timing[1];
+-    case 0xe:    /* CFR2 */
++    case 0xe: /* CFR2 */
+         return (s->pin_func << 14) | s->filter;
+-    case 0xf:    /* Function select status */
++    case 0xf: /* Function select status */
+         return s->function >= 0 ? 1 << s->function : 0;
+     }
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
+         s->temp_thr[0] = data;
+         break;
+-    case 0xc:    /* CFR0 */
++    case 0xc: /* CFR0 */
+         s->host_mode = (data >> 15) != 0;
+         if (s->enabled != !(data & 0x4000)) {
+             s->enabled = !(data & 0x4000);
+             trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
+-            if (s->busy && !s->enabled)
++            if (s->busy && !s->enabled) {
+                 timer_del(s->timer);
++            }
+             s->busy = s->busy && s->enabled;
+         }
+         s->nextprecision = (data >> 13) & 1;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
+                           "tsc2005_write: illegal conversion clock setting\n");
+         }
+         break;
+-    case 0xd:    /* CFR1 */
++    case 0xd: /* CFR1 */
+         s->timing[1] = data & 0xf07;
+         break;
+-    case 0xe:    /* CFR2 */
++    case 0xe: /* CFR2 */
+         s->pin_func = (data >> 14) & 3;
+         s->filter = data & 0x3fff;
+         break;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     switch (s->nextfunction) {
+     case TSC_MODE_XYZ_SCAN:
+     case TSC_MODE_XY_SCAN:
+-        if (!s->host_mode && s->dav)
++        if (!s->host_mode && s->dav) {
+             s->enabled = false;
+-        if (!s->pressure)
++        }
++        if (!s->pressure) {
+             return;
++        }
+         /* Fall through */
+     case TSC_MODE_AUX_SCAN:
+         break;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     case TSC_MODE_X:
+     case TSC_MODE_Y:
+     case TSC_MODE_Z:
+-        if (!s->pressure)
++        if (!s->pressure) {
+             return;
++        }
+         /* Fall through */
+     case TSC_MODE_AUX:
+     case TSC_MODE_TEMP1:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     case TSC_MODE_X_TEST:
+     case TSC_MODE_Y_TEST:
+     case TSC_MODE_TS_TEST:
+-        if (s->dav)
++        if (s->dav) {
+             s->enabled = false;
++        }
+         break;
+     case TSC_MODE_RESERVED:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+         return;
+     }
+-    if (!s->enabled || s->busy)
++    if (!s->enabled || s->busy) {
+         return;
++    }
+     s->busy = true;
+     s->precision = s->nextprecision;
+     s->function = s->nextfunction;
+-    s->pdst = !s->pnd0;    /* Synchronised on internal clock */
++    s->pdst = !s->pnd0; /* Synchronised on internal clock */
+     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
+         (NANOSECONDS_PER_SECOND >> 7);
+     timer_mod(s->timer, expires);
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+     TSC2005State *s = opaque;
+     uint32_t ret = 0;
+-    switch (s->state ++) {
++    switch (s->state++) {
+     case 0:
+         if (value & 0x80) {
+             /* Command */
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+                 if (s->enabled != !(value & 1)) {
+                     s->enabled = !(value & 1);
+                     trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
+-                    if (s->busy && !s->enabled)
++                    if (s->busy && !s->enabled) {
+                         timer_del(s->timer);
++                    }
+                     s->busy = s->busy && s->enabled;
+                 }
+                 tsc2005_pin_update(s);
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+         break;
+     case 1:
+-        if (s->command)
++        if (s->command) {
+             ret = (s->data >> 8) & 0xff;
+-        else
++        } else {
+             s->data |= value << 8;
++        }
+         break;
+     case 2:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
+     /* Timer ticked -- a set of conversions has been finished.  */
+-    if (!s->busy)
++    if (!s->busy) {
+         return;
++    }
+     s->busy = false;
+     s->dav |= mode_regs[function];
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
+      * signaling TS events immediately, but for now we simulate
+      * the first conversion delay for sake of correctness.
+      */
+-    if (p != s->pressure)
++    if (p != s->pressure) {
+         tsc2005_pin_update(s);
++    }
+ }
+ static int tsc2005_post_load(void *opaque, int version_id)
+--
+.34.1

-[PULL 03/29] Maintainers: add myself as reviewer for sbsa-ref
+[PULL 08/42] docs/system: Remove ADC from raspi documentation
-From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+From: Rayhan Faizel <rayhan.faizel@gmail.com>
-At Linaro I work on sbsa-ref, know direction it goes.
+None of the RPi boards have ADC on-board. In real life, an external ADC chip
 is required to operate on analog signals.
-May not get code details each time.
+Signed-off-by: Rayhan Faizel <rayhan.faizel@gmail.com>
 Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-Message-id: 20230515143753.365591-1-marcin.juszkiewicz@linaro.org
+Message-id: 20240512085716.222326-1-rayhan.faizel@gmail.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- MAINTAINERS | 1 +
+ docs/system/arm/raspi.rst | 1 -
-file changed, 1 insertion(+)
+file changed, 1 deletion(-)
-diff --git a/MAINTAINERS b/MAINTAINERS
+diff --git a/docs/system/arm/raspi.rst b/docs/system/arm/raspi.rst
 index XXXXXXX..XXXXXXX 100644
---- a/MAINTAINERS
+--- a/docs/system/arm/raspi.rst
-+++ b/MAINTAINERS
++++ b/docs/system/arm/raspi.rst
-@@ -XXX,XX +XXX,XX @@ SBSA-REF
+@@ -XXX,XX +XXX,XX @@ Implemented devices
- M: Radoslaw Biernacki <rad@semihalf.com>
+ Missing devices
- M: Peter Maydell <peter.maydell@linaro.org>
+ ---------------
- R: Leif Lindholm <quic_llindhol@quicinc.com>
-+R: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+- * Analog to Digital Converter (ADC)
- L: qemu-arm@nongnu.org
+  * Pulse Width Modulation (PWM)
- S: Maintained
+  * PCIE Root Port (raspi4b)
- F: hw/arm/sbsa-ref.c
+  * GENET Ethernet Controller (raspi4b)
 --
 .34.1

-New patch
+[PULL 09/42] target/arm: Use PLD, PLDW, PLI not NOP for t32
+From: Richard Henderson <richard.henderson@linaro.org>
+This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
+but are introduced with ARMv7 and ARMv7MP respectively.
+For clarity, do not use NOP for PLD.
+Note that there is no PLDW (literal). Architecturally in the
+T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
+that it should be zero and if it is not then the behaviour
+is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
+value of the bit).
+In our implementation we have patterns for both:
++    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
++    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
+and so we effectively ignore the value of bit 5.  (This is a
+permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
+behaviour change in this commit, since we previously had NOP lines
+for both those patterns.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
+[PMM: adjusted commit message to note that PLD (lit) T1 bit 5
+being 1 is an UNPREDICTABLE case.]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
+ target/arm/tcg/translate.c |  4 ++--
+files changed, 14 insertions(+), 15 deletions(-)
+diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/t32.decode
++++ b/target/arm/tcg/t32.decode
+@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
+ # Note that Load, unsigned (literal) overlaps all other load encodings.
+ {
+   {
+-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
++    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
+     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
++    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
+     LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
+   }
+   LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
++    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
+     LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
++    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
+     LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+ {
+   {
+-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
++    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
+     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
++    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
+     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
+   }
+   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
++    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
+     LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
++    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
+     LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
+   LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
+   LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
+ }
+-# NOPs here are PLI.
+ {
+   {
+-    NOP          1111 1001 -001 1111 1111 ------------
++    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
+     LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1001 1001 ---- 1111 ------------
++    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
+     LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
+   }
+   LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1001 0001 ---- 1111 1100 --------
++    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
+     LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1001 0001 ---- 1111 000000 -- ----
++    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
+     LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.c
++++ b/target/arm/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
+     return ENABLE_ARCH_5TE;
+ }
+-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
++static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
+ {
+     return arm_dc_feature(s, ARM_FEATURE_V7MP);
+ }
+-static bool trans_PLI(DisasContext *s, arg_PLD *a)
++static bool trans_PLI(DisasContext *s, arg_PLI *a)
+ {
+     return ENABLE_ARCH_7;
+ }
+--
+.34.1

-[PULL 14/29] target/arm: Replace bitmask64 with MAKE_64BIT_MASK
+[PULL 10/42] target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
 From: Richard Henderson <richard.henderson@linaro.org>
-Use the bitops.h macro rather than rolling our own here.
+Fixes RISU mismatch for "fcvtzs h31, h0, #14".
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20230512144106.3608981-9-peter.maydell@linaro.org
 ---
- target/arm/tcg/translate-a64.c | 11 ++---------
+ target/arm/tcg/translate-a64.c | 3 +++
-file changed, 2 insertions(+), 9 deletions(-)
+file changed, 3 insertions(+)
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t bitfield_replicate(uint64_t mask, unsigned int e)
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
-     return mask;
+             read_vec_element_i32(s, tcg_op, rn, pass, size);
- }
+             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
+             if (is_scalar) {
--/* Return a value with the bottom len bits set (where 0 < len <= 64) */
++                if (size == MO_16 && !is_u) {
--static inline uint64_t bitmask64(unsigned int length)
++                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
--{
++                }
--    assert(length > 0 && length <= 64);
+                 write_fp_sreg(s, rd, tcg_op);
--    return ~0ULL >> (64 - length);
+             } else {
--}
+                 write_vec_element_i32(s, tcg_op, rd, pass, size);
 -
  /* Simplified variant of pseudocode DecodeBitMasks() for the case where we
   * only require the wmask. Returns false if the imms/immr/immn are a reserved
   * value (ie should cause a guest UNDEF exception), and true if they are
@@ -XXX,XX +XXX,XX @@ bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
      /* Create the value of one element: s+1 set bits rotated
       * by r within the element (which is e bits wide)...
       */
 -    mask = bitmask64(s + 1);
 +    mask = MAKE_64BIT_MASK(0, s + 1);
      if (r) {
          mask = (mask >> r) | (mask << (e - r));
 -        mask &= bitmask64(e);
 +        mask &= MAKE_64BIT_MASK(0, e);
      }
      /* ...then replicate the element over the whole 64 bit value */
      mask = bitfield_replicate(mask, e);
 --
 .34.1

-[PULL 02/29] target/arm: Fix vd == vm overlap in sve_ldff1_z
+[PULL 11/42] target/arm: Fix decode of FMOV (hp) vs MOVI
 From: Richard Henderson <richard.henderson@linaro.org>
-If vd == vm, copy vm to scratch, so that we can pre-zero
+The decode of FMOV (vector, immediate, half-precision) vs
-the output and still access the gather indicies.
+invalid cases of MOVI are incorrect.
-Cc: qemu-stable@nongnu.org
+Fixes RISU mismatch for invalid insn 0x2f01fd31.
-Resolves: https://gitlab.com/qemu-project/qemu/-/issues/1612
 Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230504104232.1877774-1-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/sve_helper.c | 6 ++++++
+ target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
-file changed, 6 insertions(+)
+file changed, 14 insertions(+), 10 deletions(-)
-diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/tcg/sve_helper.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/tcg/sve_helper.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-     intptr_t reg_off;
+     bool is_q = extract32(insn, 30, 1);
-     SVEHostPage info;
+     uint64_t imm = 0;
-     target_ulong addr, in_page;
-+    ARMVectorReg scratch;
+-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
+-        /* Check for FMOV (vector, immediate) - half-precision */
-     /* Skip to the first true predicate.  */
+-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
-     reg_off = find_next_active(vg, 0, reg_max, esz);
++    if (o2) {
-@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
++        if (cmode != 0xf || is_neg) {
-         return;
+             unallocated_encoding(s);
              return;
          }
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    if (cmode == 15 && o2 && !is_neg) {
          /* FMOV (vector, immediate) - half-precision */
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            unallocated_encoding(s);
 +            return;
 +        }
          imm = vfp_expand_imm(MO_16, abcdefgh);
          /* now duplicate across the lanes */
          imm = dup_const(MO_16, imm);
      } else {
 +        if (cmode == 0xf && is_neg && !is_q) {
 +            unallocated_encoding(s);
 +            return;
 +        }
          imm = asimd_imm_const(abcdefgh, cmode, is_neg);
      }
-+    /* Protect against overlap between vd and vm. */
++    if (!fp_access_check(s)) {
-+    if (unlikely(vd == vm)) {
++        return;
 +        vm = memcpy(&scratch, vm, reg_max);
 +    }
 +
-     /*
+     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
-      * Probe the first element, allowing faults.
+         /* MOVI or MVNI, with MVNI negation handled above.  */
-      */
+         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
 --
 .34.1

-[PULL 01/29] sbsa-ref: switch default cpu core to Neoverse-N1
+[PULL 12/42] target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
-From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+From: Richard Henderson <richard.henderson@linaro.org>
-The world outside moves to newer and newer cpu cores. Let move SBSA
+All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
-Reference Platform to something newer as well.
+Fixes a RISU miscompare for invalid insn 0x5ef0c87a.
-Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
-Reviewed-by: Leif Lindholm <quic_llindhol@quicinc.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230506183417.1360427-1-marcin.juszkiewicz@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/sbsa-ref.c | 2 +-
+ target/arm/tcg/translate-a64.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/sbsa-ref.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/hw/arm/sbsa-ref.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_class_init(ObjectClass *oc, void *data)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+     case 0x2f: /* FMINP */
-     mc->init = sbsa_ref_init;
+         /* FP op, size[0] is 32 or 64 bit*/
-     mc->desc = "QEMU 'SBSA Reference' ARM Virtual Machine";
+         if (!u) {
--    mc->default_cpu_type = ARM_CPU_TYPE_NAME("cortex-a57");
+-            if (!dc_isar_feature(aa64_fp16, s)) {
-+    mc->default_cpu_type = ARM_CPU_TYPE_NAME("neoverse-n1");
++            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
-     mc->max_cpus = 512;
+                 unallocated_encoding(s);
-     mc->pci_allow_0_address = true;
+                 return;
-     mc->minimum_page_bits = 12;
+             } else {
 --
 .34.1

-[PULL 28/29] hw/arm/vexpress: Avoid trivial memory leak of 'flashalias'
+[PULL 13/42] target/arm: Split out gengvec.c
-In the vexpress board code, we allocate a new MemoryRegion at the top
+From: Richard Henderson <richard.henderson@linaro.org>
 of vexpress_common_init() but only set it up and use it inside the
 "if (map[VE_NORFLASHALIAS] != -1)" conditional, so we leak it if not.
 This isn't a very interesting leak as it's a tiny amount of memory
 once at startup, but it's easy to fix.
-We could silence Coverity simply by moving the g_new() into the
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-if() block, but this use of g_new(MemoryRegion, 1) is a legacy from
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
-when this board model was originally written; we wouldn't do that
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-if we wrote it today. The MemoryRegions are conceptually a part of
+Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
-the board and must not go away until the whole board is done with
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-(at the end of the simulation), so they belong in its state struct.
+---
  target/arm/tcg/translate.h |    5 +
  target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
  target/arm/tcg/translate.c | 1588 -----------------------------------
  target/arm/tcg/meson.build |    1 +
 files changed, 1618 insertions(+), 1588 deletions(-)
  create mode 100644 target/arm/tcg/gengvec.c
-This machine already has a VexpressMachineState struct that extends
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 MachineState, so statically put the MemoryRegions in there instead of
 dynamically allocating them separately at runtime.
 Spotted by Coverity (CID 1509083).
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
 Message-id: 20230512170223.3801643-3-peter.maydell@linaro.org
 ---
  hw/arm/vexpress.c | 40 ++++++++++++++++++++--------------------
 file changed, 20 insertions(+), 20 deletions(-)
 diff --git a/hw/arm/vexpress.c b/hw/arm/vexpress.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/vexpress.c
+--- a/target/arm/tcg/translate.h
-+++ b/hw/arm/vexpress.c
++++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ struct VexpressMachineClass {
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
- struct VexpressMachineState {
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-     MachineState parent;
-+    MemoryRegion vram;
++void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
-+    MemoryRegion sram;
++void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
-+    MemoryRegion flashalias;
++void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
-+    MemoryRegion lowram;
++void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
-+    MemoryRegion a15sram;
++
-     bool secure;
+ void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-     bool virt;
+                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
- };
+ void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-@@ -XXX,XX +XXX,XX @@ struct VexpressMachineState {
+diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
- #define TYPE_VEXPRESS_A15_MACHINE   MACHINE_TYPE_NAME("vexpress-a15")
+new file mode 100644
- OBJECT_DECLARE_TYPE(VexpressMachineState, VexpressMachineClass, VEXPRESS_MACHINE)
+index XXXXXXX..XXXXXXX
+--- /dev/null
--typedef void DBoardInitFn(const VexpressMachineState *machine,
++++ b/target/arm/tcg/gengvec.c
-+typedef void DBoardInitFn(VexpressMachineState *machine,
+@@ -XXX,XX +XXX,XX @@
-                           ram_addr_t ram_size,
++/*
-                           const char *cpu_type,
++ *  ARM generic vector expansion
-                           qemu_irq *pic);
++ *
-@@ -XXX,XX +XXX,XX @@ static void init_cpus(MachineState *ms, const char *cpu_type,
++ *  Copyright (c) 2003 Fabrice Bellard
-     }
++ *  Copyright (c) 2005-2007 CodeSourcery
 + *  Copyright (c) 2007 OpenedHand, Ltd.
 + *
 + * This library is free software; you can redistribute it and/or
 + * modify it under the terms of the GNU Lesser General Public
 + * License as published by the Free Software Foundation; either
 + * version 2.1 of the License, or (at your option) any later version.
 + *
 + * This library is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 + * Lesser General Public License for more details.
 + *
 + * You should have received a copy of the GNU Lesser General Public
 + * License along with this library; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
 +#include "translate.h"
 +
 +
 +static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
 +                            uint32_t opr_sz, uint32_t max_sz,
 +                            gen_helper_gvec_3_ptr *fn)
 +{
 +    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
 +
 +    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
 +    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
 +                       opr_sz, max_sz, 0, fn);
 +}
 +
 +void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3_ptr * const fns[2] = {
 +        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
 +    };
 +    tcg_debug_assert(vece >= 1 && vece <= 2);
 +    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 +}
 +
 +void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3_ptr * const fns[2] = {
 +        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
 +    };
 +    tcg_debug_assert(vece >= 1 && vece <= 2);
 +    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 +}
 +
 +#define GEN_CMP0(NAME, COND)                              \
 +    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
 +              uint32_t opr_sz, uint32_t max_sz)           \
 +    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
 +
 +GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
 +GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
 +GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
 +GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
 +GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
 +
 +#undef GEN_CMP0
 +
 +static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_sar8i_i64(a, a, shift);
 +    tcg_gen_vec_add8_i64(d, d, a);
 +}
 +
 +static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_sar16i_i64(a, a, shift);
 +    tcg_gen_vec_add16_i64(d, d, a);
 +}
 +
 +static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_sari_i32(a, a, shift);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_sari_i64(a, a, shift);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    tcg_gen_sari_vec(vece, a, a, sh);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_ssra8_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_ssra16_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ssra32_i32,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ssra64_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.
 +     */
 +    shift = MIN(shift, (8 << vece) - 1);
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
 +
 +static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_shr8i_i64(a, a, shift);
 +    tcg_gen_vec_add8_i64(d, d, a);
 +}
 +
 +static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_vec_shr16i_i64(a, a, shift);
 +    tcg_gen_vec_add16_i64(d, d, a);
 +}
 +
 +static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_shri_i32(a, a, shift);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_shri_i64(a, a, shift);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    tcg_gen_shri_vec(vece, a, a, sh);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_usra8_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8, },
 +        { .fni8 = gen_usra16_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16, },
 +        { .fni4 = gen_usra32_i32,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32, },
 +        { .fni8 = gen_usra64_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64, },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Unsigned results in all zeros as input to accumulate: nop.
 +     */
 +    if (shift < (8 << vece)) {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    } else {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    }
 +}
 +
 +/*
 + * Shift one less than the requested amount, and the low bit is
 + * the rounding bit.  For the 8 and 16-bit operations, because we
 + * mask the low bit, we can perform a normal integer shift instead
 + * of a vector shift.
 + */
 +static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 +    tcg_gen_vec_sar8i_i64(d, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +}
 +
 +static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 +    tcg_gen_vec_sar16i_i64(d, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +}
 +
 +void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t;
 +
 +    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
 +    if (sh == 32) {
 +        tcg_gen_movi_i32(d, 0);
 +        return;
 +    }
 +    t = tcg_temp_new_i32();
 +    tcg_gen_extract_i32(t, a, sh - 1, 1);
 +    tcg_gen_sari_i32(d, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 + void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_extract_i64(t, a, sh - 1, 1);
 +    tcg_gen_sari_i64(d, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shri_vec(vece, t, a, sh - 1);
 +    tcg_gen_dupi_vec(vece, ones, 1);
 +    tcg_gen_and_vec(vece, t, t, ones);
 +    tcg_gen_sari_vec(vece, d, a, sh);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_srshr8_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_srshr16_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_srshr32_i32,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_srshr64_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Signed results in all sign bits.  With rounding, this produces
 +         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +         * I.e. always zero.
 +         */
 +        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr8_i64(t, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +}
 +
 +static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr16_i64(t, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +}
 +
 +static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    gen_srshr32_i32(t, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr64_i64(t, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    gen_srshr_vec(vece, t, a, sh);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_srsra8_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_srsra16_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_srsra32_i32,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_srsra64_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.  With rounding, this produces
 +     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +     * I.e. always zero.  With accumulation, this leaves D unchanged.
 +     */
 +    if (shift == (8 << vece)) {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 +    tcg_gen_vec_shr8i_i64(d, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +}
 +
 +static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 +    tcg_gen_vec_shr16i_i64(d, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +}
 +
 +void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t;
 +
 +    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
 +    if (sh == 32) {
 +        tcg_gen_extract_i32(d, a, sh - 1, 1);
 +        return;
 +    }
 +    t = tcg_temp_new_i32();
 +    tcg_gen_extract_i32(t, a, sh - 1, 1);
 +    tcg_gen_shri_i32(d, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_extract_i64(t, a, sh - 1, 1);
 +    tcg_gen_shri_i64(d, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shri_vec(vece, t, a, shift - 1);
 +    tcg_gen_dupi_vec(vece, ones, 1);
 +    tcg_gen_and_vec(vece, t, t, ones);
 +    tcg_gen_shri_vec(vece, d, a, shift);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_urshr8_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_urshr16_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_urshr32_i32,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_urshr64_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Unsigned results in zero.  With rounding, this produces a
 +         * copy of the most significant bit.
 +         */
 +        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 8) {
 +        tcg_gen_vec_shr8i_i64(t, a, 7);
 +    } else {
 +        gen_urshr8_i64(t, a, sh);
 +    }
 +    tcg_gen_vec_add8_i64(d, d, t);
 +}
 +
 +static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 16) {
 +        tcg_gen_vec_shr16i_i64(t, a, 15);
 +    } else {
 +        gen_urshr16_i64(t, a, sh);
 +    }
 +    tcg_gen_vec_add16_i64(d, d, t);
 +}
 +
 +static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    if (sh == 32) {
 +        tcg_gen_shri_i32(t, a, 31);
 +    } else {
 +        gen_urshr32_i32(t, a, sh);
 +    }
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 64) {
 +        tcg_gen_shri_i64(t, a, 63);
 +    } else {
 +        gen_urshr64_i64(t, a, sh);
 +    }
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    if (sh == (8 << vece)) {
 +        tcg_gen_shri_vec(vece, t, a, sh - 1);
 +    } else {
 +        gen_urshr_vec(vece, t, a, sh);
 +    }
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_ursra8_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_ursra16_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ursra32_i32,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ursra64_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
 +
 +static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_8, 0xff >> shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_shri_i32(a, a, shift);
 +    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
 +}
 +
 +static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_shri_i64(a, a, shift);
 +    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
 +}
 +
 +static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec m = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
 +    tcg_gen_shri_vec(vece, t, a, sh);
 +    tcg_gen_and_vec(vece, d, d, m);
 +    tcg_gen_or_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
 +    const GVecGen2i ops[4] = {
 +        { .fni8 = gen_shr8_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_shr16_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_shr32_ins_i32,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_shr64_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /* Shift of esize leaves destination unchanged. */
 +    if (shift < (8 << vece)) {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    } else {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    }
 +}
 +
 +static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_8, 0xff << shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shli_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    uint64_t mask = dup_const(MO_16, 0xffff << shift);
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shli_i64(t, a, shift);
 +    tcg_gen_andi_i64(t, t, mask);
 +    tcg_gen_andi_i64(d, d, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 +{
 +    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
 +}
 +
 +static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 +{
 +    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
 +}
 +
 +static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec m = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shli_vec(vece, t, a, sh);
 +    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 +    tcg_gen_and_vec(vece, d, d, m);
 +    tcg_gen_or_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
 +    const GVecGen2i ops[4] = {
 +        { .fni8 = gen_shl8_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_shl16_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_shl32_ins_i32,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_shl64_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [0..esize-1]. */
 +    tcg_debug_assert(shift >= 0);
 +    tcg_debug_assert(shift < (8 << vece));
 +
 +    if (shift == 0) {
 +        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u8(a, a, b);
 +    gen_helper_neon_add_u8(d, d, a);
 +}
 +
 +static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u8(a, a, b);
 +    gen_helper_neon_sub_u8(d, d, a);
 +}
 +
 +static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u16(a, a, b);
 +    gen_helper_neon_add_u16(d, d, a);
 +}
 +
 +static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    gen_helper_neon_mul_u16(a, a, b);
 +    gen_helper_neon_sub_u16(d, d, a);
 +}
 +
 +static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    tcg_gen_mul_i32(a, a, b);
 +    tcg_gen_add_i32(d, d, a);
 +}
 +
 +static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    tcg_gen_mul_i32(a, a, b);
 +    tcg_gen_sub_i32(d, d, a);
 +}
 +
 +static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    tcg_gen_mul_i64(a, a, b);
 +    tcg_gen_add_i64(d, d, a);
 +}
 +
 +static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    tcg_gen_mul_i64(a, a, b);
 +    tcg_gen_sub_i64(d, d, a);
 +}
 +
 +static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    tcg_gen_mul_vec(vece, a, a, b);
 +    tcg_gen_add_vec(vece, d, d, a);
 +}
 +
 +static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    tcg_gen_mul_vec(vece, a, a, b);
 +    tcg_gen_sub_vec(vece, d, d, a);
 +}
 +
 +/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
 + * these tables are shared with AArch64 which does support them.
 + */
 +void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_mul_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fni4 = gen_mla8_i32,
 +          .fniv = gen_mla_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni4 = gen_mla16_i32,
 +          .fniv = gen_mla_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_mla32_i32,
 +          .fniv = gen_mla_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_mla64_i64,
 +          .fniv = gen_mla_vec,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fni4 = gen_mls8_i32,
 +          .fniv = gen_mls_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni4 = gen_mls16_i32,
 +          .fniv = gen_mls_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_mls32_i32,
 +          .fniv = gen_mls_vec,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_mls64_i64,
 +          .fniv = gen_mls_vec,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +/* CMTST : test is "if (X & Y != 0)". */
 +static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    tcg_gen_and_i32(d, a, b);
 +    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
 +}
 +
 +void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    tcg_gen_and_i64(d, a, b);
 +    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
 +}
 +
 +static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    tcg_gen_and_vec(vece, d, a, b);
 +    tcg_gen_dupi_vec(vece, a, 0);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
 +}
 +
 +void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
 +    static const GVecGen3 ops[4] = {
 +        { .fni4 = gen_helper_neon_tst_u8,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni4 = gen_helper_neon_tst_u16,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_cmtst_i32,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_cmtst_i64,
 +          .fniv = gen_cmtst_vec,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 +{
 +    TCGv_i32 lval = tcg_temp_new_i32();
 +    TCGv_i32 rval = tcg_temp_new_i32();
 +    TCGv_i32 lsh = tcg_temp_new_i32();
 +    TCGv_i32 rsh = tcg_temp_new_i32();
 +    TCGv_i32 zero = tcg_constant_i32(0);
 +    TCGv_i32 max = tcg_constant_i32(32);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i32(lsh, shift);
 +    tcg_gen_neg_i32(rsh, lsh);
 +    tcg_gen_shl_i32(lval, src, lsh);
 +    tcg_gen_shr_i32(rval, src, rsh);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
 +}
 +
 +void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 +{
 +    TCGv_i64 lval = tcg_temp_new_i64();
 +    TCGv_i64 rval = tcg_temp_new_i64();
 +    TCGv_i64 lsh = tcg_temp_new_i64();
 +    TCGv_i64 rsh = tcg_temp_new_i64();
 +    TCGv_i64 zero = tcg_constant_i64(0);
 +    TCGv_i64 max = tcg_constant_i64(64);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i64(lsh, shift);
 +    tcg_gen_neg_i64(rsh, lsh);
 +    tcg_gen_shl_i64(lval, src, lsh);
 +    tcg_gen_shr_i64(rval, src, rsh);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
 +}
 +
 +static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
 +                         TCGv_vec src, TCGv_vec shift)
 +{
 +    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec msk, max;
 +
 +    tcg_gen_neg_vec(vece, rsh, shift);
 +    if (vece == MO_8) {
 +        tcg_gen_mov_vec(lsh, shift);
 +    } else {
 +        msk = tcg_temp_new_vec_matching(dst);
 +        tcg_gen_dupi_vec(vece, msk, 0xff);
 +        tcg_gen_and_vec(vece, lsh, shift, msk);
 +        tcg_gen_and_vec(vece, rsh, rsh, msk);
 +    }
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_shlv_vec(vece, lval, src, lsh);
 +    tcg_gen_shrv_vec(vece, rval, src, rsh);
 +
 +    max = tcg_temp_new_vec_matching(dst);
 +    tcg_gen_dupi_vec(vece, max, 8 << vece);
 +
 +    /*
 +     * The choice of LT (signed) and GEU (unsigned) are biased toward
 +     * the instructions of the x86_64 host.  For MO_8, the whole byte
 +     * is significant so we must use an unsigned compare; otherwise we
 +     * have already masked to a byte and so a signed compare works.
 +     * Other tcg hosts have a full set of comparisons and do not care.
 +     */
 +    if (vece == MO_8) {
 +        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
 +        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
 +        tcg_gen_andc_vec(vece, lval, lval, lsh);
 +        tcg_gen_andc_vec(vece, rval, rval, rsh);
 +    } else {
 +        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
 +        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
 +        tcg_gen_and_vec(vece, lval, lval, lsh);
 +        tcg_gen_and_vec(vece, rval, rval, rsh);
 +    }
 +    tcg_gen_or_vec(vece, dst, lval, rval);
 +}
 +
 +void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_neg_vec, INDEX_op_shlv_vec,
 +        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_ushl_vec,
 +          .fno = gen_helper_gvec_ushl_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_ushl_vec,
 +          .fno = gen_helper_gvec_ushl_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ushl_i32,
 +          .fniv = gen_ushl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ushl_i64,
 +          .fniv = gen_ushl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 +{
 +    TCGv_i32 lval = tcg_temp_new_i32();
 +    TCGv_i32 rval = tcg_temp_new_i32();
 +    TCGv_i32 lsh = tcg_temp_new_i32();
 +    TCGv_i32 rsh = tcg_temp_new_i32();
 +    TCGv_i32 zero = tcg_constant_i32(0);
 +    TCGv_i32 max = tcg_constant_i32(31);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i32(lsh, shift);
 +    tcg_gen_neg_i32(rsh, lsh);
 +    tcg_gen_shl_i32(lval, src, lsh);
 +    tcg_gen_umin_i32(rsh, rsh, max);
 +    tcg_gen_sar_i32(rval, src, rsh);
 +    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
 +    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
 +}
 +
 +void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 +{
 +    TCGv_i64 lval = tcg_temp_new_i64();
 +    TCGv_i64 rval = tcg_temp_new_i64();
 +    TCGv_i64 lsh = tcg_temp_new_i64();
 +    TCGv_i64 rsh = tcg_temp_new_i64();
 +    TCGv_i64 zero = tcg_constant_i64(0);
 +    TCGv_i64 max = tcg_constant_i64(63);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_ext8s_i64(lsh, shift);
 +    tcg_gen_neg_i64(rsh, lsh);
 +    tcg_gen_shl_i64(lval, src, lsh);
 +    tcg_gen_umin_i64(rsh, rsh, max);
 +    tcg_gen_sar_i64(rval, src, rsh);
 +    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
 +    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
 +}
 +
 +static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
 +                         TCGv_vec src, TCGv_vec shift)
 +{
 +    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 +    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
 +
 +    /*
 +     * Rely on the TCG guarantee that out of range shifts produce
 +     * unspecified results, not undefined behaviour (i.e. no trap).
 +     * Discard out-of-range results after the fact.
 +     */
 +    tcg_gen_neg_vec(vece, rsh, shift);
 +    if (vece == MO_8) {
 +        tcg_gen_mov_vec(lsh, shift);
 +    } else {
 +        tcg_gen_dupi_vec(vece, tmp, 0xff);
 +        tcg_gen_and_vec(vece, lsh, shift, tmp);
 +        tcg_gen_and_vec(vece, rsh, rsh, tmp);
 +    }
 +
 +    /* Bound rsh so out of bound right shift gets -1.  */
 +    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
 +    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
 +    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
 +
 +    tcg_gen_shlv_vec(vece, lval, src, lsh);
 +    tcg_gen_sarv_vec(vece, rval, src, rsh);
 +
 +    /* Select in-bound left shift.  */
 +    tcg_gen_andc_vec(vece, lval, lval, tmp);
 +
 +    /* Select between left and right shift.  */
 +    if (vece == MO_8) {
 +        tcg_gen_dupi_vec(vece, tmp, 0);
 +        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
 +    } else {
 +        tcg_gen_dupi_vec(vece, tmp, 0x80);
 +        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
 +    }
 +}
 +
 +void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
 +        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_sshl_vec,
 +          .fno = gen_helper_gvec_sshl_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_sshl_vec,
 +          .fno = gen_helper_gvec_sshl_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_sshl_i32,
 +          .fniv = gen_sshl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_sshl_i64,
 +          .fniv = gen_sshl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_add_vec(vece, x, a, b);
 +    tcg_gen_usadd_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_b,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_h,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_s,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_d,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_add_vec(vece, x, a, b);
 +    tcg_gen_ssadd_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_sub_vec(vece, x, a, b);
 +    tcg_gen_ussub_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 +                          TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec x = tcg_temp_new_vec_matching(t);
 +    tcg_gen_sub_vec(vece, x, a, b);
 +    tcg_gen_sssub_vec(vece, t, a, b);
 +    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 +    tcg_gen_or_vec(vece, sat, sat, x);
 +}
 +
 +void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_sub_i32(t, a, b);
 +    tcg_gen_sub_i32(d, b, a);
 +    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
 +}
 +
 +static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
 +}
 +
 +static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_smin_vec(vece, t, a, b);
 +    tcg_gen_smax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_sabd_i32,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_sabd_i64,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_sub_i32(t, a, b);
 +    tcg_gen_sub_i32(d, b, a);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
 +}
 +
 +static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
 +}
 +
 +static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_umin_vec(vece, t, a, b);
 +    tcg_gen_umax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uabd_i32,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uabd_i64,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +    gen_sabd_i32(t, a, b);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    gen_sabd_i64(t, a, b);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    gen_sabd_vec(vece, t, a, b);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_saba_i32,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_saba_i64,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +    gen_uabd_i32(t, a, b);
 +    tcg_gen_add_i32(d, d, t);
 +}
 +
 +static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    gen_uabd_i64(t, a, b);
 +    tcg_gen_add_i64(d, d, t);
 +}
 +
 +static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    gen_uabd_vec(vece, t, a, b);
 +    tcg_gen_add_vec(vece, d, d, t);
 +}
 +
 +void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uaba_i32,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uaba_i64,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.c
 +++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
      gen_rfe(s, pc, load_cpu_field(spsr));
  }
--static void a9_daughterboard_init(const VexpressMachineState *vms,
+-static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
-+static void a9_daughterboard_init(VexpressMachineState *vms,
+-                            uint32_t opr_sz, uint32_t max_sz,
-                                   ram_addr_t ram_size,
+-                            gen_helper_gvec_3_ptr *fn)
-                                   const char *cpu_type,
+-{
-                                   qemu_irq *pic)
+-    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
 -
 -    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
 -    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
 -                       opr_sz, max_sz, 0, fn);
 -}
 -
 -void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static gen_helper_gvec_3_ptr * const fns[2] = {
 -        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
 -    };
 -    tcg_debug_assert(vece >= 1 && vece <= 2);
 -    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 -}
 -
 -void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static gen_helper_gvec_3_ptr * const fns[2] = {
 -        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
 -    };
 -    tcg_debug_assert(vece >= 1 && vece <= 2);
 -    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 -}
 -
 -#define GEN_CMP0(NAME, COND)                              \
 -    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
 -              uint32_t opr_sz, uint32_t max_sz)           \
 -    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
 -
 -GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
 -GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
 -GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
 -GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
 -GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
 -
 -#undef GEN_CMP0
 -
 -static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_sar8i_i64(a, a, shift);
 -    tcg_gen_vec_add8_i64(d, d, a);
 -}
 -
 -static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_sar16i_i64(a, a, shift);
 -    tcg_gen_vec_add16_i64(d, d, a);
 -}
 -
 -static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_sari_i32(a, a, shift);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_sari_i64(a, a, shift);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    tcg_gen_sari_vec(vece, a, a, sh);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
 -void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sari_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_ssra8_i64,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_ssra16_i64,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_ssra32_i32,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_ssra64_i64,
 -          .fniv = gen_ssra_vec,
 -          .fno = gen_helper_gvec_ssra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize]. */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /*
 -     * Shifts larger than the element size are architecturally valid.
 -     * Signed results in all sign bits.
 -     */
 -    shift = MIN(shift, (8 << vece) - 1);
 -    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -}
 -
 -static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_shr8i_i64(a, a, shift);
 -    tcg_gen_vec_add8_i64(d, d, a);
 -}
 -
 -static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_vec_shr16i_i64(a, a, shift);
 -    tcg_gen_vec_add16_i64(d, d, a);
 -}
 -
 -static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_shri_i32(a, a, shift);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_shri_i64(a, a, shift);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    tcg_gen_shri_vec(vece, a, a, sh);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
 -void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_usra8_i64,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8, },
 -        { .fni8 = gen_usra16_i64,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16, },
 -        { .fni4 = gen_usra32_i32,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32, },
 -        { .fni8 = gen_usra64_i64,
 -          .fniv = gen_usra_vec,
 -          .fno = gen_helper_gvec_usra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64, },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize]. */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /*
 -     * Shifts larger than the element size are architecturally valid.
 -     * Unsigned results in all zeros as input to accumulate: nop.
 -     */
 -    if (shift < (8 << vece)) {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    } else {
 -        /* Nop, but we do need to clear the tail. */
 -        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 -    }
 -}
 -
 -/*
 - * Shift one less than the requested amount, and the low bit is
 - * the rounding bit.  For the 8 and 16-bit operations, because we
 - * mask the low bit, we can perform a normal integer shift instead
 - * of a vector shift.
 - */
 -static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 -    tcg_gen_vec_sar8i_i64(d, a, sh);
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 -    tcg_gen_vec_sar16i_i64(d, a, sh);
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t;
 -
 -    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
 -    if (sh == 32) {
 -        tcg_gen_movi_i32(d, 0);
 -        return;
 -    }
 -    t = tcg_temp_new_i32();
 -    tcg_gen_extract_i32(t, a, sh - 1, 1);
 -    tcg_gen_sari_i32(d, a, sh);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_extract_i64(t, a, sh - 1, 1);
 -    tcg_gen_sari_i64(d, a, sh);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_shri_vec(vece, t, a, sh - 1);
 -    tcg_gen_dupi_vec(vece, ones, 1);
 -    tcg_gen_and_vec(vece, t, t, ones);
 -    tcg_gen_sari_vec(vece, d, a, sh);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_srshr8_i64,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_srshr16_i64,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_srshr32_i32,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_srshr64_i64,
 -          .fniv = gen_srshr_vec,
 -          .fno = gen_helper_gvec_srshr_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    if (shift == (8 << vece)) {
 -        /*
 -         * Shifts larger than the element size are architecturally valid.
 -         * Signed results in all sign bits.  With rounding, this produces
 -         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 -         * I.e. always zero.
 -         */
 -        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    gen_srshr8_i64(t, a, sh);
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    gen_srshr16_i64(t, a, sh);
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    gen_srshr32_i32(t, a, sh);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    gen_srshr64_i64(t, a, sh);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    gen_srshr_vec(vece, t, a, sh);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_srsra8_i64,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fni8 = gen_srsra16_i64,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_srsra32_i32,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_srsra64_i64,
 -          .fniv = gen_srsra_vec,
 -          .fno = gen_helper_gvec_srsra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /*
 -     * Shifts larger than the element size are architecturally valid.
 -     * Signed results in all sign bits.  With rounding, this produces
 -     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 -     * I.e. always zero.  With accumulation, this leaves D unchanged.
 -     */
 -    if (shift == (8 << vece)) {
 -        /* Nop, but we do need to clear the tail. */
 -        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 -    tcg_gen_vec_shr8i_i64(d, a, sh);
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, sh - 1);
 -    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 -    tcg_gen_vec_shr16i_i64(d, a, sh);
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t;
 -
 -    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
 -    if (sh == 32) {
 -        tcg_gen_extract_i32(d, a, sh - 1, 1);
 -        return;
 -    }
 -    t = tcg_temp_new_i32();
 -    tcg_gen_extract_i32(t, a, sh - 1, 1);
 -    tcg_gen_shri_i32(d, a, sh);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_extract_i64(t, a, sh - 1, 1);
 -    tcg_gen_shri_i64(d, a, sh);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_shri_vec(vece, t, a, shift - 1);
 -    tcg_gen_dupi_vec(vece, ones, 1);
 -    tcg_gen_and_vec(vece, t, t, ones);
 -    tcg_gen_shri_vec(vece, d, a, shift);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_urshr8_i64,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_urshr16_i64,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_urshr32_i32,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_urshr64_i64,
 -          .fniv = gen_urshr_vec,
 -          .fno = gen_helper_gvec_urshr_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    if (shift == (8 << vece)) {
 -        /*
 -         * Shifts larger than the element size are architecturally valid.
 -         * Unsigned results in zero.  With rounding, this produces a
 -         * copy of the most significant bit.
 -         */
 -        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    if (sh == 8) {
 -        tcg_gen_vec_shr8i_i64(t, a, 7);
 -    } else {
 -        gen_urshr8_i64(t, a, sh);
 -    }
 -    tcg_gen_vec_add8_i64(d, d, t);
 -}
 -
 -static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    if (sh == 16) {
 -        tcg_gen_vec_shr16i_i64(t, a, 15);
 -    } else {
 -        gen_urshr16_i64(t, a, sh);
 -    }
 -    tcg_gen_vec_add16_i64(d, d, t);
 -}
 -
 -static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    if (sh == 32) {
 -        tcg_gen_shri_i32(t, a, 31);
 -    } else {
 -        gen_urshr32_i32(t, a, sh);
 -    }
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    if (sh == 64) {
 -        tcg_gen_shri_i64(t, a, 63);
 -    } else {
 -        gen_urshr64_i64(t, a, sh);
 -    }
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    if (sh == (8 << vece)) {
 -        tcg_gen_shri_vec(vece, t, a, sh - 1);
 -    } else {
 -        gen_urshr_vec(vece, t, a, sh);
 -    }
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen2i ops[4] = {
 -        { .fni8 = gen_ursra8_i64,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fni8 = gen_ursra16_i64,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_ursra32_i32,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_ursra64_i64,
 -          .fniv = gen_ursra_vec,
 -          .fno = gen_helper_gvec_ursra_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize] */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -}
 -
 -static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_8, 0xff >> shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shri_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_shri_i32(a, a, shift);
 -    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
 -}
 -
 -static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_shri_i64(a, a, shift);
 -    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
 -}
 -
 -static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
 -    tcg_gen_shri_vec(vece, t, a, sh);
 -    tcg_gen_and_vec(vece, d, d, m);
 -    tcg_gen_or_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
 -    const GVecGen2i ops[4] = {
 -        { .fni8 = gen_shr8_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_shr16_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_shr32_ins_i32,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_shr64_ins_i64,
 -          .fniv = gen_shr_ins_vec,
 -          .fno = gen_helper_gvec_sri_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [1..esize]. */
 -    tcg_debug_assert(shift > 0);
 -    tcg_debug_assert(shift <= (8 << vece));
 -
 -    /* Shift of esize leaves destination unchanged. */
 -    if (shift < (8 << vece)) {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    } else {
 -        /* Nop, but we do need to clear the tail. */
 -        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 -    }
 -}
 -
 -static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_8, 0xff << shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shli_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    uint64_t mask = dup_const(MO_16, 0xffff << shift);
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_shli_i64(t, a, shift);
 -    tcg_gen_andi_i64(t, t, mask);
 -    tcg_gen_andi_i64(d, d, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
 -{
 -    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
 -}
 -
 -static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 -{
 -    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
 -}
 -
 -static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_shli_vec(vece, t, a, sh);
 -    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 -    tcg_gen_and_vec(vece, d, d, m);
 -    tcg_gen_or_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 -                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
 -    const GVecGen2i ops[4] = {
 -        { .fni8 = gen_shl8_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_b,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni8 = gen_shl16_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_h,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_shl32_ins_i32,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_s,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_shl64_ins_i64,
 -          .fniv = gen_shl_ins_vec,
 -          .fno = gen_helper_gvec_sli_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -
 -    /* tszimm encoding produces immediates in the range [0..esize-1]. */
 -    tcg_debug_assert(shift >= 0);
 -    tcg_debug_assert(shift < (8 << vece));
 -
 -    if (shift == 0) {
 -        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 -    }
 -}
 -
 -static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u8(a, a, b);
 -    gen_helper_neon_add_u8(d, d, a);
 -}
 -
 -static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u8(a, a, b);
 -    gen_helper_neon_sub_u8(d, d, a);
 -}
 -
 -static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u16(a, a, b);
 -    gen_helper_neon_add_u16(d, d, a);
 -}
 -
 -static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    gen_helper_neon_mul_u16(a, a, b);
 -    gen_helper_neon_sub_u16(d, d, a);
 -}
 -
 -static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    tcg_gen_mul_i32(a, a, b);
 -    tcg_gen_add_i32(d, d, a);
 -}
 -
 -static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    tcg_gen_mul_i32(a, a, b);
 -    tcg_gen_sub_i32(d, d, a);
 -}
 -
 -static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    tcg_gen_mul_i64(a, a, b);
 -    tcg_gen_add_i64(d, d, a);
 -}
 -
 -static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    tcg_gen_mul_i64(a, a, b);
 -    tcg_gen_sub_i64(d, d, a);
 -}
 -
 -static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    tcg_gen_mul_vec(vece, a, a, b);
 -    tcg_gen_add_vec(vece, d, d, a);
 -}
 -
 -static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    tcg_gen_mul_vec(vece, a, a, b);
 -    tcg_gen_sub_vec(vece, d, d, a);
 -}
 -
 -/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
 - * these tables are shared with AArch64 which does support them.
 - */
 -void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_mul_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fni4 = gen_mla8_i32,
 -          .fniv = gen_mla_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni4 = gen_mla16_i32,
 -          .fniv = gen_mla_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_mla32_i32,
 -          .fniv = gen_mla_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_mla64_i64,
 -          .fniv = gen_mla_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fni4 = gen_mls8_i32,
 -          .fniv = gen_mls_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni4 = gen_mls16_i32,
 -          .fniv = gen_mls_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_mls32_i32,
 -          .fniv = gen_mls_vec,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_mls64_i64,
 -          .fniv = gen_mls_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .load_dest = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -/* CMTST : test is "if (X & Y != 0)". */
 -static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    tcg_gen_and_i32(d, a, b);
 -    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
 -}
 -
 -void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    tcg_gen_and_i64(d, a, b);
 -    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
 -}
 -
 -static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    tcg_gen_and_vec(vece, d, a, b);
 -    tcg_gen_dupi_vec(vece, a, 0);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
 -}
 -
 -void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
 -    static const GVecGen3 ops[4] = {
 -        { .fni4 = gen_helper_neon_tst_u8,
 -          .fniv = gen_cmtst_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fni4 = gen_helper_neon_tst_u16,
 -          .fniv = gen_cmtst_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_cmtst_i32,
 -          .fniv = gen_cmtst_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_cmtst_i64,
 -          .fniv = gen_cmtst_vec,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 -{
 -    TCGv_i32 lval = tcg_temp_new_i32();
 -    TCGv_i32 rval = tcg_temp_new_i32();
 -    TCGv_i32 lsh = tcg_temp_new_i32();
 -    TCGv_i32 rsh = tcg_temp_new_i32();
 -    TCGv_i32 zero = tcg_constant_i32(0);
 -    TCGv_i32 max = tcg_constant_i32(32);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i32(lsh, shift);
 -    tcg_gen_neg_i32(rsh, lsh);
 -    tcg_gen_shl_i32(lval, src, lsh);
 -    tcg_gen_shr_i32(rval, src, rsh);
 -    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
 -    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
 -}
 -
 -void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 -{
 -    TCGv_i64 lval = tcg_temp_new_i64();
 -    TCGv_i64 rval = tcg_temp_new_i64();
 -    TCGv_i64 lsh = tcg_temp_new_i64();
 -    TCGv_i64 rsh = tcg_temp_new_i64();
 -    TCGv_i64 zero = tcg_constant_i64(0);
 -    TCGv_i64 max = tcg_constant_i64(64);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i64(lsh, shift);
 -    tcg_gen_neg_i64(rsh, lsh);
 -    tcg_gen_shl_i64(lval, src, lsh);
 -    tcg_gen_shr_i64(rval, src, rsh);
 -    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
 -    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
 -}
 -
 -static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
 -                         TCGv_vec src, TCGv_vec shift)
 -{
 -    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec msk, max;
 -
 -    tcg_gen_neg_vec(vece, rsh, shift);
 -    if (vece == MO_8) {
 -        tcg_gen_mov_vec(lsh, shift);
 -    } else {
 -        msk = tcg_temp_new_vec_matching(dst);
 -        tcg_gen_dupi_vec(vece, msk, 0xff);
 -        tcg_gen_and_vec(vece, lsh, shift, msk);
 -        tcg_gen_and_vec(vece, rsh, rsh, msk);
 -    }
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_shlv_vec(vece, lval, src, lsh);
 -    tcg_gen_shrv_vec(vece, rval, src, rsh);
 -
 -    max = tcg_temp_new_vec_matching(dst);
 -    tcg_gen_dupi_vec(vece, max, 8 << vece);
 -
 -    /*
 -     * The choice of LT (signed) and GEU (unsigned) are biased toward
 -     * the instructions of the x86_64 host.  For MO_8, the whole byte
 -     * is significant so we must use an unsigned compare; otherwise we
 -     * have already masked to a byte and so a signed compare works.
 -     * Other tcg hosts have a full set of comparisons and do not care.
 -     */
 -    if (vece == MO_8) {
 -        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
 -        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
 -        tcg_gen_andc_vec(vece, lval, lval, lsh);
 -        tcg_gen_andc_vec(vece, rval, rval, rsh);
 -    } else {
 -        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
 -        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
 -        tcg_gen_and_vec(vece, lval, lval, lsh);
 -        tcg_gen_and_vec(vece, rval, rval, rsh);
 -    }
 -    tcg_gen_or_vec(vece, dst, lval, rval);
 -}
 -
 -void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_neg_vec, INDEX_op_shlv_vec,
 -        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_ushl_vec,
 -          .fno = gen_helper_gvec_ushl_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_ushl_vec,
 -          .fno = gen_helper_gvec_ushl_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_ushl_i32,
 -          .fniv = gen_ushl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_ushl_i64,
 -          .fniv = gen_ushl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 -{
 -    TCGv_i32 lval = tcg_temp_new_i32();
 -    TCGv_i32 rval = tcg_temp_new_i32();
 -    TCGv_i32 lsh = tcg_temp_new_i32();
 -    TCGv_i32 rsh = tcg_temp_new_i32();
 -    TCGv_i32 zero = tcg_constant_i32(0);
 -    TCGv_i32 max = tcg_constant_i32(31);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i32(lsh, shift);
 -    tcg_gen_neg_i32(rsh, lsh);
 -    tcg_gen_shl_i32(lval, src, lsh);
 -    tcg_gen_umin_i32(rsh, rsh, max);
 -    tcg_gen_sar_i32(rval, src, rsh);
 -    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
 -    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
 -}
 -
 -void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
 -{
 -    TCGv_i64 lval = tcg_temp_new_i64();
 -    TCGv_i64 rval = tcg_temp_new_i64();
 -    TCGv_i64 lsh = tcg_temp_new_i64();
 -    TCGv_i64 rsh = tcg_temp_new_i64();
 -    TCGv_i64 zero = tcg_constant_i64(0);
 -    TCGv_i64 max = tcg_constant_i64(63);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_ext8s_i64(lsh, shift);
 -    tcg_gen_neg_i64(rsh, lsh);
 -    tcg_gen_shl_i64(lval, src, lsh);
 -    tcg_gen_umin_i64(rsh, rsh, max);
 -    tcg_gen_sar_i64(rval, src, rsh);
 -    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
 -    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
 -}
 -
 -static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
 -                         TCGv_vec src, TCGv_vec shift)
 -{
 -    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
 -    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
 -
 -    /*
 -     * Rely on the TCG guarantee that out of range shifts produce
 -     * unspecified results, not undefined behaviour (i.e. no trap).
 -     * Discard out-of-range results after the fact.
 -     */
 -    tcg_gen_neg_vec(vece, rsh, shift);
 -    if (vece == MO_8) {
 -        tcg_gen_mov_vec(lsh, shift);
 -    } else {
 -        tcg_gen_dupi_vec(vece, tmp, 0xff);
 -        tcg_gen_and_vec(vece, lsh, shift, tmp);
 -        tcg_gen_and_vec(vece, rsh, rsh, tmp);
 -    }
 -
 -    /* Bound rsh so out of bound right shift gets -1.  */
 -    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
 -    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
 -    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
 -
 -    tcg_gen_shlv_vec(vece, lval, src, lsh);
 -    tcg_gen_sarv_vec(vece, rval, src, rsh);
 -
 -    /* Select in-bound left shift.  */
 -    tcg_gen_andc_vec(vece, lval, lval, tmp);
 -
 -    /* Select between left and right shift.  */
 -    if (vece == MO_8) {
 -        tcg_gen_dupi_vec(vece, tmp, 0);
 -        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
 -    } else {
 -        tcg_gen_dupi_vec(vece, tmp, 0x80);
 -        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
 -    }
 -}
 -
 -void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
 -        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_sshl_vec,
 -          .fno = gen_helper_gvec_sshl_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_sshl_vec,
 -          .fno = gen_helper_gvec_sshl_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_sshl_i32,
 -          .fniv = gen_sshl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_sshl_i64,
 -          .fniv = gen_sshl_vec,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_add_vec(vece, x, a, b);
 -    tcg_gen_usadd_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_b,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_h,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_s,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fniv = gen_uqadd_vec,
 -          .fno = gen_helper_gvec_uqadd_d,
 -          .write_aofs = true,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_add_vec(vece, x, a, b);
 -    tcg_gen_ssadd_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_b,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_h,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_16 },
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_s,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_32 },
 -        { .fniv = gen_sqadd_vec,
 -          .fno = gen_helper_gvec_sqadd_d,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_sub_vec(vece, x, a, b);
 -    tcg_gen_ussub_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_b,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_h,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_16 },
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_s,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_32 },
 -        { .fniv = gen_uqsub_vec,
 -          .fno = gen_helper_gvec_uqsub_d,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
 -                          TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec x = tcg_temp_new_vec_matching(t);
 -    tcg_gen_sub_vec(vece, x, a, b);
 -    tcg_gen_sssub_vec(vece, t, a, b);
 -    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
 -    tcg_gen_or_vec(vece, sat, sat, x);
 -}
 -
 -void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -    };
 -    static const GVecGen4 ops[4] = {
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_b,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_h,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_16 },
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_s,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_32 },
 -        { .fniv = gen_sqsub_vec,
 -          .fno = gen_helper_gvec_sqsub_d,
 -          .opt_opc = vecop_list,
 -          .write_aofs = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 -                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    tcg_gen_sub_i32(t, a, b);
 -    tcg_gen_sub_i32(d, b, a);
 -    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
 -}
 -
 -static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_sub_i64(t, a, b);
 -    tcg_gen_sub_i64(d, b, a);
 -    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
 -}
 -
 -static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_smin_vec(vece, t, a, b);
 -    tcg_gen_smax_vec(vece, d, a, b);
 -    tcg_gen_sub_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_sabd_i32,
 -          .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_sabd_i64,
 -          .fniv = gen_sabd_vec,
 -          .fno = gen_helper_gvec_sabd_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -
 -    tcg_gen_sub_i32(t, a, b);
 -    tcg_gen_sub_i32(d, b, a);
 -    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
 -}
 -
 -static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -
 -    tcg_gen_sub_i64(t, a, b);
 -    tcg_gen_sub_i64(d, b, a);
 -    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
 -}
 -
 -static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -
 -    tcg_gen_umin_vec(vece, t, a, b);
 -    tcg_gen_umax_vec(vece, d, a, b);
 -    tcg_gen_sub_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_b,
 -          .opt_opc = vecop_list,
 -          .vece = MO_8 },
 -        { .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_h,
 -          .opt_opc = vecop_list,
 -          .vece = MO_16 },
 -        { .fni4 = gen_uabd_i32,
 -          .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_s,
 -          .opt_opc = vecop_list,
 -          .vece = MO_32 },
 -        { .fni8 = gen_uabd_i64,
 -          .fniv = gen_uabd_vec,
 -          .fno = gen_helper_gvec_uabd_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -    gen_sabd_i32(t, a, b);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    gen_sabd_i64(t, a, b);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    gen_sabd_vec(vece, t, a, b);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_add_vec,
 -        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_saba_i32,
 -          .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_saba_i64,
 -          .fniv = gen_saba_vec,
 -          .fno = gen_helper_gvec_saba_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
 -static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 -{
 -    TCGv_i32 t = tcg_temp_new_i32();
 -    gen_uabd_i32(t, a, b);
 -    tcg_gen_add_i32(d, d, t);
 -}
 -
 -static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    gen_uabd_i64(t, a, b);
 -    tcg_gen_add_i64(d, d, t);
 -}
 -
 -static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 -{
 -    TCGv_vec t = tcg_temp_new_vec_matching(d);
 -    gen_uabd_vec(vece, t, a, b);
 -    tcg_gen_add_vec(vece, d, d, t);
 -}
 -
 -void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = {
 -        INDEX_op_sub_vec, INDEX_op_add_vec,
 -        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 -    };
 -    static const GVecGen3 ops[4] = {
 -        { .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_b,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_8 },
 -        { .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_h,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_16 },
 -        { .fni4 = gen_uaba_i32,
 -          .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_s,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_32 },
 -        { .fni8 = gen_uaba_i64,
 -          .fniv = gen_uaba_vec,
 -          .fno = gen_helper_gvec_uaba_d,
 -          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -          .opt_opc = vecop_list,
 -          .load_dest = true,
 -          .vece = MO_64 },
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 -}
 -
  static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
  {
-     MachineState *machine = MACHINE(vms);
+     static const uint16_t mask[3] = {
-     MemoryRegion *sysmem = get_system_memory();
+diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
--    MemoryRegion *lowram = g_new(MemoryRegion, 1);
+index XXXXXXX..XXXXXXX 100644
-     ram_addr_t low_ram_size;
+--- a/target/arm/tcg/meson.build
++++ b/target/arm/tcg/meson.build
-     if (ram_size > 0x40000000) {
+@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
-@@ -XXX,XX +XXX,XX @@ static void a9_daughterboard_init(const VexpressMachineState *vms,
-      * address space should in theory be remappable to various
+ arm_ss.add(files(
-      * things including ROM or RAM; we always map the RAM there.
+   'cpu32.c',
-      */
++  'gengvec.c',
--    memory_region_init_alias(lowram, NULL, "vexpress.lowmem", machine->ram,
+   'translate.c',
--                             0, low_ram_size);
+   'translate-m-nocp.c',
--    memory_region_add_subregion(sysmem, 0x0, lowram);
+   'translate-mve.c',
 +    memory_region_init_alias(&vms->lowram, NULL, "vexpress.lowmem",
 +                             machine->ram, 0, low_ram_size);
 +    memory_region_add_subregion(sysmem, 0x0, &vms->lowram);
      memory_region_add_subregion(sysmem, 0x60000000, machine->ram);
      /* 0x1e000000 A9MPCore (SCU) private memory region */
@@ -XXX,XX +XXX,XX @@ static VEDBoardInfo a9_daughterboard = {
      .init = a9_daughterboard_init,
  };
 -static void a15_daughterboard_init(const VexpressMachineState *vms,
 +static void a15_daughterboard_init(VexpressMachineState *vms,
                                     ram_addr_t ram_size,
                                     const char *cpu_type,
                                     qemu_irq *pic)
  {
      MachineState *machine = MACHINE(vms);
      MemoryRegion *sysmem = get_system_memory();
 -    MemoryRegion *sram = g_new(MemoryRegion, 1);
      {
          /* We have to use a separate 64 bit variable here to avoid the gcc
@@ -XXX,XX +XXX,XX @@ static void a15_daughterboard_init(const VexpressMachineState *vms,
      /* 0x2b060000: SP805 watchdog: not modelled */
      /* 0x2b0a0000: PL341 dynamic memory controller: not modelled */
      /* 0x2e000000: system SRAM */
 -    memory_region_init_ram(sram, NULL, "vexpress.a15sram", 0x10000,
 +    memory_region_init_ram(&vms->a15sram, NULL, "vexpress.a15sram", 0x10000,
                             &error_fatal);
 -    memory_region_add_subregion(sysmem, 0x2e000000, sram);
 +    memory_region_add_subregion(sysmem, 0x2e000000, &vms->a15sram);
      /* 0x7ffb0000: DMA330 DMA controller: not modelled */
      /* 0x7ffd0000: PL354 static memory controller: not modelled */
@@ -XXX,XX +XXX,XX @@ static void vexpress_common_init(MachineState *machine)
      I2CBus *i2c;
      ram_addr_t vram_size, sram_size;
      MemoryRegion *sysmem = get_system_memory();
 -    MemoryRegion *vram = g_new(MemoryRegion, 1);
 -    MemoryRegion *sram = g_new(MemoryRegion, 1);
 -    MemoryRegion *flashalias = g_new(MemoryRegion, 1);
 -    MemoryRegion *flash0mem;
      const hwaddr *map = daughterboard->motherboard_map;
      int i;
@@ -XXX,XX +XXX,XX @@ static void vexpress_common_init(MachineState *machine)
      if (map[VE_NORFLASHALIAS] != -1) {
          /* Map flash 0 as an alias into low memory */
 +        MemoryRegion *flash0mem;
          flash0mem = sysbus_mmio_get_region(SYS_BUS_DEVICE(pflash0), 0);
 -        memory_region_init_alias(flashalias, NULL, "vexpress.flashalias",
 +        memory_region_init_alias(&vms->flashalias, NULL, "vexpress.flashalias",
                                   flash0mem, 0, VEXPRESS_FLASH_SIZE);
 -        memory_region_add_subregion(sysmem, map[VE_NORFLASHALIAS], flashalias);
 +        memory_region_add_subregion(sysmem, map[VE_NORFLASHALIAS], &vms->flashalias);
      }
      dinfo = drive_get(IF_PFLASH, 0, 1);
      ve_pflash_cfi01_register(map[VE_NORFLASH1], "vexpress.flash1", dinfo);
      sram_size = 0x2000000;
 -    memory_region_init_ram(sram, NULL, "vexpress.sram", sram_size,
 +    memory_region_init_ram(&vms->sram, NULL, "vexpress.sram", sram_size,
                             &error_fatal);
 -    memory_region_add_subregion(sysmem, map[VE_SRAM], sram);
 +    memory_region_add_subregion(sysmem, map[VE_SRAM], &vms->sram);
      vram_size = 0x800000;
 -    memory_region_init_ram(vram, NULL, "vexpress.vram", vram_size,
 +    memory_region_init_ram(&vms->vram, NULL, "vexpress.vram", vram_size,
                             &error_fatal);
 -    memory_region_add_subregion(sysmem, map[VE_VIDEORAM], vram);
 +    memory_region_add_subregion(sysmem, map[VE_VIDEORAM], &vms->vram);
      /* 0x4e000000 LAN9118 Ethernet */
      if (nd_table[0].used) {
 --
 .34.1

-[PULL 08/29] target/arm: Create decodetree skeleton for A64
+[PULL 14/42] target/arm: Split out gengvec64.c
-The A64 translator uses a hand-written decoder for everything except
+From: Richard Henderson <richard.henderson@linaro.org>
 SVE or SME.  It's fairly well structured, but it's becoming obvious
 that it's still more painful to add instructions to than the A32
 translator, because putting a new instruction into the right place in
 a hand-written decoder is much harder than adding new instruction
 patterns to a decodetree file.
-As the first step in conversion to decodetree, create the skeleton of
+Split some routines out of translate-a64.c and translate-sve.c
-the decodetree decoder; where it does not handle instructions we will
+that are used by both.
 fall back to the legacy decoder (which will be for everything at the
 moment, since there are no patterns in a64.decode).
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-3-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      | 20 ++++++++++++++++++++
+ target/arm/tcg/translate-a64.h |   4 +
- target/arm/tcg/translate-a64.c | 18 +++++++++++-------
+ target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
- target/arm/tcg/meson.build     |  1 +
+ target/arm/tcg/translate-a64.c |  26 -----
-files changed, 32 insertions(+), 7 deletions(-)
+ target/arm/tcg/translate-sve.c | 145 +------------------------
- create mode 100644 target/arm/tcg/a64.decode
+ target/arm/tcg/meson.build     |   1 +
 files changed, 197 insertions(+), 169 deletions(-)
  create mode 100644 target/arm/tcg/gengvec64.c
-diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.h
 +++ b/target/arm/tcg/translate-a64.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
  void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                    uint32_t rm_ofs, int64_t shift,
                    uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
 +void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
  void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
  void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
 diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/gengvec64.c
 @@ -XXX,XX +XXX,XX @@
-+# AArch64 A64 allowed instruction decoding
++/*
-+#
++ *  AArch64 generic vector expansion
-+#  Copyright (c) 2023 Linaro, Ltd
++ *
-+#
++ *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
-+# This library is free software; you can redistribute it and/or
++ *
-+# modify it under the terms of the GNU Lesser General Public
++ * This library is free software; you can redistribute it and/or
-+# License as published by the Free Software Foundation; either
++ * modify it under the terms of the GNU Lesser General Public
-+# version 2.1 of the License, or (at your option) any later version.
++ * License as published by the Free Software Foundation; either
-+#
++ * version 2.1 of the License, or (at your option) any later version.
-+# This library is distributed in the hope that it will be useful,
++ *
-+# but WITHOUT ANY WARRANTY; without even the implied warranty of
++ * This library is distributed in the hope that it will be useful,
-+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
++ * but WITHOUT ANY WARRANTY; without even the implied warranty of
-+# Lesser General Public License for more details.
++ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
-+#
++ * Lesser General Public License for more details.
-+# You should have received a copy of the GNU Lesser General Public
++ *
-+# License along with this library; if not, see <http://www.gnu.org/licenses/>.
++ * You should have received a copy of the GNU Lesser General Public
-+
++ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
-+#
++ */
-+# This file is processed by scripts/decodetree.py
++
-+#
++#include "qemu/osdep.h"
 +#include "translate.h"
 +#include "translate-a64.h"
 +
 +
 +static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
 +{
 +    tcg_gen_rotli_i64(d, m, 1);
 +    tcg_gen_xor_i64(d, d, n);
 +}
 +
 +static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
 +{
 +    tcg_gen_rotli_vec(vece, d, m, 1);
 +    tcg_gen_xor_vec(vece, d, d, n);
 +}
 +
 +void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
 +    static const GVecGen3 op = {
 +        .fni8 = gen_rax1_i64,
 +        .fniv = gen_rax1_vec,
 +        .opt_opc = vecop_list,
 +        .fno = gen_helper_crypto_rax1,
 +        .vece = MO_64,
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
 +}
 +
 +static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    uint64_t mask = dup_const(MO_8, 0xff >> sh);
 +
 +    tcg_gen_xor_i64(t, n, m);
 +    tcg_gen_shri_i64(d, t, sh);
 +    tcg_gen_shli_i64(t, t, 8 - sh);
 +    tcg_gen_andi_i64(d, d, mask);
 +    tcg_gen_andi_i64(t, t, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
 +
 +    tcg_gen_xor_i64(t, n, m);
 +    tcg_gen_shri_i64(d, t, sh);
 +    tcg_gen_shli_i64(t, t, 16 - sh);
 +    tcg_gen_andi_i64(d, d, mask);
 +    tcg_gen_andi_i64(t, t, ~mask);
 +    tcg_gen_or_i64(d, d, t);
 +}
 +
 +static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
 +{
 +    tcg_gen_xor_i32(d, n, m);
 +    tcg_gen_rotri_i32(d, d, sh);
 +}
 +
 +static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 +{
 +    tcg_gen_xor_i64(d, n, m);
 +    tcg_gen_rotri_i64(d, d, sh);
 +}
 +
 +static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                        TCGv_vec m, int64_t sh)
 +{
 +    tcg_gen_xor_vec(vece, d, n, m);
 +    tcg_gen_rotri_vec(vece, d, d, sh);
 +}
 +
 +void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                  uint32_t rm_ofs, int64_t shift,
 +                  uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
 +    static const GVecGen3i ops[4] = {
 +        { .fni8 = gen_xar8_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_b,
 +          .opt_opc = vecop,
 +          .vece = MO_8 },
 +        { .fni8 = gen_xar16_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_h,
 +          .opt_opc = vecop,
 +          .vece = MO_16 },
 +        { .fni4 = gen_xar_i32,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_sve2_xar_s,
 +          .opt_opc = vecop,
 +          .vece = MO_32 },
 +        { .fni8 = gen_xar_i64,
 +          .fniv = gen_xar_vec,
 +          .fno = gen_helper_gvec_xar_d,
 +          .opt_opc = vecop,
 +          .vece = MO_64 }
 +    };
 +    int esize = 8 << vece;
 +
 +    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
 +    tcg_debug_assert(shift >= 0);
 +    tcg_debug_assert(shift <= esize);
 +    shift &= esize - 1;
 +
 +    if (shift == 0) {
 +        /* xar with no rotate devolves to xor. */
 +        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
 +                        shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 +{
 +    tcg_gen_xor_i64(d, n, m);
 +    tcg_gen_xor_i64(d, d, k);
 +}
 +
 +static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                         TCGv_vec m, TCGv_vec k)
 +{
 +    tcg_gen_xor_vec(vece, d, n, m);
 +    tcg_gen_xor_vec(vece, d, d, k);
 +}
 +
 +void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_eor3_i64,
 +        .fniv = gen_eor3_vec,
 +        .fno = gen_helper_sve2_eor3,
 +        .vece = MO_64,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 +}
 +
 +static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 +{
 +    tcg_gen_andc_i64(d, m, k);
 +    tcg_gen_xor_i64(d, d, n);
 +}
 +
 +static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 +                         TCGv_vec m, TCGv_vec k)
 +{
 +    tcg_gen_andc_vec(vece, d, m, k);
 +    tcg_gen_xor_vec(vece, d, d, n);
 +}
 +
 +void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 +                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen4 op = {
 +        .fni8 = gen_bcax_i64,
 +        .fniv = gen_bcax_vec,
 +        .fno = gen_helper_sve2_bcax,
 +        .vece = MO_64,
 +        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +    };
 +    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 +}
 +
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ enum a64_shift_type {
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
-     A64_SHIFT_TYPE_ROR = 3
+     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
  };
 +/*
 + * Include the generated decoders.
 + */
 +
 +#include "decode-sme-fa64.c.inc"
 +#include "decode-a64.c.inc"
 +
  /* Table based decoder typedefs - used when the relevant bits for decode
   * are too awkwardly scattered across the instruction (eg SIMD).
   */
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_simd_fp(DisasContext *s, uint32_t insn)
      }
  }
--/*
+-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
-- * Include the generated SME FA64 decoder.
+-{
-- */
+-    tcg_gen_rotli_i64(d, m, 1);
--
+-    tcg_gen_xor_i64(d, d, n);
--#include "decode-sme-fa64.c.inc"
+-}
 -
- static bool trans_OK(DisasContext *s, arg_OK *a)
+-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
 -{
 -    tcg_gen_rotli_vec(vece, d, m, 1);
 -    tcg_gen_xor_vec(vece, d, d, n);
 -}
 -
 -void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
 -    static const GVecGen3 op = {
 -        .fni8 = gen_rax1_i64,
 -        .fniv = gen_rax1_vec,
 -        .opt_opc = vecop_list,
 -        .fno = gen_helper_crypto_rax1,
 -        .vece = MO_64,
 -    };
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
 -}
 -
  /* Crypto three-reg SHA512
   *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
   * +-----------------------+------+---+---+-----+--------+------+------+
 diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-sve.c
 +++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
  TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
  TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
 -static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    uint64_t mask = dup_const(MO_8, 0xff >> sh);
 -
 -    tcg_gen_xor_i64(t, n, m);
 -    tcg_gen_shri_i64(d, t, sh);
 -    tcg_gen_shli_i64(t, t, 8 - sh);
 -    tcg_gen_andi_i64(d, d, mask);
 -    tcg_gen_andi_i64(t, t, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    TCGv_i64 t = tcg_temp_new_i64();
 -    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
 -
 -    tcg_gen_xor_i64(t, n, m);
 -    tcg_gen_shri_i64(d, t, sh);
 -    tcg_gen_shli_i64(t, t, 16 - sh);
 -    tcg_gen_andi_i64(d, d, mask);
 -    tcg_gen_andi_i64(t, t, ~mask);
 -    tcg_gen_or_i64(d, d, t);
 -}
 -
 -static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
 -{
 -    tcg_gen_xor_i32(d, n, m);
 -    tcg_gen_rotri_i32(d, d, sh);
 -}
 -
 -static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
 -{
 -    tcg_gen_xor_i64(d, n, m);
 -    tcg_gen_rotri_i64(d, d, sh);
 -}
 -
 -static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                        TCGv_vec m, int64_t sh)
 -{
 -    tcg_gen_xor_vec(vece, d, n, m);
 -    tcg_gen_rotri_vec(vece, d, d, sh);
 -}
 -
 -void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                  uint32_t rm_ofs, int64_t shift,
 -                  uint32_t opr_sz, uint32_t max_sz)
 -{
 -    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
 -    static const GVecGen3i ops[4] = {
 -        { .fni8 = gen_xar8_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_b,
 -          .opt_opc = vecop,
 -          .vece = MO_8 },
 -        { .fni8 = gen_xar16_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_h,
 -          .opt_opc = vecop,
 -          .vece = MO_16 },
 -        { .fni4 = gen_xar_i32,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_sve2_xar_s,
 -          .opt_opc = vecop,
 -          .vece = MO_32 },
 -        { .fni8 = gen_xar_i64,
 -          .fniv = gen_xar_vec,
 -          .fno = gen_helper_gvec_xar_d,
 -          .opt_opc = vecop,
 -          .vece = MO_64 }
 -    };
 -    int esize = 8 << vece;
 -
 -    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
 -    tcg_debug_assert(shift >= 0);
 -    tcg_debug_assert(shift <= esize);
 -    shift &= esize - 1;
 -
 -    if (shift == 0) {
 -        /* xar with no rotate devolves to xor. */
 -        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
 -    } else {
 -        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
 -                        shift, &ops[vece]);
 -    }
 -}
 -
  static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
  {
+     if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
+@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
      return true;
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
+ }
-         disas_sme_fa64(s, insn);
-     }
+-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+-{
--    disas_a64_legacy(s, insn);
+-    tcg_gen_xor_i64(d, n, m);
-+
+-    tcg_gen_xor_i64(d, d, k);
-+    if (!disas_a64(s, insn)) {
+-}
-+        disas_a64_legacy(s, insn);
+-
-+    }
+-static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+-                         TCGv_vec m, TCGv_vec k)
-     /*
+-{
-      * After execution of most insns, btype is reset to 0.
+-    tcg_gen_xor_vec(vece, d, n, m);
 -    tcg_gen_xor_vec(vece, d, d, k);
 -}
 -
 -static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 -                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen4 op = {
 -        .fni8 = gen_eor3_i64,
 -        .fniv = gen_eor3_vec,
 -        .fno = gen_helper_sve2_eor3,
 -        .vece = MO_64,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -    };
 -    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 -}
 -
 -TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
 -
 -static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
 -{
 -    tcg_gen_andc_i64(d, m, k);
 -    tcg_gen_xor_i64(d, d, n);
 -}
 -
 -static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
 -                         TCGv_vec m, TCGv_vec k)
 -{
 -    tcg_gen_andc_vec(vece, d, m, k);
 -    tcg_gen_xor_vec(vece, d, d, n);
 -}
 -
 -static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
 -                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
 -{
 -    static const GVecGen4 op = {
 -        .fni8 = gen_bcax_i64,
 -        .fniv = gen_bcax_vec,
 -        .fno = gen_helper_sve2_bcax,
 -        .vece = MO_64,
 -        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -    };
 -    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
 -}
 -
 -TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
 +TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
 +TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
  static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
                      uint32_t a, uint32_t oprsz, uint32_t maxsz)
 diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/meson.build
 +++ b/target/arm/tcg/meson.build
-@@ -XXX,XX +XXX,XX @@ gen = [
+@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
-   decodetree.process('a32-uncond.decode', extra_args: '--static-decode=disas_a32_uncond'),
-   decodetree.process('t32.decode', extra_args: '--static-decode=disas_t32'),
+ arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
-   decodetree.process('t16.decode', extra_args: ['-w', '16', '--static-decode=disas_t16']),
+   'cpu64.c',
-+  decodetree.process('a64.decode', extra_args: ['--static-decode=disas_a64']),
++  'gengvec64.c',
- ]
+   'translate-a64.c',
+   'translate-sve.c',
- arm_ss.add(gen)
+   'translate-sme.c',
 --
 .34.1

-[PULL 23/29] target/arm: Convert BR, BLR, RET to decodetree
+[PULL 15/42] target/arm: Convert Cryptographic AES to decodetree
-Convert the simple (non-pointer-auth) BR, BLR and RET insns
+From: Richard Henderson <richard.henderson@linaro.org>
 to decodetree.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-18-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  5 ++++
+ target/arm/tcg/a64.decode      | 21 +++++++--
- target/arm/tcg/translate-a64.c | 55 ++++++++++++++++++++++++++++++----
+ target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
-files changed, 54 insertions(+), 6 deletions(-)
+files changed, 54 insertions(+), 53 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
 @@ -XXX,XX +XXX,XX @@
  # This file is processed by scripts/decodetree.py
  #
-+&r               rn
+-&r               rn
- &ri              rd imm
+-&ri              rd imm
- &rri_sf          rd rn imm sf
+-&rri_sf          rd rn imm sf
- &i               imm
+-&i               imm
-@@ -XXX,XX +XXX,XX @@ CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
++%rd             0:5
- TBZ             . 011011 nz:1 ..... .............. rt:5 &tbz  imm=%imm14 bitpos=%imm31_19
++&r              rn
- B_cond          0101010 0 ................... 0 cond:4 imm=%imm19
++&ri             rd imm
 +&rri_sf         rd rn imm sf
 +&i              imm
 +&qrr_e          q rd rn esz
 +&qrrr_e         q rd rn rm esz
 +
-+BR              1101011 0000 11111 000000 rn:5 00000 &r
++@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
-+BLR             1101011 0001 11111 000000 rn:5 00000 &r
++@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
-+RET             1101011 0010 11111 000000 rn:5 00000 &r
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
  CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
  CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
  CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
 +
 +### Cryptographic AES
 +
 +AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
 +AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
 +AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
 +AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_B_cond(DisasContext *s, arg_B_cond *a)
+@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
      return true;
  }
-+static void set_btype_for_br(DisasContext *s, int rn)
++/*
 + * Expanders for AdvSIMD translation functions.
 + */
 +
 +static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
 +                            gen_helper_gvec_2 *fn)
 +{
-+    if (dc_isar_feature(aa64_bti, s)) {
++    if (!a->q && a->esz == MO_64) {
-+        /* BR to {x16,x17} or !guard -> 1, else 3.  */
++        return false;
 +        set_btype(s, rn == 16 || rn == 17 || !s->guarded_page ? 1 : 3);
 +    }
-+}
++    if (fp_access_check(s)) {
-+
++        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
 +static void set_btype_for_blr(DisasContext *s)
 +{
 +    if (dc_isar_feature(aa64_bti, s)) {
 +        /* BLR sets BTYPE to 2, regardless of source guarded page.  */
 +        set_btype(s, 2);
 +    }
-+}
-+
-+static bool trans_BR(DisasContext *s, arg_r *a)
-+{
-+    gen_a64_set_pc(s, cpu_reg(s, a->rn));
-+    set_btype_for_br(s, a->rn);
-+    s->base.is_jmp = DISAS_JUMP;
 +    return true;
 +}
 +
-+static bool trans_BLR(DisasContext *s, arg_r *a)
++static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
 +                            gen_helper_gvec_3 *fn)
 +{
-+    TCGv_i64 dst = cpu_reg(s, a->rn);
++    if (!a->q && a->esz == MO_64) {
-+    TCGv_i64 lr = cpu_reg(s, 30);
++        return false;
 +    if (dst == lr) {
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +        tcg_gen_mov_i64(tmp, dst);
 +        dst = tmp;
 +    }
-+    gen_pc_plus_diff(s, lr, curr_insn_len(s));
++    if (fp_access_check(s)) {
-+    gen_a64_set_pc(s, dst);
++        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
-+    set_btype_for_blr(s);
++    }
 +    s->base.is_jmp = DISAS_JUMP;
 +    return true;
 +}
 +
-+static bool trans_RET(DisasContext *s, arg_r *a)
+ /*
-+{
+  * This utility function is for doing register extension with an
-+    gen_a64_set_pc(s, cpu_reg(s, a->rn));
+  * optional shift. You will likely want to pass a temporary for the
-+    s->base.is_jmp = DISAS_JUMP;
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
-+    return true;
+     return true;
-+}
+ }
 +/*
 + * Cryptographic AES
 + */
 +
- /* HINT instruction group, including various allocated HINTs */
++TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
- static void handle_hint(DisasContext *s, uint32_t insn,
++TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
-                         unsigned int op1, unsigned int op2, unsigned int crm)
++TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
++TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
-         btype_mod = opc;
++
-         switch (op3) {
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-         case 0:
+  * Note that it is the caller's responsibility to ensure that the
--            /* BR, BLR, RET */
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
--            if (op4 != 0) {
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
--                goto do_unallocated;
+     }
--            }
+ }
--            dst = cpu_reg(s, rn);
--            break;
+-/* Crypto AES
-+            /* BR, BLR, RET : handled in decodetree */
+- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
-+            goto do_unallocated;
+- * +-----------------+------+-----------+--------+-----+------+------+
+- * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
-         case 2:
+- * +-----------------+------+-----------+--------+-----+------+------+
-         case 3:
+- */
 -static void disas_crypto_aes(DisasContext *s, uint32_t insn)
 -{
 -    int size = extract32(insn, 22, 2);
 -    int opcode = extract32(insn, 12, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    gen_helper_gvec_2 *genfn2 = NULL;
 -    gen_helper_gvec_3 *genfn3 = NULL;
 -
 -    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (opcode) {
 -    case 0x4: /* AESE */
 -        genfn3 = gen_helper_crypto_aese;
 -        break;
 -    case 0x6: /* AESMC */
 -        genfn2 = gen_helper_crypto_aesmc;
 -        break;
 -    case 0x5: /* AESD */
 -        genfn3 = gen_helper_crypto_aesd;
 -        break;
 -    case 0x7: /* AESIMC */
 -        genfn2 = gen_helper_crypto_aesimc;
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -    if (genfn2) {
 -        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
 -    } else {
 -        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
 -    }
 -}
 -
  /* Crypto three-reg SHA
   *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
   * +-----------------+------+---+------+---+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
      { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
      { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
      { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
 --
 .34.1

-[PULL 15/29] target/arm: Convert Logical (immediate) to decodetree
+[PULL 16/42] target/arm: Convert Cryptographic 3-register SHA to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Convert the ADD, ORR, EOR, ANDS (immediate) instructions.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-10-peter.maydell@linaro.org
 [PMM: rebased]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      | 15 ++++++
+ target/arm/tcg/a64.decode      | 11 +++++
- target/arm/tcg/translate-a64.c | 94 +++++++++++-----------------------
+ target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
-files changed, 44 insertions(+), 65 deletions(-)
+files changed, 21 insertions(+), 68 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ SUBS_i          . 11 100010 1 ............ ..... .....  @addsub_imm12
+@@ -XXX,XX +XXX,XX @@
- ADDG_i          1 00 100011 0 ...... 00 .... ..... ..... @addsub_imm_tag
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
- SUBG_i          1 10 100011 0 ...... 00 .... ..... ..... @addsub_imm_tag
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 +@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
  AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
  AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
  AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
 +
-+# Logical (immediate)
++### Cryptographic three-register SHA
 +
-+&rri_log        rd rn sf dbm
++SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
-+@logic_imm_64   1 .. ...... dbm:13 rn:5 rd:5            &rri_log sf=1
++SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
-+@logic_imm_32   0 .. ...... 0 dbm:12 rn:5 rd:5          &rri_log sf=0
++SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
-+
++SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
-+AND_i           . 00 100100 . ...... ...... ..... ..... @logic_imm_64
++SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
-+AND_i           . 00 100100 . ...... ...... ..... ..... @logic_imm_32
++SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
-+ORR_i           . 01 100100 . ...... ...... ..... ..... @logic_imm_64
++SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
 +ORR_i           . 01 100100 . ...... ...... ..... ..... @logic_imm_32
 +EOR_i           . 10 100100 . ...... ...... ..... ..... @logic_imm_64
 +EOR_i           . 10 100100 . ...... ...... ..... ..... @logic_imm_32
 +ANDS_i          . 11 100100 . ...... ...... ..... ..... @logic_imm_64
 +ANDS_i          . 11 100100 . ...... ...... ..... ..... @logic_imm_32
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t bitfield_replicate(uint64_t mask, unsigned int e)
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
      return mask;
  }
--/* Simplified variant of pseudocode DecodeBitMasks() for the case where we
+ /*
-+/*
+- * Cryptographic AES
-+ * Logical (immediate)
++ * Cryptographic AES, SHA
-+ */
+  */
  TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
  TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
  TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
 +TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
 +TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
 +TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
 +TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
 +
-+/*
++TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
-+ * Simplified variant of pseudocode DecodeBitMasks() for the case where we
++TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
-  * only require the wmask. Returns false if the imms/immr/immn are a reserved
++TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
-  * value (ie should cause a guest UNDEF exception), and true if they are
++
-  * valid, in which case the decoded bit pattern is written to result.
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-@@ -XXX,XX +XXX,XX @@ bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
+  * Note that it is the caller's responsibility to ensure that the
-     return true;
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
--/* Logical (immediate)
+-/* Crypto three-reg SHA
-- *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
+- *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
-- * +----+-----+-------------+---+------+------+------+------+
+- * +-----------------+------+---+------+---+--------+-----+------+------+
-- * | sf | opc | 1 0 0 1 0 0 | N | immr | imms |  Rn  |  Rd  |
+- * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
-- * +----+-----+-------------+---+------+------+------+------+
+- * +-----------------+------+---+------+---+--------+-----+------+------+
 - */
--static void disas_logic_imm(DisasContext *s, uint32_t insn)
+-static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
-+static bool gen_rri_log(DisasContext *s, arg_rri_log *a, bool set_cc,
+-{
-+                        void (*fn)(TCGv_i64, TCGv_i64, int64_t))
+-    int size = extract32(insn, 22, 2);
- {
+-    int opcode = extract32(insn, 12, 3);
--    unsigned int sf, opc, is_n, immr, imms, rn, rd;
+-    int rm = extract32(insn, 16, 5);
-     TCGv_i64 tcg_rd, tcg_rn;
+-    int rn = extract32(insn, 5, 5);
--    uint64_t wmask;
+-    int rd = extract32(insn, 0, 5);
--    bool is_and = false;
+-    gen_helper_gvec_3 *genfn;
-+    uint64_t imm;
+-    bool feature;
 -    sf = extract32(insn, 31, 1);
 -    opc = extract32(insn, 29, 2);
 -    is_n = extract32(insn, 22, 1);
 -    immr = extract32(insn, 16, 6);
 -    imms = extract32(insn, 10, 6);
 -    rn = extract32(insn, 5, 5);
 -    rd = extract32(insn, 0, 5);
 -
--    if (!sf && is_n) {
+-    if (size != 0) {
 -        unallocated_encoding(s);
 -        return;
-+    /* Some immediate field values are reserved. */
-+    if (!logic_imm_decode_wmask(&imm, extract32(a->dbm, 12, 1),
-+                                extract32(a->dbm, 0, 6),
-+                                extract32(a->dbm, 6, 6))) {
-+        return false;
-+    }
-+    if (!a->sf) {
-+        imm &= 0xffffffffull;
-     }
--    if (opc == 0x3) { /* ANDS */
--        tcg_rd = cpu_reg(s, rd);
--    } else {
--        tcg_rd = cpu_reg_sp(s, rd);
 -    }
--    tcg_rn = cpu_reg(s, rn);
+-
-+    tcg_rd = set_cc ? cpu_reg(s, a->rd) : cpu_reg_sp(s, a->rd);
+-    switch (opcode) {
-+    tcg_rn = cpu_reg(s, a->rn);
+-    case 0: /* SHA1C */
+-        genfn = gen_helper_crypto_sha1c;
--    if (!logic_imm_decode_wmask(&wmask, is_n, imms, immr)) {
+-        feature = dc_isar_feature(aa64_sha1, s);
--        /* some immediate field values are reserved */
+-        break;
 -    case 1: /* SHA1P */
 -        genfn = gen_helper_crypto_sha1p;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 2: /* SHA1M */
 -        genfn = gen_helper_crypto_sha1m;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 3: /* SHA1SU0 */
 -        genfn = gen_helper_crypto_sha1su0;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 4: /* SHA256H */
 -        genfn = gen_helper_crypto_sha256h;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    case 5: /* SHA256H2 */
 -        genfn = gen_helper_crypto_sha256h2;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    case 6: /* SHA256SU1 */
 -        genfn = gen_helper_crypto_sha256su1;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
-+    fn(tcg_rd, tcg_rn, imm);
-+    if (set_cc) {
-+        gen_logic_CC(a->sf, tcg_rd);
-     }
--
--    if (!sf) {
--        wmask &= 0xffffffff;
 -    }
 -
--    switch (opc) {
+-    if (!feature) {
--    case 0x3: /* ANDS */
+-        unallocated_encoding(s);
--    case 0x0: /* AND */
+-        return;
 -        tcg_gen_andi_i64(tcg_rd, tcg_rn, wmask);
 -        is_and = true;
 -        break;
 -    case 0x1: /* ORR */
 -        tcg_gen_ori_i64(tcg_rd, tcg_rn, wmask);
 -        break;
 -    case 0x2: /* EOR */
 -        tcg_gen_xori_i64(tcg_rd, tcg_rn, wmask);
 -        break;
 -    default:
 -        assert(FALSE); /* must handle all above */
 -        break;
 -    }
 -
--    if (!sf && !is_and) {
+-    if (!fp_access_check(s)) {
--        /* zero extend final result; we know we can skip this for AND
+-        return;
--         * since the immediate had the high 32 bits clear.
+-    }
--         */
+-    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
-+    if (!a->sf) {
+-}
          tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
      }
 -
--    if (opc == 3) { /* ANDS */
+ /* Crypto two-reg SHA
--        gen_logic_CC(sf, tcg_rd);
+  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
--    }
+  * +-----------------+------+-----------+--------+-----+------+------+
-+    return true;
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
- }
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
-+TRANS(AND_i, gen_rri_log, a, false, tcg_gen_andi_i64)
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-+TRANS(ORR_i, gen_rri_log, a, false, tcg_gen_ori_i64)
+-    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
-+TRANS(EOR_i, gen_rri_log, a, false, tcg_gen_xori_i64)
+     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
-+TRANS(ANDS_i, gen_rri_log, a, true, tcg_gen_andi_i64)
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
-+
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
  /*
   * Move wide (immediate)
   *
@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
  static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
  {
      switch (extract32(insn, 23, 6)) {
 -    case 0x24: /* Logical (immediate) */
 -        disas_logic_imm(s, insn);
 -        break;
      case 0x25: /* Move wide (immediate) */
          disas_movw_imm(s, insn);
          break;
 --
 .34.1

-New patch
+[PULL 17/42] target/arm: Convert Cryptographic 2-register SHA to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |  6 ++++
+ target/arm/tcg/translate-a64.c | 54 +++-------------------------------
+files changed, 10 insertions(+), 50 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
+ SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
+ SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
+ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
++
++### Cryptographic two-register SHA
++
++SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
++SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
++SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256
+ TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
+ TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
++TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
++TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
++TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto two-reg SHA
+- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
+- * +-----------------+------+-----------+--------+-----+------+------+
+- * | 0 1 0 1 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
+- * +-----------------+------+-----------+--------+-----+------+------+
+- */
+-static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
+-{
+-    int size = extract32(insn, 22, 2);
+-    int opcode = extract32(insn, 12, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    gen_helper_gvec_2 *genfn;
+-    bool feature;
+-
+-    if (size != 0) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0: /* SHA1H */
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        genfn = gen_helper_crypto_sha1h;
+-        break;
+-    case 1: /* SHA1SU1 */
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        genfn = gen_helper_crypto_sha1su1;
+-        break;
+-    case 2: /* SHA256SU0 */
+-        feature = dc_isar_feature(aa64_sha256, s);
+-        genfn = gen_helper_crypto_sha256su0;
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-    gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
+-}
+-
+ /* Crypto three-reg SHA512
+  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
+  * +-----------------------+------+---+---+-----+--------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
+--
+.34.1

-[PULL 19/29] target/arm: Convert unconditional branch immediate to decodetree
+[PULL 18/42] target/arm: Convert Cryptographic 3-register SHA512 to decodetree
-Convert the unconditional branch immediate insns B and BL to
+From: Richard Henderson <richard.henderson@linaro.org>
 decodetree.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-14-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  9 +++++++++
+ target/arm/tcg/a64.decode      | 11 ++++
- target/arm/tcg/translate-a64.c | 31 +++++++++++--------------------
+ target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
-files changed, 20 insertions(+), 20 deletions(-)
+files changed, 32 insertions(+), 76 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
 @@ -XXX,XX +XXX,XX @@
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
- &ri              rd imm
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
- &rri_sf          rd rn imm sf
+ @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
-+&i               imm
++@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
  ### Data Processing - Immediate
-@@ -XXX,XX +XXX,XX @@ UBFM            . 10 100110 . ...... ...... ..... ..... @bitfield_32
+@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
- EXTR            1 00 100111 1 0 rm:5 imm:6 rn:5 rd:5     &extract sf=1
+ SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
- EXTR            0 00 100111 0 0 rm:5 0 imm:5 rn:5 rd:5   &extract sf=0
+ SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
  SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
 +
-+# Branches
++### Cryptographic three-register SHA512
 +
-+%imm26   0:s26 !function=times_4
++SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
-+@branch         . ..... .......................... &i imm=%imm26
++SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
-+
++SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
-+B               0 00101 .......................... @branch
++RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
-+BL              1 00101 .......................... @branch
++SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
 +SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
 +SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static inline AArch64DecodeFn *lookup_disas_fn(const AArch64DecodeTable *table,
+@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
-  * match up with those in the manual.
+     return true;
-  */
+ }
--/* Unconditional branch (immediate)
++static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
-- *   31  30       26 25                                  0
++{
-- * +----+-----------+-------------------------------------+
++    if (!a->q && a->esz == MO_64) {
-- * | op | 0 0 1 0 1 |                 imm26               |
++        return false;
-- * +----+-----------+-------------------------------------+
++    }
-- */
++    if (fp_access_check(s)) {
--static void disas_uncond_b_imm(DisasContext *s, uint32_t insn)
++        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
-+static bool trans_B(DisasContext *s, arg_i *a)
++    }
  {
 -    int64_t diff = sextract32(insn, 0, 26) * 4;
 -
 -    if (insn & (1U << 31)) {
 -        /* BL Branch with link */
 -        gen_pc_plus_diff(s, cpu_reg(s, 30), curr_insn_len(s));
 -    }
 -
 -    /* B Branch / BL Branch with link */
      reset_btype(s);
 -    gen_goto_tb(s, 0, diff);
 +    gen_goto_tb(s, 0, a->imm);
 +    return true;
 +}
 +
-+static bool trans_BL(DisasContext *s, arg_i *a)
+ /*
-+{
+  * This utility function is for doing register extension with an
-+    gen_pc_plus_diff(s, cpu_reg(s, 30), curr_insn_len(s));
+  * optional shift. You will likely want to pass a temporary for the
-+    reset_btype(s);
+@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 +    gen_goto_tb(s, 0, a->imm);
 +    return true;
  }
- /* Compare and branch (immediate)
+ /*
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+- * Cryptographic AES, SHA
- static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
++ * Cryptographic AES, SHA, SHA512
- {
+  */
-     switch (extract32(insn, 25, 7)) {
--    case 0x0a: case 0x0b:
+ TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
--    case 0x4a: case 0x4b: /* Unconditional branch (immediate) */
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
--        disas_uncond_b_imm(s, insn);
+ TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
--        break;
+ TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
-     case 0x1a: case 0x5a: /* Compare & branch (immediate) */
-         disas_comp_b_imm(s, insn);
++TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
-         break;
++TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
 +TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
 +TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
 +TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
 +TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
 +TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 +
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
 -/* Crypto three-reg SHA512
 - *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
 - * +-----------------------+------+---+---+-----+--------+------+------+
 - * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
 - * +-----------------------+------+---+---+-----+--------+------+------+
 - */
 -static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
 -{
 -    int opcode = extract32(insn, 10, 2);
 -    int o =  extract32(insn, 14, 1);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    bool feature;
 -    gen_helper_gvec_3 *oolfn = NULL;
 -    GVecGen3Fn *gvecfn = NULL;
 -
 -    if (o == 0) {
 -        switch (opcode) {
 -        case 0: /* SHA512H */
 -            feature = dc_isar_feature(aa64_sha512, s);
 -            oolfn = gen_helper_crypto_sha512h;
 -            break;
 -        case 1: /* SHA512H2 */
 -            feature = dc_isar_feature(aa64_sha512, s);
 -            oolfn = gen_helper_crypto_sha512h2;
 -            break;
 -        case 2: /* SHA512SU1 */
 -            feature = dc_isar_feature(aa64_sha512, s);
 -            oolfn = gen_helper_crypto_sha512su1;
 -            break;
 -        case 3: /* RAX1 */
 -            feature = dc_isar_feature(aa64_sha3, s);
 -            gvecfn = gen_gvec_rax1;
 -            break;
 -        default:
 -            g_assert_not_reached();
 -        }
 -    } else {
 -        switch (opcode) {
 -        case 0: /* SM3PARTW1 */
 -            feature = dc_isar_feature(aa64_sm3, s);
 -            oolfn = gen_helper_crypto_sm3partw1;
 -            break;
 -        case 1: /* SM3PARTW2 */
 -            feature = dc_isar_feature(aa64_sm3, s);
 -            oolfn = gen_helper_crypto_sm3partw2;
 -            break;
 -        case 2: /* SM4EKEY */
 -            feature = dc_isar_feature(aa64_sm4, s);
 -            oolfn = gen_helper_crypto_sm4ekey;
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    if (oolfn) {
 -        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
 -    } else {
 -        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
 -    }
 -}
 -
  /* Crypto two-reg SHA512
   *  31                                     12  11  10  9    5 4    0
   * +-----------------------------------------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
      { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
      { 0xce000000, 0xff808000, disas_crypto_four_reg },
      { 0xce800000, 0xffe00000, disas_crypto_xar },
 --
 .34.1

-[PULL 18/29] target/arm: Convert Extract instructions to decodetree
+[PULL 19/42] target/arm: Convert Cryptographic 2-register SHA512 to decodetree
-Convert the EXTR instruction to decodetree (this is the
+From: Richard Henderson <richard.henderson@linaro.org>
 only one in the 'Extract" class). This is the last of
 the dp-immediate insns in the legacy decoder, so we
 can now remove disas_data_proc_imm().
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-13-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  7 +++
+ target/arm/tcg/a64.decode      |  5 ++++
- target/arm/tcg/translate-a64.c | 94 +++++++++++-----------------------
+ target/arm/tcg/translate-a64.c | 50 ++--------------------------------
-files changed, 36 insertions(+), 65 deletions(-)
+files changed, 8 insertions(+), 47 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ BFM             . 01 100110 . ...... ...... ..... ..... @bitfield_64
+@@ -XXX,XX +XXX,XX @@ RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
- BFM             . 01 100110 . ...... ...... ..... ..... @bitfield_32
+ SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
- UBFM            . 10 100110 . ...... ...... ..... ..... @bitfield_64
+ SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
- UBFM            . 10 100110 . ...... ...... ..... ..... @bitfield_32
+ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 +
-+# Extract
++### Cryptographic two-register SHA512
 +
-+&extract        rd rn rm imm sf
++SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
-+
++SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
 +EXTR            1 00 100111 1 0 rm:5 imm:6 rn:5 rd:5     &extract sf=1
 +EXTR            0 00 100111 0 0 rm:5 0 imm:5 rn:5 rd:5   &extract sf=0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_BFM(DisasContext *s, arg_BFM *a)
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3part
-     return true;
+ TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
  TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 +TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
 +TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
--/* Extract
+-/* Crypto two-reg SHA512
-- *   31  30  29 28         23 22   21  20  16 15    10 9    5 4    0
+- *  31                                     12  11  10  9    5 4    0
-- * +----+------+-------------+---+----+------+--------+------+------+
+- * +-----------------------------------------+--------+------+------+
-- * | sf | op21 | 1 0 0 1 1 1 | N | o0 |  Rm  |  imms  |  Rn  |  Rd  |
+- * | 1 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 | opcode |  Rn  |  Rd  |
-- * +----+------+-------------+---+----+------+--------+------+------+
+- * +-----------------------------------------+--------+------+------+
 - */
--static void disas_extract(DisasContext *s, uint32_t insn)
+-static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
-+static bool trans_EXTR(DisasContext *s, arg_extract *a)
+-{
- {
+-    int opcode = extract32(insn, 10, 2);
--    unsigned int sf, n, rm, imm, rn, rd, bitsize, op21, op0;
+-    int rn = extract32(insn, 5, 5);
-+    TCGv_i64 tcg_rd, tcg_rm, tcg_rn;
+-    int rd = extract32(insn, 0, 5);
+-    bool feature;
 -    sf = extract32(insn, 31, 1);
 -    n = extract32(insn, 22, 1);
 -    rm = extract32(insn, 16, 5);
 -    imm = extract32(insn, 10, 6);
 -    rn = extract32(insn, 5, 5);
 -    rd = extract32(insn, 0, 5);
 -    op21 = extract32(insn, 29, 2);
 -    op0 = extract32(insn, 21, 1);
 -    bitsize = sf ? 64 : 32;
 +    tcg_rd = cpu_reg(s, a->rd);
 -    if (sf != n || op21 || op0 || imm >= bitsize) {
 -        unallocated_encoding(s);
 -    } else {
 -        TCGv_i64 tcg_rd, tcg_rm, tcg_rn;
 -
--        tcg_rd = cpu_reg(s, rd);
+-    switch (opcode) {
--
+-    case 0: /* SHA512SU0 */
--        if (unlikely(imm == 0)) {
+-        feature = dc_isar_feature(aa64_sha512, s);
--            /* tcg shl_i32/shl_i64 is undefined for 32/64 bit shifts,
+-        break;
--             * so an extract from bit 0 is a special case.
+-    case 1: /* SM4E */
--             */
+-        feature = dc_isar_feature(aa64_sm4, s);
 -            if (sf) {
 -                tcg_gen_mov_i64(tcg_rd, cpu_reg(s, rm));
 -            } else {
 -                tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, rm));
 -            }
 +    if (unlikely(a->imm == 0)) {
 +        /*
 +         * tcg shl_i32/shl_i64 is undefined for 32/64 bit shifts,
 +         * so an extract from bit 0 is a special case.
 +         */
 +        if (a->sf) {
 +            tcg_gen_mov_i64(tcg_rd, cpu_reg(s, a->rm));
          } else {
 -            tcg_rm = cpu_reg(s, rm);
 -            tcg_rn = cpu_reg(s, rn);
 +            tcg_gen_ext32u_i64(tcg_rd, cpu_reg(s, a->rm));
 +        }
 +    } else {
 +        tcg_rm = cpu_reg(s, a->rm);
 +        tcg_rn = cpu_reg(s, a->rn);
 -            if (sf) {
 -                /* Specialization to ROR happens in EXTRACT2.  */
 -                tcg_gen_extract2_i64(tcg_rd, tcg_rm, tcg_rn, imm);
 +        if (a->sf) {
 +            /* Specialization to ROR happens in EXTRACT2.  */
 +            tcg_gen_extract2_i64(tcg_rd, tcg_rm, tcg_rn, a->imm);
 +        } else {
 +            TCGv_i32 t0 = tcg_temp_new_i32();
 +
 +            tcg_gen_extrl_i64_i32(t0, tcg_rm);
 +            if (a->rm == a->rn) {
 +                tcg_gen_rotri_i32(t0, t0, a->imm);
              } else {
 -                TCGv_i32 t0 = tcg_temp_new_i32();
 -
 -                tcg_gen_extrl_i64_i32(t0, tcg_rm);
 -                if (rm == rn) {
 -                    tcg_gen_rotri_i32(t0, t0, imm);
 -                } else {
 -                    TCGv_i32 t1 = tcg_temp_new_i32();
 -                    tcg_gen_extrl_i64_i32(t1, tcg_rn);
 -                    tcg_gen_extract2_i32(t0, t0, t1, imm);
 -                }
 -                tcg_gen_extu_i32_i64(tcg_rd, t0);
 +                TCGv_i32 t1 = tcg_temp_new_i32();
 +                tcg_gen_extrl_i64_i32(t1, tcg_rn);
 +                tcg_gen_extract2_i32(t0, t0, t1, a->imm);
              }
 +            tcg_gen_extu_i32_i64(tcg_rd, t0);
          }
      }
 -}
 -
 -/* Data processing - immediate */
 -static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
 -{
 -    switch (extract32(insn, 23, 6)) {
 -    case 0x27: /* Extract */
 -        disas_extract(s, insn);
 -        break;
 -    default:
 -        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0: /* SHA512SU0 */
+-        gen_gvec_op2_ool(s, true, rd, rn, 0, gen_helper_crypto_sha512su0);
 -        break;
+-    case 1: /* SM4E */
+-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, gen_helper_crypto_sm4e);
+-        break;
+-    default:
+-        g_assert_not_reached();
 -    }
-+    return true;
+-}
- }
+-
+ /* Crypto four-register
- /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  *  31               23 22 21 20  16 15  14  10 9    5 4    0
-@@ -XXX,XX +XXX,XX @@ static bool btype_destination_ok(uint32_t insn, bool bt, int btype)
+  * +-------------------+-----+------+---+------+------+------+
- static void disas_a64_legacy(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
- {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
-     switch (extract32(insn, 25, 4)) {
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
--    case 0x8: case 0x9: /* Data processing - immediate */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
--        disas_data_proc_imm(s, insn);
+-    { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
--        break;
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
-     case 0xa: case 0xb: /* Branch, exception generation and system insns */
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
-         disas_b_exc_sys(s, insn);
+     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
          break;
 --
 .34.1

-[PULL 24/29] target/arm: Convert BRA[AB]Z, BLR[AB]Z, RETA[AB] to decodetree
+[PULL 20/42] target/arm: Convert Cryptographic 4-register to decodetree
-Convert the single-register pointer-authentication variants of BR,
+From: Richard Henderson <richard.henderson@linaro.org>
 BLR, RET to decodetree. (BRAA/BLRAA are in a different branch of
 the legacy decoder and will be dealt with in the next commit.)
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-19-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |   7 ++
+ target/arm/tcg/a64.decode      |   8 ++
- target/arm/tcg/translate-a64.c | 132 +++++++++++++++++++--------------
+ target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
-files changed, 84 insertions(+), 55 deletions(-)
+files changed, 51 insertions(+), 89 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ B_cond          0101010 0 ................... 0 cond:4 imm=%imm19
+@@ -XXX,XX +XXX,XX @@
- BR              1101011 0000 11111 000000 rn:5 00000 &r
+ &i              imm
- BLR             1101011 0001 11111 000000 rn:5 00000 &r
+ &qrr_e          q rd rn esz
- RET             1101011 0010 11111 000000 rn:5 00000 &r
+ &qrrr_e         q rd rn rm esz
-+
++&qrrrr_e        q rd rn rm ra esz
-+&braz       rn m
-+BRAZ            1101011 0000 11111 00001 m:1 rn:5 11111 &braz   # BRAAZ, BRABZ
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
-+BLRAZ           1101011 0001 11111 00001 m:1 rn:5 11111 &braz   # BLRAAZ, BLRABZ
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
-+
+ @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
-+&reta       m
+ @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
-+RETA            1101011 0010 11111 00001 m:1 11111 11111 &reta  # RETAA, RETAB
++@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
  SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
  SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
 +
 +### Cryptographic four-register
 +
 +EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
 +BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
 +SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_RET(DisasContext *s, arg_r *a)
+@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
      return true;
  }
-+static TCGv_i64 auth_branch_target(DisasContext *s, TCGv_i64 dst,
++static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
 +                                   TCGv_i64 modifier, bool use_key_a)
 +{
-+    TCGv_i64 truedst;
++    if (!a->q && a->esz == MO_64) {
 +    /*
 +     * Return the branch target for a BRAA/RETA/etc, which is either
 +     * just the destination dst, or that value with the pauth check
 +     * done and the code removed from the high bits.
 +     */
 +    if (!s->pauth_active) {
 +        return dst;
 +    }
 +
 +    truedst = tcg_temp_new_i64();
 +    if (use_key_a) {
 +        gen_helper_autia(truedst, cpu_env, dst, modifier);
 +    } else {
 +        gen_helper_autib(truedst, cpu_env, dst, modifier);
 +    }
 +    return truedst;
 +}
 +
 +static bool trans_BRAZ(DisasContext *s, arg_braz *a)
 +{
 +    TCGv_i64 dst;
 +
 +    if (!dc_isar_feature(aa64_pauth, s)) {
 +        return false;
 +    }
-+
++    if (fp_access_check(s)) {
-+    dst = auth_branch_target(s, cpu_reg(s, a->rn), tcg_constant_i64(0), !a->m);
++        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
-+    gen_a64_set_pc(s, dst);
++    }
 +    set_btype_for_br(s, a->rn);
 +    s->base.is_jmp = DISAS_JUMP;
 +    return true;
 +}
 +
-+static bool trans_BLRAZ(DisasContext *s, arg_braz *a)
+ /*
   * This utility function is for doing register extension with an
   * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
  TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
  TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 +TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
 +TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
 +
 +static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
 +{
-+    TCGv_i64 dst, lr;
++    if (!dc_isar_feature(aa64_sm3, s)) {
 +
 +    if (!dc_isar_feature(aa64_pauth, s)) {
 +        return false;
 +    }
-+
++    if (fp_access_check(s)) {
-+    dst = auth_branch_target(s, cpu_reg(s, a->rn), tcg_constant_i64(0), !a->m);
++        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-+    lr = cpu_reg(s, 30);
++        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-+    if (dst == lr) {
++        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
-+        TCGv_i64 tmp = tcg_temp_new_i64();
++        TCGv_i32 tcg_res = tcg_temp_new_i32();
-+        tcg_gen_mov_i64(tmp, dst);
++        unsigned vsz, dofs;
-+        dst = tmp;
++
-+    }
++        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
-+    gen_pc_plus_diff(s, lr, curr_insn_len(s));
++        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
-+    gen_a64_set_pc(s, dst);
++        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
-+    set_btype_for_blr(s);
++
-+    s->base.is_jmp = DISAS_JUMP;
++        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
 +        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
 +        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
 +        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
 +
 +        /* Clear the whole register first, then store bits [127:96]. */
 +        vsz = vec_full_reg_size(s);
 +        dofs = vec_full_reg_offset(s, a->rd);
 +        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
 +        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
 +    }
 +    return true;
 +}
-+
-+static bool trans_RETA(DisasContext *s, arg_reta *a)
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+{
+  * Note that it is the caller's responsibility to ensure that the
-+    TCGv_i64 dst;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
 +
 +    dst = auth_branch_target(s, cpu_reg(s, 30), cpu_X[31], !a->m);
 +    gen_a64_set_pc(s, dst);
 +    s->base.is_jmp = DISAS_JUMP;
 +    return true;
 +}
 +
  /* HINT instruction group, including various allocated HINTs */
  static void handle_hint(DisasContext *s, uint32_t insn,
                          unsigned int op1, unsigned int op2, unsigned int crm)
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
      }
+ }
-     switch (opc) {
--    case 0: /* BR */
+-/* Crypto four-register
--    case 1: /* BLR */
+- *  31               23 22 21 20  16 15  14  10 9    5 4    0
--    case 2: /* RET */
+- * +-------------------+-----+------+---+------+------+------+
--        btype_mod = opc;
+- * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
--        switch (op3) {
+- * +-------------------+-----+------+---+------+------+------+
--        case 0:
+- */
--            /* BR, BLR, RET : handled in decodetree */
+-static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
--            goto do_unallocated;
+-{
--
+-    int op0 = extract32(insn, 21, 2);
--        case 2:
+-    int rm = extract32(insn, 16, 5);
--        case 3:
+-    int ra = extract32(insn, 10, 5);
--            if (!dc_isar_feature(aa64_pauth, s)) {
+-    int rn = extract32(insn, 5, 5);
--                goto do_unallocated;
+-    int rd = extract32(insn, 0, 5);
 -    bool feature;
 -
 -    switch (op0) {
 -    case 0: /* EOR3 */
 -    case 1: /* BCAX */
 -        feature = dc_isar_feature(aa64_sha3, s);
 -        break;
 -    case 2: /* SM3SS1 */
 -        feature = dc_isar_feature(aa64_sm3, s);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    if (op0 < 2) {
 -        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
 -        int pass;
 -
 -        tcg_op1 = tcg_temp_new_i64();
 -        tcg_op2 = tcg_temp_new_i64();
 -        tcg_op3 = tcg_temp_new_i64();
 -        tcg_res[0] = tcg_temp_new_i64();
 -        tcg_res[1] = tcg_temp_new_i64();
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            read_vec_element(s, tcg_op1, rn, pass, MO_64);
 -            read_vec_element(s, tcg_op2, rm, pass, MO_64);
 -            read_vec_element(s, tcg_op3, ra, pass, MO_64);
 -
 -            if (op0 == 0) {
 -                /* EOR3 */
 -                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
 -            } else {
 -                /* BCAX */
 -                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
 -            }
--            if (opc == 2) {
+-            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
 -                /* RETAA, RETAB */
 -                if (rn != 0x1f || op4 != 0x1f) {
 -                    goto do_unallocated;
 -                }
 -                rn = 30;
 -                modifier = cpu_X[31];
 -            } else {
 -                /* BRAAZ, BRABZ, BLRAAZ, BLRABZ */
 -                if (op4 != 0x1f) {
 -                    goto do_unallocated;
 -                }
 -                modifier = tcg_constant_i64(0);
 -            }
 -            if (s->pauth_active) {
 -                dst = tcg_temp_new_i64();
 -                if (op3 == 2) {
 -                    gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
 -                } else {
 -                    gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
 -                }
 -            } else {
 -                dst = cpu_reg(s, rn);
 -            }
 -            break;
 -
 -        default:
 -            goto do_unallocated;
 -        }
--        /* BLR also needs to load return address */
+-        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
--        if (opc == 1) {
+-        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
--            TCGv_i64 lr = cpu_reg(s, 30);
+-    } else {
--            if (dst == lr) {
+-        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
--                TCGv_i64 tmp = tcg_temp_new_i64();
+-
--                tcg_gen_mov_i64(tmp, dst);
+-        tcg_op1 = tcg_temp_new_i32();
--                dst = tmp;
+-        tcg_op2 = tcg_temp_new_i32();
--            }
+-        tcg_op3 = tcg_temp_new_i32();
--            gen_pc_plus_diff(s, lr, curr_insn_len(s));
+-        tcg_res = tcg_temp_new_i32();
--        }
+-        tcg_zero = tcg_constant_i32(0);
--        gen_a64_set_pc(s, dst);
+-
--        break;
+-        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
-+    case 0:
+-        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
-+    case 1:
+-        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
-+    case 2:
+-
-+        /*
+-        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
-+         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ:
+-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
-+         * handled in decodetree
+-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
-+         */
+-        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
-+        goto do_unallocated;
+-
+-        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
-     case 8: /* BRAA */
+-        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
-     case 9: /* BLRAA */
+-        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
 -        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
 -    }
 -}
 -
  /* Crypto XAR
   *  31                   21 20  16 15    10 9    5 4    0
   * +-----------------------+------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0xce000000, 0xff808000, disas_crypto_four_reg },
      { 0xce800000, 0xffe00000, disas_crypto_xar },
      { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
      { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
 --
 .34.1

-[PULL 17/29] target/arm: Convert Bitfield to decodetree
+[PULL 21/42] target/arm: Convert Cryptographic 3-register, imm2 to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Convert the BFM, SBFM, UBFM instructions.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-12-peter.maydell@linaro.org
 [PMM: Rebased]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |  13 +++
+ target/arm/tcg/a64.decode      | 10 ++++++++
- target/arm/tcg/translate-a64.c | 144 ++++++++++++++++++---------------
+ target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
-files changed, 94 insertions(+), 63 deletions(-)
+files changed, 22 insertions(+), 31 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ MOVZ            . 10 100101 .. ................ .....   @movw_64
+@@ -XXX,XX +XXX,XX @@ SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
- MOVZ            . 10 100101 .. ................ .....   @movw_32
+ EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
- MOVK            . 11 100101 .. ................ .....   @movw_64
+ BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
- MOVK            . 11 100101 .. ................ .....   @movw_32
+ SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
 +
-+# Bitfield
++### Cryptographic three-register, imm2
 +
-+&bitfield       rd rn sf immr imms
++&crypto3i       rd rn rm imm
-+@bitfield_64    1 .. ...... 1 immr:6 imms:6 rn:5 rd:5      &bitfield sf=1
++@crypto3i       ........ ... rm:5 .. imm:2 .. rn:5 rd:5 &crypto3i
 +@bitfield_32    0 .. ...... 0 0 immr:5 0 imms:5 rn:5 rd:5  &bitfield sf=0
 +
-+SBFM            . 00 100110 . ...... ...... ..... ..... @bitfield_64
++SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
-+SBFM            . 00 100110 . ...... ...... ..... ..... @bitfield_32
++SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
-+BFM             . 01 100110 . ...... ...... ..... ..... @bitfield_64
++SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
-+BFM             . 01 100110 . ...... ...... ..... ..... @bitfield_32
++SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 +UBFM            . 10 100110 . ...... ...... ..... ..... @bitfield_64
 +UBFM            . 10 100110 . ...... ...... ..... ..... @bitfield_32
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_MOVK(DisasContext *s, arg_movw *a)
+@@ -XXX,XX +XXX,XX @@ static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
      return true;
  }
--/* Bitfield
++static bool do_crypto3i(DisasContext *s, arg_crypto3i *a, gen_helper_gvec_3 *fn)
-- *   31  30 29 28         23 22  21  16 15  10 9    5 4    0
++{
-- * +----+-----+-------------+---+------+------+------+------+
++    if (fp_access_check(s)) {
-- * | sf | opc | 1 0 0 1 1 0 | N | immr | imms |  Rn  |  Rd  |
++        gen_gvec_op3_ool(s, true, a->rd, a->rn, a->rm, a->imm, fn);
-- * +----+-----+-------------+---+------+------+------+------+
++    }
-+/*
++    return true;
-+ * Bitfield
++}
-  */
++TRANS_FEAT(SM3TT1A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1a)
--static void disas_bitfield(DisasContext *s, uint32_t insn)
++TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
 +TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
 +TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
 +
-+static bool trans_SBFM(DisasContext *s, arg_SBFM *a)
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
- {
+  * Note that it is the caller's responsibility to ensure that the
--    unsigned int sf, n, opc, ri, si, rn, rd, bitsize, pos, len;
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
--    TCGv_i64 tcg_rd, tcg_tmp;
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_xar(DisasContext *s, uint32_t insn)
-+    TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
+                  vec_full_reg_size(s));
-+    TCGv_i64 tcg_tmp = read_cpu_reg(s, a->rn, 1);
+ }
-+    unsigned int bitsize = a->sf ? 64 : 32;
-+    unsigned int ri = a->immr;
+-/* Crypto three-reg imm2
-+    unsigned int si = a->imms;
+- *  31                   21 20  16 15  14 13 12  11  10  9    5 4    0
-+    unsigned int pos, len;
+- * +-----------------------+------+-----+------+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 0 1 0 |  Rm  | 1 0 | imm2 | opcode |  Rn  |  Rd  |
--    sf = extract32(insn, 31, 1);
+- * +-----------------------+------+-----+------+--------+------+------+
--    opc = extract32(insn, 29, 2);
+- */
--    n = extract32(insn, 22, 1);
+-static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
--    ri = extract32(insn, 16, 6);
+-{
--    si = extract32(insn, 10, 6);
+-    static gen_helper_gvec_3 * const fns[4] = {
--    rn = extract32(insn, 5, 5);
+-        gen_helper_crypto_sm3tt1a, gen_helper_crypto_sm3tt1b,
--    rd = extract32(insn, 0, 5);
+-        gen_helper_crypto_sm3tt2a, gen_helper_crypto_sm3tt2b,
--    bitsize = sf ? 64 : 32;
+-    };
 -    int opcode = extract32(insn, 10, 2);
 -    int imm2 = extract32(insn, 12, 2);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -
--    if (sf != n || ri >= bitsize || si >= bitsize || opc > 2) {
+-    if (!dc_isar_feature(aa64_sm3, s)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
--    tcg_rd = cpu_reg(s, rd);
+-    if (!fp_access_check(s)) {
 -
 -    /* Suppress the zero-extend for !sf.  Since RI and SI are constrained
 -       to be smaller than bitsize, we'll never reference data outside the
 -       low 32-bits anyway.  */
 -    tcg_tmp = read_cpu_reg(s, rn, 1);
 -
 -    /* Recognize simple(r) extractions.  */
      if (si >= ri) {
          /* Wd<s-r:0> = Wn<s:r> */
          len = (si - ri) + 1;
 -        if (opc == 0) { /* SBFM: ASR, SBFX, SXTB, SXTH, SXTW */
 -            tcg_gen_sextract_i64(tcg_rd, tcg_tmp, ri, len);
 -            goto done;
 -        } else if (opc == 2) { /* UBFM: UBFX, LSR, UXTB, UXTH */
 -            tcg_gen_extract_i64(tcg_rd, tcg_tmp, ri, len);
 -            return;
 +        tcg_gen_sextract_i64(tcg_rd, tcg_tmp, ri, len);
 +        if (!a->sf) {
 +            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
          }
 -        /* opc == 1, BFXIL fall through to deposit */
 +    } else {
 +        /* Wd<32+s-r,32-r> = Wn<s:0> */
 +        len = si + 1;
 +        pos = (bitsize - ri) & (bitsize - 1);
 +
 +        if (len < ri) {
 +            /*
 +             * Sign extend the destination field from len to fill the
 +             * balance of the word.  Let the deposit below insert all
 +             * of those sign bits.
 +             */
 +            tcg_gen_sextract_i64(tcg_tmp, tcg_tmp, 0, len);
 +            len = ri;
 +        }
 +
 +        /*
 +         * We start with zero, and we haven't modified any bits outside
 +         * bitsize, therefore no final zero-extension is unneeded for !sf.
 +         */
 +        tcg_gen_deposit_z_i64(tcg_rd, tcg_tmp, pos, len);
 +    }
 +    return true;
 +}
 +
 +static bool trans_UBFM(DisasContext *s, arg_UBFM *a)
 +{
 +    TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
 +    TCGv_i64 tcg_tmp = read_cpu_reg(s, a->rn, 1);
 +    unsigned int bitsize = a->sf ? 64 : 32;
 +    unsigned int ri = a->immr;
 +    unsigned int si = a->imms;
 +    unsigned int pos, len;
 +
 +    tcg_rd = cpu_reg(s, a->rd);
 +    tcg_tmp = read_cpu_reg(s, a->rn, 1);
 +
 +    if (si >= ri) {
 +        /* Wd<s-r:0> = Wn<s:r> */
 +        len = (si - ri) + 1;
 +        tcg_gen_extract_i64(tcg_rd, tcg_tmp, ri, len);
 +    } else {
 +        /* Wd<32+s-r,32-r> = Wn<s:0> */
 +        len = si + 1;
 +        pos = (bitsize - ri) & (bitsize - 1);
 +        tcg_gen_deposit_z_i64(tcg_rd, tcg_tmp, pos, len);
 +    }
 +    return true;
 +}
 +
 +static bool trans_BFM(DisasContext *s, arg_BFM *a)
 +{
 +    TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
 +    TCGv_i64 tcg_tmp = read_cpu_reg(s, a->rn, 1);
 +    unsigned int bitsize = a->sf ? 64 : 32;
 +    unsigned int ri = a->immr;
 +    unsigned int si = a->imms;
 +    unsigned int pos, len;
 +
 +    tcg_rd = cpu_reg(s, a->rd);
 +    tcg_tmp = read_cpu_reg(s, a->rn, 1);
 +
 +    if (si >= ri) {
 +        /* Wd<s-r:0> = Wn<s:r> */
          tcg_gen_shri_i64(tcg_tmp, tcg_tmp, ri);
 +        len = (si - ri) + 1;
          pos = 0;
      } else {
 -        /* Handle the ri > si case with a deposit
 -         * Wd<32+s-r,32-r> = Wn<s:0>
 -         */
 +        /* Wd<32+s-r,32-r> = Wn<s:0> */
          len = si + 1;
          pos = (bitsize - ri) & (bitsize - 1);
      }
 -    if (opc == 0 && len < ri) {
 -        /* SBFM: sign extend the destination field from len to fill
 -           the balance of the word.  Let the deposit below insert all
 -           of those sign bits.  */
 -        tcg_gen_sextract_i64(tcg_tmp, tcg_tmp, 0, len);
 -        len = ri;
 -    }
 -
 -    if (opc == 1) { /* BFM, BFXIL */
 -        tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, pos, len);
 -    } else {
 -        /* SBFM or UBFM: We start with zero, and we haven't modified
 -           any bits outside bitsize, therefore the zero-extension
 -           below is unneeded.  */
 -        tcg_gen_deposit_z_i64(tcg_rd, tcg_tmp, pos, len);
 -        return;
 -    }
 -
-- done:
+-    gen_gvec_op3_ool(s, true, rd, rn, rm, imm2, fns[opcode]);
--    if (!sf) { /* zero extend final result */
+-}
-+    tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_tmp, pos, len);
+-
-+    if (!a->sf) {
+ /* C3.6 Data processing - SIMD, inc Crypto
-         tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+  *
-     }
+  * As the decode gets a little complex we are using a table based
-+    return true;
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
- }
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
- /* Extract
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
-@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
+-    { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
- static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
- {
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-     switch (extract32(insn, 23, 6)) {
+     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
 -    case 0x26: /* Bitfield */
 -        disas_bitfield(s, insn);
 -        break;
      case 0x27: /* Extract */
          disas_extract(s, insn);
          break;
 --
 .34.1

-New patch
+[PULL 22/42] target/arm: Convert XAR to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |  4 ++++
+ target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
+files changed, 18 insertions(+), 29 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
+ SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
+ SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
+ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
++
++### Cryptographic XAR
++
++XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
+ TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
+ TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
++static bool trans_XAR(DisasContext *s, arg_XAR *a)
++{
++    if (!dc_isar_feature(aa64_sha3, s)) {
++        return false;
++    }
++    if (fp_access_check(s)) {
++        gen_gvec_xar(MO_64, vec_full_reg_offset(s, a->rd),
++                     vec_full_reg_offset(s, a->rn),
++                     vec_full_reg_offset(s, a->rm), a->imm, 16,
++                     vec_full_reg_size(s));
++    }
++    return true;
++}
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto XAR
+- *  31                   21 20  16 15    10 9    5 4    0
+- * +-----------------------+------+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 1 0 0 |  Rm  |  imm6  |  Rn  |  Rd  |
+- * +-----------------------+------+--------+------+------+
+- */
+-static void disas_crypto_xar(DisasContext *s, uint32_t insn)
+-{
+-    int rm = extract32(insn, 16, 5);
+-    int imm6 = extract32(insn, 10, 6);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-
+-    if (!dc_isar_feature(aa64_sha3, s)) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    gen_gvec_xar(MO_64, vec_full_reg_offset(s, rd),
+-                 vec_full_reg_offset(s, rn),
+-                 vec_full_reg_offset(s, rm), imm6, 16,
+-                 vec_full_reg_size(s));
+-}
+-
+ /* C3.6 Data processing - SIMD, inc Crypto
+  *
+  * As the decode gets a little complex we are using a table based
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0xce800000, 0xffe00000, disas_crypto_xar },
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
+     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
+--
+.34.1

-[PULL 21/29] target/arm: Convert TBZ, TBNZ to decodetree
+[PULL 23/42] target/arm: Convert Advanced SIMD copy to decodetree
-Convert the test-and-branch-immediate insns TBZ and TBNZ
+From: Richard Henderson <richard.henderson@linaro.org>
 to decodetree.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-16-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  6 ++++++
+ target/arm/tcg/a64.decode      |  13 +
- target/arm/tcg/translate-a64.c | 25 +++++--------------------
+ target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
-files changed, 11 insertions(+), 20 deletions(-)
+files changed, 152 insertions(+), 287 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ BL              1 00101 .......................... @branch
+@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
- &cbz     rt imm sf nz
+ ### Cryptographic XAR
- CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
+ XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
 +
-+%imm14     5:s14 !function=times_4
++### Advanced SIMD scalar copy
-+%imm31_19  31:1 19:5
++
-+&tbz       rt imm nz bitpos
++DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
 +
-+TBZ             . 011011 nz:1 ..... .............. rt:5 &tbz  imm=%imm14 bitpos=%imm31_19
++### Advanced SIMD copy
 +
 +DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
 +DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
 +INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 +SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 +UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 +INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_CBZ(DisasContext *s, arg_cbz *a)
+@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
      return true;
  }
--/* Test and branch (immediate)
++/*
-- *   31  30         25  24  23   19 18          5 4    0
++ * Advanced SIMD copy
-- * +----+-------------+----+-------+-------------+------+
++ */
-- * | b5 | 0 1 1 0 1 1 | op |  b40  |    imm14    |  Rt  |
++
-- * +----+-------------+----+-------+-------------+------+
++static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
-- */
++{
--static void disas_test_b_imm(DisasContext *s, uint32_t insn)
++    unsigned esz = ctz32(imm);
-+static bool trans_TBZ(DisasContext *s, arg_tbz *a)
++    if (esz <= MO_64) {
- {
++        *pesz = esz;
--    unsigned int bit_pos, op, rt;
++        *pidx = imm >> (esz + 1);
--    int64_t diff;
++        return true;
-     DisasLabel match;
++    }
-     TCGv_i64 tcg_cmp;
++    return false;
++}
--    bit_pos = (extract32(insn, 31, 1) << 5) | extract32(insn, 19, 5);
++
--    op = extract32(insn, 24, 1); /* 0: TBZ; 1: TBNZ */
++static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
--    diff = sextract32(insn, 5, 14) * 4;
++{
--    rt = extract32(insn, 0, 5);
++    MemOp esz;
--
++    unsigned idx;
-     tcg_cmp = tcg_temp_new_i64();
++
--    tcg_gen_andi_i64(tcg_cmp, cpu_reg(s, rt), (1ULL << bit_pos));
++    if (!decode_esz_idx(a->imm, &esz, &idx)) {
-+    tcg_gen_andi_i64(tcg_cmp, cpu_reg(s, a->rt), 1ULL << a->bitpos);
++        return false;
++    }
-     reset_btype(s);
++    if (fp_access_check(s)) {
++        /*
-     match = gen_disas_label(s);
++         * This instruction just extracts the specified element and
--    tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
++         * zero-extends it into the bottom of the destination register.
-+    tcg_gen_brcondi_i64(a->nz ? TCG_COND_NE : TCG_COND_EQ,
++         */
-                         tcg_cmp, 0, match.label);
++        TCGv_i64 tmp = tcg_temp_new_i64();
-     gen_goto_tb(s, 0, 4);
++        read_vec_element(s, tmp, a->rn, idx, esz);
-     set_disas_label(s, match);
++        write_fp_dreg(s, a->rd, tmp);
--    gen_goto_tb(s, 1, diff);
++    }
-+    gen_goto_tb(s, 1, a->imm);
++    return true;
-+    return true;
++}
 +
 +static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
 +                             vec_reg_offset(s, a->rn, idx, esz),
 +                             a->q ? 16 : 8, vec_full_reg_size(s));
 +    }
 +    return true;
 +}
 +
 +static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
 +                             a->q ? 16 : 8, vec_full_reg_size(s),
 +                             cpu_reg(s, a->rn));
 +    }
 +    return true;
 +}
 +
 +static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (is_signed) {
 +        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
 +            return false;
 +        }
 +    } else {
 +        if (esz == MO_64 ? !a->q : a->q) {
 +            return false;
 +        }
 +    }
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
 +        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
 +        if (is_signed && !a->q) {
 +            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 +        }
 +    }
 +    return true;
 +}
 +
 +TRANS(SMOV, do_smov_umov, a, MO_SIGN)
 +TRANS(UMOV, do_smov_umov, a, 0)
 +
 +static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
 +{
 +    MemOp esz;
 +    unsigned didx, sidx;
 +
 +    if (!decode_esz_idx(a->di, &esz, &didx)) {
 +        return false;
 +    }
 +    sidx = a->si >> esz;
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +
 +        read_vec_element(s, tmp, a->rn, sidx, esz);
 +        write_vec_element(s, tmp, a->rd, didx, esz);
 +
 +        /* INS is considered a 128-bit write for SVE. */
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_res);
  }
- /* Conditional branch (immediate)
+-/* DUP (Element, Vector)
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+- *
- static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
+- *  31  30   29              21 20    16 15        10  9    5 4    0
- {
+- * +---+---+-------------------+--------+-------------+------+------+
-     switch (extract32(insn, 25, 7)) {
+- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
--    case 0x1b: case 0x5b: /* Test & branch (immediate) */
+- * +---+---+-------------------+--------+-------------+------+------+
--        disas_test_b_imm(s, insn);
+- *
--        break;
+- * size: encoded in imm5 (see ARM ARM LowestSetBit())
-     case 0x2a: /* Conditional branch (immediate) */
+- */
-         disas_cond_b_imm(s, insn);
+-static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
-         break;
+-                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -
 -    if (size > 3 || (size == 3 && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
 -                         vec_reg_offset(s, rn, index, size),
 -                         is_q ? 16 : 8, vec_full_reg_size(s));
 -}
 -
 -/* DUP (element, scalar)
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - */
 -static void handle_simd_dupes(DisasContext *s, int rd, int rn,
 -                              int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -
 -    /* This instruction just extracts the specified element and
 -     * zero-extends it into the bottom of the destination register.
 -     */
 -    tmp = tcg_temp_new_i64();
 -    read_vec_element(s, tmp, rn, index, size);
 -    write_fp_dreg(s, rd, tmp);
 -}
 -
 -/* DUP (General)
 - *
 - *  31  30   29              21 20    16 15        10  9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
 -                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    uint32_t dofs, oprsz, maxsz;
 -
 -    if (size > 3 || ((size == 3) && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dofs = vec_full_reg_offset(s, rd);
 -    oprsz = is_q ? 16 : 8;
 -    maxsz = vec_full_reg_size(s);
 -
 -    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
 -}
 -
 -/* INS (Element)
 - *
 - *  31                   21 20    16 15  14    11  10 9    5 4    0
 - * +-----------------------+--------+------------+---+------+------+
 - * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+------------+---+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_inse(DisasContext *s, int rd, int rn,
 -                             int imm4, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int src_index, dst_index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dst_index = extract32(imm5, 1+size, 5);
 -    src_index = extract32(imm4, size, 4);
 -
 -    tmp = tcg_temp_new_i64();
 -
 -    read_vec_element(s, tmp, rn, src_index, size);
 -    write_vec_element(s, tmp, rd, dst_index, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -
 -/* INS (General)
 - *
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int idx;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    idx = extract32(imm5, 1 + size, 4 - size);
 -    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -/*
 - * UMOV (General)
 - * SMOV (General)
 - *
 - *  31  30   29              21 20    16 15    12   10 9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * U: unsigned when set
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
 -                                  int rn, int rd, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int element;
 -    TCGv_i64 tcg_rd;
 -
 -    /* Check for UnallocatedEncodings */
 -    if (is_signed) {
 -        if (size > 2 || (size == 2 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    } else {
 -        if (size > 3
 -            || (size < 3 && is_q)
 -            || (size == 3 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    element = extract32(imm5, 1+size, 4);
 -
 -    tcg_rd = cpu_reg(s, rd);
 -    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
 -    if (is_signed && !is_q) {
 -        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 -    }
 -}
 -
 -/* AdvSIMD copy
 - *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - */
 -static void disas_simd_copy(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int imm4 = extract32(insn, 11, 4);
 -    int op = extract32(insn, 29, 1);
 -    int is_q = extract32(insn, 30, 1);
 -    int imm5 = extract32(insn, 16, 5);
 -
 -    if (op) {
 -        if (is_q) {
 -            /* INS (element) */
 -            handle_simd_inse(s, rd, rn, imm4, imm5);
 -        } else {
 -            unallocated_encoding(s);
 -        }
 -    } else {
 -        switch (imm4) {
 -        case 0:
 -            /* DUP (element - vector) */
 -            handle_simd_dupe(s, is_q, rd, rn, imm5);
 -            break;
 -        case 1:
 -            /* DUP (general) */
 -            handle_simd_dupg(s, is_q, rd, rn, imm5);
 -            break;
 -        case 3:
 -            if (is_q) {
 -                /* INS (general) */
 -                handle_simd_insg(s, rd, rn, imm5);
 -            } else {
 -                unallocated_encoding(s);
 -            }
 -            break;
 -        case 5:
 -        case 7:
 -            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
 -            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            break;
 -        }
 -    }
 -}
 -
  /* AdvSIMD modified immediate
   *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
   * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
  }
 -/* AdvSIMD scalar copy
 - *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
 - * +-----+----+-----------------+------+---+------+---+------+------+
 - * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
 - * +-----+----+-----------------+------+---+------+---+------+------+
 - */
 -static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int imm4 = extract32(insn, 11, 4);
 -    int imm5 = extract32(insn, 16, 5);
 -    int op = extract32(insn, 29, 1);
 -
 -    if (op != 0 || imm4 != 0) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    /* DUP (element, scalar) */
 -    handle_simd_dupes(s, rd, rn, imm5);
 -}
 -
  /* AdvSIMD scalar pairwise
   *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
   * +-----+---+-----------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
      { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
      { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
 -    { 0x0e000400, 0x9fe08400, disas_simd_copy },
      { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
      /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
      { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
      { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
      { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
 -    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
 --
 .34.1

-[PULL 25/29] target/arm: Convert BRAA, BRAB, BLRAA, BLRAB to decodetree
+[PULL 24/42] target/arm: Convert FMULX to decodetree
-Convert the last four BR-with-pointer-auth insns to decodetree.
+From: Richard Henderson <richard.henderson@linaro.org>
 The remaining cases in the outer switch in disas_uncond_b_reg()
 all return early rather than leaving the case statement, so we
 can delete the now-unused code at the end of that function.
+Convert all forms (scalar, vector, scalar indexed, vector indexed),
+which allows us to remove switch table entries elsewhere.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-20-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  4 ++
+ target/arm/tcg/helper-a64.h    |   8 ++
- target/arm/tcg/translate-a64.c | 97 ++++++++++++++--------------------
+ target/arm/tcg/a64.decode      |  45 +++++++
-files changed, 43 insertions(+), 58 deletions(-)
+ target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
  target/arm/tcg/vec_helper.c    |  39 +++---
 files changed, 259 insertions(+), 54 deletions(-)
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/helper-a64.h
++++ b/target/arm/tcg/helper-a64.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
+ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
+ DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
+ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
++
++DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
++DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ BLRAZ           1101011 0001 11111 00001 m:1 rn:5 11111 &braz   # BLRAAZ, BLRABZ
+@@ -XXX,XX +XXX,XX @@
+ #
- &reta       m
- RETA            1101011 0010 11111 00001 m:1 11111 11111 &reta  # RETAA, RETAB
+ %rd             0:5
-+
++%esz_sd         22:1 !function=plus_2
-+&bra        rn rm m
++%hl             11:1 21:1
-+BRA             1101011 1000 11111 00001 m:1 rn:5 rm:5 &bra # BRAA, BRAB
++%hlm            11:1 20:2
-+BLRA            1101011 1001 11111 00001 m:1 rn:5 rm:5 &bra # BLRAA, BLRAB
  &r              rn
  &ri             rd imm
  &rri_sf         rd rn imm sf
  &i              imm
 +&rrr_e          rd rn rm esz
 +&rrx_e          rd rn rm idx esz
  &qrr_e          q rd rn esz
  &qrrr_e         q rd rn rm esz
 +&qrrx_e         q rd rn rm idx esz
  &qrrrr_e        q rd rn rm ra esz
 +@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
 +@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
 +
 +@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
 +@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
 +@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
 +
  @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
  @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
  @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
  @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 +@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 +@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 +
 +@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
 +                &qrrx_e esz=1 idx=%hlm
 +@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
 +                &qrrx_e esz=2 idx=%hl
 +@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
 +                &qrrx_e esz=3
 +
  ### Data Processing - Immediate
  # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
  SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
  UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
  INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 +
 +### Advanced SIMD scalar three same
 +
 +FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 +FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 +
 +### Advanced SIMD three same
 +
 +FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 +FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +
 +### Advanced SIMD scalar x indexed element
 +
 +FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 +FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +
 +### Advanced SIMD vector x indexed element
 +
 +FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 +FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 +FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_RETA(DisasContext *s, arg_reta *a)
+@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
      return true;
  }
-+static bool trans_BRA(DisasContext *s, arg_bra *a)
++/*
 + * Advanced SIMD three same
 + */
 +
 +typedef struct FPScalar {
 +    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
 +    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
 +    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
 +} FPScalar;
 +
 +static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
 +{
-+    TCGv_i64 dst;
++    switch (a->esz) {
-+
++    case MO_64:
-+    if (!dc_isar_feature(aa64_pauth, s)) {
++        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
 +            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
-+    dst = auth_branch_target(s, cpu_reg(s,a->rn), cpu_reg_sp(s, a->rm), !a->m);
-+    gen_a64_set_pc(s, dst);
-+    set_btype_for_br(s, a->rn);
-+    s->base.is_jmp = DISAS_JUMP;
 +    return true;
 +}
 +
-+static bool trans_BLRA(DisasContext *s, arg_bra *a)
++static const FPScalar f_scalar_fmulx = {
 +    gen_helper_advsimd_mulxh,
 +    gen_helper_vfp_mulxs,
 +    gen_helper_vfp_mulxd,
 +};
 +TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
 +
 +static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
 +                          gen_helper_gvec_3_ptr * const fns[3])
 +{
-+    TCGv_i64 dst, lr;
++    MemOp esz = a->esz;
 +
-+    if (!dc_isar_feature(aa64_pauth, s)) {
++    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
-+    dst = auth_branch_target(s, cpu_reg(s, a->rn), cpu_reg_sp(s, a->rm), !a->m);
++    if (fp_access_check(s)) {
-+    lr = cpu_reg(s, 30);
++        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
-+    if (dst == lr) {
++                          esz == MO_16, 0, fns[esz - 1]);
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +        tcg_gen_mov_i64(tmp, dst);
 +        dst = tmp;
 +    }
-+    gen_pc_plus_diff(s, lr, curr_insn_len(s));
-+    gen_a64_set_pc(s, dst);
-+    set_btype_for_blr(s);
-+    s->base.is_jmp = DISAS_JUMP;
 +    return true;
 +}
 +
- /* HINT instruction group, including various allocated HINTs */
++static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
- static void handle_hint(DisasContext *s, uint32_t insn,
++    gen_helper_gvec_fmulx_h,
-                         unsigned int op1, unsigned int op2, unsigned int crm)
++    gen_helper_gvec_fmulx_s,
-@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
++    gen_helper_gvec_fmulx_d,
- static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
++};
- {
++TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
-     unsigned int opc, op2, op3, rn, op4;
++
--    unsigned btype_mod = 2;   /* 0: BR, 1: BLR, 2: other */
++/*
-     TCGv_i64 dst;
++ * Advanced SIMD scalar/vector x indexed element
-     TCGv_i64 modifier;
++ */
++
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
++static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
-     case 0:
++{
-     case 1:
++    switch (a->esz) {
-     case 2:
++    case MO_64:
-+    case 8:
++        if (fp_access_check(s)) {
-+    case 9:
++            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
-         /*
++            TCGv_i64 t1 = tcg_temp_new_i64();
--         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ:
++
--         * handled in decodetree
++            read_vec_element(s, t1, a->rm, a->idx, MO_64);
-+         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ,
++            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
-+         * BRAA, BLRAA: handled in decodetree
++            write_fp_dreg(s, a->rd, t0);
-          */
++        }
-         goto do_unallocated;
++        break;
++    case MO_32:
--    case 8: /* BRAA */
++        if (fp_access_check(s)) {
--    case 9: /* BLRAA */
++            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
--        if (!dc_isar_feature(aa64_pauth, s)) {
++            TCGv_i32 t1 = tcg_temp_new_i32();
--            goto do_unallocated;
++
--        }
++            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
--        if ((op3 & ~1) != 2) {
++            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
--            goto do_unallocated;
++            write_fp_sreg(s, a->rd, t0);
--        }
++        }
--        btype_mod = opc & 1;
++        break;
--        if (s->pauth_active) {
++    case MO_16:
--            dst = tcg_temp_new_i64();
++        if (!dc_isar_feature(aa64_fp16, s)) {
--            modifier = cpu_reg_sp(s, op4);
++            return false;
--            if (op3 == 2) {
++        }
--                gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
++        if (fp_access_check(s)) {
--            } else {
++            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
--                gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
++            TCGv_i32 t1 = tcg_temp_new_i32();
--            }
++
--        } else {
++            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
--            dst = cpu_reg(s, rn);
++            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
--        }
++            write_fp_sreg(s, a->rd, t0);
--        /* BLRAA also needs to load return address */
++        }
--        if (opc == 9) {
++        break;
--            TCGv_i64 lr = cpu_reg(s, 30);
++    default:
--            if (dst == lr) {
++        g_assert_not_reached();
--                TCGv_i64 tmp = tcg_temp_new_i64();
++    }
--                tcg_gen_mov_i64(tmp, dst);
++    return true;
--                dst = tmp;
++}
--            }
++
--            gen_pc_plus_diff(s, lr, curr_insn_len(s));
++TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
--        }
++
--        gen_a64_set_pc(s, dst);
++static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
--        break;
++                              gen_helper_gvec_3_ptr * const fns[3])
--
++{
-     case 4: /* ERET */
++    MemOp esz = a->esz;
-         if (s->current_el == 0) {
++
-             goto do_unallocated;
++    switch (esz) {
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
++    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
 +                          esz == MO_16, a->idx, fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
 +static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
 +    gen_helper_gvec_fmulx_idx_h,
 +    gen_helper_gvec_fmulx_idx_s,
 +    gen_helper_gvec_fmulx_idx_d,
 +};
 +TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 +
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1a: /* FADD */
                  gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1a: /* FADD */
                  gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          /* Floating point: U, size[1] and opcode indicate operation */
          int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
          switch (fpopcode) {
 -        case 0x1b: /* FMULX */
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
          case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          case 0x7a: /* FABD */
              break;
          default:
 +        case 0x1b: /* FMULX */
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      TCGv_i32 tcg_res;
      switch (fpopcode) {
 -    case 0x03: /* FMULX */
      case 0x04: /* FCMEQ (reg) */
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      case 0x1d: /* FACGT */
          break;
      default:
 +    case 0x03: /* FMULX */
          unallocated_encoding(s);
          return;
      }
--
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
--    switch (btype_mod) {
+     tcg_res = tcg_temp_new_i32();
--    case 0: /* BR */
--        if (dc_isar_feature(aa64_bti, s)) {
+     switch (fpopcode) {
--            /* BR to {x16,x17} or !guard -> 1, else 3.  */
+-    case 0x03: /* FMULX */
--            set_btype(s, rn == 16 || rn == 17 || !s->guarded_page ? 1 : 3);
+-        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        }
 -        break;
--
+     case 0x04: /* FCMEQ (reg) */
--    case 1: /* BLR */
+         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
--        if (dc_isar_feature(aa64_bti, s)) {
+         break;
--            /* BLR sets BTYPE to 2, regardless of source guarded page.  */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
--            set_btype(s, 2);
+         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
--        }
+         break;
--        break;
+     default:
--
++    case 0x03: /* FMULX */
--    default: /* RET or none of the above.  */
+         g_assert_not_reached();
--        /* BTYPE will be set to 0 by normal end-of-insn processing.  */
+     }
--        break;
--    }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
--
+         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
--    s->base.is_jmp = DISAS_JUMP;
+                                rn, rm, rd);
          return;
 -    case 0x1b: /* FMULX */
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
      case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x1b: /* FMULX */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
      case 0x2: /* FADD */
 -    case 0x3: /* FMULX */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
      default:
 +    case 0x3: /* FMULX */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0x2: /* FADD */
                  gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3: /* FMULX */
 -                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x3: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      case 0x01: /* FMLA */
      case 0x05: /* FMLS */
      case 0x09: /* FMUL */
 -    case 0x19: /* FMULX */
          is_fp = 1;
          break;
      case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x19: /* FMULX */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
              case 0x09: /* FMUL */
                  gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
                  break;
 -            case 0x19: /* FMULX */
 -                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
 -                break;
              default:
 +            case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                      g_assert_not_reached();
                  }
                  break;
 -            case 0x19: /* FMULX */
 -                switch (size) {
 -                case 1:
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
 -                                                 tcg_idx, fpst);
 -                    } else {
 -                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
 -                                                  tcg_idx, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
  DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
  #ifdef TARGET_AARCH64
 +DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
 +DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
 +DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
  DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
  DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
  #undef DO_MLA_IDX
 -#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
 +#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
      intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
      for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
          TYPE mm = m[H(i + idx)];                                           \
          for (j = 0; j < segment; j++) {                                    \
 -            d[i + j] = TYPE##_##ADD(d[i + j],                              \
 -                                    TYPE##_mul(n[i + j], mm, stat), stat); \
 +            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
          }                                                                  \
      }                                                                      \
      clear_tail(d, oprsz, simd_maxsz(desc));                                \
  }
- /* Branches, exception generating and system instructions */
+-#define float16_nop(N, M, S) (M)
 -#define float32_nop(N, M, S) (M)
 -#define float64_nop(N, M, S) (M)
 +#define nop(N, M, S) (M)
 -DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
 -DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
 -DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
 +DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
 +DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
 +
 +#ifdef TARGET_AARCH64
 +
 +DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
 +DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
 +DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
 +
 +#endif
 +
 +#undef nop
  /*
   * Non-fused multiply-accumulate operations, for Neon. NB that unlike
   * the fused ops below they assume accumulate both from and into Vd.
   */
 -DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
 -DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
 -DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
 -DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
 +DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 -#undef float16_nop
 -#undef float32_nop
 -#undef float64_nop
  #undef DO_FMUL_IDX
  #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
 --
 .34.1

-[PULL 12/29] target/arm: Convert Add/subtract (immediate) to decodetree
+[PULL 25/42] target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Convert the ADD and SUB (immediate) instructions.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-7-peter.maydell@linaro.org
 [PMM: Rebased; adjusted to use translate.h's TRANS macro]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/translate.h     |  5 +++
+ target/arm/tcg/helper-a64.h    |   4 +
- target/arm/tcg/a64.decode      | 17 ++++++++
+ target/arm/tcg/translate.h     |   5 +
- target/arm/tcg/translate-a64.c | 73 ++++++++++------------------------
+ target/arm/tcg/a64.decode      |  27 +++++
-files changed, 42 insertions(+), 53 deletions(-)
+ target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |   4 +
 files changed, 143 insertions(+), 102 deletions(-)
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/helper-a64.h
++++ b/target/arm/tcg/helper-a64.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
+ DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
+ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
++DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
+ DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
-@@ -XXX,XX +XXX,XX @@ static inline int rsub_8(DisasContext *s, int x)
+@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
-     return 8 - x;
+     return x << 12;
  }
-+static inline int shl_12(DisasContext *s, int x)
++static inline int xor_2(DisasContext *s, int x)
 +{
-+    return x << 12;
++    return x ^ 2;
 +}
 +
  static inline int neon_3same_fp_size(DisasContext *s, int x)
  {
      /* Convert 0==fp32, 1==fp16 into a MO_* value */
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
 @@ -XXX,XX +XXX,XX @@
- #
+ %rd             0:5
- &ri              rd imm
+ %esz_sd         22:1 !function=plus_2
-+&rri_sf          rd rn imm sf
++%esz_hsd        22:2 !function=xor_2
+ %hl             11:1 21:1
+ %hlm            11:1 20:2
- ### Data Processing - Immediate
 @@ -XXX,XX +XXX,XX @@
- ADR             0 .. 10000 ................... .....    @pcrel
+ @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
- ADRP            1 .. 10000 ................... .....    @pcrel
+ @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
-+
++@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
-+# Add/subtract (immediate)
-+
+ @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
-+%imm12_sh12     10:12 !function=shl_12
+ @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
-+@addsub_imm     sf:1 .. ...... . imm:12 rn:5 rd:5
+@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
-+@addsub_imm12   sf:1 .. ...... . ............ rn:5 rd:5 imm=%imm12_sh12
-+
+ ### Advanced SIMD scalar three same
-+ADD_i           . 00 100010 0 ............ ..... .....  @addsub_imm
-+ADD_i           . 00 100010 1 ............ ..... .....  @addsub_imm12
++FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
-+ADDS_i          . 01 100010 0 ............ ..... .....  @addsub_imm
++FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
-+ADDS_i          . 01 100010 1 ............ ..... .....  @addsub_imm12
++FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
-+
++FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
-+SUB_i           . 10 100010 0 ............ ..... .....  @addsub_imm
++
-+SUB_i           . 10 100010 1 ............ ..... .....  @addsub_imm12
+ FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
-+SUBS_i          . 11 100010 0 ............ ..... .....  @addsub_imm
+ FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
-+SUBS_i          . 11 100010 1 ............ ..... .....  @addsub_imm12
  ### Advanced SIMD three same
 +FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 +FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
 +FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 +FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
 +FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
 +FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
 +FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 +FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +
  FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
  ### Advanced SIMD scalar x indexed element
 +FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 +FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +
  FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
  FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
  ### Advanced SIMD vector x indexed element
 +FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 +FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 +FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
      return true;
  }
 +static const FPScalar f_scalar_fadd = {
 +    gen_helper_vfp_addh,
 +    gen_helper_vfp_adds,
 +    gen_helper_vfp_addd,
 +};
 +TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
 +
 +static const FPScalar f_scalar_fsub = {
 +    gen_helper_vfp_subh,
 +    gen_helper_vfp_subs,
 +    gen_helper_vfp_subd,
 +};
 +TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
 +
 +static const FPScalar f_scalar_fdiv = {
 +    gen_helper_vfp_divh,
 +    gen_helper_vfp_divs,
 +    gen_helper_vfp_divd,
 +};
 +TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
 +
 +static const FPScalar f_scalar_fmul = {
 +    gen_helper_vfp_mulh,
 +    gen_helper_vfp_muls,
 +    gen_helper_vfp_muld,
 +};
 +TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 +
  static const FPScalar f_scalar_fmulx = {
      gen_helper_advsimd_mulxh,
      gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
      return true;
  }
 +static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
 +    gen_helper_gvec_fadd_h,
 +    gen_helper_gvec_fadd_s,
 +    gen_helper_gvec_fadd_d,
 +};
 +TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
 +    gen_helper_gvec_fsub_h,
 +    gen_helper_gvec_fsub_s,
 +    gen_helper_gvec_fsub_d,
 +};
 +TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
 +    gen_helper_gvec_fdiv_h,
 +    gen_helper_gvec_fdiv_s,
 +    gen_helper_gvec_fdiv_d,
 +};
 +TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
 +    gen_helper_gvec_fmul_h,
 +    gen_helper_gvec_fmul_s,
 +    gen_helper_gvec_fmul_d,
 +};
 +TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
      gen_helper_gvec_fmulx_h,
      gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
      return true;
  }
 +TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
  static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
      return true;
  }
 +static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
 +    gen_helper_gvec_fmul_idx_h,
 +    gen_helper_gvec_fmul_idx_s,
 +    gen_helper_gvec_fmul_idx_d,
 +};
 +TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
      gen_helper_gvec_fmulx_idx_h,
      gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      tcg_op2 = read_fp_sreg(s, rm);
      switch (opcode) {
 -    case 0x0: /* FMUL */
 -        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1: /* FDIV */
 -        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x2: /* FADD */
 -        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x3: /* FSUB */
 -        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x4: /* FMAX */
          gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negs(tcg_res, tcg_res);
          break;
 +    default:
 +    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
 +        g_assert_not_reached();
      }
- }
+     write_fp_sreg(s, rd, tcg_res);
-+typedef void ArithTwoOp(TCGv_i64, TCGv_i64, TCGv_i64);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
-+
+     tcg_op2 = read_fp_dreg(s, rm);
-+static bool gen_rri(DisasContext *s, arg_rri_sf *a,
-+                    bool rd_sp, bool rn_sp, ArithTwoOp *fn)
+     switch (opcode) {
-+{
+-    case 0x0: /* FMUL */
-+    TCGv_i64 tcg_rn = rn_sp ? cpu_reg_sp(s, a->rn) : cpu_reg(s, a->rn);
+-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-+    TCGv_i64 tcg_rd = rd_sp ? cpu_reg_sp(s, a->rd) : cpu_reg(s, a->rd);
+-        break;
-+    TCGv_i64 tcg_imm = tcg_constant_i64(a->imm);
+-    case 0x1: /* FDIV */
-+
+-        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-+    fn(tcg_rd, tcg_rn, tcg_imm);
+-        break;
-+    if (!a->sf) {
+-    case 0x2: /* FADD */
-+        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+-        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-+    }
+-        break;
-+    return true;
+-    case 0x3: /* FSUB */
-+}
+-        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-+
+-        break;
- /*
+     case 0x4: /* FMAX */
-  * PC-rel. addressing
+         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-  */
+         break;
-@@ -XXX,XX +XXX,XX @@ static bool trans_ADRP(DisasContext *s, arg_ri *a)
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
+         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
- /*
+         gen_helper_vfp_negd(tcg_res, tcg_res);
-  * Add/subtract (immediate)
+         break;
-- *
++    default:
-- *  31 30 29 28         23 22 21         10 9   5 4   0
++    case 0x0: /* FMUL */
-- * +--+--+--+-------------+--+-------------+-----+-----+
++    case 0x1: /* FDIV */
-- * |sf|op| S| 1 0 0 0 1 0 |sh|    imm12    |  Rn | Rd  |
++    case 0x2: /* FADD */
-- * +--+--+--+-------------+--+-------------+-----+-----+
++    case 0x3: /* FSUB */
-- *
++        g_assert_not_reached();
-- *    sf: 0 -> 32bit, 1 -> 64bit
+     }
-- *    op: 0 -> add  , 1 -> sub
-- *     S: 1 -> set flags
+     write_fp_dreg(s, rd, tcg_res);
-- *    sh: 1 -> LSL imm by 12
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
-  */
+     tcg_op2 = read_fp_hreg(s, rm);
--static void disas_add_sub_imm(DisasContext *s, uint32_t insn)
--{
+     switch (opcode) {
--    int rd = extract32(insn, 0, 5);
+-    case 0x0: /* FMUL */
--    int rn = extract32(insn, 5, 5);
+-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
--    uint64_t imm = extract32(insn, 10, 12);
+-        break;
--    bool shift = extract32(insn, 22, 1);
+-    case 0x1: /* FDIV */
--    bool setflags = extract32(insn, 29, 1);
+-        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
--    bool sub_op = extract32(insn, 30, 1);
+-        break;
--    bool is_64bit = extract32(insn, 31, 1);
+-    case 0x2: /* FADD */
--
+-        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
--    TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
+-        break;
--    TCGv_i64 tcg_rd = setflags ? cpu_reg(s, rd) : cpu_reg_sp(s, rd);
+-    case 0x3: /* FSUB */
--    TCGv_i64 tcg_result;
+-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
--
+-        break;
--    if (shift) {
+     case 0x4: /* FMAX */
--        imm <<= 12;
+         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
--    }
+         break;
--
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
--    tcg_result = tcg_temp_new_i64();
+         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
--    if (!setflags) {
+         break;
--        if (sub_op) {
+     default:
--            tcg_gen_subi_i64(tcg_result, tcg_rn, imm);
++    case 0x0: /* FMUL */
--        } else {
++    case 0x1: /* FDIV */
--            tcg_gen_addi_i64(tcg_result, tcg_rn, imm);
++    case 0x2: /* FADD */
--        }
++    case 0x3: /* FSUB */
--    } else {
+         g_assert_not_reached();
--        TCGv_i64 tcg_imm = tcg_constant_i64(imm);
+     }
--        if (sub_op) {
--            gen_sub_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
--        } else {
+             case 0x18: /* FMAXNM */
--            gen_add_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
+                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
--        }
+                 break;
--    }
+-            case 0x1a: /* FADD */
--
+-                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
--    if (is_64bit) {
+-                break;
--        tcg_gen_mov_i64(tcg_rd, tcg_result);
+             case 0x1c: /* FCMEQ */
--    } else {
+                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
--        tcg_gen_ext32u_i64(tcg_rd, tcg_result);
+                 break;
--    }
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
--}
+             case 0x38: /* FMINNM */
-+TRANS(ADD_i, gen_rri, a, 1, 1, tcg_gen_add_i64)
+                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-+TRANS(SUB_i, gen_rri, a, 1, 1, tcg_gen_sub_i64)
+                 break;
-+TRANS(ADDS_i, gen_rri, a, 0, 1, a->sf ? gen_add64_CC : gen_add32_CC)
+-            case 0x3a: /* FSUB */
-+TRANS(SUBS_i, gen_rri, a, 0, 1, a->sf ? gen_sub64_CC : gen_sub32_CC)
+-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
- /*
+             case 0x3e: /* FMIN */
-  * Add/subtract (immediate, with tags)
+                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
+                 break;
- static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
+             case 0x3f: /* FRSQRTS */
- {
+                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-     switch (extract32(insn, 23, 6)) {
+                 break;
--    case 0x22: /* Add/subtract (immediate) */
+-            case 0x5b: /* FMUL */
--        disas_add_sub_imm(s, insn);
+-                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
--        break;
+-                break;
-     case 0x23: /* Add/subtract (immediate, with tags) */
+             case 0x5c: /* FCMGE */
-         disas_add_sub_imm_with_tags(s, insn);
+                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-         break;
+                 break;
              case 0x5d: /* FACGE */
                  gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5f: /* FDIV */
 -                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_helper_vfp_absd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x3a: /* FSUB */
 +            case 0x5b: /* FMUL */
 +            case 0x5f: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                         tcg_res, fpst);
                  break;
 -            case 0x1a: /* FADD */
 -                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x38: /* FMINNM */
                  gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3a: /* FSUB */
 -                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3e: /* FMIN */
                  gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5b: /* FMUL */
 -                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5c: /* FCMGE */
                  gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x5d: /* FACGE */
                  gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5f: /* FDIV */
 -                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x3a: /* FSUB */
 +            case 0x5b: /* FMUL */
 +            case 0x5f: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x39: /* FMLS */
      case 0x18: /* FMAXNM */
 -    case 0x1a: /* FADD */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 -    case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 -    case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
 -    case 0x5f: /* FDIV */
      case 0x7a: /* FABD */
      case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x3a: /* FSUB */
 +    case 0x5b: /* FMUL */
 +    case 0x5f: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
 -    case 0x2: /* FADD */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
 -    case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0xf: /* FRSQRTS */
 -    case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
 -    case 0x17: /* FDIV */
      case 0x1a: /* FABD */
      case 0x1c: /* FCMGT */
      case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
      default:
 +    case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0xa: /* FSUB */
 +    case 0x13: /* FMUL */
 +    case 0x17: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0x2: /* FADD */
 -                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0xa: /* FSUB */
 -                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xe: /* FMIN */
                  gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x13: /* FMUL */
 -                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x14: /* FCMGE */
                  gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x15: /* FACGE */
                  gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x17: /* FDIV */
 -                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0xa: /* FSUB */
 +            case 0x13: /* FMUL */
 +            case 0x17: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          break;
      case 0x01: /* FMLA */
      case 0x05: /* FMLS */
 -    case 0x09: /* FMUL */
          is_fp = 1;
          break;
      case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
                  gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                  break;
 -            case 0x09: /* FMUL */
 -                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
 -                break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                      g_assert_not_reached();
                  }
                  break;
 -            case 0x09: /* FMUL */
 -                switch (size) {
 -                case 1:
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
 -                                                tcg_idx, fpst);
 -                    } else {
 -                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
 -                                                 tcg_idx, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
  DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
  #ifdef TARGET_AARCH64
 +DO_3OP(gvec_fdiv_h, float16_div, float16)
 +DO_3OP(gvec_fdiv_s, float32_div, float32)
 +DO_3OP(gvec_fdiv_d, float64_div, float64)
 +
  DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
  DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
  DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 --
 .34.1

-[PULL 06/29] sbsa-ref: use Bochs graphics card instead of VGA
+[PULL 26/42] target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
-From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
+From: Richard Henderson <richard.henderson@linaro.org>
-Bochs card is normal PCI Express card so it fits better in system with
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-PCI Express bus. VGA is simple legacy PCI card.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
 Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
 Reviewed-by: Leif Lindholm <quic_llindhol@quicinc.com>
 Message-id: 20230505120936.1097060-1-marcin.juszkiewicz@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- hw/arm/sbsa-ref.c | 2 +-
+ target/arm/helper.h            |   4 +
-file changed, 1 insertion(+), 1 deletion(-)
+ target/arm/tcg/a64.decode      |  17 ++++
  target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |   4 +
 files changed, 113 insertions(+), 80 deletions(-)
-diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/sbsa-ref.c
+--- a/target/arm/helper.h
-+++ b/hw/arm/sbsa-ref.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static void create_pcie(SBSAMachineState *sms)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         }
  DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
  FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
  FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 +FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
 +FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
 +FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
 +FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
 +
  FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
  FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
  FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
 +FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
 +FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
 +FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
 +FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
 +FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
  FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
  };
  TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 +static const FPScalar f_scalar_fmax = {
 +    gen_helper_advsimd_maxh,
 +    gen_helper_vfp_maxs,
 +    gen_helper_vfp_maxd,
 +};
 +TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
 +
 +static const FPScalar f_scalar_fmin = {
 +    gen_helper_advsimd_minh,
 +    gen_helper_vfp_mins,
 +    gen_helper_vfp_mind,
 +};
 +TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
 +
 +static const FPScalar f_scalar_fmaxnm = {
 +    gen_helper_advsimd_maxnumh,
 +    gen_helper_vfp_maxnums,
 +    gen_helper_vfp_maxnumd,
 +};
 +TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
 +
 +static const FPScalar f_scalar_fminnm = {
 +    gen_helper_advsimd_minnumh,
 +    gen_helper_vfp_minnums,
 +    gen_helper_vfp_minnumd,
 +};
 +TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
 +
  static const FPScalar f_scalar_fmulx = {
      gen_helper_advsimd_mulxh,
      gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
  };
  TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 +static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
 +    gen_helper_gvec_fmax_h,
 +    gen_helper_gvec_fmax_s,
 +    gen_helper_gvec_fmax_d,
 +};
 +TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
 +    gen_helper_gvec_fmin_h,
 +    gen_helper_gvec_fmin_s,
 +    gen_helper_gvec_fmin_d,
 +};
 +TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
 +    gen_helper_gvec_fmaxnum_h,
 +    gen_helper_gvec_fmaxnum_s,
 +    gen_helper_gvec_fmaxnum_d,
 +};
 +TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
 +    gen_helper_gvec_fminnum_h,
 +    gen_helper_gvec_fminnum_s,
 +    gen_helper_gvec_fminnum_d,
 +};
 +TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
 +
  static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
      gen_helper_gvec_fmulx_h,
      gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      tcg_op2 = read_fp_sreg(s, rm);
      switch (opcode) {
 -    case 0x4: /* FMAX */
 -        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x5: /* FMIN */
 -        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x6: /* FMAXNM */
 -        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x7: /* FMINNM */
 -        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x8: /* FNMUL */
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negs(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      case 0x1: /* FDIV */
      case 0x2: /* FADD */
      case 0x3: /* FSUB */
 +    case 0x4: /* FMAX */
 +    case 0x5: /* FMIN */
 +    case 0x6: /* FMAXNM */
 +    case 0x7: /* FMINNM */
          g_assert_not_reached();
      }
--    pci_create_simple(pci->bus, -1, "VGA");
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
-+    pci_create_simple(pci->bus, -1, "bochs-display");
+     tcg_op2 = read_fp_dreg(s, rm);
-     create_smmu(sms, pci->bus);
+     switch (opcode) {
- }
+-    case 0x4: /* FMAX */
 -        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x5: /* FMIN */
 -        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x6: /* FMAXNM */
 -        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x7: /* FMINNM */
 -        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x8: /* FNMUL */
          gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
      case 0x1: /* FDIV */
      case 0x2: /* FADD */
      case 0x3: /* FSUB */
 +    case 0x4: /* FMAX */
 +    case 0x5: /* FMIN */
 +    case 0x6: /* FMAXNM */
 +    case 0x7: /* FMINNM */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
      tcg_op2 = read_fp_hreg(s, rm);
      switch (opcode) {
 -    case 0x4: /* FMAX */
 -        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x5: /* FMIN */
 -        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x6: /* FMAXNM */
 -        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x7: /* FMINNM */
 -        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x8: /* FNMUL */
          gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
          tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
      case 0x1: /* FDIV */
      case 0x2: /* FADD */
      case 0x3: /* FSUB */
 +    case 0x4: /* FMAX */
 +    case 0x5: /* FMIN */
 +    case 0x6: /* FMAXNM */
 +    case 0x7: /* FMINNM */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
                                         tcg_res, fpst);
                  break;
 -            case 0x18: /* FMAXNM */
 -                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1e: /* FMAX */
 -                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x38: /* FMINNM */
 -                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3e: /* FMIN */
 -                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x18: /* FMAXNM */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1e: /* FMAX */
 +            case 0x38: /* FMINNM */
              case 0x3a: /* FSUB */
 +            case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
              case 0x5f: /* FDIV */
                  g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1e: /* FMAX */
 -                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x18: /* FMAXNM */
 -                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x38: /* FMINNM */
 -                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3e: /* FMIN */
 -                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x18: /* FMAXNM */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1e: /* FMAX */
 +            case 0x38: /* FMINNM */
              case 0x3a: /* FSUB */
 +            case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
              case 0x5f: /* FDIV */
                  g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x7d: /* FACGT */
      case 0x19: /* FMLA */
      case 0x39: /* FMLS */
 -    case 0x18: /* FMAXNM */
      case 0x1c: /* FCMEQ */
 -    case 0x1e: /* FMAX */
 -    case 0x38: /* FMINNM */
 -    case 0x3e: /* FMIN */
      case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
      case 0x7c: /* FCMGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x18: /* FMAXNM */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x1e: /* FMAX */
 +    case 0x38: /* FMINNM */
      case 0x3a: /* FSUB */
 +    case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
      case 0x5f: /* FDIV */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
      case 0x4: /* FCMEQ */
 -    case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
 -    case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
 -    case 0xe: /* FMIN */
      case 0xf: /* FRSQRTS */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
      default:
 +    case 0x0: /* FMAXNM */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0x6: /* FMAX */
 +    case 0x8: /* FMINNM */
      case 0xa: /* FSUB */
 +    case 0xe: /* FMIN */
      case 0x13: /* FMUL */
      case 0x17: /* FDIV */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x0: /* FMAXNM */
 -                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1: /* FMLA */
                  read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x6: /* FMAX */
 -                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x8: /* FMINNM */
 -                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x9: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
                  tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0xe: /* FMIN */
 -                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x0: /* FMAXNM */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0x6: /* FMAX */
 +            case 0x8: /* FMINNM */
              case 0xa: /* FSUB */
 +            case 0xe: /* FMIN */
              case 0x13: /* FMUL */
              case 0x17: /* FDIV */
                  g_assert_not_reached();
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
  DO_3OP(gvec_fmax_h, float16_max, float16)
  DO_3OP(gvec_fmax_s, float32_max, float32)
 +DO_3OP(gvec_fmax_d, float64_max, float64)
  DO_3OP(gvec_fmin_h, float16_min, float16)
  DO_3OP(gvec_fmin_s, float32_min, float32)
 +DO_3OP(gvec_fmin_d, float64_min, float64)
  DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
  DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
 +DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
  DO_3OP(gvec_fminnum_h, float16_minnum, float16)
  DO_3OP(gvec_fminnum_s, float32_minnum, float32)
 +DO_3OP(gvec_fminnum_d, float64_minnum, float64)
  DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
  DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
 --
 .34.1

-New patch
+[PULL 27/42] target/arm: Introduce vfp_load_reg16
+From: Richard Henderson <richard.henderson@linaro.org>
+Load and zero-extend float16 into a TCGv_i32 before
+all scalar operations.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
+file changed, 22 insertions(+), 17 deletions(-)
+diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-vfp.c
++++ b/target/arm/tcg/translate-vfp.c
+@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
+     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
+ }
++static inline void vfp_load_reg16(TCGv_i32 var, int reg)
++{
++    tcg_gen_ld16u_i32(var, tcg_env,
++                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
++}
++
+ /*
+  * The imm8 encodes the sign bit, enough bits to represent an exponent in
+  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
+     if (a->l) {
+         /* VFP to general purpose register */
+         tmp = tcg_temp_new_i32();
+-        vfp_load_reg32(tmp, a->vn);
+-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
++        vfp_load_reg16(tmp, a->vn);
+         store_reg(s, a->rt, tmp);
+     } else {
+         /* general purpose register to VFP */
+@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
+     fd = tcg_temp_new_i32();
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
+-    vfp_load_reg32(f0, vn);
+-    vfp_load_reg32(f1, vm);
++    vfp_load_reg16(f0, vn);
++    vfp_load_reg16(f1, vm);
+     if (reads_vd) {
+-        vfp_load_reg32(fd, vd);
++        vfp_load_reg16(fd, vd);
+     }
+     fn(fd, f0, f1, fpst);
+     vfp_store_reg32(fd, vd);
+@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
+     }
+     f0 = tcg_temp_new_i32();
+-    vfp_load_reg32(f0, vm);
++    vfp_load_reg16(f0, vm);
+     fn(f0, f0);
+     vfp_store_reg32(f0, vd);
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
+     vm = tcg_temp_new_i32();
+     vd = tcg_temp_new_i32();
+-    vfp_load_reg32(vn, a->vn);
+-    vfp_load_reg32(vm, a->vm);
++    vfp_load_reg16(vn, a->vn);
++    vfp_load_reg16(vm, a->vm);
+     if (neg_n) {
+         /* VFNMS, VFMS */
+         gen_helper_vfp_negh(vn, vn);
+     }
+-    vfp_load_reg32(vd, a->vd);
++    vfp_load_reg16(vd, a->vd);
+     if (neg_d) {
+         /* VFNMA, VFNMS */
+         gen_helper_vfp_negh(vd, vd);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
+     vd = tcg_temp_new_i32();
+     vm = tcg_temp_new_i32();
+-    vfp_load_reg32(vd, a->vd);
++    vfp_load_reg16(vd, a->vd);
+     if (a->z) {
+         tcg_gen_movi_i32(vm, 0);
+     } else {
+-        vfp_load_reg32(vm, a->vm);
++        vfp_load_reg16(vm, a->vm);
+     }
+     if (a->e) {
+@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
+     }
+     tmp = tcg_temp_new_i32();
+-    vfp_load_reg32(tmp, a->vm);
++    vfp_load_reg16(tmp, a->vm);
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
+     gen_helper_rinth(tmp, tmp, fpst);
+     vfp_store_reg32(tmp, a->vd);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
+     }
+     tmp = tcg_temp_new_i32();
+-    vfp_load_reg32(tmp, a->vm);
++    vfp_load_reg16(tmp, a->vm);
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
+     tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
+     gen_helper_rinth(tmp, tmp, fpst);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
+     }
+     tmp = tcg_temp_new_i32();
+-    vfp_load_reg32(tmp, a->vm);
++    vfp_load_reg16(tmp, a->vm);
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
+     gen_helper_rinth_exact(tmp, tmp, fpst);
+     vfp_store_reg32(tmp, a->vd);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
+     vm = tcg_temp_new_i32();
+-    vfp_load_reg32(vm, a->vm);
++    vfp_load_reg16(vm, a->vm);
+     if (a->s) {
+         if (a->rz) {
+@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
+     /* Insert low half of Vm into high half of Vd */
+     rm = tcg_temp_new_i32();
+     rd = tcg_temp_new_i32();
+-    vfp_load_reg32(rm, a->vm);
+-    vfp_load_reg32(rd, a->vd);
++    vfp_load_reg16(rm, a->vm);
++    vfp_load_reg16(rd, a->vd);
+     tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
+     vfp_store_reg32(rd, a->vd);
+     return true;
+--
+.34.1

-New patch
+[PULL 28/42] target/arm: Expand vfp neg and abs inline
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/helper.h            |  6 ----
+ target/arm/tcg/translate.h     | 30 +++++++++++++++++++
+ target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
+ target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
+ target/arm/vfp_helper.c        | 30 -------------------
+files changed, 79 insertions(+), 85 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
+ DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
+ DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
+ DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
+-DEF_HELPER_1(vfp_negh, f16, f16)
+-DEF_HELPER_1(vfp_negs, f32, f32)
+-DEF_HELPER_1(vfp_negd, f64, f64)
+-DEF_HELPER_1(vfp_absh, f16, f16)
+-DEF_HELPER_1(vfp_abss, f32, f32)
+-DEF_HELPER_1(vfp_absd, f64, f64)
+ DEF_HELPER_2(vfp_sqrth, f16, f16, env)
+ DEF_HELPER_2(vfp_sqrts, f32, f32, env)
+ DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.h
++++ b/target/arm/tcg/translate.h
+@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
+  */
+ uint64_t vfp_expand_imm(int size, uint8_t imm8);
++static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_andi_i32(d, s, INT16_MAX);
++}
++
++static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_andi_i32(d, s, INT32_MAX);
++}
++
++static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
++{
++    tcg_gen_andi_i64(d, s, INT64_MAX);
++}
++
++static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_xori_i32(d, s, 1u << 15);
++}
++
++static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
++{
++    tcg_gen_xori_i32(d, s, 1u << 31);
++}
++
++static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
++{
++    tcg_gen_xori_i64(d, s, 1ull << 63);
++}
++
+ /* Vector operations shared between ARM and AArch64.  */
+ void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    uint32_t opr_sz, uint32_t max_sz);
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
+         tcg_gen_mov_i32(tcg_res, tcg_op);
+         break;
+     case 0x1: /* FABS */
+-        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
++        gen_vfp_absh(tcg_res, tcg_op);
+         break;
+     case 0x2: /* FNEG */
+-        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
++        gen_vfp_negh(tcg_res, tcg_op);
+         break;
+     case 0x3: /* FSQRT */
+         fpst = fpstatus_ptr(FPST_FPCR_F16);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
+         tcg_gen_mov_i32(tcg_res, tcg_op);
+         goto done;
+     case 0x1: /* FABS */
+-        gen_helper_vfp_abss(tcg_res, tcg_op);
++        gen_vfp_abss(tcg_res, tcg_op);
+         goto done;
+     case 0x2: /* FNEG */
+-        gen_helper_vfp_negs(tcg_res, tcg_op);
++        gen_vfp_negs(tcg_res, tcg_op);
+         goto done;
+     case 0x3: /* FSQRT */
+         gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
+     switch (opcode) {
+     case 0x1: /* FABS */
+-        gen_helper_vfp_absd(tcg_res, tcg_op);
++        gen_vfp_absd(tcg_res, tcg_op);
+         goto done;
+     case 0x2: /* FNEG */
+-        gen_helper_vfp_negd(tcg_res, tcg_op);
++        gen_vfp_negd(tcg_res, tcg_op);
+         goto done;
+     case 0x3: /* FSQRT */
+         gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
+     switch (opcode) {
+     case 0x8: /* FNMUL */
+         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_helper_vfp_negs(tcg_res, tcg_res);
++        gen_vfp_negs(tcg_res, tcg_res);
+         break;
+     default:
+     case 0x0: /* FMUL */
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
+     switch (opcode) {
+     case 0x8: /* FNMUL */
+         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_helper_vfp_negd(tcg_res, tcg_res);
++        gen_vfp_negd(tcg_res, tcg_res);
+         break;
+     default:
+     case 0x0: /* FMUL */
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
+     switch (opcode) {
+     case 0x8: /* FNMUL */
+         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
++        gen_vfp_negh(tcg_res, tcg_res);
+         break;
+     default:
+     case 0x0: /* FMUL */
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
+      * flipped if it is a negated-input.
+      */
+     if (o1 == true) {
+-        gen_helper_vfp_negs(tcg_op3, tcg_op3);
++        gen_vfp_negs(tcg_op3, tcg_op3);
+     }
+     if (o0 != o1) {
+-        gen_helper_vfp_negs(tcg_op1, tcg_op1);
++        gen_vfp_negs(tcg_op1, tcg_op1);
+     }
+     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
+      * flipped if it is a negated-input.
+      */
+     if (o1 == true) {
+-        gen_helper_vfp_negd(tcg_op3, tcg_op3);
++        gen_vfp_negd(tcg_op3, tcg_op3);
+     }
+     if (o0 != o1) {
+-        gen_helper_vfp_negd(tcg_op1, tcg_op1);
++        gen_vfp_negd(tcg_op1, tcg_op1);
+     }
+     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             switch (fpopcode) {
+             case 0x39: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+-                gen_helper_vfp_negd(tcg_op1, tcg_op1);
++                gen_vfp_negd(tcg_op1, tcg_op1);
+                 /* fall through */
+             case 0x19: /* FMLA */
+                 read_vec_element(s, tcg_res, rd, pass, MO_64);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 break;
+             case 0x7a: /* FABD */
+                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_helper_vfp_absd(tcg_res, tcg_res);
++                gen_vfp_absd(tcg_res, tcg_res);
+                 break;
+             case 0x7c: /* FCMGT */
+                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             switch (fpopcode) {
+             case 0x39: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+-                gen_helper_vfp_negs(tcg_op1, tcg_op1);
++                gen_vfp_negs(tcg_op1, tcg_op1);
+                 /* fall through */
+             case 0x19: /* FMLA */
+                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 break;
+             case 0x7a: /* FABD */
+                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_helper_vfp_abss(tcg_res, tcg_res);
++                gen_vfp_abss(tcg_res, tcg_res);
+                 break;
+             case 0x7c: /* FCMGT */
+                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
+         }
+         break;
+     case 0x2f: /* FABS */
+-        gen_helper_vfp_absd(tcg_rd, tcg_rn);
++        gen_vfp_absd(tcg_rd, tcg_rn);
+         break;
+     case 0x6f: /* FNEG */
+-        gen_helper_vfp_negd(tcg_rd, tcg_rn);
++        gen_vfp_negd(tcg_rd, tcg_rn);
+         break;
+     case 0x7f: /* FSQRT */
+         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
+                     }
+                     break;
+                 case 0x2f: /* FABS */
+-                    gen_helper_vfp_abss(tcg_res, tcg_op);
++                    gen_vfp_abss(tcg_res, tcg_op);
+                     break;
+                 case 0x6f: /* FNEG */
+-                    gen_helper_vfp_negs(tcg_res, tcg_op);
++                    gen_vfp_negs(tcg_res, tcg_op);
+                     break;
+                 case 0x7f: /* FSQRT */
+                     gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+             switch (16 * u + opcode) {
+             case 0x05: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+-                gen_helper_vfp_negd(tcg_op, tcg_op);
++                gen_vfp_negd(tcg_op, tcg_op);
+                 /* fall through */
+             case 0x01: /* FMLA */
+                 read_vec_element(s, tcg_res, rd, pass, MO_64);
+diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-vfp.c
++++ b/target/arm/tcg/translate-vfp.c
+@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negh(tmp, tmp);
++    gen_vfp_negh(tmp, tmp);
+     gen_helper_vfp_addh(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_muls(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negs(tmp, tmp);
++    gen_vfp_negs(tmp, tmp);
+     gen_helper_vfp_adds(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+     TCGv_i64 tmp = tcg_temp_new_i64();
+     gen_helper_vfp_muld(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negd(tmp, tmp);
++    gen_vfp_negd(tmp, tmp);
+     gen_helper_vfp_addd(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negh(vd, vd);
++    gen_vfp_negh(vd, vd);
+     gen_helper_vfp_addh(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_muls(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negs(vd, vd);
++    gen_vfp_negs(vd, vd);
+     gen_helper_vfp_adds(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+     TCGv_i64 tmp = tcg_temp_new_i64();
+     gen_helper_vfp_muld(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negd(vd, vd);
++    gen_vfp_negd(vd, vd);
+     gen_helper_vfp_addd(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negh(tmp, tmp);
+-    gen_helper_vfp_negh(vd, vd);
++    gen_vfp_negh(tmp, tmp);
++    gen_vfp_negh(vd, vd);
+     gen_helper_vfp_addh(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+     TCGv_i32 tmp = tcg_temp_new_i32();
+     gen_helper_vfp_muls(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negs(tmp, tmp);
+-    gen_helper_vfp_negs(vd, vd);
++    gen_vfp_negs(tmp, tmp);
++    gen_vfp_negs(vd, vd);
+     gen_helper_vfp_adds(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+     TCGv_i64 tmp = tcg_temp_new_i64();
+     gen_helper_vfp_muld(tmp, vn, vm, fpst);
+-    gen_helper_vfp_negd(tmp, tmp);
+-    gen_helper_vfp_negd(vd, vd);
++    gen_vfp_negd(tmp, tmp);
++    gen_vfp_negd(vd, vd);
+     gen_helper_vfp_addd(vd, vd, tmp, fpst);
+ }
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ {
+     /* VNMUL: -(fn * fm) */
+     gen_helper_vfp_mulh(vd, vn, vm, fpst);
+-    gen_helper_vfp_negh(vd, vd);
++    gen_vfp_negh(vd, vd);
+ }
+ static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
+ {
+     /* VNMUL: -(fn * fm) */
+     gen_helper_vfp_muls(vd, vn, vm, fpst);
+-    gen_helper_vfp_negs(vd, vd);
++    gen_vfp_negs(vd, vd);
+ }
+ static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
+@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
+ {
+     /* VNMUL: -(fn * fm) */
+     gen_helper_vfp_muld(vd, vn, vm, fpst);
+-    gen_helper_vfp_negd(vd, vd);
++    gen_vfp_negd(vd, vd);
+ }
+ static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
+     vfp_load_reg16(vm, a->vm);
+     if (neg_n) {
+         /* VFNMS, VFMS */
+-        gen_helper_vfp_negh(vn, vn);
++        gen_vfp_negh(vn, vn);
+     }
+     vfp_load_reg16(vd, a->vd);
+     if (neg_d) {
+         /* VFNMA, VFNMS */
+-        gen_helper_vfp_negh(vd, vd);
++        gen_vfp_negh(vd, vd);
+     }
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
+     gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
+     vfp_load_reg32(vm, a->vm);
+     if (neg_n) {
+         /* VFNMS, VFMS */
+-        gen_helper_vfp_negs(vn, vn);
++        gen_vfp_negs(vn, vn);
+     }
+     vfp_load_reg32(vd, a->vd);
+     if (neg_d) {
+         /* VFNMA, VFNMS */
+-        gen_helper_vfp_negs(vd, vd);
++        gen_vfp_negs(vd, vd);
+     }
+     fpst = fpstatus_ptr(FPST_FPCR);
+     gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
+@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
+     vfp_load_reg64(vm, a->vm);
+     if (neg_n) {
+         /* VFNMS, VFMS */
+-        gen_helper_vfp_negd(vn, vn);
++        gen_vfp_negd(vn, vn);
+     }
+     vfp_load_reg64(vd, a->vd);
+     if (neg_d) {
+         /* VFNMA, VFNMS */
+-        gen_helper_vfp_negd(vd, vd);
++        gen_vfp_negd(vd, vd);
+     }
+     fpst = fpstatus_ptr(FPST_FPCR);
+     gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
+ DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
+ DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
+-DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
+-DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
+-DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
++DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
++DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
++DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
+-DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
+-DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
+-DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
++DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
++DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
++DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
+ static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
+ {
+diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/vfp_helper.c
++++ b/target/arm/vfp_helper.c
+@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
+ VFP_BINOP(maxnum)
+ #undef VFP_BINOP
+-dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
+-{
+-    return float16_chs(a);
+-}
+-
+-float32 VFP_HELPER(neg, s)(float32 a)
+-{
+-    return float32_chs(a);
+-}
+-
+-float64 VFP_HELPER(neg, d)(float64 a)
+-{
+-    return float64_chs(a);
+-}
+-
+-dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
+-{
+-    return float16_abs(a);
+-}
+-
+-float32 VFP_HELPER(abs, s)(float32 a)
+-{
+-    return float32_abs(a);
+-}
+-
+-float64 VFP_HELPER(abs, d)(float64 a)
+-{
+-    return float64_abs(a);
+-}
+-
+ dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
+ {
+     return float16_sqrt(a, &env->vfp.fp_status_f16);
+--
+.34.1

-[PULL 16/29] target/arm: Convert Move wide (immediate) to decodetree
+[PULL 29/42] target/arm: Convert FNMUL to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Convert the MON, MOVZ, MOVK instructions.
+This is the last instruction within disas_fp_2src,
 so remove that and its subroutines.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-11-peter.maydell@linaro.org
 [PMM: Rebased]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      | 13 ++++++
+ target/arm/tcg/a64.decode      |   1 +
- target/arm/tcg/translate-a64.c | 73 ++++++++++++++--------------------
+ target/arm/tcg/translate-a64.c | 177 +++++----------------------------
-files changed, 42 insertions(+), 44 deletions(-)
+files changed, 27 insertions(+), 151 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ EOR_i           . 10 100100 . ...... ...... ..... ..... @logic_imm_64
+@@ -XXX,XX +XXX,XX @@ FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
- EOR_i           . 10 100100 . ...... ...... ..... ..... @logic_imm_32
+ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
- ANDS_i          . 11 100100 . ...... ...... ..... ..... @logic_imm_64
+ FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
- ANDS_i          . 11 100100 . ...... ...... ..... ..... @logic_imm_32
+ FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
-+
++FNMUL_s         0001 1110 ..1 ..... 1000 10 ..... ..... @rrr_hsd
-+# Move wide (immediate)
-+
+ FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
-+&movw           rd sf imm hw
+ FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
 +@movw_64        1 .. ...... hw:2   imm:16 rd:5          &movw sf=1
 +@movw_32        0 .. ...... 0 hw:1 imm:16 rd:5          &movw sf=0
 +
 +MOVN            . 00 100101 .. ................ .....   @movw_64
 +MOVN            . 00 100101 .. ................ .....   @movw_32
 +MOVZ            . 10 100101 .. ................ .....   @movw_64
 +MOVZ            . 10 100101 .. ................ .....   @movw_32
 +MOVK            . 11 100101 .. ................ .....   @movw_64
 +MOVK            . 11 100101 .. ................ .....   @movw_32
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(ANDS_i, gen_rri_log, a, true, tcg_gen_andi_i64)
+@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmulx = {
+ };
- /*
+ TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
-  * Move wide (immediate)
-- *
++static void gen_fnmul_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
-- *  31 30 29 28         23 22 21 20             5 4    0
++{
-- * +--+-----+-------------+-----+----------------+------+
++    gen_helper_vfp_mulh(d, n, m, s);
-- * |sf| opc | 1 0 0 1 0 1 |  hw |  imm16         |  Rd  |
++    gen_vfp_negh(d, d);
-- * +--+-----+-------------+-----+----------------+------+
++}
-- *
++
-- * sf: 0 -> 32 bit, 1 -> 64 bit
++static void gen_fnmul_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
-- * opc: 00 -> N, 10 -> Z, 11 -> K
++{
-- * hw: shift/16 (0,16, and sf only 32, 48)
++    gen_helper_vfp_muls(d, n, m, s);
-  */
++    gen_vfp_negs(d, d);
--static void disas_movw_imm(DisasContext *s, uint32_t insn)
++}
 +
-+static bool trans_MOVZ(DisasContext *s, arg_movw *a)
++static void gen_fnmul_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_muld(d, n, m, s);
 +    gen_vfp_negd(d, d);
 +}
 +
 +static const FPScalar f_scalar_fnmul = {
 +    gen_fnmul_h,
 +    gen_fnmul_s,
 +    gen_fnmul_d,
 +};
 +TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
+@@ -XXX,XX +XXX,XX @@ static void disas_fp_1src(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Floating-point data-processing (2 source) - single precision */
+-static void handle_fp_2src_single(DisasContext *s, int opcode,
+-                                  int rd, int rn, int rm)
+-{
+-    TCGv_i32 tcg_op1;
+-    TCGv_i32 tcg_op2;
+-    TCGv_i32 tcg_res;
+-    TCGv_ptr fpst;
+-
+-    tcg_res = tcg_temp_new_i32();
+-    fpst = fpstatus_ptr(FPST_FPCR);
+-    tcg_op1 = read_fp_sreg(s, rn);
+-    tcg_op2 = read_fp_sreg(s, rm);
+-
+-    switch (opcode) {
+-    case 0x8: /* FNMUL */
+-        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_vfp_negs(tcg_res, tcg_res);
+-        break;
+-    default:
+-    case 0x0: /* FMUL */
+-    case 0x1: /* FDIV */
+-    case 0x2: /* FADD */
+-    case 0x3: /* FSUB */
+-    case 0x4: /* FMAX */
+-    case 0x5: /* FMIN */
+-    case 0x6: /* FMAXNM */
+-    case 0x7: /* FMINNM */
+-        g_assert_not_reached();
+-    }
+-
+-    write_fp_sreg(s, rd, tcg_res);
+-}
+-
+-/* Floating-point data-processing (2 source) - double precision */
+-static void handle_fp_2src_double(DisasContext *s, int opcode,
+-                                  int rd, int rn, int rm)
+-{
+-    TCGv_i64 tcg_op1;
+-    TCGv_i64 tcg_op2;
+-    TCGv_i64 tcg_res;
+-    TCGv_ptr fpst;
+-
+-    tcg_res = tcg_temp_new_i64();
+-    fpst = fpstatus_ptr(FPST_FPCR);
+-    tcg_op1 = read_fp_dreg(s, rn);
+-    tcg_op2 = read_fp_dreg(s, rm);
+-
+-    switch (opcode) {
+-    case 0x8: /* FNMUL */
+-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_vfp_negd(tcg_res, tcg_res);
+-        break;
+-    default:
+-    case 0x0: /* FMUL */
+-    case 0x1: /* FDIV */
+-    case 0x2: /* FADD */
+-    case 0x3: /* FSUB */
+-    case 0x4: /* FMAX */
+-    case 0x5: /* FMIN */
+-    case 0x6: /* FMAXNM */
+-    case 0x7: /* FMINNM */
+-        g_assert_not_reached();
+-    }
+-
+-    write_fp_dreg(s, rd, tcg_res);
+-}
+-
+-/* Floating-point data-processing (2 source) - half precision */
+-static void handle_fp_2src_half(DisasContext *s, int opcode,
+-                                int rd, int rn, int rm)
+-{
+-    TCGv_i32 tcg_op1;
+-    TCGv_i32 tcg_op2;
+-    TCGv_i32 tcg_res;
+-    TCGv_ptr fpst;
+-
+-    tcg_res = tcg_temp_new_i32();
+-    fpst = fpstatus_ptr(FPST_FPCR_F16);
+-    tcg_op1 = read_fp_hreg(s, rn);
+-    tcg_op2 = read_fp_hreg(s, rm);
+-
+-    switch (opcode) {
+-    case 0x8: /* FNMUL */
+-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        gen_vfp_negh(tcg_res, tcg_res);
+-        break;
+-    default:
+-    case 0x0: /* FMUL */
+-    case 0x1: /* FDIV */
+-    case 0x2: /* FADD */
+-    case 0x3: /* FSUB */
+-    case 0x4: /* FMAX */
+-    case 0x5: /* FMIN */
+-    case 0x6: /* FMAXNM */
+-    case 0x7: /* FMINNM */
+-        g_assert_not_reached();
+-    }
+-
+-    write_fp_sreg(s, rd, tcg_res);
+-}
+-
+-/* Floating point data-processing (2 source)
+- *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
+- * +---+---+---+-----------+------+---+------+--------+-----+------+------+
+- * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | opcode | 1 0 |  Rn  |  Rd  |
+- * +---+---+---+-----------+------+---+------+--------+-----+------+------+
+- */
+-static void disas_fp_2src(DisasContext *s, uint32_t insn)
+-{
+-    int mos = extract32(insn, 29, 3);
+-    int type = extract32(insn, 22, 2);
 -    int rd = extract32(insn, 0, 5);
--    uint64_t imm = extract32(insn, 5, 16);
+-    int rn = extract32(insn, 5, 5);
--    int sf = extract32(insn, 31, 1);
+-    int rm = extract32(insn, 16, 5);
--    int opc = extract32(insn, 29, 2);
+-    int opcode = extract32(insn, 12, 4);
--    int pos = extract32(insn, 21, 2) << 4;
+-
--    TCGv_i64 tcg_rd = cpu_reg(s, rd);
+-    if (opcode > 8 || mos) {
 +    int pos = a->hw << 4;
 +    tcg_gen_movi_i64(cpu_reg(s, a->rd), (uint64_t)a->imm << pos);
 +    return true;
 +}
 -    if (!sf && (pos >= 32)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
-+static bool trans_MOVN(DisasContext *s, arg_movw *a)
+-
-+{
+-    switch (type) {
-+    int pos = a->hw << 4;
+-    case 0:
-+    uint64_t imm = a->imm;
+-        if (!fp_access_check(s)) {
+-            return;
--    switch (opc) {
+-        }
--    case 0: /* MOVN */
+-        handle_fp_2src_single(s, opcode, rd, rn, rm);
--    case 2: /* MOVZ */
+-        break;
--        imm <<= pos;
+-    case 1:
--        if (opc == 0) {
+-        if (!fp_access_check(s)) {
--            imm = ~imm;
+-            return;
 -        }
--        if (!sf) {
+-        handle_fp_2src_double(s, opcode, rd, rn, rm);
--            imm &= 0xffffffffu;
+-        break;
--        }
+-    case 3:
--        tcg_gen_movi_i64(tcg_rd, imm);
+-        if (!dc_isar_feature(aa64_fp16, s)) {
--        break;
+-            unallocated_encoding(s);
--    case 3: /* MOVK */
+-            return;
--        tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_constant_i64(imm), pos, 16);
+-        }
--        if (!sf) {
+-        if (!fp_access_check(s)) {
--            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+-            return;
 -        }
 -        handle_fp_2src_half(s, opcode, rd, rn, rm);
 -        break;
 -    default:
 -        unallocated_encoding(s);
--        break;
+-    }
-+    imm = ~(imm << pos);
+-}
-+    if (!a->sf) {
+-
-+        imm = (uint32_t)imm;
+ /* Floating-point data-processing (3 source) - single precision */
-     }
+ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
-+    tcg_gen_movi_i64(cpu_reg(s, a->rd), imm);
+                                   int rd, int rn, int rm, int ra)
-+    return true;
+@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
-+}
+             break;
-+
+         case 2:
-+static bool trans_MOVK(DisasContext *s, arg_movw *a)
+             /* Floating point data-processing (2 source) */
-+{
+-            disas_fp_2src(s, insn);
-+    int pos = a->hw << 4;
++            unallocated_encoding(s); /* in decodetree */
-+    TCGv_i64 tcg_rd, tcg_im;
+             break;
-+
+         case 3:
-+    tcg_rd = cpu_reg(s, a->rd);
+             /* Floating point conditional select */
 +    tcg_im = tcg_constant_i64(a->imm);
 +    tcg_gen_deposit_i64(tcg_rd, tcg_rd, tcg_im, pos, 16);
 +    if (!a->sf) {
 +        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 +    }
 +    return true;
  }
  /* Bitfield
@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
  static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
  {
      switch (extract32(insn, 23, 6)) {
 -    case 0x25: /* Move wide (immediate) */
 -        disas_movw_imm(s, insn);
 -        break;
      case 0x26: /* Bitfield */
          disas_bitfield(s, insn);
          break;
 --
 .34.1

-[PULL 07/29] target/arm: Split out disas_a64_legacy
+[PULL 30/42] target/arm: Convert FMLA, FMLS to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Split out all of the decode stuff from aarch64_tr_translate_insn.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Call it disas_a64_legacy to indicate it will be replaced.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-2-peter.maydell@linaro.org
 [PMM: Rebased]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/translate-a64.c | 82 ++++++++++++++++++----------------
+ target/arm/helper.h            |   2 +
-file changed, 44 insertions(+), 38 deletions(-)
+ target/arm/tcg/a64.decode      |  22 +++
  target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |  14 ++
 files changed, 163 insertions(+), 116 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
+                    void, ptr, ptr, ptr, ptr, i32)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+ FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+ FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
++FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
++FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
++
++FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
++FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
++
+ ### Advanced SIMD scalar x indexed element
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+ FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+ FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
++FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
++FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
++FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
++
++FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
++FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
++FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
++
+ FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+ FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+ FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+ FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+ FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
++FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
++FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
++FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
++
++FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
++FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
++FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
++
+ FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+ FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+ FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool btype_destination_ok(uint32_t insn, bool bt, int btype)
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
-     return false;
+ };
- }
+ TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
-+/* C3.1 A64 instruction index by encoding */
++static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
-+static void disas_a64_legacy(DisasContext *s, uint32_t insn)
++    gen_helper_gvec_vfma_h,
 +    gen_helper_gvec_vfma_s,
 +    gen_helper_gvec_vfma_d,
 +};
 +TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 +    gen_helper_gvec_vfms_h,
 +    gen_helper_gvec_vfms_s,
 +    gen_helper_gvec_vfms_d,
 +};
 +TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
  TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 +static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
 +{
-+    switch (extract32(insn, 25, 4)) {
++    switch (a->esz) {
-+    case 0x0:
++    case MO_64:
-+        if (!extract32(insn, 31, 1) || !disas_sme(s, insn)) {
++        if (fp_access_check(s)) {
-+            unallocated_encoding(s);
++            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
 +            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t2 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t2, a->rm, a->idx, MO_64);
 +            if (neg) {
 +                gen_vfp_negd(t1, t1);
 +            }
 +            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
-+    case 0x1: case 0x3: /* UNALLOCATED */
++    case MO_32:
-+        unallocated_encoding(s);
++        if (fp_access_check(s)) {
-+        break;
++            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
-+    case 0x2:
++            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
-+        if (!disas_sve(s, insn)) {
++            TCGv_i32 t2 = tcg_temp_new_i32();
-+            unallocated_encoding(s);
++
 +            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
 +            if (neg) {
 +                gen_vfp_negs(t1, t1);
 +            }
 +            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
-+    case 0x8: case 0x9: /* Data processing - immediate */
++    case MO_16:
-+        disas_data_proc_imm(s, insn);
++        if (!dc_isar_feature(aa64_fp16, s)) {
-+        break;
++            return false;
-+    case 0xa: case 0xb: /* Branch, exception generation and system insns */
++        }
-+        disas_b_exc_sys(s, insn);
++        if (fp_access_check(s)) {
-+        break;
++            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
-+    case 0x4:
++            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
-+    case 0x6:
++            TCGv_i32 t2 = tcg_temp_new_i32();
-+    case 0xc:
++
-+    case 0xe:      /* Loads and stores */
++            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
-+        disas_ldst(s, insn);
++            if (neg) {
-+        break;
++                gen_vfp_negh(t1, t1);
-+    case 0x5:
++            }
-+    case 0xd:      /* Data processing - register */
++            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
-+        disas_data_proc_reg(s, insn);
++                                       fpstatus_ptr(FPST_FPCR_F16));
-+        break;
++            write_fp_sreg(s, a->rd, t0);
-+    case 0x7:
++        }
 +    case 0xf:      /* Data processing - SIMD and floating point */
 +        disas_data_proc_simd_fp(s, insn);
 +        break;
 +    default:
-+        assert(FALSE); /* all 15 cases should be handled above */
++        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
 +TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
 +TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
 +
  static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
                                gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
  };
  TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 +static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
 +{
 +    static gen_helper_gvec_4_ptr * const fns[3] = {
 +        gen_helper_gvec_fmla_idx_h,
 +        gen_helper_gvec_fmla_idx_s,
 +        gen_helper_gvec_fmla_idx_d,
 +    };
 +    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
++    case MO_32:
++        break;
++    case MO_16:
++        if (!dc_isar_feature(aa64_fp16, s)) {
++            return false;
++        }
++        break;
++    default:
++        g_assert_not_reached();
 +    }
++    if (fp_access_check(s)) {
++        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
++                          esz == MO_16, (a->idx << 1) | neg,
++                          fns[esz - 1]);
++    }
++    return true;
 +}
 +
- static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
++TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
-                                           CPUState *cpu)
++TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
- {
++
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
-         disas_sme_fa64(s, insn);
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-     }
+  * Note that it is the caller's responsibility to ensure that the
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
--    switch (extract32(insn, 25, 4)) {
+             read_vec_element(s, tcg_op2, rm, pass, MO_64);
--    case 0x0:
--        if (!extract32(insn, 31, 1) || !disas_sme(s, insn)) {
+             switch (fpopcode) {
 -            case 0x39: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negd(tcg_op1, tcg_op1);
 -                /* fall through */
 -            case 0x19: /* FMLA */
 -                read_vec_element(s, tcg_res, rd, pass, MO_64);
 -                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
 -                                       tcg_res, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              default:
              case 0x18: /* FMAXNM */
 +            case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
 +            case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
              switch (fpopcode) {
 -            case 0x39: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negs(tcg_op1, tcg_op1);
 -                /* fall through */
 -            case 0x19: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
 -                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
 -                                       tcg_res, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              default:
              case 0x18: /* FMAXNM */
 +            case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
 +            case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3f: /* FRSQRTS */
      case 0x5d: /* FACGE */
      case 0x7d: /* FACGT */
 -    case 0x19: /* FMLA */
 -    case 0x39: /* FMLS */
      case 0x1c: /* FCMEQ */
      case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      default:
      case 0x18: /* FMAXNM */
 +    case 0x19: /* FMLA */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 +    case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x1: /* FMLA */
      case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
 -    case 0x9: /* FMLS */
      case 0xf: /* FRSQRTS */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          break;
      default:
      case 0x0: /* FMAXNM */
 +    case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
 +    case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x1: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x9: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  break;
              default:
              case 0x0: /* FMAXNM */
 +            case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
 +            case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      case 0x0c: /* SQDMULH */
      case 0x0d: /* SQRDMULH */
          break;
 -    case 0x01: /* FMLA */
 -    case 0x05: /* FMLS */
 -        is_fp = 1;
 -        break;
      case 0x1d: /* SQRDMLAH */
      case 0x1f: /* SQRDMLSH */
          if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x01: /* FMLA */
 +    case 0x05: /* FMLS */
      case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      switch (is_fp) {
      case 1: /* normal fp */
 -        /* convert insn encoded size to MemOp size */
 -        switch (size) {
 -        case 0: /* half-precision */
 -            size = MO_16;
 -            is_fp16 = true;
 -            break;
 -        case MO_32: /* single precision */
 -        case MO_64: /* double precision */
 -            break;
 -        default:
 -            unallocated_encoding(s);
+-            return;
 -        }
 -        break;
--    case 0x1: case 0x3: /* UNALLOCATED */
++        unallocated_encoding(s); /* in decodetree */
--        unallocated_encoding(s);
++        return;
--        break;
--    case 0x2:
+     case 2: /* complex fp */
--        if (!disas_sve(s, insn)) {
+         /* Each indexable element is a complex pair.  */
--            unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
      if (size == 3) {
 -        TCGv_i64 tcg_idx = tcg_temp_new_i64();
 -        int pass;
 -
 -        assert(is_fp && is_q && !is_long);
 -
 -        read_vec_element(s, tcg_idx, rm, index, MO_64);
 -
 -        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
 -            TCGv_i64 tcg_op = tcg_temp_new_i64();
 -            TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -            read_vec_element(s, tcg_op, rn, pass, MO_64);
 -
 -            switch (16 * u + opcode) {
 -            case 0x05: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negd(tcg_op, tcg_op);
 -                /* fall through */
 -            case 0x01: /* FMLA */
 -                read_vec_element(s, tcg_res, rd, pass, MO_64);
 -                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
 -                break;
 -            default:
 -            case 0x09: /* FMUL */
 -            case 0x19: /* FMULX */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element(s, tcg_res, rd, pass, MO_64);
 -        }
--        break;
+-
--    case 0x8: case 0x9: /* Data processing - immediate */
+-        clear_vec_high(s, !is_scalar, rd);
--        disas_data_proc_imm(s, insn);
++        g_assert_not_reached();
--        break;
+     } else if (!is_long) {
--    case 0xa: case 0xb: /* Branch, exception generation and system insns */
+         /* 32 bit floating point, or 16 or 32 bit integer.
--        disas_b_exc_sys(s, insn);
+          * For the 16 bit scalar case we use the usual Neon helpers and
--        break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
--    case 0x4:
+                 genfn(tcg_res, tcg_op, tcg_res);
--    case 0x6:
+                 break;
--    case 0xc:
+             }
--    case 0xe:      /* Loads and stores */
+-            case 0x05: /* FMLS */
--        disas_ldst(s, insn);
+-            case 0x01: /* FMLA */
--        break;
+-                read_vec_element_i32(s, tcg_res, rd, pass,
--    case 0x5:
+-                                     is_scalar ? size : MO_32);
--    case 0xd:      /* Data processing - register */
+-                switch (size) {
--        disas_data_proc_reg(s, insn);
+-                case 1:
--        break;
+-                    if (opcode == 0x5) {
--    case 0x7:
+-                        /* As usual for ARM, separate negation for fused
--    case 0xf:      /* Data processing - SIMD and floating point */
+-                         * multiply-add */
--        disas_data_proc_simd_fp(s, insn);
+-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
--        break;
+-                    }
--    default:
+-                    if (is_scalar) {
--        assert(FALSE); /* all 15 cases should be handled above */
+-                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
--        break;
+-                                                   tcg_res, fpst);
--    }
+-                    } else {
-+    disas_a64_legacy(s, insn);
+-                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
+-                                                    tcg_res, fpst);
-     /*
+-                    }
-      * After execution of most insns, btype is reset to 0.
+-                    break;
 -                case 2:
 -                    if (opcode == 0x5) {
 -                        /* As usual for ARM, separate negation for
 -                         * fused multiply-add */
 -                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
 -                    }
 -                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
 -                                           tcg_res, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x01: /* FMLA */
 +            case 0x05: /* FMLS */
              case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
      return float32_muladd(op1, op2, dest, 0, stat);
  }
 +static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
 +                                 float_status *stat)
 +{
 +    return float64_muladd(op1, op2, dest, 0, stat);
 +}
 +
  static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
                                   float_status *stat)
  {
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
      return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
  }
 +static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
 +                                 float_status *stat)
 +{
 +    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
 +}
 +
  #define DO_MULADD(NAME, FUNC, TYPE)                                     \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
  DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
  DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
 +DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
  DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
  DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
 +DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
  /* For the indexed ops, SVE applies the index per 128-bit vector segment.
   * For AdvSIMD, there is of course only one such vector segment.
 --
 .34.1

-[PULL 11/29] target/arm: Split gen_add_CC and gen_sub_CC
+[PULL 31/42] target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Split out specific 32-bit and 64-bit functions.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 These carry the same signature as tcg_gen_add_i64,
 and so will be easier to pass as callbacks.
 Retain gen_add_CC and gen_sub_CC during conversion.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-6-peter.maydell@linaro.org
 [PMM: rebased]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/translate-a64.c | 149 +++++++++++++++++++--------------
+ target/arm/helper.h            |   5 +
-file changed, 84 insertions(+), 65 deletions(-)
+ target/arm/tcg/a64.decode      |  30 ++++++
  target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
  target/arm/tcg/vec_helper.c    |  30 ++++++
 files changed, 174 insertions(+), 79 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
+ FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
+ FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
++FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
++FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
++
++FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
++FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
++
++FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
++FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
++
++FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
++FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
++
++FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
++FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
++
+ ### Advanced SIMD three same
+ FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
+ FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
+ FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
++FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
++FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
++
++FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
++FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
++
++FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
++FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
++
++FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
++FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
++
++FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
++FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
++
+ ### Advanced SIMD scalar x indexed element
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static inline void gen_logic_CC(int sf, TCGv_i64 result)
+@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
  };
  TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 +static const FPScalar f_scalar_fcmeq = {
 +    gen_helper_advsimd_ceq_f16,
 +    gen_helper_neon_ceq_f32,
 +    gen_helper_neon_ceq_f64,
 +};
 +TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
 +
 +static const FPScalar f_scalar_fcmge = {
 +    gen_helper_advsimd_cge_f16,
 +    gen_helper_neon_cge_f32,
 +    gen_helper_neon_cge_f64,
 +};
 +TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
 +
 +static const FPScalar f_scalar_fcmgt = {
 +    gen_helper_advsimd_cgt_f16,
 +    gen_helper_neon_cgt_f32,
 +    gen_helper_neon_cgt_f64,
 +};
 +TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
 +
 +static const FPScalar f_scalar_facge = {
 +    gen_helper_advsimd_acge_f16,
 +    gen_helper_neon_acge_f32,
 +    gen_helper_neon_acge_f64,
 +};
 +TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
 +
 +static const FPScalar f_scalar_facgt = {
 +    gen_helper_advsimd_acgt_f16,
 +    gen_helper_neon_acgt_f32,
 +    gen_helper_neon_acgt_f64,
 +};
 +TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
  };
  TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
 +    gen_helper_gvec_fceq_h,
 +    gen_helper_gvec_fceq_s,
 +    gen_helper_gvec_fceq_d,
 +};
 +TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
 +    gen_helper_gvec_fcge_h,
 +    gen_helper_gvec_fcge_s,
 +    gen_helper_gvec_fcge_d,
 +};
 +TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
 +    gen_helper_gvec_fcgt_h,
 +    gen_helper_gvec_fcgt_s,
 +    gen_helper_gvec_fcgt_d,
 +};
 +TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
 +    gen_helper_gvec_facge_h,
 +    gen_helper_gvec_facge_s,
 +    gen_helper_gvec_facge_d,
 +};
 +TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
 +    gen_helper_gvec_facgt_h,
 +    gen_helper_gvec_facgt_s,
 +    gen_helper_gvec_facgt_d,
 +};
 +TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element(s, tcg_op2, rm, pass, MO_64);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_absd(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_abss(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          switch (fpopcode) {
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
 +        case 0x7a: /* FABD */
 +            break;
 +        default:
 +        case 0x1b: /* FMULX */
          case 0x5d: /* FACGE */
          case 0x7d: /* FACGT */
          case 0x1c: /* FCMEQ */
          case 0x5c: /* FCMGE */
          case 0x7c: /* FCMGT */
 -        case 0x7a: /* FABD */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      TCGv_i32 tcg_res;
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
          break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      tcg_res = tcg_temp_new_i32();
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
 -        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x07: /* FRECPS */
          gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
      case 0x0f: /* FRSQRTS */
          gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
 -    case 0x14: /* FCMGE (reg) */
 -        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x15: /* FACGE */
 -        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x1a: /* FABD */
          gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
          tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
          break;
 -    case 0x1c: /* FCMGT (reg) */
 -        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1d: /* FACGT */
 -        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
 -    case 0x5d: /* FACGE */
 -    case 0x7d: /* FACGT */
 -    case 0x1c: /* FCMEQ */
 -    case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
 -    case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
 +    case 0x5c: /* FCMGE */
 +    case 0x5d: /* FACGE */
      case 0x5f: /* FDIV */
 +    case 0x7d: /* FACGT */
 +    case 0x7c: /* FCMGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
      case 0xf: /* FRSQRTS */
 -    case 0x14: /* FCMGE */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT */
 -    case 0x1d: /* FACGT */
          pairwise = false;
          break;
      case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
 +    case 0x14: /* FCMGE */
 +    case 0x15: /* FACGE */
      case 0x17: /* FDIV */
 +    case 0x1c: /* FCMGT */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x4: /* FCMEQ */
 -                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x14: /* FCMGE */
 -                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x15: /* FACGE */
 -                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                  break;
 -            case 0x1c: /* FCMGT */
 -                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x1d: /* FACGT */
 -                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x0: /* FMAXNM */
              case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0x4: /* FCMEQ */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
              case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
 +            case 0x14: /* FCMGE */
 +            case 0x15: /* FACGE */
              case 0x17: /* FDIV */
 +            case 0x1c: /* FCMGT */
 +            case 0x1d: /* FACGT */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
      return -float32_eq_quiet(op1, op2, stat);
  }
- /* dest = T0 + T1; compute C, N, V and Z flags */
++static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
 +static void gen_add64_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 +{
-+    TCGv_i64 result, flag, tmp;
++    return -float64_eq_quiet(op1, op2, stat);
 +    result = tcg_temp_new_i64();
 +    flag = tcg_temp_new_i64();
 +    tmp = tcg_temp_new_i64();
 +
 +    tcg_gen_movi_i64(tmp, 0);
 +    tcg_gen_add2_i64(result, flag, t0, tmp, t1, tmp);
 +
 +    tcg_gen_extrl_i64_i32(cpu_CF, flag);
 +
 +    gen_set_NZ64(result);
 +
 +    tcg_gen_xor_i64(flag, result, t0);
 +    tcg_gen_xor_i64(tmp, t0, t1);
 +    tcg_gen_andc_i64(flag, flag, tmp);
 +    tcg_gen_extrh_i64_i32(cpu_VF, flag);
 +
 +    tcg_gen_mov_i64(dest, result);
 +}
 +
-+static void gen_add32_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+ static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
  {
      return -float16_le(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
      return -float32_le(op2, op1, stat);
  }
 +static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
 +{
-+    TCGv_i32 t0_32 = tcg_temp_new_i32();
++    return -float64_le(op2, op1, stat);
 +    TCGv_i32 t1_32 = tcg_temp_new_i32();
 +    TCGv_i32 tmp = tcg_temp_new_i32();
 +
 +    tcg_gen_movi_i32(tmp, 0);
 +    tcg_gen_extrl_i64_i32(t0_32, t0);
 +    tcg_gen_extrl_i64_i32(t1_32, t1);
 +    tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, t1_32, tmp);
 +    tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 +    tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 +    tcg_gen_xor_i32(tmp, t0_32, t1_32);
 +    tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 +    tcg_gen_extu_i32_i64(dest, cpu_NF);
 +}
 +
- static void gen_add_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+ static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
  {
-     if (sf) {
+     return -float16_lt(op2, op1, stat);
--        TCGv_i64 result, flag, tmp;
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
--        result = tcg_temp_new_i64();
+     return -float32_lt(op2, op1, stat);
 -        flag = tcg_temp_new_i64();
 -        tmp = tcg_temp_new_i64();
 -
 -        tcg_gen_movi_i64(tmp, 0);
 -        tcg_gen_add2_i64(result, flag, t0, tmp, t1, tmp);
 -
 -        tcg_gen_extrl_i64_i32(cpu_CF, flag);
 -
 -        gen_set_NZ64(result);
 -
 -        tcg_gen_xor_i64(flag, result, t0);
 -        tcg_gen_xor_i64(tmp, t0, t1);
 -        tcg_gen_andc_i64(flag, flag, tmp);
 -        tcg_gen_extrh_i64_i32(cpu_VF, flag);
 -
 -        tcg_gen_mov_i64(dest, result);
 +        gen_add64_CC(dest, t0, t1);
      } else {
 -        /* 32 bit arithmetic */
 -        TCGv_i32 t0_32 = tcg_temp_new_i32();
 -        TCGv_i32 t1_32 = tcg_temp_new_i32();
 -        TCGv_i32 tmp = tcg_temp_new_i32();
 -
 -        tcg_gen_movi_i32(tmp, 0);
 -        tcg_gen_extrl_i64_i32(t0_32, t0);
 -        tcg_gen_extrl_i64_i32(t1_32, t1);
 -        tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, t1_32, tmp);
 -        tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 -        tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 -        tcg_gen_xor_i32(tmp, t0_32, t1_32);
 -        tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
 -        tcg_gen_extu_i32_i64(dest, cpu_NF);
 +        gen_add32_CC(dest, t0, t1);
      }
  }
- /* dest = T0 - T1; compute C, N, V and Z flags */
++static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
 +static void gen_sub64_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 +{
-+    /* 64 bit arithmetic */
++    return -float64_lt(op2, op1, stat);
 +    TCGv_i64 result, flag, tmp;
 +
 +    result = tcg_temp_new_i64();
 +    flag = tcg_temp_new_i64();
 +    tcg_gen_sub_i64(result, t0, t1);
 +
 +    gen_set_NZ64(result);
 +
 +    tcg_gen_setcond_i64(TCG_COND_GEU, flag, t0, t1);
 +    tcg_gen_extrl_i64_i32(cpu_CF, flag);
 +
 +    tcg_gen_xor_i64(flag, result, t0);
 +    tmp = tcg_temp_new_i64();
 +    tcg_gen_xor_i64(tmp, t0, t1);
 +    tcg_gen_and_i64(flag, flag, tmp);
 +    tcg_gen_extrh_i64_i32(cpu_VF, flag);
 +    tcg_gen_mov_i64(dest, result);
 +}
 +
-+static void gen_sub32_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+ static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
  {
      return -float16_le(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
      return -float32_le(float32_abs(op2), float32_abs(op1), stat);
  }
 +static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
 +{
-+    /* 32 bit arithmetic */
++    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
 +    TCGv_i32 t0_32 = tcg_temp_new_i32();
 +    TCGv_i32 t1_32 = tcg_temp_new_i32();
 +    TCGv_i32 tmp;
 +
 +    tcg_gen_extrl_i64_i32(t0_32, t0);
 +    tcg_gen_extrl_i64_i32(t1_32, t1);
 +    tcg_gen_sub_i32(cpu_NF, t0_32, t1_32);
 +    tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 +    tcg_gen_setcond_i32(TCG_COND_GEU, cpu_CF, t0_32, t1_32);
 +    tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 +    tmp = tcg_temp_new_i32();
 +    tcg_gen_xor_i32(tmp, t0_32, t1_32);
 +    tcg_gen_and_i32(cpu_VF, cpu_VF, tmp);
 +    tcg_gen_extu_i32_i64(dest, cpu_NF);
 +}
 +
- static void gen_sub_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+ static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
  {
-     if (sf) {
+     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
--        /* 64 bit arithmetic */
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
--        TCGv_i64 result, flag, tmp;
+     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
 -
 -        result = tcg_temp_new_i64();
 -        flag = tcg_temp_new_i64();
 -        tcg_gen_sub_i64(result, t0, t1);
 -
 -        gen_set_NZ64(result);
 -
 -        tcg_gen_setcond_i64(TCG_COND_GEU, flag, t0, t1);
 -        tcg_gen_extrl_i64_i32(cpu_CF, flag);
 -
 -        tcg_gen_xor_i64(flag, result, t0);
 -        tmp = tcg_temp_new_i64();
 -        tcg_gen_xor_i64(tmp, t0, t1);
 -        tcg_gen_and_i64(flag, flag, tmp);
 -        tcg_gen_extrh_i64_i32(cpu_VF, flag);
 -        tcg_gen_mov_i64(dest, result);
 +        gen_sub64_CC(dest, t0, t1);
      } else {
 -        /* 32 bit arithmetic */
 -        TCGv_i32 t0_32 = tcg_temp_new_i32();
 -        TCGv_i32 t1_32 = tcg_temp_new_i32();
 -        TCGv_i32 tmp;
 -
 -        tcg_gen_extrl_i64_i32(t0_32, t0);
 -        tcg_gen_extrl_i64_i32(t1_32, t1);
 -        tcg_gen_sub_i32(cpu_NF, t0_32, t1_32);
 -        tcg_gen_mov_i32(cpu_ZF, cpu_NF);
 -        tcg_gen_setcond_i32(TCG_COND_GEU, cpu_CF, t0_32, t1_32);
 -        tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
 -        tmp = tcg_temp_new_i32();
 -        tcg_gen_xor_i32(tmp, t0_32, t1_32);
 -        tcg_gen_and_i32(cpu_VF, cpu_VF, tmp);
 -        tcg_gen_extu_i32_i64(dest, cpu_NF);
 +        gen_sub32_CC(dest, t0, t1);
      }
  }
++static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
++{
++    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
++}
++
+ static int16_t vfp_tosszh(float16 x, void *fpstp)
+ {
+     float_status *fpst = fpstp;
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
+ DO_3OP(gvec_fceq_h, float16_ceq, float16)
+ DO_3OP(gvec_fceq_s, float32_ceq, float32)
++DO_3OP(gvec_fceq_d, float64_ceq, float64)
+ DO_3OP(gvec_fcge_h, float16_cge, float16)
+ DO_3OP(gvec_fcge_s, float32_cge, float32)
++DO_3OP(gvec_fcge_d, float64_cge, float64)
+ DO_3OP(gvec_fcgt_h, float16_cgt, float16)
+ DO_3OP(gvec_fcgt_s, float32_cgt, float32)
++DO_3OP(gvec_fcgt_d, float64_cgt, float64)
+ DO_3OP(gvec_facge_h, float16_acge, float16)
+ DO_3OP(gvec_facge_s, float32_acge, float32)
++DO_3OP(gvec_facge_d, float64_acge, float64)
+ DO_3OP(gvec_facgt_h, float16_acgt, float16)
+ DO_3OP(gvec_facgt_s, float32_acgt, float32)
++DO_3OP(gvec_facgt_d, float64_acgt, float64)
+ DO_3OP(gvec_fmax_h, float16_max, float16)
+ DO_3OP(gvec_fmax_s, float32_max, float32)
 --
 .34.1

-New patch
+[PULL 32/42] target/arm: Convert FABD to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/helper.h            |  1 +
+ target/arm/tcg/a64.decode      |  6 ++++
+ target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
+ target/arm/tcg/vec_helper.c    |  6 ++++
+files changed, 53 insertions(+), 20 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
+ FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
+ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
++FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
++FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
++
+ ### Advanced SIMD three same
+ FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+@@ -XXX,XX +XXX,XX @@ FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
+ FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
+ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
++FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
++FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
++
+ ### Advanced SIMD scalar x indexed element
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_facgt = {
+ };
+ TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
++static void gen_fabd_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
++{
++    gen_helper_vfp_subh(d, n, m, s);
++    gen_vfp_absh(d, d);
++}
++
++static void gen_fabd_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
++{
++    gen_helper_vfp_subs(d, n, m, s);
++    gen_vfp_abss(d, d);
++}
++
++static void gen_fabd_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
++{
++    gen_helper_vfp_subd(d, n, m, s);
++    gen_vfp_absd(d, d);
++}
++
++static const FPScalar f_scalar_fabd = {
++    gen_fabd_h,
++    gen_fabd_s,
++    gen_fabd_d,
++};
++TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
++
+ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
+                           gen_helper_gvec_3_ptr * const fns[3])
+ {
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
+ };
+ TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
++static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
++    gen_helper_gvec_fabd_h,
++    gen_helper_gvec_fabd_s,
++    gen_helper_gvec_fabd_d,
++};
++TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
++
+ /*
+  * Advanced SIMD scalar/vector x indexed element
+  */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x7a: /* FABD */
+-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_vfp_absd(tcg_res, tcg_res);
+-                break;
+             default:
+             case 0x18: /* FMAXNM */
+             case 0x19: /* FMLA */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x5c: /* FCMGE */
+             case 0x5d: /* FACGE */
+             case 0x5f: /* FDIV */
++            case 0x7a: /* FABD */
+             case 0x7c: /* FCMGT */
+             case 0x7d: /* FACGT */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x7a: /* FABD */
+-                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
+-                gen_vfp_abss(tcg_res, tcg_res);
+-                break;
+             default:
+             case 0x18: /* FMAXNM */
+             case 0x19: /* FMLA */
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x5c: /* FCMGE */
+             case 0x5d: /* FACGE */
+             case 0x5f: /* FDIV */
++            case 0x7a: /* FABD */
+             case 0x7c: /* FCMGT */
+             case 0x7d: /* FACGT */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
+         switch (fpopcode) {
+         case 0x1f: /* FRECPS */
+         case 0x3f: /* FRSQRTS */
+-        case 0x7a: /* FABD */
+             break;
+         default:
+         case 0x1b: /* FMULX */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
+         case 0x7d: /* FACGT */
+         case 0x1c: /* FCMEQ */
+         case 0x5c: /* FCMGE */
++        case 0x7a: /* FABD */
+         case 0x7c: /* FCMGT */
+             unallocated_encoding(s);
+             return;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
+     switch (fpopcode) {
+     case 0x07: /* FRECPS */
+     case 0x0f: /* FRSQRTS */
+-    case 0x1a: /* FABD */
+         break;
+     default:
+     case 0x03: /* FMULX */
+     case 0x04: /* FCMEQ (reg) */
+     case 0x14: /* FCMGE (reg) */
+     case 0x15: /* FACGE */
++    case 0x1a: /* FABD */
+     case 0x1c: /* FCMGT (reg) */
+     case 0x1d: /* FACGT */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
+     case 0x0f: /* FRSQRTS */
+         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+         break;
+-    case 0x1a: /* FABD */
+-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
+-        break;
+     default:
+     case 0x03: /* FMULX */
+     case 0x04: /* FCMEQ (reg) */
+     case 0x14: /* FCMGE (reg) */
+     case 0x15: /* FACGE */
++    case 0x1a: /* FABD */
+     case 0x1c: /* FCMGT (reg) */
+     case 0x1d: /* FACGT */
+         g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+         return;
+     case 0x1f: /* FRECPS */
+     case 0x3f: /* FRSQRTS */
+-    case 0x7a: /* FABD */
+         if (!fp_access_check(s)) {
+             return;
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x5c: /* FCMGE */
+     case 0x5d: /* FACGE */
+     case 0x5f: /* FDIV */
++    case 0x7a: /* FABD */
+     case 0x7d: /* FACGT */
+     case 0x7c: /* FCMGT */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x7: /* FRECPS */
+     case 0xf: /* FRSQRTS */
+-    case 0x1a: /* FABD */
+         pairwise = false;
+         break;
+     case 0x10: /* FMAXNMP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     case 0x14: /* FCMGE */
+     case 0x15: /* FACGE */
+     case 0x17: /* FDIV */
++    case 0x1a: /* FABD */
+     case 0x1c: /* FCMGT */
+     case 0x1d: /* FACGT */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             case 0xf: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x1a: /* FABD */
+-                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
+-                break;
+             default:
+             case 0x0: /* FMAXNM */
+             case 0x1: /* FMLA */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             case 0x14: /* FCMGE */
+             case 0x15: /* FACGE */
+             case 0x17: /* FDIV */
++            case 0x1a: /* FABD */
+             case 0x1c: /* FCMGT */
+             case 0x1d: /* FACGT */
+                 g_assert_not_reached();
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
+     return float32_abs(float32_sub(op1, op2, stat));
+ }
++static float64 float64_abd(float64 op1, float64 op2, float_status *stat)
++{
++    return float64_abs(float64_sub(op1, op2, stat));
++}
++
+ /*
+  * Reciprocal step. These are the AArch32 version which uses a
+  * non-fused multiply-and-subtract.
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
+ DO_3OP(gvec_fabd_h, float16_abd, float16)
+ DO_3OP(gvec_fabd_s, float32_abd, float32)
++DO_3OP(gvec_fabd_d, float64_abd, float64)
+ DO_3OP(gvec_fceq_h, float16_ceq, float16)
+ DO_3OP(gvec_fceq_s, float32_ceq, float32)
+--
+.34.1

-[PULL 13/29] target/arm: Convert Add/subtract (immediate with tags) to decodetree
+[PULL 33/42] target/arm: Convert FRECPS, FRSQRTS to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Convert the ADDG and SUBG (immediate) instructions.
+These are the last instructions within handle_3same_float
 and disas_simd_scalar_three_reg_same_fp16 so remove them.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-8-peter.maydell@linaro.org
 [PMM: Rebased; use TRANS_FEAT()]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      |  8 +++++++
+ target/arm/tcg/a64.decode      |  12 ++
- target/arm/tcg/translate-a64.c | 38 ++++++++++------------------------
+ target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
-files changed, 19 insertions(+), 27 deletions(-)
+files changed, 46 insertions(+), 259 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ SUB_i           . 10 100010 0 ............ ..... .....  @addsub_imm
+@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
- SUB_i           . 10 100010 1 ............ ..... .....  @addsub_imm12
+ FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
- SUBS_i          . 11 100010 0 ............ ..... .....  @addsub_imm
+ FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
- SUBS_i          . 11 100010 1 ............ ..... .....  @addsub_imm12
-+
++FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
-+# Add/subtract (immediate with tags)
++FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
 +
-+&rri_tag        rd rn uimm6 uimm4
++FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
-+@addsub_imm_tag . .. ...... . uimm6:6 .. uimm4:4 rn:5 rd:5 &rri_tag
++FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 +
-+ADDG_i          1 00 100011 0 ...... 00 .... ..... ..... @addsub_imm_tag
+ ### Advanced SIMD three same
-+SUBG_i          1 10 100011 0 ...... 00 .... ..... ..... @addsub_imm_tag
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
  FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
  FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
 +FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
 +FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
 +FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ TRANS(SUBS_i, gen_rri, a, 0, 1, a->sf ? gen_sub64_CC : gen_sub32_CC)
+@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
+ };
  TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 +static const FPScalar f_scalar_frecps = {
 +    gen_helper_recpsf_f16,
 +    gen_helper_recpsf_f32,
 +    gen_helper_recpsf_f64,
 +};
 +TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
 +
 +static const FPScalar f_scalar_frsqrts = {
 +    gen_helper_rsqrtsf_f16,
 +    gen_helper_rsqrtsf_f32,
 +    gen_helper_rsqrtsf_f64,
 +};
 +TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
  };
  TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 +static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
 +    gen_helper_gvec_recps_h,
 +    gen_helper_gvec_recps_s,
 +    gen_helper_gvec_recps_d,
 +};
 +TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
 +    gen_helper_gvec_rsqrts_h,
 +    gen_helper_gvec_rsqrts_s,
 +    gen_helper_gvec_rsqrts_d,
 +};
 +TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
 +
  /*
-  * Add/subtract (immediate, with tags)
+  * Advanced SIMD scalar/vector x indexed element
 - *
 - *  31 30 29 28         23 22 21     16 14      10 9   5 4   0
 - * +--+--+--+-------------+--+---------+--+-------+-----+-----+
 - * |sf|op| S| 1 0 0 0 1 1 |o2|  uimm6  |o3| uimm4 |  Rn | Rd  |
 - * +--+--+--+-------------+--+---------+--+-------+-----+-----+
 - *
 - *    op: 0 -> add, 1 -> sub
   */
--static void disas_add_sub_imm_with_tags(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
-+
+     }
-+static bool gen_add_sub_imm_with_tags(DisasContext *s, arg_rri_tag *a,
+ }
-+                                      bool sub_op)
- {
+-/* Handle the 3-same-operands float operations; shared by the scalar
 - * and vector encodings. The caller must filter out any encodings
 - * not allocated for the encoding it is dealing with.
 - */
 -static void handle_3same_float(DisasContext *s, int size, int elements,
 -                               int fpopcode, int rd, int rn, int rm)
 -{
 -    int pass;
 -    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
 -
 -    for (pass = 0; pass < elements; pass++) {
 -        if (size) {
 -            /* Double */
 -            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -            read_vec_element(s, tcg_op1, rn, pass, MO_64);
 -            read_vec_element(s, tcg_op2, rm, pass, MO_64);
 -
 -            switch (fpopcode) {
 -            case 0x1f: /* FRECPS */
 -                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3f: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element(s, tcg_res, rd, pass, MO_64);
 -        } else {
 -            /* Single */
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 -
 -            switch (fpopcode) {
 -            case 0x1f: /* FRECPS */
 -                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3f: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            if (elements == 1) {
 -                /* scalar single so clear high part */
 -                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 -
 -                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
 -                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
 -            } else {
 -                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
 -            }
 -        }
 -    }
 -
 -    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
 -}
 -
  /* AdvSIMD scalar three same
   *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
   * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      bool u = extract32(insn, 29, 1);
      TCGv_i64 tcg_rd;
 -    if (opcode >= 0x18) {
 -        /* Floating point: U, size[1] and opcode indicate operation */
 -        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
 -        switch (fpopcode) {
 -        case 0x1f: /* FRECPS */
 -        case 0x3f: /* FRSQRTS */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
 -        case 0x5d: /* FACGE */
 -        case 0x7d: /* FACGT */
 -        case 0x1c: /* FCMEQ */
 -        case 0x5c: /* FCMGE */
 -        case 0x7a: /* FABD */
 -        case 0x7c: /* FCMGT */
 -            unallocated_encoding(s);
 -            return;
 -        }
 -
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -
 -        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
 -        return;
 -    }
 -
      switch (opcode) {
      case 0x1: /* SQADD, UQADD */
      case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_rd);
  }
 -/* AdvSIMD scalar three same FP16
 - *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
 - * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
 - * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
 - * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
 - * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
 - * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
 - */
 -static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
 -                                                  uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
--    int uimm4 = extract32(insn, 10, 4);
+-    int opcode = extract32(insn, 11, 3);
--    int uimm6 = extract32(insn, 16, 6);
+-    int rm = extract32(insn, 16, 5);
--    bool sub_op = extract32(insn, 30, 1);
+-    bool u = extract32(insn, 29, 1);
-     TCGv_i64 tcg_rn, tcg_rd;
+-    bool a = extract32(insn, 23, 1);
-     int imm;
+-    int fpopcode = opcode | (a << 3) |  (u << 4);
+-    TCGv_ptr fpst;
--    /* Test all of sf=1, S=0, o2=0, o3=0.  */
+-    TCGv_i32 tcg_op1;
--    if ((insn & 0xa040c000u) != 0x80000000u ||
+-    TCGv_i32 tcg_op2;
--        !dc_isar_feature(aa64_mte_insn_reg, s)) {
+-    TCGv_i32 tcg_res;
 -
 -    switch (fpopcode) {
 -    case 0x07: /* FRECPS */
 -    case 0x0f: /* FRSQRTS */
 -        break;
 -    default:
 -    case 0x03: /* FMULX */
 -    case 0x04: /* FCMEQ (reg) */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
--    imm = uimm6 << LOG2_TAG_GRANULE;
+-    if (!dc_isar_feature(aa64_fp16, s)) {
-+    imm = a->uimm6 << LOG2_TAG_GRANULE;
+-        unallocated_encoding(s);
-     if (sub_op) {
+-    }
-         imm = -imm;
+-
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    fpst = fpstatus_ptr(FPST_FPCR_F16);
 -
 -    tcg_op1 = read_fp_hreg(s, rn);
 -    tcg_op2 = read_fp_hreg(s, rm);
 -    tcg_res = tcg_temp_new_i32();
 -
 -    switch (fpopcode) {
 -    case 0x07: /* FRECPS */
 -        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x0f: /* FRSQRTS */
 -        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    default:
 -    case 0x03: /* FMULX */
 -    case 0x04: /* FCMEQ (reg) */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
  /* AdvSIMD scalar three same extra
   *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
   * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
  /* Pairwise op subgroup of C3.6.16.
   *
 - * This is called directly or via the handle_3same_float for float pairwise
 + * This is called directly for float pairwise
   * operations where the opcode and size are calculated differently.
   */
  static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      int rn = extract32(insn, 5, 5);
      int rd = extract32(insn, 0, 5);
 -    int datasize = is_q ? 128 : 64;
 -    int esize = 32 << size;
 -    int elements = datasize / esize;
 -
      if (size == 1 && !is_q) {
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                 rn, rm, rd);
          return;
 -    case 0x1f: /* FRECPS */
 -    case 0x3f: /* FRSQRTS */
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
 -        return;
      case 0x1d: /* FMLAL  */
      case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x1b: /* FMULX */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
 +    case 0x1f: /* FRECPS */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 +    case 0x3f: /* FRSQRTS */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
       * together indicate the operation.
       */
      int fpopcode = opcode | (a << 3) | (u << 4);
 -    int datasize = is_q ? 128 : 64;
 -    int elements = datasize / 16;
      bool pairwise;
      TCGv_ptr fpst;
      int pass;
      switch (fpopcode) {
 -    case 0x7: /* FRECPS */
 -    case 0xf: /* FRSQRTS */
 -        pairwise = false;
 -        break;
      case 0x10: /* FMAXNMP */
      case 0x12: /* FADDP */
      case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x3: /* FMULX */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
 +    case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
 +    case 0xf: /* FRSQRTS */
      case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
          }
      } else {
 -        for (pass = 0; pass < elements; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 -
 -            switch (fpopcode) {
 -            case 0x7: /* FRECPS */
 -                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x0: /* FMAXNM */
 -            case 0x1: /* FMLA */
 -            case 0x2: /* FADD */
 -            case 0x3: /* FMULX */
 -            case 0x4: /* FCMEQ */
 -            case 0x6: /* FMAX */
 -            case 0x8: /* FMINNM */
 -            case 0x9: /* FMLS */
 -            case 0xa: /* FSUB */
 -            case 0xe: /* FMIN */
 -            case 0x13: /* FMUL */
 -            case 0x14: /* FCMGE */
 -            case 0x15: /* FACGE */
 -            case 0x17: /* FDIV */
 -            case 0x1a: /* FABD */
 -            case 0x1c: /* FCMGT */
 -            case 0x1d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -        }
 +        g_assert_not_reached();
      }
--    tcg_rn = cpu_reg_sp(s, rn);
+     clear_vec_high(s, is_q, rd);
--    tcg_rd = cpu_reg_sp(s, rd);
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-+    tcg_rn = cpu_reg_sp(s, a->rn);
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-+    tcg_rd = cpu_reg_sp(s, a->rd);
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-     if (s->ata) {
+-    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
-         gen_helper_addsubg(tcg_rd, cpu_env, tcg_rn,
+     { 0x00000000, 0x00000000, NULL }
-                            tcg_constant_i32(imm),
+ };
--                           tcg_constant_i32(uimm4));
 +                           tcg_constant_i32(a->uimm4));
      } else {
          tcg_gen_addi_i64(tcg_rd, tcg_rn, imm);
          gen_address_with_allocation_tag0(tcg_rd, tcg_rd);
      }
 +    return true;
  }
 +TRANS_FEAT(ADDG_i, aa64_mte_insn_reg, gen_add_sub_imm_with_tags, a, false)
 +TRANS_FEAT(SUBG_i, aa64_mte_insn_reg, gen_add_sub_imm_with_tags, a, true)
 +
  /* The input should be a value in the bottom e bits (with higher
   * bits zero); returns that value replicated into every element
   * of size e in a 64 bit integer.
@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
  static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
  {
      switch (extract32(insn, 23, 6)) {
 -    case 0x23: /* Add/subtract (immediate, with tags) */
 -        disas_add_sub_imm_with_tags(s, insn);
 -        break;
      case 0x24: /* Logical (immediate) */
          disas_logic_imm(s, insn);
          break;
 --
 .34.1

-New patch
+[PULL 34/42] target/arm: Convert FADDP to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/helper.h            |  4 ++
+ target/arm/tcg/a64.decode      | 12 +++++
+ target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
+ target/arm/tcg/vec_helper.c    | 23 +++++++++
+files changed, 105 insertions(+), 21 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_uclamp_s, TCG_CALL_NO_RWG,
+ DEF_HELPER_FLAGS_5(gvec_uclamp_d, TCG_CALL_NO_RWG,
+                    void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
+ #ifdef TARGET_AARCH64
+ #include "tcg/helper-a64.h"
+ #include "tcg/helper-sve.h"
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@
+ &ri             rd imm
+ &rri_sf         rd rn imm sf
+ &i              imm
++&rr_e           rd rn esz
+ &rrr_e          rd rn rm esz
+ &rrx_e          rd rn rm idx esz
+ &qrr_e          q rd rn esz
+@@ -XXX,XX +XXX,XX @@
+ &qrrx_e         q rd rn rm idx esz
+ &qrrrr_e        q rd rn rm ra esz
++@rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
++@rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
++
+ @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
+ @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+ @rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
+@@ -XXX,XX +XXX,XX @@ FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
+ FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
+ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
++### Advanced SIMD scalar pairwise
++
++FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
++FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
++
+ ### Advanced SIMD three same
+ FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+@@ -XXX,XX +XXX,XX @@ FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+ FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
+ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
++FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
++FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
++
+ ### Advanced SIMD scalar x indexed element
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
+ };
+ TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
++static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
++    gen_helper_gvec_faddp_h,
++    gen_helper_gvec_faddp_s,
++    gen_helper_gvec_faddp_d,
++};
++TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
++
+ /*
+  * Advanced SIMD scalar/vector x indexed element
+  */
+@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
+ TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
+ TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
++/*
++ * Advanced SIMD scalar pairwise
++ */
++
++static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
++{
++    switch (a->esz) {
++    case MO_64:
++        if (fp_access_check(s)) {
++            TCGv_i64 t0 = tcg_temp_new_i64();
++            TCGv_i64 t1 = tcg_temp_new_i64();
++
++            read_vec_element(s, t0, a->rn, 0, MO_64);
++            read_vec_element(s, t1, a->rn, 1, MO_64);
++            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
++            write_fp_dreg(s, a->rd, t0);
++        }
++        break;
++    case MO_32:
++        if (fp_access_check(s)) {
++            TCGv_i32 t0 = tcg_temp_new_i32();
++            TCGv_i32 t1 = tcg_temp_new_i32();
++
++            read_vec_element_i32(s, t0, a->rn, 0, MO_32);
++            read_vec_element_i32(s, t1, a->rn, 1, MO_32);
++            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
++            write_fp_sreg(s, a->rd, t0);
++        }
++        break;
++    case MO_16:
++        if (!dc_isar_feature(aa64_fp16, s)) {
++            return false;
++        }
++        if (fp_access_check(s)) {
++            TCGv_i32 t0 = tcg_temp_new_i32();
++            TCGv_i32 t1 = tcg_temp_new_i32();
++
++            read_vec_element_i32(s, t0, a->rn, 0, MO_16);
++            read_vec_element_i32(s, t1, a->rn, 1, MO_16);
++            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
++            write_fp_sreg(s, a->rd, t0);
++        }
++        break;
++    default:
++        g_assert_not_reached();
++    }
++    return true;
++}
++
++TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+         fpst = NULL;
+         break;
+     case 0xc: /* FMAXNMP */
+-    case 0xd: /* FADDP */
+     case 0xf: /* FMAXP */
+     case 0x2c: /* FMINNMP */
+     case 0x2f: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+         fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
+         break;
+     default:
++    case 0xd: /* FADDP */
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+         case 0xc: /* FMAXNMP */
+             gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+-        case 0xd: /* FADDP */
+-            gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
+-            break;
+         case 0xf: /* FMAXP */
+             gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
+             break;
+         default:
++        case 0xd: /* FADDP */
+             g_assert_not_reached();
+         }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             case 0xc: /* FMAXNMP */
+                 gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0xd: /* FADDP */
+-                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FMAXP */
+                 gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0xd: /* FADDP */
+                 g_assert_not_reached();
+             }
+         } else {
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+             case 0xc: /* FMAXNMP */
+                 gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0xd: /* FADDP */
+-                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FMAXP */
+                 gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0xd: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+             case 0x58: /* FMAXNMP */
+                 gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x5a: /* FADDP */
+-                gen_helper_vfp_addd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x5e: /* FMAXP */
+                 gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+                 gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x5a: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+             case 0x58: /* FMAXNMP */
+                 gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x5a: /* FADDP */
+-                gen_helper_vfp_adds(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x5e: /* FMAXP */
+                 gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
+                 gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x5a: /* FADDP */
+                 g_assert_not_reached();
+             }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x58: /* FMAXNMP */
+-    case 0x5a: /* FADDP */
+     case 0x5e: /* FMAXP */
+     case 0x78: /* FMINNMP */
+     case 0x7e: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x3a: /* FSUB */
+     case 0x3e: /* FMIN */
+     case 0x3f: /* FRSQRTS */
++    case 0x5a: /* FADDP */
+     case 0x5b: /* FMUL */
+     case 0x5c: /* FCMGE */
+     case 0x5d: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     switch (fpopcode) {
+     case 0x10: /* FMAXNMP */
+-    case 0x12: /* FADDP */
+     case 0x16: /* FMAXP */
+     case 0x18: /* FMINNMP */
+     case 0x1e: /* FMINP */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     case 0xa: /* FSUB */
+     case 0xe: /* FMIN */
+     case 0xf: /* FRSQRTS */
++    case 0x12: /* FADDP */
+     case 0x13: /* FMUL */
+     case 0x14: /* FCMGE */
+     case 0x15: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
+                                            fpst);
+                 break;
+-            case 0x12: /* FADDP */
+-                gen_helper_advsimd_addh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x16: /* FMAXP */
+                 gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x12: /* FADDP */
+                 g_assert_not_reached();
+             }
+         }
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_NEON_PAIRWISE(neon_pmin, min)
+ #undef DO_NEON_PAIRWISE
++#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
++void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
++{                                                                          \
++    ARMVectorReg scratch;                                                  \
++    intptr_t oprsz = simd_oprsz(desc);                                     \
++    intptr_t half = oprsz / sizeof(TYPE) / 2;                              \
++    TYPE *d = vd, *n = vn, *m = vm;                                        \
++    if (unlikely(d == m)) {                                                \
++        m = memcpy(&scratch, m, oprsz);                                    \
++    }                                                                      \
++    for (intptr_t i = 0; i < half; ++i) {                                  \
++        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)], stat);                \
++    }                                                                      \
++    for (intptr_t i = 0; i < half; ++i) {                                  \
++        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)], stat);         \
++    }                                                                      \
++    clear_tail(d, oprsz, simd_maxsz(desc));                                \
++}
++
++DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
++DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
++DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
++
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
+     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+     {                                                                   \
+--
+.34.1

-[PULL 09/29] target/arm: Pull calls to disas_sve() and disas_sme() out of legacy decoder
+[PULL 35/42] target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
-The SVE and SME decode is already done by decodetree.  Pull the calls
+From: Richard Henderson <richard.henderson@linaro.org>
 to these decoders out of the legacy decoder.  This doesn't change
 behaviour because all the patterns in sve.decode and sme.decode
 already require the bits that the legacy decoder is decoding to have
 the correct values.
+These are the last instructions within disas_simd_three_reg_same_fp16,
+so remove it.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-4-peter.maydell@linaro.org
 ---
- target/arm/tcg/translate-a64.c | 20 ++++----------------
+ target/arm/helper.h            |  16 ++
-file changed, 4 insertions(+), 16 deletions(-)
+ target/arm/tcg/a64.decode      |  24 +++
  target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
  target/arm/tcg/vec_helper.c    |  16 ++
 files changed, 107 insertions(+), 245 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
++DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
++DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
++DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
+ #ifdef TARGET_AARCH64
+ #include "tcg/helper-a64.h"
+ #include "tcg/helper-sve.h"
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
+ FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
+ FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
++FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
++FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
++
++FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
++FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
++
++FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
++FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
++
++FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
++FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
++
+ ### Advanced SIMD three same
+ FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
+ FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+ FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
++FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
++FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
++
++FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
++FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
++
++FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
++FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
++
++FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
++FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
++
+ ### Advanced SIMD scalar x indexed element
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool btype_destination_ok(uint32_t insn, bool bt, int btype)
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
- static void disas_a64_legacy(DisasContext *s, uint32_t insn)
+ };
- {
+ TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
-     switch (extract32(insn, 25, 4)) {
--    case 0x0:
++static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
--        if (!extract32(insn, 31, 1) || !disas_sme(s, insn)) {
++    gen_helper_gvec_fmaxp_h,
--            unallocated_encoding(s);
++    gen_helper_gvec_fmaxp_s,
 +    gen_helper_gvec_fmaxp_d,
 +};
 +TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
 +    gen_helper_gvec_fminp_h,
 +    gen_helper_gvec_fminp_s,
 +    gen_helper_gvec_fminp_d,
 +};
 +TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
 +    gen_helper_gvec_fmaxnump_h,
 +    gen_helper_gvec_fmaxnump_s,
 +    gen_helper_gvec_fmaxnump_d,
 +};
 +TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
 +    gen_helper_gvec_fminnump_h,
 +    gen_helper_gvec_fminnump_s,
 +    gen_helper_gvec_fminnump_d,
 +};
 +TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
  }
  TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
 +TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
 +TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
 +TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
 +TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
      int opcode = extract32(insn, 12, 5);
      int rn = extract32(insn, 5, 5);
      int rd = extract32(insn, 0, 5);
 -    TCGv_ptr fpst;
      /* For some ops (the FP ones), size[1] is part of the encoding.
       * For ADDP strictly it is not but size[1] is always 1 for valid
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
          if (!fp_access_check(s)) {
              return;
          }
 -
 -        fpst = NULL;
          break;
 +    default:
      case 0xc: /* FMAXNMP */
 +    case 0xd: /* FADDP */
      case 0xf: /* FMAXP */
      case 0x2c: /* FMINNMP */
      case 0x2f: /* FMINP */
 -        /* FP op, size[0] is 32 or 64 bit*/
 -        if (!u) {
 -            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
 -                unallocated_encoding(s);
 -                return;
 -            } else {
 -                size = MO_16;
 -            }
 -        } else {
 -            size = extract32(size, 0, 1) ? MO_64 : MO_32;
 -        }
+-
+-        if (!fp_access_check(s)) {
+-            return;
+-        }
+-
+-        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
 -        break;
--    case 0x1: case 0x3: /* UNALLOCATED */
+-    default:
--        unallocated_encoding(s);
+-    case 0xd: /* FADDP */
--        break;
+         unallocated_encoding(s);
--    case 0x2:
+         return;
--        if (!disas_sve(s, insn)) {
+     }
--            unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
          case 0x3b: /* ADDP */
              tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
              break;
 -        case 0xc: /* FMAXNMP */
 -            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
 -        case 0xf: /* FMAXP */
 -            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
 -        case 0x2c: /* FMINNMP */
 -            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
 -        case 0x2f: /* FMINP */
 -            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
          default:
 +        case 0xc: /* FMAXNMP */
          case 0xd: /* FADDP */
 +        case 0xf: /* FMAXP */
 +        case 0x2c: /* FMINNMP */
 +        case 0x2f: /* FMINP */
              g_assert_not_reached();
          }
          write_fp_dreg(s, rd, tcg_res);
      } else {
 -        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -        TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -        read_vec_element_i32(s, tcg_op1, rn, 0, size);
 -        read_vec_element_i32(s, tcg_op2, rn, 1, size);
 -
 -        if (size == MO_16) {
 -            switch (opcode) {
 -            case 0xc: /* FMAXNMP */
 -                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FMAXP */
 -                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2c: /* FMINNMP */
 -                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2f: /* FMINP */
 -                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0xd: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        } else {
 -            switch (opcode) {
 -            case 0xc: /* FMAXNMP */
 -                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FMAXP */
 -                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2c: /* FMINNMP */
 -                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2f: /* FMINP */
 -                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0xd: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        }
--        break;
+-
-     case 0x8: case 0x9: /* Data processing - immediate */
+-        write_fp_sreg(s, rd, tcg_res);
-         disas_data_proc_imm(s, insn);
++        g_assert_not_reached();
          break;
@@ -XXX,XX +XXX,XX @@ static void disas_a64_legacy(DisasContext *s, uint32_t insn)
          disas_data_proc_simd_fp(s, insn);
          break;
      default:
 -        assert(FALSE); /* all 15 cases should be handled above */
 +        unallocated_encoding(s);
          break;
      }
  }
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
-         disas_sme_fa64(s, insn);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
  static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                                     int size, int rn, int rm, int rd)
  {
 -    TCGv_ptr fpst;
      int pass;
 -    /* Floating point operations need fpst */
 -    if (opcode >= 0x58) {
 -        fpst = fpstatus_ptr(FPST_FPCR);
 -    } else {
 -        fpst = NULL;
 -    }
 -
      if (!fp_access_check(s)) {
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
--
+             case 0x17: /* ADDP */
--    if (!disas_a64(s, insn)) {
+                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
-+    if (!disas_a64(s, insn) &&
+                 break;
-+        !disas_sme(s, insn) &&
+-            case 0x58: /* FMAXNMP */
-+        !disas_sve(s, insn)) {
+-                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-         disas_a64_legacy(s, insn);
+-                break;
 -            case 0x5e: /* FMAXP */
 -                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
          }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  genfn = fns[size][u];
                  break;
              }
 -            /* The FP operations are all on single floats (32 bit) */
 -            case 0x58: /* FMAXNMP */
 -                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5e: /* FMAXP */
 -                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      }
+     switch (fpopcode) {
+-    case 0x58: /* FMAXNMP */
+-    case 0x5e: /* FMAXP */
+-    case 0x78: /* FMINNMP */
+-    case 0x7e: /* FMINP */
+-        if (size && !is_q) {
+-            unallocated_encoding(s);
+-            return;
+-        }
+-        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
+-                               rn, rm, rd);
+-        return;
+-
+     case 0x1d: /* FMLAL  */
+     case 0x3d: /* FMLSL  */
+     case 0x59: /* FMLAL2 */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x3a: /* FSUB */
+     case 0x3e: /* FMIN */
+     case 0x3f: /* FRSQRTS */
++    case 0x58: /* FMAXNMP */
+     case 0x5a: /* FADDP */
+     case 0x5b: /* FMUL */
+     case 0x5c: /* FCMGE */
+     case 0x5d: /* FACGE */
++    case 0x5e: /* FMAXP */
+     case 0x5f: /* FDIV */
++    case 0x78: /* FMINNMP */
+     case 0x7a: /* FABD */
+     case 0x7d: /* FACGT */
+     case 0x7c: /* FCMGT */
++    case 0x7e: /* FMINP */
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
+     }
+ }
+-/*
+- * Advanced SIMD three same (ARMv8.2 FP16 variants)
+- *
+- *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
+- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
+- * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
+- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
+- *
+- * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
+- * (register), FACGE, FABD, FCMGT (register) and FACGT.
+- *
+- */
+-static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+-{
+-    int opcode = extract32(insn, 11, 3);
+-    int u = extract32(insn, 29, 1);
+-    int a = extract32(insn, 23, 1);
+-    int is_q = extract32(insn, 30, 1);
+-    int rm = extract32(insn, 16, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    /*
+-     * For these floating point ops, the U, a and opcode bits
+-     * together indicate the operation.
+-     */
+-    int fpopcode = opcode | (a << 3) | (u << 4);
+-    bool pairwise;
+-    TCGv_ptr fpst;
+-    int pass;
+-
+-    switch (fpopcode) {
+-    case 0x10: /* FMAXNMP */
+-    case 0x16: /* FMAXP */
+-    case 0x18: /* FMINNMP */
+-    case 0x1e: /* FMINP */
+-        pairwise = true;
+-        break;
+-    default:
+-    case 0x0: /* FMAXNM */
+-    case 0x1: /* FMLA */
+-    case 0x2: /* FADD */
+-    case 0x3: /* FMULX */
+-    case 0x4: /* FCMEQ */
+-    case 0x6: /* FMAX */
+-    case 0x7: /* FRECPS */
+-    case 0x8: /* FMINNM */
+-    case 0x9: /* FMLS */
+-    case 0xa: /* FSUB */
+-    case 0xe: /* FMIN */
+-    case 0xf: /* FRSQRTS */
+-    case 0x12: /* FADDP */
+-    case 0x13: /* FMUL */
+-    case 0x14: /* FCMGE */
+-    case 0x15: /* FACGE */
+-    case 0x17: /* FDIV */
+-    case 0x1a: /* FABD */
+-    case 0x1c: /* FCMGT */
+-    case 0x1d: /* FACGT */
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!dc_isar_feature(aa64_fp16, s)) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    fpst = fpstatus_ptr(FPST_FPCR_F16);
+-
+-    if (pairwise) {
+-        int maxpass = is_q ? 8 : 4;
+-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
+-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
+-        TCGv_i32 tcg_res[8];
+-
+-        for (pass = 0; pass < maxpass; pass++) {
+-            int passreg = pass < (maxpass / 2) ? rn : rm;
+-            int passelt = (pass << 1) & (maxpass - 1);
+-
+-            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
+-            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
+-            tcg_res[pass] = tcg_temp_new_i32();
+-
+-            switch (fpopcode) {
+-            case 0x10: /* FMAXNMP */
+-                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
+-                                           fpst);
+-                break;
+-            case 0x16: /* FMAXP */
+-                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+-            case 0x18: /* FMINNMP */
+-                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
+-                                           fpst);
+-                break;
+-            case 0x1e: /* FMINP */
+-                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
+-                break;
+-            default:
+-            case 0x12: /* FADDP */
+-                g_assert_not_reached();
+-            }
+-        }
+-
+-        for (pass = 0; pass < maxpass; pass++) {
+-            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
+-        }
+-    } else {
+-        g_assert_not_reached();
+-    }
+-
+-    clear_vec_high(s, is_q, rd);
+-}
+-
+ /* AdvSIMD three same extra
+  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
+  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
+     { 0x00000000, 0x00000000, NULL }
+ };
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
+ DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
+ DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
++DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
++DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
++DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
++
++DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
++DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
++DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
++
++DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
++DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
++DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
++
++DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
++DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
++DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
++
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
+     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
+     {                                                                   \
 --
 .34.1

-[PULL 29/29] docs: Convert u2f.txt to rST
+[PULL 36/42] target/arm: Use gvec for neon faddp, fmaxp, fminp
-Convert the u2f.txt file to rST, and place it in the right place
+From: Richard Henderson <richard.henderson@linaro.org>
 in our manual layout. The old text didn't fit very well into our
 manual style, so the new version ends up looking like a rewrite,
 although some of the original text is preserved:
- * the 'building' section of the old file is removed, since we
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-   generally assume that users have already built QEMU
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
- * some rather verbose text has been cut back
+Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
- * document the passthrough device first, on the assumption
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-   that's most likely to be of interest to users
+---
- * cut back on the duplication of text between sections
+ target/arm/helper.h             |  7 -----
- * format example command lines etc with rST
+ target/arm/tcg/translate-neon.c | 55 ++-------------------------------
  target/arm/tcg/vec_helper.c     | 45 ---------------------------
 files changed, 3 insertions(+), 104 deletions(-)
-As it's a short document it seemed simplest to do this all
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 in one go rather than try to do a minimal syntactic conversion
 and then clean up the wording and layout.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Thomas Huth <thuth@redhat.com>
 Message-id: 20230421163734.1152076-1-peter.maydell@linaro.org
 ---
  docs/system/device-emulation.rst |   1 +
  docs/system/devices/usb-u2f.rst  |  93 ++++++++++++++++++++++++++
  docs/system/devices/usb.rst      |   2 +-
  docs/u2f.txt                     | 110 -------------------------------
 files changed, 95 insertions(+), 111 deletions(-)
  create mode 100644 docs/system/devices/usb-u2f.rst
  delete mode 100644 docs/u2f.txt
 diff --git a/docs/system/device-emulation.rst b/docs/system/device-emulation.rst
 index XXXXXXX..XXXXXXX 100644
---- a/docs/system/device-emulation.rst
+--- a/target/arm/helper.h
-+++ b/docs/system/device-emulation.rst
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ Emulated Devices
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
-    devices/virtio-pmem.rst
+ DEF_HELPER_FLAGS_6(gvec_fcmlad, TCG_CALL_NO_RWG,
-    devices/vhost-user-rng.rst
+                    void, ptr, ptr, ptr, ptr, ptr, i32)
-    devices/canokey.rst
-+   devices/usb-u2f.rst
+-DEF_HELPER_FLAGS_5(neon_paddh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-    devices/igb.rst
+-DEF_HELPER_FLAGS_5(neon_pmaxh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/docs/system/devices/usb-u2f.rst b/docs/system/devices/usb-u2f.rst
+-DEF_HELPER_FLAGS_5(neon_pminh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-new file mode 100644
+-DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-index XXXXXXX..XXXXXXX
+-DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
---- /dev/null
+-DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+++ b/docs/system/devices/usb-u2f.rst
+-
-@@ -XXX,XX +XXX,XX @@
+ DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+Universal Second Factor (U2F) USB Key Device
+ DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+============================================
+ DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-+
+diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 +U2F is an open authentication standard that enables relying parties
 +exposed to the internet to offer a strong second factor option for end
 +user authentication.
 +
 +The second factor is provided by a device implementing the U2F
 +protocol. In case of a USB U2F security key, it is a USB HID device
 +that implements the U2F protocol.
 +
 +QEMU supports both pass-through of a host U2F key device to a VM,
 +and software emulation of a U2F key.
 +
 +``u2f-passthru``
 +----------------
 +
 +The ``u2f-passthru`` device allows you to connect a real hardware
 +U2F key on your host to a guest VM. All requests made from the guest
 +are passed through to the physical security key connected to the
 +host machine and vice versa.
 +
 +In addition, the dedicated pass-through allows you to share a single
 +U2F security key with several guest VMs, which is not possible with a
 +simple host device assignment pass-through.
 +
 +You can specify the host U2F key to use with the ``hidraw``
 +option, which takes the host path to a Linux ``/dev/hidrawN`` device:
 +
 +.. parsed-literal::
 +   |qemu_system| -usb -device u2f-passthru,hidraw=/dev/hidraw0
 +
 +If you don't specify the device, the ``u2f-passthru`` device will
 +autoscan to take the first U2F device it finds on the host (this
 +requires a working libudev):
 +
 +.. parsed-literal::
 +   |qemu_system| -usb -device u2f-passthru
 +
 +``u2f-emulated``
 +----------------
 +
 +``u2f-emulated`` is a completely software emulated U2F device.
 +It uses `libu2f-emu <https://github.com/MattGorko/libu2f-emu>`__
 +for the U2F key emulation. libu2f-emu
 +provides a complete implementation of the U2F protocol device part for
 +all specified transports given by the FIDO Alliance.
 +
 +To work, an emulated U2F device must have four elements:
 +
 + * ec x509 certificate
 + * ec private key
 + * counter (four bytes value)
 + * 48 bytes of entropy (random bits)
 +
 +To use this type of device, these have to be configured, and these
 +four elements must be passed one way or another.
 +
 +Assuming that you have a working libu2f-emu installed on the host,
 +there are three possible ways to configure the ``u2f-emulated`` device:
 +
 + * ephemeral
 + * setup directory
 + * manual
 +
 +Ephemeral is the simplest way to configure; it lets the device generate
 +all the elements it needs for a single use of the lifetime of the device.
 +It is the default if you do not pass any other options to the device.
 +
 +.. parsed-literal::
 +   |qemu_system| -usb -device u2f-emulated
 +
 +You can pass the device the path of a setup directory on the host
 +using the ``dir`` option; the directory must contain these four files:
 +
 + * ``certificate.pem``: ec x509 certificate
 + * ``private-key.pem``: ec private key
 + * ``counter``: counter value
 + * ``entropy``: 48 bytes of entropy
 +
 +.. parsed-literal::
 +   |qemu_system| -usb -device u2f-emulated,dir=$dir
 +
 +You can also manually pass the device the paths to each of these files,
 +if you don't want them all to be in the same directory, using the options
 +
 + * ``cert``
 + * ``priv``
 + * ``counter``
 + * ``entropy``
 +
 +.. parsed-literal::
 +   |qemu_system| -usb -device u2f-emulated,cert=$DIR1/$FILE1,priv=$DIR2/$FILE2,counter=$DIR3/$FILE3,entropy=$DIR4/$FILE4
 diff --git a/docs/system/devices/usb.rst b/docs/system/devices/usb.rst
 index XXXXXXX..XXXXXXX 100644
---- a/docs/system/devices/usb.rst
+--- a/target/arm/tcg/translate-neon.c
-+++ b/docs/system/devices/usb.rst
++++ b/target/arm/tcg/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ option or the ``device_add`` monitor command. Available devices are:
+@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
-    USB audio device
+ DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
+ DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
- ``u2f-{emulated,passthru}``
+ DO_3S_FP_GVEC(VRSQRTS, gen_helper_gvec_rsqrts_nf_s, gen_helper_gvec_rsqrts_nf_h)
--   Universal Second Factor device
++DO_3S_FP_GVEC(VPADD, gen_helper_gvec_faddp_s, gen_helper_gvec_faddp_h)
-+   :doc:`usb-u2f`
++DO_3S_FP_GVEC(VPMAX, gen_helper_gvec_fmaxp_s, gen_helper_gvec_fmaxp_h)
++DO_3S_FP_GVEC(VPMIN, gen_helper_gvec_fminp_s, gen_helper_gvec_fminp_h)
- ``canokey``
-    An Open-source Secure Key implementing FIDO2, OpenPGP, PIV and more.
+ WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
-diff --git a/docs/u2f.txt b/docs/u2f.txt
+ WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
-deleted file mode 100644
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
-index XXXXXXX..XXXXXXX
+     return do_3same(s, a, gen_VMINNM_fp32_3s);
---- a/docs/u2f.txt
+ }
-+++ /dev/null
-@@ -XXX,XX +XXX,XX @@
+-static bool do_3same_fp_pair(DisasContext *s, arg_3same *a,
--QEMU U2F Key Device Documentation.
+-                             gen_helper_gvec_3_ptr *fn)
 -{
 -    /* FP pairwise operations */
 -    TCGv_ptr fpstatus;
 -
--Contents
+-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
--1. USB U2F key device
+-        return false;
--2. Building
+-    }
 -3. Using u2f-emulated
 -4. Using u2f-passthru
 -5. Libu2f-emu
 -
--1. USB U2F key device
+-    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vn | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
--U2F is an open authentication standard that enables relying parties
+-    if (!vfp_access_check(s)) {
--exposed to the internet to offer a strong second factor option for end
+-        return true;
--user authentication.
+-    }
 -
--The standard brings many advantages to both parties, client and server,
+-    assert(a->q == 0); /* enforced by decode patterns */
 -allowing to reduce over-reliance on passwords, it increases authentication
 -security and simplifies passwords.
 -
 -The second factor is materialized by a device implementing the U2F
 -protocol. In case of a USB U2F security key, it is a USB HID device
 -that implements the U2F protocol.
 -
 -In QEMU, the USB U2F key device offers a dedicated support of U2F, allowing
 -guest USB FIDO/U2F security keys operating in two possible modes:
 -pass-through and emulated.
 -
 -The pass-through mode consists of passing all requests made from the guest
 -to the physical security key connected to the host machine and vice versa.
 -In addition, the dedicated pass-through allows to have a U2F security key
 -shared on several guests which is not possible with a simple host device
 -assignment pass-through.
 -
 -The emulated mode consists of completely emulating the behavior of an
 -U2F device through software part. Libu2f-emu is used for that.
 -
 -
--2. Building
+-    fpstatus = fpstatus_ptr(a->size == MO_16 ? FPST_STD_F16 : FPST_STD);
 -    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
 -                       vfp_reg_offset(1, a->vn),
 -                       vfp_reg_offset(1, a->vm),
 -                       fpstatus, 8, 8, 0, fn);
 -
--To ensure the build of the u2f-emulated device variant which depends
+-    return true;
--on libu2f-emu: configuring and building:
+-}
 -
--    ./configure --enable-u2f && make
+-/*
 - * For all the functions using this macro, size == 1 means fp16,
 - * which is an architecture extension we don't implement yet.
 - */
 -#define DO_3S_FP_PAIR(INSN,FUNC)                                    \
 -    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
 -    {                                                               \
 -        if (a->size == MO_16) {                                     \
 -            if (!dc_isar_feature(aa32_fp16_arith, s)) {             \
 -                return false;                                       \
 -            }                                                       \
 -            return do_3same_fp_pair(s, a, FUNC##h);                 \
 -        }                                                           \
 -        return do_3same_fp_pair(s, a, FUNC##s);                     \
 -    }
 -
--The pass-through mode is built by default on Linux. To take advantage
+-DO_3S_FP_PAIR(VPADD, gen_helper_neon_padd)
--of the autoscan option it provides, make sure you have a working libudev
+-DO_3S_FP_PAIR(VPMAX, gen_helper_neon_pmax)
--installed on the host.
+-DO_3S_FP_PAIR(VPMIN, gen_helper_neon_pmin)
 -
+ static bool do_vector_2sh(DisasContext *s, arg_2reg_shift *a, GVecGen2iFn *fn)
+ {
+     /* Handle a 2-reg-shift insn which can be vectorized. */
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_d, uint64_t)
+ #undef DO_ABA
+-#define DO_NEON_PAIRWISE(NAME, OP)                                      \
+-    void HELPER(NAME##s)(void *vd, void *vn, void *vm,                  \
+-                         void *stat, uint32_t oprsz)                    \
+-    {                                                                   \
+-        float_status *fpst = stat;                                      \
+-        float32 *d = vd;                                                \
+-        float32 *n = vn;                                                \
+-        float32 *m = vm;                                                \
+-        float32 r0, r1;                                                 \
+-                                                                        \
+-        /* Read all inputs before writing outputs in case vm == vd */   \
+-        r0 = float32_##OP(n[H4(0)], n[H4(1)], fpst);                    \
+-        r1 = float32_##OP(m[H4(0)], m[H4(1)], fpst);                    \
+-                                                                        \
+-        d[H4(0)] = r0;                                                  \
+-        d[H4(1)] = r1;                                                  \
+-    }                                                                   \
+-                                                                        \
+-    void HELPER(NAME##h)(void *vd, void *vn, void *vm,                  \
+-                         void *stat, uint32_t oprsz)                    \
+-    {                                                                   \
+-        float_status *fpst = stat;                                      \
+-        float16 *d = vd;                                                \
+-        float16 *n = vn;                                                \
+-        float16 *m = vm;                                                \
+-        float16 r0, r1, r2, r3;                                         \
+-                                                                        \
+-        /* Read all inputs before writing outputs in case vm == vd */   \
+-        r0 = float16_##OP(n[H2(0)], n[H2(1)], fpst);                    \
+-        r1 = float16_##OP(n[H2(2)], n[H2(3)], fpst);                    \
+-        r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
+-        r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
+-                                                                        \
+-        d[H2(0)] = r0;                                                  \
+-        d[H2(1)] = r1;                                                  \
+-        d[H2(2)] = r2;                                                  \
+-        d[H2(3)] = r3;                                                  \
+-    }
 -
--3. Using u2f-emulated
+-DO_NEON_PAIRWISE(neon_padd, add)
 -DO_NEON_PAIRWISE(neon_pmax, max)
 -DO_NEON_PAIRWISE(neon_pmin, min)
 -
--To work, an emulated U2F device must have four elements:
+-#undef DO_NEON_PAIRWISE
 - * ec x509 certificate
 - * ec private key
 - * counter (four bytes value)
 - * 48 bytes of entropy (random bits)
 -
--To use this type of device, this one has to be configured, and these
+ #define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
--four elements must be passed one way or another.
+ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
--
+ {                                                                          \
 -Assuming that you have a working libu2f-emu installed on the host.
 -There are three possible ways of configurations:
 - * ephemeral
 - * setup directory
 - * manual
 -
 -Ephemeral is the simplest way to configure, it lets the device generate
 -all the elements it needs for a single use of the lifetime of the device.
 -
 -    qemu -usb -device u2f-emulated
 -
 -Setup directory allows to configure the device from a directory containing
 -four files:
 - * certificate.pem: ec x509 certificate
 - * private-key.pem: ec private key
 - * counter: counter value
 - * entropy: 48 bytes of entropy
 -
 -    qemu -usb -device u2f-emulated,dir=$dir
 -
 -Manual allows to configure the device more finely by specifying each
 -of the elements necessary for the device:
 - * cert
 - * priv
 - * counter
 - * entropy
 -
 -    qemu -usb -device u2f-emulated,cert=$DIR1/$FILE1,priv=$DIR2/$FILE2,counter=$DIR3/$FILE3,entropy=$DIR4/$FILE4
 -
 -
 -4. Using u2f-passthru
 -
 -On the host specify the u2f-passthru device with a suitable hidraw:
 -
 -    qemu -usb -device u2f-passthru,hidraw=/dev/hidraw0
 -
 -Alternately, the u2f-passthru device can autoscan to take the first
 -U2F device it finds on the host (this requires a working libudev):
 -
 -    qemu -usb -device u2f-passthru
 -
 -
 -5. Libu2f-emu
 -
 -The u2f-emulated device uses libu2f-emu for the U2F key emulation. Libu2f-emu
 -implements completely the U2F protocol device part for all specified
 -transport given by the FIDO Alliance.
 -
 -For more information about libu2f-emu see this page:
 -https://github.com/MattGorko/libu2f-emu.
 --
 .34.1

-[PULL 22/29] target/arm: Convert conditional branch insns to decodetree
+[PULL 37/42] target/arm: Convert ADDP to decodetree
-Convert the immediate conditional branch insn B.cond to
+From: Richard Henderson <richard.henderson@linaro.org>
 decodetree.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-17-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  2 ++
+ target/arm/helper.h            |   5 ++
- target/arm/tcg/translate-a64.c | 30 ++++++------------------------
+ target/arm/tcg/translate.h     |   3 +
-files changed, 8 insertions(+), 24 deletions(-)
+ target/arm/tcg/a64.decode      |   6 ++
  target/arm/tcg/gengvec.c       |  12 ++++
  target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
  target/arm/tcg/vec_helper.c    |  30 ++++++++
 files changed, 77 insertions(+), 107 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i
+ DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_addp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
+ #ifdef TARGET_AARCH64
+ #include "tcg/helper-a64.h"
+ #include "tcg/helper-sve.h"
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.h
++++ b/target/arm/tcg/translate.h
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++
+ /*
+  * Forward to the isar_feature_* tests given a DisasContext pointer.
+  */
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
+@@ -XXX,XX +XXX,XX @@
- &tbz       rt imm nz bitpos
+ &qrrrr_e        q rd rn rm ra esz
- TBZ             . 011011 nz:1 ..... .............. rt:5 &tbz  imm=%imm14 bitpos=%imm31_19
+ @rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
-+
++@rr_d           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=3
-+B_cond          0101010 0 ................... 0 cond:4 imm=%imm19
+ @rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
  @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
@@ -XXX,XX +XXX,XX @@
  @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
  @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 +@qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
  @qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
                  &qrrx_e esz=1 idx=%hlm
@@ -XXX,XX +XXX,XX @@ FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
  FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
  FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
 +ADDP_s          0101 1110 1111 0001 1011 10 ..... ..... @rr_d
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
  FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
  FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/gengvec.c
 +++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      };
      tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
  }
 +
 +void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_addp_b,
 +        gen_helper_gvec_addp_h,
 +        gen_helper_gvec_addp_s,
 +        gen_helper_gvec_addp_d,
 +    };
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_TBZ(DisasContext *s, arg_tbz *a)
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
-     return true;
+ };
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
  TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
  TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
 +static bool trans_ADDP_s(DisasContext *s, arg_rr_e *a)
 +{
 +    if (fp_access_check(s)) {
 +        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +        read_vec_element(s, t0, a->rn, 0, MO_64);
 +        read_vec_element(s, t1, a->rn, 1, MO_64);
 +        tcg_gen_add_i64(t0, t0, t1);
 +        write_fp_dreg(s, a->rd, t0);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
  }
--/* Conditional branch (immediate)
+-/* AdvSIMD scalar pairwise
-- *  31           25  24  23                  5   4  3    0
+- *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
-- * +---------------+----+---------------------+----+------+
+- * +-----+---+-----------+------+-----------+--------+-----+------+------+
-- * | 0 1 0 1 0 1 0 | o1 |         imm19       | o0 | cond |
+- * | 0 1 | U | 1 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
-- * +---------------+----+---------------------+----+------+
+- * +-----+---+-----------+------+-----------+--------+-----+------+------+
 - */
--static void disas_cond_b_imm(DisasContext *s, uint32_t insn)
+-static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-+static bool trans_B_cond(DisasContext *s, arg_B_cond *a)
+-{
- {
+-    int u = extract32(insn, 29, 1);
--    unsigned int cond;
+-    int size = extract32(insn, 22, 2);
--    int64_t diff;
+-    int opcode = extract32(insn, 12, 5);
--
+-    int rn = extract32(insn, 5, 5);
--    if ((insn & (1 << 4)) || (insn & (1 << 24))) {
+-    int rd = extract32(insn, 0, 5);
 -
 -    /* For some ops (the FP ones), size[1] is part of the encoding.
 -     * For ADDP strictly it is not but size[1] is always 1 for valid
 -     * encodings.
 -     */
 -    opcode |= (extract32(size, 1, 1) << 5);
 -
 -    switch (opcode) {
 -    case 0x3b: /* ADDP */
 -        if (u || size != 3) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        break;
 -    default:
 -    case 0xc: /* FMAXNMP */
 -    case 0xd: /* FADDP */
 -    case 0xf: /* FMAXP */
 -    case 0x2c: /* FMINNMP */
 -    case 0x2f: /* FMINP */
 -        unallocated_encoding(s);
 -        return;
 -    }
--    diff = sextract32(insn, 5, 19) * 4;
+-
--    cond = extract32(insn, 0, 4);
+-    if (size == MO_64) {
--
+-        TCGv_i64 tcg_op1 = tcg_temp_new_i64();
-     reset_btype(s);
+-        TCGv_i64 tcg_op2 = tcg_temp_new_i64();
--    if (cond < 0x0e) {
+-        TCGv_i64 tcg_res = tcg_temp_new_i64();
-+    if (a->cond < 0x0e) {
+-
-         /* genuinely conditional branches */
+-        read_vec_element(s, tcg_op1, rn, 0, MO_64);
-         DisasLabel match = gen_disas_label(s);
+-        read_vec_element(s, tcg_op2, rn, 1, MO_64);
--        arm_gen_test_cc(cond, match.label);
+-
-+        arm_gen_test_cc(a->cond, match.label);
+-        switch (opcode) {
-         gen_goto_tb(s, 0, 4);
+-        case 0x3b: /* ADDP */
-         set_disas_label(s, match);
+-            tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
--        gen_goto_tb(s, 1, diff);
+-            break;
-+        gen_goto_tb(s, 1, a->imm);
+-        default:
 -        case 0xc: /* FMAXNMP */
 -        case 0xd: /* FADDP */
 -        case 0xf: /* FMAXP */
 -        case 0x2c: /* FMINNMP */
 -        case 0x2f: /* FMINP */
 -            g_assert_not_reached();
 -        }
 -
 -        write_fp_dreg(s, rd, tcg_res);
 -    } else {
 -        g_assert_not_reached();
 -    }
 -}
 -
  /*
   * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
   *
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
       * adjacent elements being operated on to produce an element in the result.
       */
      if (size == 3) {
 -        TCGv_i64 tcg_res[2];
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -            int passreg = (pass == 0) ? rn : rm;
 -
 -            read_vec_element(s, tcg_op1, passreg, 0, MO_64);
 -            read_vec_element(s, tcg_op2, passreg, 1, MO_64);
 -            tcg_res[pass] = tcg_temp_new_i64();
 -
 -            switch (opcode) {
 -            case 0x17: /* ADDP */
 -                tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
 -                break;
 -            default:
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
 -        }
 +        g_assert_not_reached();
      } else {
-         /* 0xe and 0xf are both "always" conditions */
+         int maxpass = is_q ? 4 : 2;
--        gen_goto_tb(s, 0, diff);
+         TCGv_i32 tcg_res[4];
-+        gen_goto_tb(s, 0, a->imm);
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
              tcg_res[pass] = tcg_temp_new_i32();
              switch (opcode) {
 -            case 0x17: /* ADDP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3] = {
 -                    gen_helper_neon_padd_u8,
 -                    gen_helper_neon_padd_u16,
 -                    tcg_gen_add_i32,
 -                };
 -                genfn = fns[size];
 -                break;
 -            }
              case 0x14: /* SMAXP, UMAXP */
              {
                  static NeonGenTwoOpFn * const fns[3][2] = {
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  break;
              }
              default:
 +            case 0x17: /* ADDP */
              case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
              case 0x5e: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x17: /* ADDP */
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      default:
          disas_simd_3same_int(s, insn);
          break;
 +    case 0x17: /* ADDP */
 +        unallocated_encoding(s);
 +        break;
      }
-+    return true;
  }
- /* HINT instruction group, including various allocated HINTs */
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
+     { 0x5e008400, 0xdf208400, disas_simd_scalar_three_reg_same_extra },
- static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
+     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
- {
+     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
-     switch (extract32(insn, 25, 7)) {
+-    { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
--    case 0x2a: /* Conditional branch (immediate) */
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
--        disas_cond_b_imm(s, insn);
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
--        break;
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-     case 0x6a: /* Exception generation / System */
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
-         if (insn & (1 << 24)) {
+index XXXXXXX..XXXXXXX 100644
-             if (extract32(insn, 22, 2) == 0) {
+--- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
  DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
  DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
 +#undef DO_3OP_PAIR
 +
 +#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
 +{                                                               \
 +    ARMVectorReg scratch;                                       \
 +    intptr_t oprsz = simd_oprsz(desc);                          \
 +    intptr_t half = oprsz / sizeof(TYPE) / 2;                   \
 +    TYPE *d = vd, *n = vn, *m = vm;                             \
 +    if (unlikely(d == m)) {                                     \
 +        m = memcpy(&scratch, m, oprsz);                         \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)]);           \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)]);    \
 +    }                                                           \
 +    clear_tail(d, oprsz, simd_maxsz(desc));                     \
 +}
 +
 +#define ADD(A, B) (A + B)
 +DO_3OP_PAIR(gvec_addp_b, ADD, uint8_t, H1)
 +DO_3OP_PAIR(gvec_addp_h, ADD, uint16_t, H2)
 +DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
 +DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
 +#undef  ADD
 +
 +#undef DO_3OP_PAIR
 +
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
      void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
      {                                                                   \
 --
 .34.1

-[PULL 27/29] target/arm: Saturate L2CTLR_EL1 core count field rather than overflowing
+[PULL 38/42] target/arm: Use gvec for neon padd
-The IMPDEF sysreg L2CTLR_EL1 found on the Cortex-A35, A53, A57, A72
+From: Richard Henderson <richard.henderson@linaro.org>
 and which we (arguably dubiously) also provide in '-cpu max' has a
 bit field for the number of processors in the cluster. On real
 hardware this must be sufficient because it can only be configured
 with up to 4 CPUs in the cluster. However on QEMU if the board code
 does not explicitly configure the code into clusters with the right
 CPU count we default to "give the value assuming that all CPUs in
 the system are in a single cluster", which might be too big to fit
 in the field.
-Instead of just overflowing this 2-bit field, saturate to 3 (meaning
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-"4 CPUs", so at least we don't overwrite other fields in the register.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-It's unlikely that any guest code really cares about the value in
+Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
-this field; at least, if it does it probably also wants the system
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-to be more closely matching real hardware, i.e. not to have more
+---
-than 4 CPUs.
+ target/arm/helper.h             | 2 --
  target/arm/tcg/neon_helper.c    | 5 -----
  target/arm/tcg/translate-neon.c | 3 +--
 files changed, 1 insertion(+), 9 deletions(-)
-This issue has been present since the L2CTLR was first added in
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 commit 377a44ec8f2fac5b back in 2014. It was only noticed because
 Coverity complains (CID 1509227) that the shift might overflow 32 bits
 and inadvertently sign extend into the top half of the 64 bit value.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20230512170223.3801643-2-peter.maydell@linaro.org
 ---
  target/arm/cortex-regs.c | 11 +++++++++--
 file changed, 9 insertions(+), 2 deletions(-)
 diff --git a/target/arm/cortex-regs.c b/target/arm/cortex-regs.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cortex-regs.c
+--- a/target/arm/helper.h
-+++ b/target/arm/cortex-regs.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static uint64_t l2ctlr_read(CPUARMState *env, const ARMCPRegInfo *ri)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
- {
-     ARMCPU *cpu = env_archcpu(env);
+ DEF_HELPER_2(neon_add_u8, i32, i32, i32)
+ DEF_HELPER_2(neon_add_u16, i32, i32, i32)
--    /* Number of cores is in [25:24]; otherwise we RAZ */
+-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
--    return (cpu->core_count - 1) << 24;
+-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
-+    /*
+ DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
-+     * Number of cores is in [25:24]; otherwise we RAZ.
+ DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
-+     * If the board didn't configure the CPUs into clusters,
+ DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
-+     * we default to "all CPUs in one cluster", which might be
+diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
-+     * more than the 4 that the hardware permits and which is
+index XXXXXXX..XXXXXXX 100644
-+     * all you can report in this two-bit field. Saturate to
+--- a/target/arm/tcg/neon_helper.c
-+     * 0b11 (== 4 CPUs) rather than overflowing the field.
++++ b/target/arm/tcg/neon_helper.c
-+     */
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
-+    return MIN(cpu->core_count - 1, 3) << 24;
+     return (a + b) ^ mask;
  }
- static const ARMCPRegInfo cortex_a72_a57_a53_cp_reginfo[] = {
+-#define NEON_FN(dest, src1, src2) dest = src1 + src2
 -NEON_POP(padd_u8, neon_u8, 4)
 -NEON_POP(padd_u16, neon_u16, 2)
 -#undef NEON_FN
 -
  #define NEON_FN(dest, src1, src2) dest = src1 - src2
  NEON_VOP(sub_u8, neon_u8, 4)
  NEON_VOP(sub_u16, neon_u16, 2)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-neon.c
 +++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
  DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
  DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
  DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
 +DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
  #define DO_3SAME_CMP(INSN, COND)                                        \
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
  #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
  #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
  #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -#define gen_helper_neon_padd_u32  tcg_gen_add_i32
  DO_3SAME_PAIR(VPMAX_S, pmax_s)
  DO_3SAME_PAIR(VPMIN_S, pmin_s)
  DO_3SAME_PAIR(VPMAX_U, pmax_u)
  DO_3SAME_PAIR(VPMIN_U, pmin_u)
 -DO_3SAME_PAIR(VPADD, padd_u)
  #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
      WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
 --
 .34.1

-[PULL 20/29] target/arm: Convert CBZ, CBNZ to decodetree
+[PULL 39/42] target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
-Convert the compare-and-branch-immediate insns CBZ and CBNZ
+From: Richard Henderson <richard.henderson@linaro.org>
 to decodetree.
+These are the last instructions within handle_simd_3same_pair
+so remove it.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-15-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |  5 +++++
+ target/arm/helper.h            |  16 +++++
- target/arm/tcg/translate-a64.c | 26 ++++++--------------------
+ target/arm/tcg/translate.h     |   8 +++
-files changed, 11 insertions(+), 20 deletions(-)
+ target/arm/tcg/a64.decode      |   4 ++
  target/arm/tcg/gengvec.c       |  48 +++++++++++++
  target/arm/tcg/translate-a64.c | 119 +++++----------------------------
  target/arm/tcg/vec_helper.c    |  16 +++++
 files changed, 109 insertions(+), 102 deletions(-)
+diff --git a/target/arm/helper.h b/target/arm/helper.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/helper.h
++++ b/target/arm/helper.h
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_smaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_smaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_smaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
++DEF_HELPER_FLAGS_4(gvec_sminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_sminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_sminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
++DEF_HELPER_FLAGS_4(gvec_umaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_umaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_umaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
++DEF_HELPER_FLAGS_4(gvec_uminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_uminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(gvec_uminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++
+ #ifdef TARGET_AARCH64
+ #include "tcg/helper-a64.h"
+ #include "tcg/helper-sve.h"
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.h
++++ b/target/arm/tcg/translate.h
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+ /*
+  * Forward to the isar_feature_* tests given a DisasContext pointer.
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ EXTR            0 00 100111 0 0 rm:5 0 imm:5 rn:5 rd:5   &extract sf=0
+@@ -XXX,XX +XXX,XX @@ FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+ FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
- B               0 00101 .......................... @branch
- BL              1 00101 .......................... @branch
+ ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
-+
++SMAXP_v         0.00 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
-+%imm19   5:s19 !function=times_4
++SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
-+&cbz     rt imm sf nz
++UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
-+
++UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
-+CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
  ### Advanced SIMD scalar x indexed element
 diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/gengvec.c
 +++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      };
      tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
  }
 +
 +void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_smaxp_b,
 +        gen_helper_gvec_smaxp_h,
 +        gen_helper_gvec_smaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_sminp_b,
 +        gen_helper_gvec_sminp_h,
 +        gen_helper_gvec_sminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_umaxp_b,
 +        gen_helper_gvec_umaxp_h,
 +        gen_helper_gvec_umaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_uminp_b,
 +        gen_helper_gvec_uminp_h,
 +        gen_helper_gvec_uminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_BL(DisasContext *s, arg_i *a)
+@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
      return true;
  }
--/* Compare and branch (immediate)
++static bool do_gvec_fn3_no64(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
-- *   31  30         25  24  23                  5 4      0
++{
-- * +----+-------------+----+---------------------+--------+
++    if (a->esz == MO_64) {
-- * | sf | 0 1 1 0 1 0 | op |         imm19       |   Rt   |
++        return false;
-- * +----+-------------+----+---------------------+--------+
++    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
 +    }
 +    return true;
 +}
 +
  static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
  {
      if (!a->q && a->esz == MO_64) {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
 +TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
 +TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 +TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 +TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
  /*
   * Advanced SIMD scalar/vector x indexed element
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
      }
  }
 -/* Pairwise op subgroup of C3.6.16.
 - *
 - * This is called directly for float pairwise
 - * operations where the opcode and size are calculated differently.
 - */
--static void disas_comp_b_imm(DisasContext *s, uint32_t insn)
+-static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
-+
+-                                   int size, int rn, int rm, int rd)
-+static bool trans_CBZ(DisasContext *s, arg_cbz *a)
+-{
 -    int pass;
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    /* These operations work on the concatenated rm:rn, with each pair of
 -     * adjacent elements being operated on to produce an element in the result.
 -     */
 -    if (size == 3) {
 -        g_assert_not_reached();
 -    } else {
 -        int maxpass = is_q ? 4 : 2;
 -        TCGv_i32 tcg_res[4];
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            NeonGenTwoOpFn *genfn = NULL;
 -            int passreg = pass < (maxpass / 2) ? rn : rm;
 -            int passelt = (is_q && (pass & 1)) ? 2 : 0;
 -
 -            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_32);
 -            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_32);
 -            tcg_res[pass] = tcg_temp_new_i32();
 -
 -            switch (opcode) {
 -            case 0x14: /* SMAXP, UMAXP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmax_s8, gen_helper_neon_pmax_u8 },
 -                    { gen_helper_neon_pmax_s16, gen_helper_neon_pmax_u16 },
 -                    { tcg_gen_smax_i32, tcg_gen_umax_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            case 0x15: /* SMINP, UMINP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmin_s8, gen_helper_neon_pmin_u8 },
 -                    { gen_helper_neon_pmin_s16, gen_helper_neon_pmin_u16 },
 -                    { tcg_gen_smin_i32, tcg_gen_umin_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            default:
 -            case 0x17: /* ADDP */
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -
 -            /* FP ops called directly, otherwise call now */
 -            if (genfn) {
 -                genfn(tcg_res[pass], tcg_op1, tcg_op2);
 -            }
 -        }
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
 -        }
 -        clear_vec_high(s, is_q, rd);
 -    }
 -}
 -
  /* Floating point op subgroup of C3.6.16. */
  static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
  {
--    unsigned int sf, op, rt;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
--    int64_t diff;
+     case 0x3: /* logic ops */
-     DisasLabel match;
+         disas_simd_3same_logic(s, insn);
-     TCGv_i64 tcg_cmp;
+         break;
+-    case 0x14: /* SMAXP, UMAXP */
--    sf = extract32(insn, 31, 1);
+-    case 0x15: /* SMINP, UMINP */
--    op = extract32(insn, 24, 1); /* 0: CBZ; 1: CBNZ */
+-    {
--    rt = extract32(insn, 0, 5);
+-        /* Pairwise operations */
--    diff = sextract32(insn, 5, 19) * 4;
+-        int is_q = extract32(insn, 30, 1);
--
+-        int u = extract32(insn, 29, 1);
--    tcg_cmp = read_cpu_reg(s, rt, sf);
+-        int size = extract32(insn, 22, 2);
-+    tcg_cmp = read_cpu_reg(s, a->rt, a->sf);
+-        int rm = extract32(insn, 16, 5);
-     reset_btype(s);
+-        int rn = extract32(insn, 5, 5);
+-        int rd = extract32(insn, 0, 5);
-     match = gen_disas_label(s);
+-        if (opcode == 0x17) {
--    tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
+-            if (u || (size == 3 && !is_q)) {
-+    tcg_gen_brcondi_i64(a->nz ? TCG_COND_NE : TCG_COND_EQ,
+-                unallocated_encoding(s);
-                         tcg_cmp, 0, match.label);
+-                return;
-     gen_goto_tb(s, 0, 4);
+-            }
-     set_disas_label(s, match);
+-        } else {
--    gen_goto_tb(s, 1, diff);
+-            if (size == 3) {
-+    gen_goto_tb(s, 1, a->imm);
+-                unallocated_encoding(s);
-+    return true;
+-                return;
- }
+-            }
+-        }
- /* Test and branch (immediate)
+-        handle_simd_3same_pair(s, is_q, u, opcode, size, rn, rm, rd);
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
  static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
  {
      switch (extract32(insn, 25, 7)) {
 -    case 0x1a: case 0x5a: /* Compare & branch (immediate) */
 -        disas_comp_b_imm(s, insn);
 -        break;
-     case 0x1b: case 0x5b: /* Test & branch (immediate) */
+-    }
-         disas_test_b_imm(s, insn);
+     case 0x18 ... 0x31:
          /* floating point ops, sz[1] and U are part of opcode */
          disas_simd_3same_float(s, insn);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      default:
          disas_simd_3same_int(s, insn);
          break;
++    case 0x14: /* SMAXP, UMAXP */
++    case 0x15: /* SMINP, UMINP */
+     case 0x17: /* ADDP */
+         unallocated_encoding(s);
+         break;
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
+ DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
+ #undef  ADD
++DO_3OP_PAIR(gvec_smaxp_b, MAX, int8_t, H1)
++DO_3OP_PAIR(gvec_smaxp_h, MAX, int16_t, H2)
++DO_3OP_PAIR(gvec_smaxp_s, MAX, int32_t, H4)
++
++DO_3OP_PAIR(gvec_umaxp_b, MAX, uint8_t, H1)
++DO_3OP_PAIR(gvec_umaxp_h, MAX, uint16_t, H2)
++DO_3OP_PAIR(gvec_umaxp_s, MAX, uint32_t, H4)
++
++DO_3OP_PAIR(gvec_sminp_b, MIN, int8_t, H1)
++DO_3OP_PAIR(gvec_sminp_h, MIN, int16_t, H2)
++DO_3OP_PAIR(gvec_sminp_s, MIN, int32_t, H4)
++
++DO_3OP_PAIR(gvec_uminp_b, MIN, uint8_t, H1)
++DO_3OP_PAIR(gvec_uminp_h, MIN, uint16_t, H2)
++DO_3OP_PAIR(gvec_uminp_s, MIN, uint32_t, H4)
++
+ #undef DO_3OP_PAIR
+ #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
 --
 .34.1

-New patch
+[PULL 40/42] target/arm: Use gvec for neon pmax, pmin
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate-neon.c | 78 ++-------------------------------
+file changed, 4 insertions(+), 74 deletions(-)
+diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-neon.c
++++ b/target/arm/tcg/translate-neon.c
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
+ DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
+ DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
+ DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
++DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
++DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
++DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
++DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
+ #define DO_3SAME_CMP(INSN, COND)                                        \
+     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
+ DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
+ DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
+-static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
+-{
+-    /* Operations handled pairwise 32 bits at a time */
+-    TCGv_i32 tmp, tmp2, tmp3;
+-
+-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+-        return false;
+-    }
+-
+-    /* UNDEF accesses to D16-D31 if they don't exist. */
+-    if (!dc_isar_feature(aa32_simd_r32, s) &&
+-        ((a->vd | a->vn | a->vm) & 0x10)) {
+-        return false;
+-    }
+-
+-    if (a->size == 3) {
+-        return false;
+-    }
+-
+-    if (!vfp_access_check(s)) {
+-        return true;
+-    }
+-
+-    assert(a->q == 0); /* enforced by decode patterns */
+-
+-    /*
+-     * Note that we have to be careful not to clobber the source operands
+-     * in the "vm == vd" case by storing the result of the first pass too
+-     * early. Since Q is 0 there are always just two passes, so instead
+-     * of a complicated loop over each pass we just unroll.
+-     */
+-    tmp = tcg_temp_new_i32();
+-    tmp2 = tcg_temp_new_i32();
+-    tmp3 = tcg_temp_new_i32();
+-
+-    read_neon_element32(tmp, a->vn, 0, MO_32);
+-    read_neon_element32(tmp2, a->vn, 1, MO_32);
+-    fn(tmp, tmp, tmp2);
+-
+-    read_neon_element32(tmp3, a->vm, 0, MO_32);
+-    read_neon_element32(tmp2, a->vm, 1, MO_32);
+-    fn(tmp3, tmp3, tmp2);
+-
+-    write_neon_element32(tmp, a->vd, 0, MO_32);
+-    write_neon_element32(tmp3, a->vd, 1, MO_32);
+-
+-    return true;
+-}
+-
+-#define DO_3SAME_PAIR(INSN, func)                                       \
+-    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
+-    {                                                                   \
+-        static NeonGenTwoOpFn * const fns[] = {                         \
+-            gen_helper_neon_##func##8,                                  \
+-            gen_helper_neon_##func##16,                                 \
+-            gen_helper_neon_##func##32,                                 \
+-        };                                                              \
+-        if (a->size > 2) {                                              \
+-            return false;                                               \
+-        }                                                               \
+-        return do_3same_pair(s, a, fns[a->size]);                       \
+-    }
+-
+-/* 32-bit pairwise ops end up the same as the elementwise versions.  */
+-#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
+-#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
+-#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
+-#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
+-
+-DO_3SAME_PAIR(VPMAX_S, pmax_s)
+-DO_3SAME_PAIR(VPMIN_S, pmin_s)
+-DO_3SAME_PAIR(VPMAX_U, pmax_u)
+-DO_3SAME_PAIR(VPMIN_U, pmin_u)
+-
+ #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
+     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
+     WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
+--
+.34.1

-[PULL 26/29] target/arm: Convert ERET, ERETAA, ERETAB to decodetree
+[PULL 41/42] target/arm: Convert FMLAL, FMLSL to decodetree
-Convert the exception-return insns ERET, ERETA and ERETB to
+From: Richard Henderson <richard.henderson@linaro.org>
 decodetree. These were the last insns left in the legacy
 decoder function disas_uncond_reg_b(), which allows us to
 remove it.
-The old decoder explicitly decoded the DRPS instruction,
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-only in order to call unallocated_encoding() on it, exactly
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-as would have happened if it hadn't decoded it. This is
+Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
 because this insn always UNDEFs unless the CPU is in
 halting-debug state, which we don't emulate. So we list
 the pattern in a comment in a64.decode, but don't actively
 decode it.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20230512144106.3608981-21-peter.maydell@linaro.org
 ---
- target/arm/tcg/a64.decode      |   8 ++
+ target/arm/tcg/a64.decode      |  10 +++
- target/arm/tcg/translate-a64.c | 163 +++++++++++----------------------
+ target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
-files changed, 63 insertions(+), 108 deletions(-)
+files changed, 51 insertions(+), 103 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ RETA            1101011 0010 11111 00001 m:1 11111 11111 &reta  # RETAA, RETAB
+@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
- &bra        rn rm m
+ FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
- BRA             1101011 1000 11111 00001 m:1 rn:5 rm:5 &bra # BRAA, BRAB
+ FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
- BLRA            1101011 1001 11111 00001 m:1 rn:5 rm:5 &bra # BLRAA, BLRAB
-+
++FMLAL_v         0.00 1110 001 ..... 11101 1 ..... ..... @qrrr_h
-+ERET            1101011 0100 11111 000000 11111 00000
++FMLSL_v         0.00 1110 101 ..... 11101 1 ..... ..... @qrrr_h
-+ERETA           1101011 0100 11111 00001 m:1 11111 11111 &reta  # ERETAA, ERETAB
++FMLAL2_v        0.10 1110 001 ..... 11001 1 ..... ..... @qrrr_h
-+
++FMLSL2_v        0.10 1110 101 ..... 11001 1 ..... ..... @qrrr_h
-+# We don't need to decode DRPS because it always UNDEFs except when
++
-+# the processor is in halting debug state (which we don't implement).
+ FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
-+# The pattern is listed here as documentation.
+ FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
-+# DRPS            1101011 0101 11111 000000 11111 00000
@@ -XXX,XX +XXX,XX @@ FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +
 +FMLAL_vi        0.00 1111 10 .. .... 0000 . 0 ..... .....   @qrrx_h
 +FMLSL_vi        0.00 1111 10 .. .... 0100 . 0 ..... .....   @qrrx_h
 +FMLAL2_vi       0.10 1111 10 .. .... 1000 . 0 ..... .....   @qrrx_h
 +FMLSL2_vi       0.10 1111 10 .. .... 1100 . 0 ..... .....   @qrrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_BLRA(DisasContext *s, arg_bra *a)
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
-     return true;
+ };
- }
+ TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
-+static bool trans_ERET(DisasContext *s, arg_ERET *a)
++static bool do_fmlal(DisasContext *s, arg_qrrr_e *a, bool is_s, bool is_2)
 +{
-+    TCGv_i64 dst;
++    if (fp_access_check(s)) {
-+
++        int data = (is_2 << 1) | is_s;
-+    if (s->current_el == 0) {
++        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
-+        return false;
++                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_a64);
 +    }
-+    if (s->fgt_eret) {
-+        gen_exception_insn_el(s, 0, EXCP_UDEF, 0, 2);
-+        return true;
-+    }
-+    dst = tcg_temp_new_i64();
-+    tcg_gen_ld_i64(dst, cpu_env,
-+                   offsetof(CPUARMState, elr_el[s->current_el]));
-+
-+    if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
-+        gen_io_start();
-+    }
-+
-+    gen_helper_exception_return(cpu_env, dst);
-+    /* Must exit loop to check un-masked IRQs */
-+    s->base.is_jmp = DISAS_EXIT;
 +    return true;
 +}
 +
-+static bool trans_ERETA(DisasContext *s, arg_reta *a)
++TRANS_FEAT(FMLAL_v, aa64_fhm, do_fmlal, a, false, false)
 +TRANS_FEAT(FMLSL_v, aa64_fhm, do_fmlal, a, true, false)
 +TRANS_FEAT(FMLAL2_v, aa64_fhm, do_fmlal, a, false, true)
 +TRANS_FEAT(FMLSL2_v, aa64_fhm, do_fmlal, a, true, true)
 +
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
  TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
  TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
  TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
  TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
 +static bool do_fmlal_idx(DisasContext *s, arg_qrrx_e *a, bool is_s, bool is_2)
 +{
-+    TCGv_i64 dst;
++    if (fp_access_check(s)) {
-+
++        int data = (a->idx << 2) | (is_2 << 1) | is_s;
-+    if (!dc_isar_feature(aa64_pauth, s)) {
++        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
-+        return false;
++                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_idx_a64);
 +    }
-+    if (s->current_el == 0) {
-+        return false;
-+    }
-+    /* The FGT trap takes precedence over an auth trap. */
-+    if (s->fgt_eret) {
-+        gen_exception_insn_el(s, 0, EXCP_UDEF, a->m ? 3 : 2, 2);
-+        return true;
-+    }
-+    dst = tcg_temp_new_i64();
-+    tcg_gen_ld_i64(dst, cpu_env,
-+                   offsetof(CPUARMState, elr_el[s->current_el]));
-+
-+    dst = auth_branch_target(s, dst, cpu_X[31], !a->m);
-+    if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
-+        gen_io_start();
-+    }
-+
-+    gen_helper_exception_return(cpu_env, dst);
-+    /* Must exit loop to check un-masked IRQs */
-+    s->base.is_jmp = DISAS_EXIT;
 +    return true;
 +}
 +
- /* HINT instruction group, including various allocated HINTs */
++TRANS_FEAT(FMLAL_vi, aa64_fhm, do_fmlal_idx, a, false, false)
- static void handle_hint(DisasContext *s, uint32_t insn,
++TRANS_FEAT(FMLSL_vi, aa64_fhm, do_fmlal_idx, a, true, false)
-                         unsigned int op1, unsigned int op2, unsigned int crm)
++TRANS_FEAT(FMLAL2_vi, aa64_fhm, do_fmlal_idx, a, false, true)
-@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
++TRANS_FEAT(FMLSL2_vi, aa64_fhm, do_fmlal_idx, a, true, true)
 +
  /*
   * Advanced SIMD scalar pairwise
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
      }
  }
--/* Unconditional branch (register)
+-/* Floating point op subgroup of C3.6.16. */
-- *  31           25 24   21 20   16 15   10 9    5 4     0
+-static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
 - * +---------------+-------+-------+-------+------+-------+
 - * | 1 1 0 1 0 1 1 |  opc  |  op2  |  op3  |  Rn  |  op4  |
 - * +---------------+-------+-------+-------+------+-------+
 - */
 -static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
 -{
--    unsigned int opc, op2, op3, rn, op4;
+-    /* For floating point ops, the U, size[1] and opcode bits
--    TCGv_i64 dst;
+-     * together indicate the operation. size[0] indicates single
--    TCGv_i64 modifier;
+-     * or double.
--
+-     */
--    opc = extract32(insn, 21, 4);
+-    int fpopcode = extract32(insn, 11, 5)
--    op2 = extract32(insn, 16, 5);
+-        | (extract32(insn, 23, 1) << 5)
--    op3 = extract32(insn, 10, 6);
+-        | (extract32(insn, 29, 1) << 6);
--    rn = extract32(insn, 5, 5);
+-    int is_q = extract32(insn, 30, 1);
--    op4 = extract32(insn, 0, 5);
+-    int size = extract32(insn, 22, 1);
--
+-    int rm = extract32(insn, 16, 5);
--    if (op2 != 0x1f) {
+-    int rn = extract32(insn, 5, 5);
--        goto do_unallocated;
+-    int rd = extract32(insn, 0, 5);
 -
 -    if (size == 1 && !is_q) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
--    switch (opc) {
+-    switch (fpopcode) {
--    case 0:
+-    case 0x1d: /* FMLAL  */
--    case 1:
+-    case 0x3d: /* FMLSL  */
--    case 2:
+-    case 0x59: /* FMLAL2 */
--    case 8:
+-    case 0x79: /* FMLSL2 */
--    case 9:
+-        if (size & 1 || !dc_isar_feature(aa64_fhm, s)) {
 -        /*
 -         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ,
 -         * BRAA, BLRAA: handled in decodetree
 -         */
 -        goto do_unallocated;
 -
 -    case 4: /* ERET */
 -        if (s->current_el == 0) {
 -            goto do_unallocated;
 -        }
 -        switch (op3) {
 -        case 0: /* ERET */
 -            if (op4 != 0) {
 -                goto do_unallocated;
 -            }
 -            if (s->fgt_eret) {
 -                gen_exception_insn_el(s, 0, EXCP_UDEF, syn_erettrap(op3), 2);
 -                return;
 -            }
 -            dst = tcg_temp_new_i64();
 -            tcg_gen_ld_i64(dst, cpu_env,
 -                           offsetof(CPUARMState, elr_el[s->current_el]));
 -            break;
 -
 -        case 2: /* ERETAA */
 -        case 3: /* ERETAB */
 -            if (!dc_isar_feature(aa64_pauth, s)) {
 -                goto do_unallocated;
 -            }
 -            if (rn != 0x1f || op4 != 0x1f) {
 -                goto do_unallocated;
 -            }
 -            /* The FGT trap takes precedence over an auth trap. */
 -            if (s->fgt_eret) {
 -                gen_exception_insn_el(s, 0, EXCP_UDEF, syn_erettrap(op3), 2);
 -                return;
 -            }
 -            dst = tcg_temp_new_i64();
 -            tcg_gen_ld_i64(dst, cpu_env,
 -                           offsetof(CPUARMState, elr_el[s->current_el]));
 -            if (s->pauth_active) {
 -                modifier = cpu_X[31];
 -                if (op3 == 2) {
 -                    gen_helper_autia(dst, cpu_env, dst, modifier);
 -                } else {
 -                    gen_helper_autib(dst, cpu_env, dst, modifier);
 -                }
 -            }
 -            break;
 -
 -        default:
 -            goto do_unallocated;
 -        }
 -        if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
 -            gen_io_start();
 -        }
 -
 -        gen_helper_exception_return(cpu_env, dst);
 -        /* Must exit loop to check un-masked IRQs */
 -        s->base.is_jmp = DISAS_EXIT;
 -        return;
 -
 -    case 5: /* DRPS */
 -        if (op3 != 0 || op4 != 0 || rn != 0x1f) {
 -            goto do_unallocated;
 -        } else {
 -            unallocated_encoding(s);
+-            return;
+-        }
+-        if (fp_access_check(s)) {
+-            int is_s = extract32(insn, 23, 1);
+-            int is_2 = extract32(insn, 29, 1);
+-            int data = (is_2 << 1) | is_s;
+-            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
+-                               vec_full_reg_offset(s, rn),
+-                               vec_full_reg_offset(s, rm), tcg_env,
+-                               is_q ? 16 : 8, vec_full_reg_size(s),
+-                               data, gen_helper_gvec_fmlal_a64);
 -        }
 -        return;
 -
 -    default:
--    do_unallocated:
+-    case 0x18: /* FMAXNM */
 -    case 0x19: /* FMLA */
 -    case 0x1a: /* FADD */
 -    case 0x1b: /* FMULX */
 -    case 0x1c: /* FCMEQ */
 -    case 0x1e: /* FMAX */
 -    case 0x1f: /* FRECPS */
 -    case 0x38: /* FMINNM */
 -    case 0x39: /* FMLS */
 -    case 0x3a: /* FSUB */
 -    case 0x3e: /* FMIN */
 -    case 0x3f: /* FRSQRTS */
 -    case 0x58: /* FMAXNMP */
 -    case 0x5a: /* FADDP */
 -    case 0x5b: /* FMUL */
 -    case 0x5c: /* FCMGE */
 -    case 0x5d: /* FACGE */
 -    case 0x5e: /* FMAXP */
 -    case 0x5f: /* FDIV */
 -    case 0x78: /* FMINNMP */
 -    case 0x7a: /* FABD */
 -    case 0x7d: /* FACGT */
 -    case 0x7c: /* FCMGT */
 -    case 0x7e: /* FMINP */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -}
 -
- /* Branches, exception generating and system instructions */
+ /* Integer op subgroup of C3.6.16. */
- static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
+ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
-@@ -XXX,XX +XXX,XX @@ static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
-             disas_exc(s, insn);
+     case 0x3: /* logic ops */
-         }
+         disas_simd_3same_logic(s, insn);
          break;
--    case 0x6b: /* Unconditional branch (register) */
+-    case 0x18 ... 0x31:
--        disas_uncond_b_reg(s, insn);
+-        /* floating point ops, sz[1] and U are part of opcode */
 -        disas_simd_3same_float(s, insn);
 -        break;
      default:
+         disas_simd_3same_int(s, insn);
+         break;
+     case 0x14: /* SMAXP, UMAXP */
+     case 0x15: /* SMINP, UMINP */
+     case 0x17: /* ADDP */
++    case 0x18 ... 0x31: /* floating point ops */
          unallocated_encoding(s);
          break;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+         }
+         is_fp = 2;
+         break;
+-    case 0x00: /* FMLAL */
+-    case 0x04: /* FMLSL */
+-    case 0x18: /* FMLAL2 */
+-    case 0x1c: /* FMLSL2 */
+-        if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_fhm, s)) {
+-            unallocated_encoding(s);
+-            return;
+-        }
+-        size = MO_16;
+-        /* is_fp, but we pass tcg_env not fp_status.  */
+-        break;
+     default:
++    case 0x00: /* FMLAL */
+     case 0x01: /* FMLA */
++    case 0x04: /* FMLSL */
+     case 0x05: /* FMLS */
+     case 0x09: /* FMUL */
++    case 0x18: /* FMLAL2 */
+     case 0x19: /* FMULX */
++    case 0x1c: /* FMLSL2 */
+         unallocated_encoding(s);
+         return;
+     }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+         }
+         return;
+-    case 0x00: /* FMLAL */
+-    case 0x04: /* FMLSL */
+-    case 0x18: /* FMLAL2 */
+-    case 0x1c: /* FMLSL2 */
+-        {
+-            int is_s = extract32(opcode, 2, 1);
+-            int is_2 = u;
+-            int data = (index << 2) | (is_2 << 1) | is_s;
+-            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
+-                               vec_full_reg_offset(s, rn),
+-                               vec_full_reg_offset(s, rm), tcg_env,
+-                               is_q ? 16 : 8, vec_full_reg_size(s),
+-                               data, gen_helper_gvec_fmlal_idx_a64);
+-        }
+-        return;
+-
+     case 0x08: /* MUL */
+         if (!is_long && !is_scalar) {
+             static gen_helper_gvec_3 * const fns[3] = {
 --
 .34.1

-[PULL 10/29] target/arm: Convert PC-rel addressing to decodetree
+[PULL 42/42] target/arm: Convert disas_simd_3same_logic to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Convert the ADR and ADRP instructions.
+This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20230512144106.3608981-5-peter.maydell@linaro.org
 [PMM: Rebased]
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/tcg/a64.decode      | 13 ++++++++++++
+ target/arm/tcg/a64.decode      | 10 +++++
- target/arm/tcg/translate-a64.c | 38 +++++++++++++---------------------
+ target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
-files changed, 27 insertions(+), 24 deletions(-)
+files changed, 29 insertions(+), 49 deletions(-)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
 @@ -XXX,XX +XXX,XX @@
- #
+ @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
- # This file is processed by scripts/decodetree.py
+ @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
- #
 +@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
  @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
  @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
  @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
  UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
  UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 +AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
 +BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
 +ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
 +ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
 +EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
 +BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
 +BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
 +BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
 +
-+&ri              rd imm
+ ### Advanced SIMD scalar x indexed element
-+
-+
+ FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +### Data Processing - Immediate
 +
 +# PC-rel addressing
 +
 +%imm_pcrel      5:s19 29:2
 +@pcrel          . .. ..... ................... rd:5     &ri imm=%imm_pcrel
 +
 +ADR             0 .. 10000 ................... .....    @pcrel
 +ADRP            1 .. 10000 ................... .....    @pcrel
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_ldst(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
  TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
  TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
 +TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
 +TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
 +TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
 +TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
 +TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
 +
 +static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
 +{
 +    if (fp_access_check(s)) {
 +        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
 +    }
 +    return true;
 +}
 +
 +TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
 +TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
 +TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
      }
  }
--/* PC-rel. addressing
+-/* Logic op (opcode == 3) subgroup of C3.6.16. */
-- *   31  30   29 28       24 23                5 4    0
+-static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
-- * +----+-------+-----------+-------------------+------+
+-{
-- * | op | immlo | 1 0 0 0 0 |       immhi       |  Rd  |
+-    int rd = extract32(insn, 0, 5);
-- * +----+-------+-----------+-------------------+------+
+-    int rn = extract32(insn, 5, 5);
-+/*
+-    int rm = extract32(insn, 16, 5);
-+ * PC-rel. addressing
+-    int size = extract32(insn, 22, 2);
-  */
+-    bool is_u = extract32(insn, 29, 1);
--static void disas_pc_rel_adr(DisasContext *s, uint32_t insn)
+-    bool is_q = extract32(insn, 30, 1);
-+
+-
-+static bool trans_ADR(DisasContext *s, arg_ri *a)
+-    if (!fp_access_check(s)) {
- {
+-        return;
 -    unsigned int page, rd;
 -    int64_t offset;
 +    gen_pc_plus_diff(s, cpu_reg(s, a->rd), a->imm);
 +    return true;
 +}
 -    page = extract32(insn, 31, 1);
 -    /* SignExtend(immhi:immlo) -> offset */
 -    offset = sextract64(insn, 5, 19);
 -    offset = offset << 2 | extract32(insn, 29, 2);
 -    rd = extract32(insn, 0, 5);
 +static bool trans_ADRP(DisasContext *s, arg_ri *a)
 +{
 +    int64_t offset = (int64_t)a->imm << 12;
 -    if (page) {
 -        /* ADRP (page based) */
 -        offset <<= 12;
 -        /* The page offset is ok for CF_PCREL. */
 -        offset -= s->pc_curr & 0xfff;
 -    }
 -
--    gen_pc_plus_diff(s, cpu_reg(s, rd), offset);
+-    switch (size + 4 * is_u) {
-+    /* The page offset is ok for CF_PCREL. */
+-    case 0: /* AND */
-+    offset -= s->pc_curr & 0xfff;
+-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
-+    gen_pc_plus_diff(s, cpu_reg(s, a->rd), offset);
+-        return;
-+    return true;
+-    case 1: /* BIC */
- }
+-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
+-        return;
- /*
+-    case 2: /* ORR */
-@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
+-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
- static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
+-        return;
 -    case 3: /* ORN */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
 -        return;
 -    case 4: /* EOR */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
 -        return;
 -
 -    case 5: /* BSL bitwise select */
 -        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 6: /* BIT, bitwise insert if true */
 -        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 7: /* BIF, bitwise insert if false */
 -        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
 -        return;
 -
 -    default:
 -        g_assert_not_reached();
 -    }
 -}
 -
  /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
-     switch (extract32(insn, 23, 6)) {
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
--    case 0x20: case 0x21: /* PC-rel. addressing */
+     int opcode = extract32(insn, 11, 5);
--        disas_pc_rel_adr(s, insn);
      switch (opcode) {
 -    case 0x3: /* logic ops */
 -        disas_simd_3same_logic(s, insn);
 -        break;
-     case 0x22: /* Add/subtract (immediate) */
+     default:
-         disas_add_sub_imm(s, insn);
+         disas_simd_3same_int(s, insn);
          break;
++    case 0x3: /* logic ops */
+     case 0x14: /* SMAXP, UMAXP */
+     case 0x15: /* SMINP, UMINP */
+     case 0x17: /* ADDP */
 --
 .34.1

Hi; this mostly contains the first slice of A64 decodetree
patches, plus some other minor pieces. It also has the
enablement of MTE for KVM guests.

thanks
-- PMM

The following changes since commit d27e7c359330ba7020bdbed7ed2316cb4cf6ffc1:

qapi/parser: Drop two bad type hints for now (2023-05-17 10:18:33 -0700)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20230518

for you to fetch changes up to 91608e2a44f36e79cb83f863b8a7bb57d2c98061:

docs: Convert u2f.txt to rST (2023-05-18 11:40:32 +0100)

----------------------------------------------------------------
target-arm queue:
 * Fix vd == vm overlap in sve_ldff1_z
 * Add support for MTE with KVM guests
 * Add RAZ/WI handling for DBGDTR[TX|RX]
 * Start of conversion of A64 decoder to decodetree
 * Saturate L2CTLR_EL1 core count field rather than overflowing
 * vexpress: Avoid trivial memory leak of 'flashalias'
 * sbsa-ref: switch default cpu core to Neoverse-N1
 * sbsa-ref: use Bochs graphics card instead of VGA
 * MAINTAINERS: Add Marcin Juszkiewicz to sbsa-ref reviewer list
 * docs: Convert u2f.txt to rST

----------------------------------------------------------------
Alex Bennée (1):
      target/arm: add RAZ/WI handling for DBGDTR[TX|RX]

Cornelia Huck (1):
      arm/kvm: add support for MTE

Marcin Juszkiewicz (3):
      sbsa-ref: switch default cpu core to Neoverse-N1
      Maintainers: add myself as reviewer for sbsa-ref
      sbsa-ref: use Bochs graphics card instead of VGA

Peter Maydell (14):
      target/arm: Create decodetree skeleton for A64
      target/arm: Pull calls to disas_sve() and disas_sme() out of legacy decoder
      target/arm: Convert Extract instructions to decodetree
      target/arm: Convert unconditional branch immediate to decodetree
      target/arm: Convert CBZ, CBNZ to decodetree
      target/arm: Convert TBZ, TBNZ to decodetree
      target/arm: Convert conditional branch insns to decodetree
      target/arm: Convert BR, BLR, RET to decodetree
      target/arm: Convert BRA[AB]Z, BLR[AB]Z, RETA[AB] to decodetree
      target/arm: Convert BRAA, BRAB, BLRAA, BLRAB to decodetree
      target/arm: Convert ERET, ERETAA, ERETAB to decodetree
      target/arm: Saturate L2CTLR_EL1 core count field rather than overflowing
      hw/arm/vexpress: Avoid trivial memory leak of 'flashalias'
      docs: Convert u2f.txt to rST

Richard Henderson (10):
      target/arm: Fix vd == vm overlap in sve_ldff1_z
      target/arm: Split out disas_a64_legacy
      target/arm: Convert PC-rel addressing to decodetree
      target/arm: Split gen_add_CC and gen_sub_CC
      target/arm: Convert Add/subtract (immediate) to decodetree
      target/arm: Convert Add/subtract (immediate with tags) to decodetree
      target/arm: Replace bitmask64 with MAKE_64BIT_MASK
      target/arm: Convert Logical (immediate) to decodetree
      target/arm: Convert Move wide (immediate) to decodetree
      target/arm: Convert Bitfield to decodetree

From: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>

The world outside moves to newer and newer cpu cores. Let move SBSA
Reference Platform to something newer as well.

Signed-off-by: Marcin Juszkiewicz <marcin.juszkiewicz@linaro.org>
Reviewed-by: Leif Lindholm <quic_llindhol@quicinc.com>
Message-id: 20230506183417.1360427-1-marcin.juszkiewicz@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/sbsa-ref.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/sbsa-ref.c
+++ b/hw/arm/sbsa-ref.c
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_class_init(ObjectClass *oc, void *data)
 
     mc->init = sbsa_ref_init;
     mc->desc = "QEMU 'SBSA Reference' ARM Virtual Machine";
-    mc->default_cpu_type = ARM_CPU_TYPE_NAME("cortex-a57");
+    mc->default_cpu_type = ARM_CPU_TYPE_NAME("neoverse-n1");
     mc->max_cpus = 512;
     mc->pci_allow_0_address = true;
     mc->minimum_page_bits = 12;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

If vd == vm, copy vm to scratch, so that we can pre-zero
the output and still access the gather indicies.

Cc: qemu-stable@nongnu.org
Resolves: https://gitlab.com/qemu-project/qemu/-/issues/1612
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230504104232.1877774-1-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/sve_helper.c | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/target/arm/tcg/sve_helper.c b/target/arm/tcg/sve_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/sve_helper.c
+++ b/target/arm/tcg/sve_helper.c
@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
     intptr_t reg_off;
     SVEHostPage info;
     target_ulong addr, in_page;
+    ARMVectorReg scratch;
 
     /* Skip to the first true predicate.  */
     reg_off = find_next_active(vg, 0, reg_max, esz);
@@ -XXX,XX +XXX,XX @@ void sve_ldff1_z(CPUARMState *env, void *vd, uint64_t *vg, void *vm,
         return;
     }
 
+    /* Protect against overlap between vd and vm. */
+    if (unlikely(vd == vm)) {
+        vm = memcpy(&scratch, vm, reg_max);
+    }
+
     /*
      * Probe the first element, allowing faults.
      */
-- 
2.34.1

From: Cornelia Huck <cohuck@redhat.com>

Extend the 'mte' property for the virt machine to cover KVM as
well. For KVM, we don't allocate tag memory, but instead enable the
capability.

If MTE has been enabled, we need to disable migration, as we do not
yet have a way to migrate the tags as well. Therefore, MTE will stay
off with KVM unless requested explicitly.

Signed-off-by: Cornelia Huck <cohuck@redhat.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230428095533.21747-2-cohuck@redhat.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h     |  4 +++
 target/arm/kvm_arm.h | 19 ++++++++++++
 hw/arm/virt.c        | 73 +++++++++++++++++++++++++-------------------
 target/arm/cpu.c     |  9 +++---
 target/arm/kvm.c     | 35 +++++++++++++++++++++
 target/arm/kvm64.c   |  5 +++
 6 files changed, 109 insertions(+), 36 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
      */
     uint32_t psci_conduit;
 
+    /* CPU has Memory Tag Extension */
+    bool has_mte;
+
     /* For v8M, initial value of the Secure VTOR */
     uint32_t init_svtor;
     /* For v8M, initial value of the Non-secure VTOR */
@@ -XXX,XX +XXX,XX @@ struct ArchCPU {
     bool prop_pauth;
     bool prop_pauth_impdef;
     bool prop_lpa2;
+    OnOffAuto prop_mte;
 
     /* DCZ blocksize, in log_2(words), ie low 4 bits of DCZID_EL0 */
     uint32_t dcz_blocksize;
diff --git a/target/arm/kvm_arm.h b/target/arm/kvm_arm.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm_arm.h
+++ b/target/arm/kvm_arm.h
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_pmu_supported(void);
  */
 bool kvm_arm_sve_supported(void);
 
+/**
+ * kvm_arm_mte_supported:
+ *
+ * Returns: true if KVM can enable MTE, and false otherwise.
+ */
+bool kvm_arm_mte_supported(void);
+
 /**
  * kvm_arm_get_max_vm_ipa_size:
  * @ms: Machine state handle
@@ -XXX,XX +XXX,XX @@ void kvm_arm_pvtime_init(CPUState *cs, uint64_t ipa);
 
 int kvm_arm_set_irq(int cpu, int irqtype, int irq, int level);
 
+void kvm_arm_enable_mte(Object *cpuobj, Error **errp);
+
 #else
 
 /*
@@ -XXX,XX +XXX,XX @@ static inline bool kvm_arm_steal_time_supported(void)
     return false;
 }
 
+static inline bool kvm_arm_mte_supported(void)
+{
+    return false;
+}
+
 /*
  * These functions should never actually be called without KVM support.
  */
@@ -XXX,XX +XXX,XX @@ static inline uint32_t kvm_arm_sve_get_vls(CPUState *cs)
     g_assert_not_reached();
 }
 
+static inline void kvm_arm_enable_mte(Object *cpuobj, Error **errp)
+{
+    g_assert_not_reached();
+}
+
 #endif
 
 static inline const char *gic_class_name(void)
diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
         exit(1);
     }
 
-    if (vms->mte && (kvm_enabled() || hvf_enabled())) {
+    if (vms->mte && hvf_enabled()) {
         error_report("mach-virt: %s does not support providing "
                      "MTE to the guest CPU",
                      current_accel_name());
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
         }
 
         if (vms->mte) {
-            /* Create the memory region only once, but link to all cpus. */
-            if (!tag_sysmem) {
-                /*
-                 * The property exists only if MemTag is supported.
-                 * If it is, we must allocate the ram to back that up.
-                 */
-                if (!object_property_find(cpuobj, "tag-memory")) {
-                    error_report("MTE requested, but not supported "
-                                 "by the guest CPU");
+            if (tcg_enabled()) {
+                /* Create the memory region only once, but link to all cpus. */
+                if (!tag_sysmem) {
+                    /*
+                     * The property exists only if MemTag is supported.
+                     * If it is, we must allocate the ram to back that up.
+                     */
+                    if (!object_property_find(cpuobj, "tag-memory")) {
+                        error_report("MTE requested, but not supported "
+                                     "by the guest CPU");
+                        exit(1);
+                    }
+
+                    tag_sysmem = g_new(MemoryRegion, 1);
+                    memory_region_init(tag_sysmem, OBJECT(machine),
+                                       "tag-memory", UINT64_MAX / 32);
+
+                    if (vms->secure) {
+                        secure_tag_sysmem = g_new(MemoryRegion, 1);
+                        memory_region_init(secure_tag_sysmem, OBJECT(machine),
+                                           "secure-tag-memory",
+                                           UINT64_MAX / 32);
+
+                        /* As with ram, secure-tag takes precedence over tag. */
+                        memory_region_add_subregion_overlap(secure_tag_sysmem,
+                                                            0, tag_sysmem, -1);
+                    }
+                }
+
+                object_property_set_link(cpuobj, "tag-memory",
+                                         OBJECT(tag_sysmem), &error_abort);
+                if (vms->secure) {
+                    object_property_set_link(cpuobj, "secure-tag-memory",
+                                             OBJECT(secure_tag_sysmem),
+                                             &error_abort);
+                }
+            } else if (kvm_enabled()) {
+                if (!kvm_arm_mte_supported()) {
+                    error_report("MTE requested, but not supported by KVM");
                     exit(1);
                 }
-
-                tag_sysmem = g_new(MemoryRegion, 1);
-                memory_region_init(tag_sysmem, OBJECT(machine),
-                                   "tag-memory", UINT64_MAX / 32);
-
-                if (vms->secure) {
-                    secure_tag_sysmem = g_new(MemoryRegion, 1);
-                    memory_region_init(secure_tag_sysmem, OBJECT(machine),
-                                       "secure-tag-memory", UINT64_MAX / 32);
-
-                    /* As with ram, secure-tag takes precedence over tag.  */
-                    memory_region_add_subregion_overlap(secure_tag_sysmem, 0,
-                                                        tag_sysmem, -1);
-                }
-            }
-
-            object_property_set_link(cpuobj, "tag-memory", OBJECT(tag_sysmem),
-                                     &error_abort);
-            if (vms->secure) {
-                object_property_set_link(cpuobj, "secure-tag-memory",
-                                         OBJECT(secure_tag_sysmem),
-                                         &error_abort);
+                kvm_arm_enable_mte(cpuobj, &error_abort);
             }
         }
 
diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ void arm_cpu_post_init(Object *obj)
                                      qdev_prop_allow_set_link_before_realize,
                                      OBJ_PROP_LINK_STRONG);
         }
+        cpu->has_mte = true;
     }
 #endif
 }
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
         }
         if (cpu->tag_memory) {
             error_setg(errp,
-                       "Cannot enable %s when guest CPUs has MTE enabled",
+                       "Cannot enable %s when guest CPUs has tag memory enabled",
                        current_accel_name());
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void arm_cpu_realizefn(DeviceState *dev, Error **errp)
     }
 
 #ifndef CONFIG_USER_ONLY
-    if (cpu->tag_memory == NULL && cpu_isar_feature(aa64_mte, cpu)) {
+    if (!cpu->has_mte && cpu_isar_feature(aa64_mte, cpu)) {
         /*
-         * Disable the MTE feature bits if we do not have tag-memory
-         * provided by the machine.
+         * Disable the MTE feature bits if we do not have the feature
+         * setup by the machine.
          */
         cpu->isar.id_aa64pfr1 =
             FIELD_DP64(cpu->isar.id_aa64pfr1, ID_AA64PFR1, MTE, 0);
diff --git a/target/arm/kvm.c b/target/arm/kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm.c
+++ b/target/arm/kvm.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/boards.h"
 #include "hw/irq.h"
 #include "qemu/log.h"
+#include "migration/blocker.h"
 
 const KVMCapabilityInfo kvm_arch_required_capabilities[] = {
     KVM_CAP_LAST_INFO
@@ -XXX,XX +XXX,XX @@ bool kvm_arch_cpu_check_are_resettable(void)
 void kvm_arch_accel_class_init(ObjectClass *oc)
 {
 }
+
+void kvm_arm_enable_mte(Object *cpuobj, Error **errp)
+{
+    static bool tried_to_enable;
+    static bool succeeded_to_enable;
+    Error *mte_migration_blocker = NULL;
+    int ret;
+
+    if (!tried_to_enable) {
+        /*
+         * MTE on KVM is enabled on a per-VM basis (and retrying doesn't make
+         * sense), and we only want a single migration blocker as well.
+         */
+        tried_to_enable = true;
+
+        ret = kvm_vm_enable_cap(kvm_state, KVM_CAP_ARM_MTE, 0);
+        if (ret) {
+            error_setg_errno(errp, -ret, "Failed to enable KVM_CAP_ARM_MTE");
+            return;
+        }
+
+        /* TODO: add proper migration support with MTE enabled */
+        error_setg(&mte_migration_blocker,
+                   "Live migration disabled due to MTE enabled");
+        if (migrate_add_blocker(mte_migration_blocker, errp)) {
+            error_free(mte_migration_blocker);
+            return;
+        }
+        succeeded_to_enable = true;
+    }
+    if (succeeded_to_enable) {
+        object_property_set_bool(cpuobj, "has_mte", true, NULL);
+    }
+}
diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm64.c
+++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@ bool kvm_arm_steal_time_supported(void)
     return kvm_check_extension(kvm_state, KVM_CAP_STEAL_TIME);
 }
 
+bool kvm_arm_mte_supported(void)
+{
+    return kvm_check_extension(kvm_state, KVM_CAP_ARM_MTE);
+}
+
 QEMU_BUILD_BUG_ON(KVM_ARM64_SVE_VQ_MIN != 1);
 
 uint32_t kvm_arm_sve_get_vls(CPUState *cs)
-- 
2.34.1

From: Alex Bennée <alex.bennee@linaro.org>

The commit b3aa2f2128 (target/arm: provide stubs for more external
debug registers) was added to handle HyperV's unconditional usage of
Debug Communications Channel. It turns out that Linux will similarly
break if you enable CONFIG_HVC_DCC "ARM JTAG DCC console".

Extend the registers we RAZ/WI set to avoid this.

Cc: Anders Roxell <anders.roxell@linaro.org>
Cc: Evgeny Iakovlev <eiakovlev@linux.microsoft.com>
Signed-off-by: Alex Bennée <alex.bennee@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230516104420.407912-1-alex.bennee@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/debug_helper.c | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_cp_reginfo[] = {
       .access = PL0_R, .accessfn = access_tdcc,
       .type = ARM_CP_CONST, .resetvalue = 0 },
     /*
-     * OSDTRRX_EL1/OSDTRTX_EL1 are used for save and restore of DBGDTRRX_EL0.
-     * It is a component of the Debug Communications Channel, which is not implemented.
+     * These registers belong to the Debug Communications Channel,
+     * which is not implemented. However we implement RAZ/WI behaviour
+     * with trapping to prevent spurious SIGILLs if the guest OS does
+     * access them as the support cannot be probed for.
      */
     { .name = "OSDTRRX_EL1", .state = ARM_CP_STATE_BOTH, .cp = 14,
       .opc0 = 2, .opc1 = 0, .crn = 0, .crm = 0, .opc2 = 2,
@@ -XXX,XX +XXX,XX @@ static const ARMCPRegInfo debug_cp_reginfo[] = {
       .opc0 = 2, .opc1 = 0, .crn = 0, .crm = 3, .opc2 = 2,
       .access = PL1_RW, .accessfn = access_tdcc,
       .type = ARM_CP_CONST, .resetvalue = 0 },
+    /* DBGDTRTX_EL0/DBGDTRRX_EL0 depend on direction */
+    { .name = "DBGDTR_EL0", .state = ARM_CP_STATE_BOTH, .cp = 14,
+      .opc0 = 2, .opc1 = 3, .crn = 0, .crm = 5, .opc2 = 0,
+      .access = PL0_RW, .accessfn = access_tdcc,
+      .type = ARM_CP_CONST, .resetvalue = 0 },
     /*
      * OSECCR_EL1 provides a mechanism for an operating system
      * to access the contents of EDECCR. EDECCR is not implemented though,
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Split out all of the decode stuff from aarch64_tr_translate_insn.
Call it disas_a64_legacy to indicate it will be replaced.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-2-peter.maydell@linaro.org
[PMM: Rebased]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 82 ++++++++++++++++++----------------
 1 file changed, 44 insertions(+), 38 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool btype_destination_ok(uint32_t insn, bool bt, int btype)
     return false;
 }
 
+/* C3.1 A64 instruction index by encoding */
+static void disas_a64_legacy(DisasContext *s, uint32_t insn)
+{
+    switch (extract32(insn, 25, 4)) {
+    case 0x0:
+        if (!extract32(insn, 31, 1) || !disas_sme(s, insn)) {
+            unallocated_encoding(s);
+        }
+        break;
+    case 0x1: case 0x3: /* UNALLOCATED */
+        unallocated_encoding(s);
+        break;
+    case 0x2:
+        if (!disas_sve(s, insn)) {
+            unallocated_encoding(s);
+        }
+        break;
+    case 0x8: case 0x9: /* Data processing - immediate */
+        disas_data_proc_imm(s, insn);
+        break;
+    case 0xa: case 0xb: /* Branch, exception generation and system insns */
+        disas_b_exc_sys(s, insn);
+        break;
+    case 0x4:
+    case 0x6:
+    case 0xc:
+    case 0xe:      /* Loads and stores */
+        disas_ldst(s, insn);
+        break;
+    case 0x5:
+    case 0xd:      /* Data processing - register */
+        disas_data_proc_reg(s, insn);
+        break;
+    case 0x7:
+    case 0xf:      /* Data processing - SIMD and floating point */
+        disas_data_proc_simd_fp(s, insn);
+        break;
+    default:
+        assert(FALSE); /* all 15 cases should be handled above */
+        break;
+    }
+}
+
 static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
                                           CPUState *cpu)
 {
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
         disas_sme_fa64(s, insn);
     }
 
-    switch (extract32(insn, 25, 4)) {
-    case 0x0:
-        if (!extract32(insn, 31, 1) || !disas_sme(s, insn)) {
-            unallocated_encoding(s);
-        }
-        break;
-    case 0x1: case 0x3: /* UNALLOCATED */
-        unallocated_encoding(s);
-        break;
-    case 0x2:
-        if (!disas_sve(s, insn)) {
-            unallocated_encoding(s);
-        }
-        break;
-    case 0x8: case 0x9: /* Data processing - immediate */
-        disas_data_proc_imm(s, insn);
-        break;
-    case 0xa: case 0xb: /* Branch, exception generation and system insns */
-        disas_b_exc_sys(s, insn);
-        break;
-    case 0x4:
-    case 0x6:
-    case 0xc:
-    case 0xe:      /* Loads and stores */
-        disas_ldst(s, insn);
-        break;
-    case 0x5:
-    case 0xd:      /* Data processing - register */
-        disas_data_proc_reg(s, insn);
-        break;
-    case 0x7:
-    case 0xf:      /* Data processing - SIMD and floating point */
-        disas_data_proc_simd_fp(s, insn);
-        break;
-    default:
-        assert(FALSE); /* all 15 cases should be handled above */
-        break;
-    }
+    disas_a64_legacy(s, insn);
 
     /*
      * After execution of most insns, btype is reset to 0.
-- 
2.34.1

The A64 translator uses a hand-written decoder for everything except
SVE or SME.  It's fairly well structured, but it's becoming obvious
that it's still more painful to add instructions to than the A32
translator, because putting a new instruction into the right place in
a hand-written decoder is much harder than adding new instruction
patterns to a decodetree file.

As the first step in conversion to decodetree, create the skeleton of
the decodetree decoder; where it does not handle instructions we will
fall back to the legacy decoder (which will be for everything at the
moment, since there are no patterns in a64.decode).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-3-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      | 20 ++++++++++++++++++++
 target/arm/tcg/translate-a64.c | 18 +++++++++++-------
 target/arm/tcg/meson.build     |  1 +
 3 files changed, 32 insertions(+), 7 deletions(-)
 create mode 100644 target/arm/tcg/a64.decode

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
+# AArch64 A64 allowed instruction decoding
+#
+#  Copyright (c) 2023 Linaro, Ltd
+#
+# This library is free software; you can redistribute it and/or
+# modify it under the terms of the GNU Lesser General Public
+# License as published by the Free Software Foundation; either
+# version 2.1 of the License, or (at your option) any later version.
+#
+# This library is distributed in the hope that it will be useful,
+# but WITHOUT ANY WARRANTY; without even the implied warranty of
+# MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+# Lesser General Public License for more details.
+#
+# You should have received a copy of the GNU Lesser General Public
+# License along with this library; if not, see <http://www.gnu.org/licenses/>.
+
+#
+# This file is processed by scripts/decodetree.py
+#
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ enum a64_shift_type {
     A64_SHIFT_TYPE_ROR = 3
 };
 
+/*
+ * Include the generated decoders.
+ */
+
+#include "decode-sme-fa64.c.inc"
+#include "decode-a64.c.inc"
+
 /* Table based decoder typedefs - used when the relevant bits for decode
  * are too awkwardly scattered across the instruction (eg SIMD).
  */
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_simd_fp(DisasContext *s, uint32_t insn)
     }
 }
 
-/*
- * Include the generated SME FA64 decoder.
- */
-
-#include "decode-sme-fa64.c.inc"
-
 static bool trans_OK(DisasContext *s, arg_OK *a)
 {
     return true;
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
         disas_sme_fa64(s, insn);
     }
 
-    disas_a64_legacy(s, insn);
+
+    if (!disas_a64(s, insn)) {
+        disas_a64_legacy(s, insn);
+    }
 
     /*
      * After execution of most insns, btype is reset to 0.
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ gen = [
   decodetree.process('a32-uncond.decode', extra_args: '--static-decode=disas_a32_uncond'),
   decodetree.process('t32.decode', extra_args: '--static-decode=disas_t32'),
   decodetree.process('t16.decode', extra_args: ['-w', '16', '--static-decode=disas_t16']),
+  decodetree.process('a64.decode', extra_args: ['--static-decode=disas_a64']),
 ]
 
 arm_ss.add(gen)
-- 
2.34.1

The SVE and SME decode is already done by decodetree.  Pull the calls
to these decoders out of the legacy decoder.  This doesn't change
behaviour because all the patterns in sve.decode and sme.decode
already require the bits that the legacy decoder is decoding to have
the correct values.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-4-peter.maydell@linaro.org
---
 target/arm/tcg/translate-a64.c | 20 ++++----------------
 1 file changed, 4 insertions(+), 16 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool btype_destination_ok(uint32_t insn, bool bt, int btype)
 static void disas_a64_legacy(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 25, 4)) {
-    case 0x0:
-        if (!extract32(insn, 31, 1) || !disas_sme(s, insn)) {
-            unallocated_encoding(s);
-        }
-        break;
-    case 0x1: case 0x3: /* UNALLOCATED */
-        unallocated_encoding(s);
-        break;
-    case 0x2:
-        if (!disas_sve(s, insn)) {
-            unallocated_encoding(s);
-        }
-        break;
     case 0x8: case 0x9: /* Data processing - immediate */
         disas_data_proc_imm(s, insn);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_a64_legacy(DisasContext *s, uint32_t insn)
         disas_data_proc_simd_fp(s, insn);
         break;
     default:
-        assert(FALSE); /* all 15 cases should be handled above */
+        unallocated_encoding(s);
         break;
     }
 }
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
         disas_sme_fa64(s, insn);
     }
 
-
-    if (!disas_a64(s, insn)) {
+    if (!disas_a64(s, insn) &&
+        !disas_sme(s, insn) &&
+        !disas_sve(s, insn)) {
         disas_a64_legacy(s, insn);
     }
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert the ADR and ADRP instructions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-5-peter.maydell@linaro.org
[PMM: Rebased]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 13 ++++++++++++
 target/arm/tcg/translate-a64.c | 38 +++++++++++++---------------------
 2 files changed, 27 insertions(+), 24 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 #
 # This file is processed by scripts/decodetree.py
 #
+
+&ri              rd imm
+
+
+### Data Processing - Immediate
+
+# PC-rel addressing
+
+%imm_pcrel      5:s19 29:2
+@pcrel          . .. ..... ................... rd:5     &ri imm=%imm_pcrel
+
+ADR             0 .. 10000 ................... .....    @pcrel
+ADRP            1 .. 10000 ................... .....    @pcrel
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst(DisasContext *s, uint32_t insn)
     }
 }
 
-/* PC-rel. addressing
- *   31  30   29 28       24 23                5 4    0
- * +----+-------+-----------+-------------------+------+
- * | op | immlo | 1 0 0 0 0 |       immhi       |  Rd  |
- * +----+-------+-----------+-------------------+------+
+/*
+ * PC-rel. addressing
  */
-static void disas_pc_rel_adr(DisasContext *s, uint32_t insn)
+
+static bool trans_ADR(DisasContext *s, arg_ri *a)
 {
-    unsigned int page, rd;
-    int64_t offset;
+    gen_pc_plus_diff(s, cpu_reg(s, a->rd), a->imm);
+    return true;
+}
 
-    page = extract32(insn, 31, 1);
-    /* SignExtend(immhi:immlo) -> offset */
-    offset = sextract64(insn, 5, 19);
-    offset = offset << 2 | extract32(insn, 29, 2);
-    rd = extract32(insn, 0, 5);
+static bool trans_ADRP(DisasContext *s, arg_ri *a)
+{
+    int64_t offset = (int64_t)a->imm << 12;
 
-    if (page) {
-        /* ADRP (page based) */
-        offset <<= 12;
-        /* The page offset is ok for CF_PCREL. */
-        offset -= s->pc_curr & 0xfff;
-    }
-
-    gen_pc_plus_diff(s, cpu_reg(s, rd), offset);
+    /* The page offset is ok for CF_PCREL. */
+    offset -= s->pc_curr & 0xfff;
+    gen_pc_plus_diff(s, cpu_reg(s, a->rd), offset);
+    return true;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
 static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 23, 6)) {
-    case 0x20: case 0x21: /* PC-rel. addressing */
-        disas_pc_rel_adr(s, insn);
-        break;
     case 0x22: /* Add/subtract (immediate) */
         disas_add_sub_imm(s, insn);
         break;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Split out specific 32-bit and 64-bit functions.
These carry the same signature as tcg_gen_add_i64,
and so will be easier to pass as callbacks.

Retain gen_add_CC and gen_sub_CC during conversion.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-6-peter.maydell@linaro.org
[PMM: rebased]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 149 +++++++++++++++++++--------------
 1 file changed, 84 insertions(+), 65 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static inline void gen_logic_CC(int sf, TCGv_i64 result)
 }
 
 /* dest = T0 + T1; compute C, N, V and Z flags */
+static void gen_add64_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+{
+    TCGv_i64 result, flag, tmp;
+    result = tcg_temp_new_i64();
+    flag = tcg_temp_new_i64();
+    tmp = tcg_temp_new_i64();
+
+    tcg_gen_movi_i64(tmp, 0);
+    tcg_gen_add2_i64(result, flag, t0, tmp, t1, tmp);
+
+    tcg_gen_extrl_i64_i32(cpu_CF, flag);
+
+    gen_set_NZ64(result);
+
+    tcg_gen_xor_i64(flag, result, t0);
+    tcg_gen_xor_i64(tmp, t0, t1);
+    tcg_gen_andc_i64(flag, flag, tmp);
+    tcg_gen_extrh_i64_i32(cpu_VF, flag);
+
+    tcg_gen_mov_i64(dest, result);
+}
+
+static void gen_add32_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+{
+    TCGv_i32 t0_32 = tcg_temp_new_i32();
+    TCGv_i32 t1_32 = tcg_temp_new_i32();
+    TCGv_i32 tmp = tcg_temp_new_i32();
+
+    tcg_gen_movi_i32(tmp, 0);
+    tcg_gen_extrl_i64_i32(t0_32, t0);
+    tcg_gen_extrl_i64_i32(t1_32, t1);
+    tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, t1_32, tmp);
+    tcg_gen_mov_i32(cpu_ZF, cpu_NF);
+    tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
+    tcg_gen_xor_i32(tmp, t0_32, t1_32);
+    tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
+    tcg_gen_extu_i32_i64(dest, cpu_NF);
+}
+
 static void gen_add_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 {
     if (sf) {
-        TCGv_i64 result, flag, tmp;
-        result = tcg_temp_new_i64();
-        flag = tcg_temp_new_i64();
-        tmp = tcg_temp_new_i64();
-
-        tcg_gen_movi_i64(tmp, 0);
-        tcg_gen_add2_i64(result, flag, t0, tmp, t1, tmp);
-
-        tcg_gen_extrl_i64_i32(cpu_CF, flag);
-
-        gen_set_NZ64(result);
-
-        tcg_gen_xor_i64(flag, result, t0);
-        tcg_gen_xor_i64(tmp, t0, t1);
-        tcg_gen_andc_i64(flag, flag, tmp);
-        tcg_gen_extrh_i64_i32(cpu_VF, flag);
-
-        tcg_gen_mov_i64(dest, result);
+        gen_add64_CC(dest, t0, t1);
     } else {
-        /* 32 bit arithmetic */
-        TCGv_i32 t0_32 = tcg_temp_new_i32();
-        TCGv_i32 t1_32 = tcg_temp_new_i32();
-        TCGv_i32 tmp = tcg_temp_new_i32();
-
-        tcg_gen_movi_i32(tmp, 0);
-        tcg_gen_extrl_i64_i32(t0_32, t0);
-        tcg_gen_extrl_i64_i32(t1_32, t1);
-        tcg_gen_add2_i32(cpu_NF, cpu_CF, t0_32, tmp, t1_32, tmp);
-        tcg_gen_mov_i32(cpu_ZF, cpu_NF);
-        tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
-        tcg_gen_xor_i32(tmp, t0_32, t1_32);
-        tcg_gen_andc_i32(cpu_VF, cpu_VF, tmp);
-        tcg_gen_extu_i32_i64(dest, cpu_NF);
+        gen_add32_CC(dest, t0, t1);
     }
 }
 
 /* dest = T0 - T1; compute C, N, V and Z flags */
+static void gen_sub64_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+{
+    /* 64 bit arithmetic */
+    TCGv_i64 result, flag, tmp;
+
+    result = tcg_temp_new_i64();
+    flag = tcg_temp_new_i64();
+    tcg_gen_sub_i64(result, t0, t1);
+
+    gen_set_NZ64(result);
+
+    tcg_gen_setcond_i64(TCG_COND_GEU, flag, t0, t1);
+    tcg_gen_extrl_i64_i32(cpu_CF, flag);
+
+    tcg_gen_xor_i64(flag, result, t0);
+    tmp = tcg_temp_new_i64();
+    tcg_gen_xor_i64(tmp, t0, t1);
+    tcg_gen_and_i64(flag, flag, tmp);
+    tcg_gen_extrh_i64_i32(cpu_VF, flag);
+    tcg_gen_mov_i64(dest, result);
+}
+
+static void gen_sub32_CC(TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
+{
+    /* 32 bit arithmetic */
+    TCGv_i32 t0_32 = tcg_temp_new_i32();
+    TCGv_i32 t1_32 = tcg_temp_new_i32();
+    TCGv_i32 tmp;
+
+    tcg_gen_extrl_i64_i32(t0_32, t0);
+    tcg_gen_extrl_i64_i32(t1_32, t1);
+    tcg_gen_sub_i32(cpu_NF, t0_32, t1_32);
+    tcg_gen_mov_i32(cpu_ZF, cpu_NF);
+    tcg_gen_setcond_i32(TCG_COND_GEU, cpu_CF, t0_32, t1_32);
+    tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
+    tmp = tcg_temp_new_i32();
+    tcg_gen_xor_i32(tmp, t0_32, t1_32);
+    tcg_gen_and_i32(cpu_VF, cpu_VF, tmp);
+    tcg_gen_extu_i32_i64(dest, cpu_NF);
+}
+
 static void gen_sub_CC(int sf, TCGv_i64 dest, TCGv_i64 t0, TCGv_i64 t1)
 {
     if (sf) {
-        /* 64 bit arithmetic */
-        TCGv_i64 result, flag, tmp;
-
-        result = tcg_temp_new_i64();
-        flag = tcg_temp_new_i64();
-        tcg_gen_sub_i64(result, t0, t1);
-
-        gen_set_NZ64(result);
-
-        tcg_gen_setcond_i64(TCG_COND_GEU, flag, t0, t1);
-        tcg_gen_extrl_i64_i32(cpu_CF, flag);
-
-        tcg_gen_xor_i64(flag, result, t0);
-        tmp = tcg_temp_new_i64();
-        tcg_gen_xor_i64(tmp, t0, t1);
-        tcg_gen_and_i64(flag, flag, tmp);
-        tcg_gen_extrh_i64_i32(cpu_VF, flag);
-        tcg_gen_mov_i64(dest, result);
+        gen_sub64_CC(dest, t0, t1);
     } else {
-        /* 32 bit arithmetic */
-        TCGv_i32 t0_32 = tcg_temp_new_i32();
-        TCGv_i32 t1_32 = tcg_temp_new_i32();
-        TCGv_i32 tmp;
-
-        tcg_gen_extrl_i64_i32(t0_32, t0);
-        tcg_gen_extrl_i64_i32(t1_32, t1);
-        tcg_gen_sub_i32(cpu_NF, t0_32, t1_32);
-        tcg_gen_mov_i32(cpu_ZF, cpu_NF);
-        tcg_gen_setcond_i32(TCG_COND_GEU, cpu_CF, t0_32, t1_32);
-        tcg_gen_xor_i32(cpu_VF, cpu_NF, t0_32);
-        tmp = tcg_temp_new_i32();
-        tcg_gen_xor_i32(tmp, t0_32, t1_32);
-        tcg_gen_and_i32(cpu_VF, cpu_VF, tmp);
-        tcg_gen_extu_i32_i64(dest, cpu_NF);
+        gen_sub32_CC(dest, t0, t1);
     }
 }
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert the ADD and SUB (immediate) instructions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-7-peter.maydell@linaro.org
[PMM: Rebased; adjusted to use translate.h's TRANS macro]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate.h     |  5 +++
 target/arm/tcg/a64.decode      | 17 ++++++++
 target/arm/tcg/translate-a64.c | 73 ++++++++++------------------------
 3 files changed, 42 insertions(+), 53 deletions(-)

diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int rsub_8(DisasContext *s, int x)
     return 8 - x;
 }
 
+static inline int shl_12(DisasContext *s, int x)
+{
+    return x << 12;
+}
+
 static inline int neon_3same_fp_size(DisasContext *s, int x)
 {
     /* Convert 0==fp32, 1==fp16 into a MO_* value */
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 #
 
 &ri              rd imm
+&rri_sf          rd rn imm sf
 
 
 ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@
 
 ADR             0 .. 10000 ................... .....    @pcrel
 ADRP            1 .. 10000 ................... .....    @pcrel
+
+# Add/subtract (immediate)
+
+%imm12_sh12     10:12 !function=shl_12
+@addsub_imm     sf:1 .. ...... . imm:12 rn:5 rd:5
+@addsub_imm12   sf:1 .. ...... . ............ rn:5 rd:5 imm=%imm12_sh12
+
+ADD_i           . 00 100010 0 ............ ..... .....  @addsub_imm
+ADD_i           . 00 100010 1 ............ ..... .....  @addsub_imm12
+ADDS_i          . 01 100010 0 ............ ..... .....  @addsub_imm
+ADDS_i          . 01 100010 1 ............ ..... .....  @addsub_imm12
+
+SUB_i           . 10 100010 0 ............ ..... .....  @addsub_imm
+SUB_i           . 10 100010 1 ............ ..... .....  @addsub_imm12
+SUBS_i          . 11 100010 0 ............ ..... .....  @addsub_imm
+SUBS_i          . 11 100010 1 ............ ..... .....  @addsub_imm12
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_ldst(DisasContext *s, uint32_t insn)
     }
 }
 
+typedef void ArithTwoOp(TCGv_i64, TCGv_i64, TCGv_i64);
+
+static bool gen_rri(DisasContext *s, arg_rri_sf *a,
+                    bool rd_sp, bool rn_sp, ArithTwoOp *fn)
+{
+    TCGv_i64 tcg_rn = rn_sp ? cpu_reg_sp(s, a->rn) : cpu_reg(s, a->rn);
+    TCGv_i64 tcg_rd = rd_sp ? cpu_reg_sp(s, a->rd) : cpu_reg(s, a->rd);
+    TCGv_i64 tcg_imm = tcg_constant_i64(a->imm);
+
+    fn(tcg_rd, tcg_rn, tcg_imm);
+    if (!a->sf) {
+        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+    }
+    return true;
+}
+
 /*
  * PC-rel. addressing
  */
@@ -XXX,XX +XXX,XX @@ static bool trans_ADRP(DisasContext *s, arg_ri *a)
 
 /*
  * Add/subtract (immediate)
- *
- *  31 30 29 28         23 22 21         10 9   5 4   0
- * +--+--+--+-------------+--+-------------+-----+-----+
- * |sf|op| S| 1 0 0 0 1 0 |sh|    imm12    |  Rn | Rd  |
- * +--+--+--+-------------+--+-------------+-----+-----+
- *
- *    sf: 0 -> 32bit, 1 -> 64bit
- *    op: 0 -> add  , 1 -> sub
- *     S: 1 -> set flags
- *    sh: 1 -> LSL imm by 12
  */
-static void disas_add_sub_imm(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    uint64_t imm = extract32(insn, 10, 12);
-    bool shift = extract32(insn, 22, 1);
-    bool setflags = extract32(insn, 29, 1);
-    bool sub_op = extract32(insn, 30, 1);
-    bool is_64bit = extract32(insn, 31, 1);
-
-    TCGv_i64 tcg_rn = cpu_reg_sp(s, rn);
-    TCGv_i64 tcg_rd = setflags ? cpu_reg(s, rd) : cpu_reg_sp(s, rd);
-    TCGv_i64 tcg_result;
-
-    if (shift) {
-        imm <<= 12;
-    }
-
-    tcg_result = tcg_temp_new_i64();
-    if (!setflags) {
-        if (sub_op) {
-            tcg_gen_subi_i64(tcg_result, tcg_rn, imm);
-        } else {
-            tcg_gen_addi_i64(tcg_result, tcg_rn, imm);
-        }
-    } else {
-        TCGv_i64 tcg_imm = tcg_constant_i64(imm);
-        if (sub_op) {
-            gen_sub_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
-        } else {
-            gen_add_CC(is_64bit, tcg_result, tcg_rn, tcg_imm);
-        }
-    }
-
-    if (is_64bit) {
-        tcg_gen_mov_i64(tcg_rd, tcg_result);
-    } else {
-        tcg_gen_ext32u_i64(tcg_rd, tcg_result);
-    }
-}
+TRANS(ADD_i, gen_rri, a, 1, 1, tcg_gen_add_i64)
+TRANS(SUB_i, gen_rri, a, 1, 1, tcg_gen_sub_i64)
+TRANS(ADDS_i, gen_rri, a, 0, 1, a->sf ? gen_add64_CC : gen_add32_CC)
+TRANS(SUBS_i, gen_rri, a, 0, 1, a->sf ? gen_sub64_CC : gen_sub32_CC)
 
 /*
  * Add/subtract (immediate, with tags)
@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
 static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 23, 6)) {
-    case 0x22: /* Add/subtract (immediate) */
-        disas_add_sub_imm(s, insn);
-        break;
     case 0x23: /* Add/subtract (immediate, with tags) */
         disas_add_sub_imm_with_tags(s, insn);
         break;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert the ADDG and SUBG (immediate) instructions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-8-peter.maydell@linaro.org
[PMM: Rebased; use TRANS_FEAT()]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  8 +++++++
 target/arm/tcg/translate-a64.c | 38 ++++++++++------------------------
 2 files changed, 19 insertions(+), 27 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ SUB_i           . 10 100010 0 ............ ..... .....  @addsub_imm
 SUB_i           . 10 100010 1 ............ ..... .....  @addsub_imm12
 SUBS_i          . 11 100010 0 ............ ..... .....  @addsub_imm
 SUBS_i          . 11 100010 1 ............ ..... .....  @addsub_imm12
+
+# Add/subtract (immediate with tags)
+
+&rri_tag        rd rn uimm6 uimm4
+@addsub_imm_tag . .. ...... . uimm6:6 .. uimm4:4 rn:5 rd:5 &rri_tag
+
+ADDG_i          1 00 100011 0 ...... 00 .... ..... ..... @addsub_imm_tag
+SUBG_i          1 10 100011 0 ...... 00 .... ..... ..... @addsub_imm_tag
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(SUBS_i, gen_rri, a, 0, 1, a->sf ? gen_sub64_CC : gen_sub32_CC)
 
 /*
  * Add/subtract (immediate, with tags)
- *
- *  31 30 29 28         23 22 21     16 14      10 9   5 4   0
- * +--+--+--+-------------+--+---------+--+-------+-----+-----+
- * |sf|op| S| 1 0 0 0 1 1 |o2|  uimm6  |o3| uimm4 |  Rn | Rd  |
- * +--+--+--+-------------+--+---------+--+-------+-----+-----+
- *
- *    op: 0 -> add, 1 -> sub
  */
-static void disas_add_sub_imm_with_tags(DisasContext *s, uint32_t insn)
+
+static bool gen_add_sub_imm_with_tags(DisasContext *s, arg_rri_tag *a,
+                                      bool sub_op)
 {
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int uimm4 = extract32(insn, 10, 4);
-    int uimm6 = extract32(insn, 16, 6);
-    bool sub_op = extract32(insn, 30, 1);
     TCGv_i64 tcg_rn, tcg_rd;
     int imm;
 
-    /* Test all of sf=1, S=0, o2=0, o3=0.  */
-    if ((insn & 0xa040c000u) != 0x80000000u ||
-        !dc_isar_feature(aa64_mte_insn_reg, s)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    imm = uimm6 << LOG2_TAG_GRANULE;
+    imm = a->uimm6 << LOG2_TAG_GRANULE;
     if (sub_op) {
         imm = -imm;
     }
 
-    tcg_rn = cpu_reg_sp(s, rn);
-    tcg_rd = cpu_reg_sp(s, rd);
+    tcg_rn = cpu_reg_sp(s, a->rn);
+    tcg_rd = cpu_reg_sp(s, a->rd);
 
     if (s->ata) {
         gen_helper_addsubg(tcg_rd, cpu_env, tcg_rn,
                            tcg_constant_i32(imm),
-                           tcg_constant_i32(uimm4));
+                           tcg_constant_i32(a->uimm4));
     } else {
         tcg_gen_addi_i64(tcg_rd, tcg_rn, imm);
         gen_address_with_allocation_tag0(tcg_rd, tcg_rd);
     }
+    return true;
 }
 
+TRANS_FEAT(ADDG_i, aa64_mte_insn_reg, gen_add_sub_imm_with_tags, a, false)
+TRANS_FEAT(SUBG_i, aa64_mte_insn_reg, gen_add_sub_imm_with_tags, a, true)
+
 /* The input should be a value in the bottom e bits (with higher
  * bits zero); returns that value replicated into every element
  * of size e in a 64 bit integer.
@@ -XXX,XX +XXX,XX @@ static void disas_extract(DisasContext *s, uint32_t insn)
 static void disas_data_proc_imm(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 23, 6)) {
-    case 0x23: /* Add/subtract (immediate, with tags) */
-        disas_add_sub_imm_with_tags(s, insn);
-        break;
     case 0x24: /* Logical (immediate) */
         disas_logic_imm(s, insn);
         break;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Use the bitops.h macro rather than rolling our own here.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-9-peter.maydell@linaro.org
---
 target/arm/tcg/translate-a64.c | 11 ++---------
 1 file changed, 2 insertions(+), 9 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static uint64_t bitfield_replicate(uint64_t mask, unsigned int e)
     return mask;
 }
 
-/* Return a value with the bottom len bits set (where 0 < len <= 64) */
-static inline uint64_t bitmask64(unsigned int length)
-{
-    assert(length > 0 && length <= 64);
-    return ~0ULL >> (64 - length);
-}
-
 /* Simplified variant of pseudocode DecodeBitMasks() for the case where we
  * only require the wmask. Returns false if the imms/immr/immn are a reserved
  * value (ie should cause a guest UNDEF exception), and true if they are
@@ -XXX,XX +XXX,XX @@ bool logic_imm_decode_wmask(uint64_t *result, unsigned int immn,
     /* Create the value of one element: s+1 set bits rotated
      * by r within the element (which is e bits wide)...
      */
-    mask = bitmask64(s + 1);
+    mask = MAKE_64BIT_MASK(0, s + 1);
     if (r) {
         mask = (mask >> r) | (mask << (e - r));
-        mask &= bitmask64(e);
+        mask &= MAKE_64BIT_MASK(0, e);
     }
     /* ...then replicate the element over the whole 64 bit value */
     mask = bitfield_replicate(mask, e);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert the ADD, ORR, EOR, ANDS (immediate) instructions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-10-peter.maydell@linaro.org
[PMM: rebased]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 15 ++++++
 target/arm/tcg/translate-a64.c | 94 +++++++++++-----------------------
 2 files changed, 44 insertions(+), 65 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Convert the MON, MOVZ, MOVK instructions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-11-peter.maydell@linaro.org
[PMM: Rebased]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 13 ++++++
 target/arm/tcg/translate-a64.c | 73 ++++++++++++++--------------------
 2 files changed, 42 insertions(+), 44 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Convert the BFM, SBFM, UBFM instructions.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20230512144106.3608981-12-peter.maydell@linaro.org
[PMM: Rebased]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  13 +++
 target/arm/tcg/translate-a64.c | 144 ++++++++++++++++++---------------
 2 files changed, 94 insertions(+), 63 deletions(-)

Convert the EXTR instruction to decodetree (this is the
only one in the 'Extract" class). This is the last of
the dp-immediate insns in the legacy decoder, so we
can now remove disas_data_proc_imm().

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-13-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |  7 +++
 target/arm/tcg/translate-a64.c | 94 +++++++++++-----------------------
 2 files changed, 36 insertions(+), 65 deletions(-)

Convert the unconditional branch immediate insns B and BL to
decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-14-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |  9 +++++++++
 target/arm/tcg/translate-a64.c | 31 +++++++++++--------------------
 2 files changed, 20 insertions(+), 20 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 &ri              rd imm
 &rri_sf          rd rn imm sf
+&i               imm
 
 
 ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ UBFM            . 10 100110 . ...... ...... ..... ..... @bitfield_32
 
 EXTR            1 00 100111 1 0 rm:5 imm:6 rn:5 rd:5     &extract sf=1
 EXTR            0 00 100111 0 0 rm:5 0 imm:5 rn:5 rd:5   &extract sf=0
+
+# Branches
+
+%imm26   0:s26 !function=times_4
+@branch         . ..... .......................... &i imm=%imm26
+
+B               0 00101 .......................... @branch
+BL              1 00101 .......................... @branch
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static inline AArch64DecodeFn *lookup_disas_fn(const AArch64DecodeTable *table,
  * match up with those in the manual.
  */
 
-/* Unconditional branch (immediate)
- *   31  30       26 25                                  0
- * +----+-----------+-------------------------------------+
- * | op | 0 0 1 0 1 |                 imm26               |
- * +----+-----------+-------------------------------------+
- */
-static void disas_uncond_b_imm(DisasContext *s, uint32_t insn)
+static bool trans_B(DisasContext *s, arg_i *a)
 {
-    int64_t diff = sextract32(insn, 0, 26) * 4;
-
-    if (insn & (1U << 31)) {
-        /* BL Branch with link */
-        gen_pc_plus_diff(s, cpu_reg(s, 30), curr_insn_len(s));
-    }
-
-    /* B Branch / BL Branch with link */
     reset_btype(s);
-    gen_goto_tb(s, 0, diff);
+    gen_goto_tb(s, 0, a->imm);
+    return true;
+}
+
+static bool trans_BL(DisasContext *s, arg_i *a)
+{
+    gen_pc_plus_diff(s, cpu_reg(s, 30), curr_insn_len(s));
+    reset_btype(s);
+    gen_goto_tb(s, 0, a->imm);
+    return true;
 }
 
 /* Compare and branch (immediate)
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 25, 7)) {
-    case 0x0a: case 0x0b:
-    case 0x4a: case 0x4b: /* Unconditional branch (immediate) */
-        disas_uncond_b_imm(s, insn);
-        break;
     case 0x1a: case 0x5a: /* Compare & branch (immediate) */
         disas_comp_b_imm(s, insn);
         break;
-- 
2.34.1

Convert the compare-and-branch-immediate insns CBZ and CBNZ
to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-15-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |  5 +++++
 target/arm/tcg/translate-a64.c | 26 ++++++--------------------
 2 files changed, 11 insertions(+), 20 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ EXTR            0 00 100111 0 0 rm:5 0 imm:5 rn:5 rd:5   &extract sf=0
 
 B               0 00101 .......................... @branch
 BL              1 00101 .......................... @branch
+
+%imm19   5:s19 !function=times_4
+&cbz     rt imm sf nz
+
+CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_BL(DisasContext *s, arg_i *a)
     return true;
 }
 
-/* Compare and branch (immediate)
- *   31  30         25  24  23                  5 4      0
- * +----+-------------+----+---------------------+--------+
- * | sf | 0 1 1 0 1 0 | op |         imm19       |   Rt   |
- * +----+-------------+----+---------------------+--------+
- */
-static void disas_comp_b_imm(DisasContext *s, uint32_t insn)
+
+static bool trans_CBZ(DisasContext *s, arg_cbz *a)
 {
-    unsigned int sf, op, rt;
-    int64_t diff;
     DisasLabel match;
     TCGv_i64 tcg_cmp;
 
-    sf = extract32(insn, 31, 1);
-    op = extract32(insn, 24, 1); /* 0: CBZ; 1: CBNZ */
-    rt = extract32(insn, 0, 5);
-    diff = sextract32(insn, 5, 19) * 4;
-
-    tcg_cmp = read_cpu_reg(s, rt, sf);
+    tcg_cmp = read_cpu_reg(s, a->rt, a->sf);
     reset_btype(s);
 
     match = gen_disas_label(s);
-    tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
+    tcg_gen_brcondi_i64(a->nz ? TCG_COND_NE : TCG_COND_EQ,
                         tcg_cmp, 0, match.label);
     gen_goto_tb(s, 0, 4);
     set_disas_label(s, match);
-    gen_goto_tb(s, 1, diff);
+    gen_goto_tb(s, 1, a->imm);
+    return true;
 }
 
 /* Test and branch (immediate)
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 25, 7)) {
-    case 0x1a: case 0x5a: /* Compare & branch (immediate) */
-        disas_comp_b_imm(s, insn);
-        break;
     case 0x1b: case 0x5b: /* Test & branch (immediate) */
         disas_test_b_imm(s, insn);
         break;
-- 
2.34.1

Convert the test-and-branch-immediate insns TBZ and TBNZ
to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-16-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |  6 ++++++
 target/arm/tcg/translate-a64.c | 25 +++++--------------------
 2 files changed, 11 insertions(+), 20 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ BL              1 00101 .......................... @branch
 &cbz     rt imm sf nz
 
 CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
+
+%imm14     5:s14 !function=times_4
+%imm31_19  31:1 19:5
+&tbz       rt imm nz bitpos
+
+TBZ             . 011011 nz:1 ..... .............. rt:5 &tbz  imm=%imm14 bitpos=%imm31_19
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_CBZ(DisasContext *s, arg_cbz *a)
     return true;
 }
 
-/* Test and branch (immediate)
- *   31  30         25  24  23   19 18          5 4    0
- * +----+-------------+----+-------+-------------+------+
- * | b5 | 0 1 1 0 1 1 | op |  b40  |    imm14    |  Rt  |
- * +----+-------------+----+-------+-------------+------+
- */
-static void disas_test_b_imm(DisasContext *s, uint32_t insn)
+static bool trans_TBZ(DisasContext *s, arg_tbz *a)
 {
-    unsigned int bit_pos, op, rt;
-    int64_t diff;
     DisasLabel match;
     TCGv_i64 tcg_cmp;
 
-    bit_pos = (extract32(insn, 31, 1) << 5) | extract32(insn, 19, 5);
-    op = extract32(insn, 24, 1); /* 0: TBZ; 1: TBNZ */
-    diff = sextract32(insn, 5, 14) * 4;
-    rt = extract32(insn, 0, 5);
-
     tcg_cmp = tcg_temp_new_i64();
-    tcg_gen_andi_i64(tcg_cmp, cpu_reg(s, rt), (1ULL << bit_pos));
+    tcg_gen_andi_i64(tcg_cmp, cpu_reg(s, a->rt), 1ULL << a->bitpos);
 
     reset_btype(s);
 
     match = gen_disas_label(s);
-    tcg_gen_brcondi_i64(op ? TCG_COND_NE : TCG_COND_EQ,
+    tcg_gen_brcondi_i64(a->nz ? TCG_COND_NE : TCG_COND_EQ,
                         tcg_cmp, 0, match.label);
     gen_goto_tb(s, 0, 4);
     set_disas_label(s, match);
-    gen_goto_tb(s, 1, diff);
+    gen_goto_tb(s, 1, a->imm);
+    return true;
 }
 
 /* Conditional branch (immediate)
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 25, 7)) {
-    case 0x1b: case 0x5b: /* Test & branch (immediate) */
-        disas_test_b_imm(s, insn);
-        break;
     case 0x2a: /* Conditional branch (immediate) */
         disas_cond_b_imm(s, insn);
         break;
-- 
2.34.1

Convert the immediate conditional branch insn B.cond to
decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-17-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |  2 ++
 target/arm/tcg/translate-a64.c | 30 ++++++------------------------
 2 files changed, 8 insertions(+), 24 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
 &tbz       rt imm nz bitpos
 
 TBZ             . 011011 nz:1 ..... .............. rt:5 &tbz  imm=%imm14 bitpos=%imm31_19
+
+B_cond          0101010 0 ................... 0 cond:4 imm=%imm19
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_TBZ(DisasContext *s, arg_tbz *a)
     return true;
 }
 
-/* Conditional branch (immediate)
- *  31           25  24  23                  5   4  3    0
- * +---------------+----+---------------------+----+------+
- * | 0 1 0 1 0 1 0 | o1 |         imm19       | o0 | cond |
- * +---------------+----+---------------------+----+------+
- */
-static void disas_cond_b_imm(DisasContext *s, uint32_t insn)
+static bool trans_B_cond(DisasContext *s, arg_B_cond *a)
 {
-    unsigned int cond;
-    int64_t diff;
-
-    if ((insn & (1 << 4)) || (insn & (1 << 24))) {
-        unallocated_encoding(s);
-        return;
-    }
-    diff = sextract32(insn, 5, 19) * 4;
-    cond = extract32(insn, 0, 4);
-
     reset_btype(s);
-    if (cond < 0x0e) {
+    if (a->cond < 0x0e) {
         /* genuinely conditional branches */
         DisasLabel match = gen_disas_label(s);
-        arm_gen_test_cc(cond, match.label);
+        arm_gen_test_cc(a->cond, match.label);
         gen_goto_tb(s, 0, 4);
         set_disas_label(s, match);
-        gen_goto_tb(s, 1, diff);
+        gen_goto_tb(s, 1, a->imm);
     } else {
         /* 0xe and 0xf are both "always" conditions */
-        gen_goto_tb(s, 0, diff);
+        gen_goto_tb(s, 0, a->imm);
     }
+    return true;
 }
 
 /* HINT instruction group, including various allocated HINTs */
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
 {
     switch (extract32(insn, 25, 7)) {
-    case 0x2a: /* Conditional branch (immediate) */
-        disas_cond_b_imm(s, insn);
-        break;
     case 0x6a: /* Exception generation / System */
         if (insn & (1 << 24)) {
             if (extract32(insn, 22, 2) == 0) {
-- 
2.34.1

Convert the simple (non-pointer-auth) BR, BLR and RET insns
to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-18-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |  5 ++++
 target/arm/tcg/translate-a64.c | 55 ++++++++++++++++++++++++++++++----
 2 files changed, 54 insertions(+), 6 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 # This file is processed by scripts/decodetree.py
 #
 
+&r               rn
 &ri              rd imm
 &rri_sf          rd rn imm sf
 &i               imm
@@ -XXX,XX +XXX,XX @@ CBZ             sf:1 011010 nz:1 ................... rt:5 &cbz imm=%imm19
 TBZ             . 011011 nz:1 ..... .............. rt:5 &tbz  imm=%imm14 bitpos=%imm31_19
 
 B_cond          0101010 0 ................... 0 cond:4 imm=%imm19
+
+BR              1101011 0000 11111 000000 rn:5 00000 &r
+BLR             1101011 0001 11111 000000 rn:5 00000 &r
+RET             1101011 0010 11111 000000 rn:5 00000 &r
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_B_cond(DisasContext *s, arg_B_cond *a)
     return true;
 }
 
+static void set_btype_for_br(DisasContext *s, int rn)
+{
+    if (dc_isar_feature(aa64_bti, s)) {
+        /* BR to {x16,x17} or !guard -> 1, else 3.  */
+        set_btype(s, rn == 16 || rn == 17 || !s->guarded_page ? 1 : 3);
+    }
+}
+
+static void set_btype_for_blr(DisasContext *s)
+{
+    if (dc_isar_feature(aa64_bti, s)) {
+        /* BLR sets BTYPE to 2, regardless of source guarded page.  */
+        set_btype(s, 2);
+    }
+}
+
+static bool trans_BR(DisasContext *s, arg_r *a)
+{
+    gen_a64_set_pc(s, cpu_reg(s, a->rn));
+    set_btype_for_br(s, a->rn);
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
+static bool trans_BLR(DisasContext *s, arg_r *a)
+{
+    TCGv_i64 dst = cpu_reg(s, a->rn);
+    TCGv_i64 lr = cpu_reg(s, 30);
+    if (dst == lr) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        tcg_gen_mov_i64(tmp, dst);
+        dst = tmp;
+    }
+    gen_pc_plus_diff(s, lr, curr_insn_len(s));
+    gen_a64_set_pc(s, dst);
+    set_btype_for_blr(s);
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
+static bool trans_RET(DisasContext *s, arg_r *a)
+{
+    gen_a64_set_pc(s, cpu_reg(s, a->rn));
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
 /* HINT instruction group, including various allocated HINTs */
 static void handle_hint(DisasContext *s, uint32_t insn,
                         unsigned int op1, unsigned int op2, unsigned int crm)
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
         btype_mod = opc;
         switch (op3) {
         case 0:
-            /* BR, BLR, RET */
-            if (op4 != 0) {
-                goto do_unallocated;
-            }
-            dst = cpu_reg(s, rn);
-            break;
+            /* BR, BLR, RET : handled in decodetree */
+            goto do_unallocated;
 
         case 2:
         case 3:
-- 
2.34.1

Convert the single-register pointer-authentication variants of BR,
BLR, RET to decodetree. (BRAA/BLRAA are in a different branch of
the legacy decoder and will be dealt with in the next commit.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-19-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |   7 ++
 target/arm/tcg/translate-a64.c | 132 +++++++++++++++++++--------------
 2 files changed, 84 insertions(+), 55 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ B_cond          0101010 0 ................... 0 cond:4 imm=%imm19
 BR              1101011 0000 11111 000000 rn:5 00000 &r
 BLR             1101011 0001 11111 000000 rn:5 00000 &r
 RET             1101011 0010 11111 000000 rn:5 00000 &r
+
+&braz       rn m
+BRAZ            1101011 0000 11111 00001 m:1 rn:5 11111 &braz   # BRAAZ, BRABZ
+BLRAZ           1101011 0001 11111 00001 m:1 rn:5 11111 &braz   # BLRAAZ, BLRABZ
+
+&reta       m
+RETA            1101011 0010 11111 00001 m:1 11111 11111 &reta  # RETAA, RETAB
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_RET(DisasContext *s, arg_r *a)
     return true;
 }
 
+static TCGv_i64 auth_branch_target(DisasContext *s, TCGv_i64 dst,
+                                   TCGv_i64 modifier, bool use_key_a)
+{
+    TCGv_i64 truedst;
+    /*
+     * Return the branch target for a BRAA/RETA/etc, which is either
+     * just the destination dst, or that value with the pauth check
+     * done and the code removed from the high bits.
+     */
+    if (!s->pauth_active) {
+        return dst;
+    }
+
+    truedst = tcg_temp_new_i64();
+    if (use_key_a) {
+        gen_helper_autia(truedst, cpu_env, dst, modifier);
+    } else {
+        gen_helper_autib(truedst, cpu_env, dst, modifier);
+    }
+    return truedst;
+}
+
+static bool trans_BRAZ(DisasContext *s, arg_braz *a)
+{
+    TCGv_i64 dst;
+
+    if (!dc_isar_feature(aa64_pauth, s)) {
+        return false;
+    }
+
+    dst = auth_branch_target(s, cpu_reg(s, a->rn), tcg_constant_i64(0), !a->m);
+    gen_a64_set_pc(s, dst);
+    set_btype_for_br(s, a->rn);
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
+static bool trans_BLRAZ(DisasContext *s, arg_braz *a)
+{
+    TCGv_i64 dst, lr;
+
+    if (!dc_isar_feature(aa64_pauth, s)) {
+        return false;
+    }
+
+    dst = auth_branch_target(s, cpu_reg(s, a->rn), tcg_constant_i64(0), !a->m);
+    lr = cpu_reg(s, 30);
+    if (dst == lr) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        tcg_gen_mov_i64(tmp, dst);
+        dst = tmp;
+    }
+    gen_pc_plus_diff(s, lr, curr_insn_len(s));
+    gen_a64_set_pc(s, dst);
+    set_btype_for_blr(s);
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
+static bool trans_RETA(DisasContext *s, arg_reta *a)
+{
+    TCGv_i64 dst;
+
+    dst = auth_branch_target(s, cpu_reg(s, 30), cpu_X[31], !a->m);
+    gen_a64_set_pc(s, dst);
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
 /* HINT instruction group, including various allocated HINTs */
 static void handle_hint(DisasContext *s, uint32_t insn,
                         unsigned int op1, unsigned int op2, unsigned int crm)
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
     }
 
     switch (opc) {
-    case 0: /* BR */
-    case 1: /* BLR */
-    case 2: /* RET */
-        btype_mod = opc;
-        switch (op3) {
-        case 0:
-            /* BR, BLR, RET : handled in decodetree */
-            goto do_unallocated;
-
-        case 2:
-        case 3:
-            if (!dc_isar_feature(aa64_pauth, s)) {
-                goto do_unallocated;
-            }
-            if (opc == 2) {
-                /* RETAA, RETAB */
-                if (rn != 0x1f || op4 != 0x1f) {
-                    goto do_unallocated;
-                }
-                rn = 30;
-                modifier = cpu_X[31];
-            } else {
-                /* BRAAZ, BRABZ, BLRAAZ, BLRABZ */
-                if (op4 != 0x1f) {
-                    goto do_unallocated;
-                }
-                modifier = tcg_constant_i64(0);
-            }
-            if (s->pauth_active) {
-                dst = tcg_temp_new_i64();
-                if (op3 == 2) {
-                    gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
-                } else {
-                    gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
-                }
-            } else {
-                dst = cpu_reg(s, rn);
-            }
-            break;
-
-        default:
-            goto do_unallocated;
-        }
-        /* BLR also needs to load return address */
-        if (opc == 1) {
-            TCGv_i64 lr = cpu_reg(s, 30);
-            if (dst == lr) {
-                TCGv_i64 tmp = tcg_temp_new_i64();
-                tcg_gen_mov_i64(tmp, dst);
-                dst = tmp;
-            }
-            gen_pc_plus_diff(s, lr, curr_insn_len(s));
-        }
-        gen_a64_set_pc(s, dst);
-        break;
+    case 0:
+    case 1:
+    case 2:
+        /*
+         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ:
+         * handled in decodetree
+         */
+        goto do_unallocated;
 
     case 8: /* BRAA */
     case 9: /* BLRAA */
-- 
2.34.1

Convert the last four BR-with-pointer-auth insns to decodetree.
The remaining cases in the outer switch in disas_uncond_b_reg()
all return early rather than leaving the case statement, so we
can delete the now-unused code at the end of that function.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-20-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |  4 ++
 target/arm/tcg/translate-a64.c | 97 ++++++++++++++--------------------
 2 files changed, 43 insertions(+), 58 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ BLRAZ           1101011 0001 11111 00001 m:1 rn:5 11111 &braz   # BLRAAZ, BLRABZ
 
 &reta       m
 RETA            1101011 0010 11111 00001 m:1 11111 11111 &reta  # RETAA, RETAB
+
+&bra        rn rm m
+BRA             1101011 1000 11111 00001 m:1 rn:5 rm:5 &bra # BRAA, BRAB
+BLRA            1101011 1001 11111 00001 m:1 rn:5 rm:5 &bra # BLRAA, BLRAB
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_RETA(DisasContext *s, arg_reta *a)
     return true;
 }
 
+static bool trans_BRA(DisasContext *s, arg_bra *a)
+{
+    TCGv_i64 dst;
+
+    if (!dc_isar_feature(aa64_pauth, s)) {
+        return false;
+    }
+    dst = auth_branch_target(s, cpu_reg(s,a->rn), cpu_reg_sp(s, a->rm), !a->m);
+    gen_a64_set_pc(s, dst);
+    set_btype_for_br(s, a->rn);
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
+static bool trans_BLRA(DisasContext *s, arg_bra *a)
+{
+    TCGv_i64 dst, lr;
+
+    if (!dc_isar_feature(aa64_pauth, s)) {
+        return false;
+    }
+    dst = auth_branch_target(s, cpu_reg(s, a->rn), cpu_reg_sp(s, a->rm), !a->m);
+    lr = cpu_reg(s, 30);
+    if (dst == lr) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        tcg_gen_mov_i64(tmp, dst);
+        dst = tmp;
+    }
+    gen_pc_plus_diff(s, lr, curr_insn_len(s));
+    gen_a64_set_pc(s, dst);
+    set_btype_for_blr(s);
+    s->base.is_jmp = DISAS_JUMP;
+    return true;
+}
+
 /* HINT instruction group, including various allocated HINTs */
 static void handle_hint(DisasContext *s, uint32_t insn,
                         unsigned int op1, unsigned int op2, unsigned int crm)
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
 static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
 {
     unsigned int opc, op2, op3, rn, op4;
-    unsigned btype_mod = 2;   /* 0: BR, 1: BLR, 2: other */
     TCGv_i64 dst;
     TCGv_i64 modifier;
 
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
     case 0:
     case 1:
     case 2:
+    case 8:
+    case 9:
         /*
-         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ:
-         * handled in decodetree
+         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ,
+         * BRAA, BLRAA: handled in decodetree
          */
         goto do_unallocated;
 
-    case 8: /* BRAA */
-    case 9: /* BLRAA */
-        if (!dc_isar_feature(aa64_pauth, s)) {
-            goto do_unallocated;
-        }
-        if ((op3 & ~1) != 2) {
-            goto do_unallocated;
-        }
-        btype_mod = opc & 1;
-        if (s->pauth_active) {
-            dst = tcg_temp_new_i64();
-            modifier = cpu_reg_sp(s, op4);
-            if (op3 == 2) {
-                gen_helper_autia(dst, cpu_env, cpu_reg(s, rn), modifier);
-            } else {
-                gen_helper_autib(dst, cpu_env, cpu_reg(s, rn), modifier);
-            }
-        } else {
-            dst = cpu_reg(s, rn);
-        }
-        /* BLRAA also needs to load return address */
-        if (opc == 9) {
-            TCGv_i64 lr = cpu_reg(s, 30);
-            if (dst == lr) {
-                TCGv_i64 tmp = tcg_temp_new_i64();
-                tcg_gen_mov_i64(tmp, dst);
-                dst = tmp;
-            }
-            gen_pc_plus_diff(s, lr, curr_insn_len(s));
-        }
-        gen_a64_set_pc(s, dst);
-        break;
-
     case 4: /* ERET */
         if (s->current_el == 0) {
             goto do_unallocated;
@@ -XXX,XX +XXX,XX @@ static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
         unallocated_encoding(s);
         return;
     }
-
-    switch (btype_mod) {
-    case 0: /* BR */
-        if (dc_isar_feature(aa64_bti, s)) {
-            /* BR to {x16,x17} or !guard -> 1, else 3.  */
-            set_btype(s, rn == 16 || rn == 17 || !s->guarded_page ? 1 : 3);
-        }
-        break;
-
-    case 1: /* BLR */
-        if (dc_isar_feature(aa64_bti, s)) {
-            /* BLR sets BTYPE to 2, regardless of source guarded page.  */
-            set_btype(s, 2);
-        }
-        break;
-
-    default: /* RET or none of the above.  */
-        /* BTYPE will be set to 0 by normal end-of-insn processing.  */
-        break;
-    }
-
-    s->base.is_jmp = DISAS_JUMP;
 }
 
 /* Branches, exception generating and system instructions */
-- 
2.34.1

Convert the exception-return insns ERET, ERETA and ERETB to
decodetree. These were the last insns left in the legacy
decoder function disas_uncond_reg_b(), which allows us to
remove it.

The old decoder explicitly decoded the DRPS instruction,
only in order to call unallocated_encoding() on it, exactly
as would have happened if it hadn't decoded it. This is
because this insn always UNDEFs unless the CPU is in
halting-debug state, which we don't emulate. So we list
the pattern in a comment in a64.decode, but don't actively
decode it.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512144106.3608981-21-peter.maydell@linaro.org
---
 target/arm/tcg/a64.decode      |   8 ++
 target/arm/tcg/translate-a64.c | 163 +++++++++++----------------------
 2 files changed, 63 insertions(+), 108 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ RETA            1101011 0010 11111 00001 m:1 11111 11111 &reta  # RETAA, RETAB
 &bra        rn rm m
 BRA             1101011 1000 11111 00001 m:1 rn:5 rm:5 &bra # BRAA, BRAB
 BLRA            1101011 1001 11111 00001 m:1 rn:5 rm:5 &bra # BLRAA, BLRAB
+
+ERET            1101011 0100 11111 000000 11111 00000
+ERETA           1101011 0100 11111 00001 m:1 11111 11111 &reta  # ERETAA, ERETAB
+
+# We don't need to decode DRPS because it always UNDEFs except when
+# the processor is in halting debug state (which we don't implement).
+# The pattern is listed here as documentation.
+# DRPS            1101011 0101 11111 000000 11111 00000
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_BLRA(DisasContext *s, arg_bra *a)
     return true;
 }
 
+static bool trans_ERET(DisasContext *s, arg_ERET *a)
+{
+    TCGv_i64 dst;
+
+    if (s->current_el == 0) {
+        return false;
+    }
+    if (s->fgt_eret) {
+        gen_exception_insn_el(s, 0, EXCP_UDEF, 0, 2);
+        return true;
+    }
+    dst = tcg_temp_new_i64();
+    tcg_gen_ld_i64(dst, cpu_env,
+                   offsetof(CPUARMState, elr_el[s->current_el]));
+
+    if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
+        gen_io_start();
+    }
+
+    gen_helper_exception_return(cpu_env, dst);
+    /* Must exit loop to check un-masked IRQs */
+    s->base.is_jmp = DISAS_EXIT;
+    return true;
+}
+
+static bool trans_ERETA(DisasContext *s, arg_reta *a)
+{
+    TCGv_i64 dst;
+
+    if (!dc_isar_feature(aa64_pauth, s)) {
+        return false;
+    }
+    if (s->current_el == 0) {
+        return false;
+    }
+    /* The FGT trap takes precedence over an auth trap. */
+    if (s->fgt_eret) {
+        gen_exception_insn_el(s, 0, EXCP_UDEF, a->m ? 3 : 2, 2);
+        return true;
+    }
+    dst = tcg_temp_new_i64();
+    tcg_gen_ld_i64(dst, cpu_env,
+                   offsetof(CPUARMState, elr_el[s->current_el]));
+
+    dst = auth_branch_target(s, dst, cpu_X[31], !a->m);
+    if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
+        gen_io_start();
+    }
+
+    gen_helper_exception_return(cpu_env, dst);
+    /* Must exit loop to check un-masked IRQs */
+    s->base.is_jmp = DISAS_EXIT;
+    return true;
+}
+
 /* HINT instruction group, including various allocated HINTs */
 static void handle_hint(DisasContext *s, uint32_t insn,
                         unsigned int op1, unsigned int op2, unsigned int crm)
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Unconditional branch (register)
- *  31           25 24   21 20   16 15   10 9    5 4     0
- * +---------------+-------+-------+-------+------+-------+
- * | 1 1 0 1 0 1 1 |  opc  |  op2  |  op3  |  Rn  |  op4  |
- * +---------------+-------+-------+-------+------+-------+
- */
-static void disas_uncond_b_reg(DisasContext *s, uint32_t insn)
-{
-    unsigned int opc, op2, op3, rn, op4;
-    TCGv_i64 dst;
-    TCGv_i64 modifier;
-
-    opc = extract32(insn, 21, 4);
-    op2 = extract32(insn, 16, 5);
-    op3 = extract32(insn, 10, 6);
-    rn = extract32(insn, 5, 5);
-    op4 = extract32(insn, 0, 5);
-
-    if (op2 != 0x1f) {
-        goto do_unallocated;
-    }
-
-    switch (opc) {
-    case 0:
-    case 1:
-    case 2:
-    case 8:
-    case 9:
-        /*
-         * BR, BLR, RET, RETAA, RETAB, BRAAZ, BRABZ, BLRAAZ, BLRABZ,
-         * BRAA, BLRAA: handled in decodetree
-         */
-        goto do_unallocated;
-
-    case 4: /* ERET */
-        if (s->current_el == 0) {
-            goto do_unallocated;
-        }
-        switch (op3) {
-        case 0: /* ERET */
-            if (op4 != 0) {
-                goto do_unallocated;
-            }
-            if (s->fgt_eret) {
-                gen_exception_insn_el(s, 0, EXCP_UDEF, syn_erettrap(op3), 2);
-                return;
-            }
-            dst = tcg_temp_new_i64();
-            tcg_gen_ld_i64(dst, cpu_env,
-                           offsetof(CPUARMState, elr_el[s->current_el]));
-            break;
-
-        case 2: /* ERETAA */
-        case 3: /* ERETAB */
-            if (!dc_isar_feature(aa64_pauth, s)) {
-                goto do_unallocated;
-            }
-            if (rn != 0x1f || op4 != 0x1f) {
-                goto do_unallocated;
-            }
-            /* The FGT trap takes precedence over an auth trap. */
-            if (s->fgt_eret) {
-                gen_exception_insn_el(s, 0, EXCP_UDEF, syn_erettrap(op3), 2);
-                return;
-            }
-            dst = tcg_temp_new_i64();
-            tcg_gen_ld_i64(dst, cpu_env,
-                           offsetof(CPUARMState, elr_el[s->current_el]));
-            if (s->pauth_active) {
-                modifier = cpu_X[31];
-                if (op3 == 2) {
-                    gen_helper_autia(dst, cpu_env, dst, modifier);
-                } else {
-                    gen_helper_autib(dst, cpu_env, dst, modifier);
-                }
-            }
-            break;
-
-        default:
-            goto do_unallocated;
-        }
-        if (tb_cflags(s->base.tb) & CF_USE_ICOUNT) {
-            gen_io_start();
-        }
-
-        gen_helper_exception_return(cpu_env, dst);
-        /* Must exit loop to check un-masked IRQs */
-        s->base.is_jmp = DISAS_EXIT;
-        return;
-
-    case 5: /* DRPS */
-        if (op3 != 0 || op4 != 0 || rn != 0x1f) {
-            goto do_unallocated;
-        } else {
-            unallocated_encoding(s);
-        }
-        return;
-
-    default:
-    do_unallocated:
-        unallocated_encoding(s);
-        return;
-    }
-}
-
 /* Branches, exception generating and system instructions */
 static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
 {
@@ -XXX,XX +XXX,XX @@ static void disas_b_exc_sys(DisasContext *s, uint32_t insn)
             disas_exc(s, insn);
         }
         break;
-    case 0x6b: /* Unconditional branch (register) */
-        disas_uncond_b_reg(s, insn);
-        break;
     default:
         unallocated_encoding(s);
         break;
-- 
2.34.1

The IMPDEF sysreg L2CTLR_EL1 found on the Cortex-A35, A53, A57, A72
and which we (arguably dubiously) also provide in '-cpu max' has a
2 bit field for the number of processors in the cluster. On real
hardware this must be sufficient because it can only be configured
with up to 4 CPUs in the cluster. However on QEMU if the board code
does not explicitly configure the code into clusters with the right
CPU count we default to "give the value assuming that all CPUs in
the system are in a single cluster", which might be too big to fit
in the field.

Instead of just overflowing this 2-bit field, saturate to 3 (meaning
"4 CPUs", so at least we don't overwrite other fields in the register.
It's unlikely that any guest code really cares about the value in
this field; at least, if it does it probably also wants the system
to be more closely matching real hardware, i.e. not to have more
than 4 CPUs.

This issue has been present since the L2CTLR was first added in
commit 377a44ec8f2fac5b back in 2014. It was only noticed because
Coverity complains (CID 1509227) that the shift might overflow 32 bits
and inadvertently sign extend into the top half of the 64 bit value.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20230512170223.3801643-2-peter.maydell@linaro.org
---
 target/arm/cortex-regs.c | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/target/arm/cortex-regs.c b/target/arm/cortex-regs.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cortex-regs.c
+++ b/target/arm/cortex-regs.c
@@ -XXX,XX +XXX,XX @@ static uint64_t l2ctlr_read(CPUARMState *env, const ARMCPRegInfo *ri)
 {
     ARMCPU *cpu = env_archcpu(env);
 
-    /* Number of cores is in [25:24]; otherwise we RAZ */
-    return (cpu->core_count - 1) << 24;
+    /*
+     * Number of cores is in [25:24]; otherwise we RAZ.
+     * If the board didn't configure the CPUs into clusters,
+     * we default to "all CPUs in one cluster", which might be
+     * more than the 4 that the hardware permits and which is
+     * all you can report in this two-bit field. Saturate to
+     * 0b11 (== 4 CPUs) rather than overflowing the field.
+     */
+    return MIN(cpu->core_count - 1, 3) << 24;
 }
 
 static const ARMCPRegInfo cortex_a72_a57_a53_cp_reginfo[] = {
-- 
2.34.1

In the vexpress board code, we allocate a new MemoryRegion at the top
of vexpress_common_init() but only set it up and use it inside the
"if (map[VE_NORFLASHALIAS] != -1)" conditional, so we leak it if not.
This isn't a very interesting leak as it's a tiny amount of memory
once at startup, but it's easy to fix.

We could silence Coverity simply by moving the g_new() into the
if() block, but this use of g_new(MemoryRegion, 1) is a legacy from
when this board model was originally written; we wouldn't do that
if we wrote it today. The MemoryRegions are conceptually a part of
the board and must not go away until the whole board is done with
(at the end of the simulation), so they belong in its state struct.

This machine already has a VexpressMachineState struct that extends
MachineState, so statically put the MemoryRegions in there instead of
dynamically allocating them separately at runtime.

Spotted by Coverity (CID 1509083).

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20230512170223.3801643-3-peter.maydell@linaro.org
---
 hw/arm/vexpress.c | 40 ++++++++++++++++++++--------------------
 1 file changed, 20 insertions(+), 20 deletions(-)

diff --git a/hw/arm/vexpress.c b/hw/arm/vexpress.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/vexpress.c
+++ b/hw/arm/vexpress.c
@@ -XXX,XX +XXX,XX @@ struct VexpressMachineClass {
 
 struct VexpressMachineState {
     MachineState parent;
+    MemoryRegion vram;
+    MemoryRegion sram;
+    MemoryRegion flashalias;
+    MemoryRegion lowram;
+    MemoryRegion a15sram;
     bool secure;
     bool virt;
 };
@@ -XXX,XX +XXX,XX @@ struct VexpressMachineState {
 #define TYPE_VEXPRESS_A15_MACHINE   MACHINE_TYPE_NAME("vexpress-a15")
 OBJECT_DECLARE_TYPE(VexpressMachineState, VexpressMachineClass, VEXPRESS_MACHINE)
 
-typedef void DBoardInitFn(const VexpressMachineState *machine,
+typedef void DBoardInitFn(VexpressMachineState *machine,
                           ram_addr_t ram_size,
                           const char *cpu_type,
                           qemu_irq *pic);
@@ -XXX,XX +XXX,XX @@ static void init_cpus(MachineState *ms, const char *cpu_type,
     }
 }
 
-static void a9_daughterboard_init(const VexpressMachineState *vms,
+static void a9_daughterboard_init(VexpressMachineState *vms,
                                   ram_addr_t ram_size,
                                   const char *cpu_type,
                                   qemu_irq *pic)
 {
     MachineState *machine = MACHINE(vms);
     MemoryRegion *sysmem = get_system_memory();
-    MemoryRegion *lowram = g_new(MemoryRegion, 1);
     ram_addr_t low_ram_size;
 
     if (ram_size > 0x40000000) {
@@ -XXX,XX +XXX,XX @@ static void a9_daughterboard_init(const VexpressMachineState *vms,
      * address space should in theory be remappable to various
      * things including ROM or RAM; we always map the RAM there.
      */
-    memory_region_init_alias(lowram, NULL, "vexpress.lowmem", machine->ram,
-                             0, low_ram_size);
-    memory_region_add_subregion(sysmem, 0x0, lowram);
+    memory_region_init_alias(&vms->lowram, NULL, "vexpress.lowmem",
+                             machine->ram, 0, low_ram_size);
+    memory_region_add_subregion(sysmem, 0x0, &vms->lowram);
     memory_region_add_subregion(sysmem, 0x60000000, machine->ram);
 
     /* 0x1e000000 A9MPCore (SCU) private memory region */
@@ -XXX,XX +XXX,XX @@ static VEDBoardInfo a9_daughterboard = {
     .init = a9_daughterboard_init,
 };
 
-static void a15_daughterboard_init(const VexpressMachineState *vms,
+static void a15_daughterboard_init(VexpressMachineState *vms,
                                    ram_addr_t ram_size,
                                    const char *cpu_type,
                                    qemu_irq *pic)
 {
     MachineState *machine = MACHINE(vms);
     MemoryRegion *sysmem = get_system_memory();
-    MemoryRegion *sram = g_new(MemoryRegion, 1);
 
     {
         /* We have to use a separate 64 bit variable here to avoid the gcc
@@ -XXX,XX +XXX,XX @@ static void a15_daughterboard_init(const VexpressMachineState *vms,
     /* 0x2b060000: SP805 watchdog: not modelled */
     /* 0x2b0a0000: PL341 dynamic memory controller: not modelled */
     /* 0x2e000000: system SRAM */
-    memory_region_init_ram(sram, NULL, "vexpress.a15sram", 0x10000,
+    memory_region_init_ram(&vms->a15sram, NULL, "vexpress.a15sram", 0x10000,
                            &error_fatal);
-    memory_region_add_subregion(sysmem, 0x2e000000, sram);
+    memory_region_add_subregion(sysmem, 0x2e000000, &vms->a15sram);
 
     /* 0x7ffb0000: DMA330 DMA controller: not modelled */
     /* 0x7ffd0000: PL354 static memory controller: not modelled */
@@ -XXX,XX +XXX,XX @@ static void vexpress_common_init(MachineState *machine)
     I2CBus *i2c;
     ram_addr_t vram_size, sram_size;
     MemoryRegion *sysmem = get_system_memory();
-    MemoryRegion *vram = g_new(MemoryRegion, 1);
-    MemoryRegion *sram = g_new(MemoryRegion, 1);
-    MemoryRegion *flashalias = g_new(MemoryRegion, 1);
-    MemoryRegion *flash0mem;
     const hwaddr *map = daughterboard->motherboard_map;
     int i;
 
@@ -XXX,XX +XXX,XX @@ static void vexpress_common_init(MachineState *machine)
 
     if (map[VE_NORFLASHALIAS] != -1) {
         /* Map flash 0 as an alias into low memory */
+        MemoryRegion *flash0mem;
         flash0mem = sysbus_mmio_get_region(SYS_BUS_DEVICE(pflash0), 0);
-        memory_region_init_alias(flashalias, NULL, "vexpress.flashalias",
+        memory_region_init_alias(&vms->flashalias, NULL, "vexpress.flashalias",
                                  flash0mem, 0, VEXPRESS_FLASH_SIZE);
-        memory_region_add_subregion(sysmem, map[VE_NORFLASHALIAS], flashalias);
+        memory_region_add_subregion(sysmem, map[VE_NORFLASHALIAS], &vms->flashalias);
     }
 
     dinfo = drive_get(IF_PFLASH, 0, 1);
     ve_pflash_cfi01_register(map[VE_NORFLASH1], "vexpress.flash1", dinfo);
 
     sram_size = 0x2000000;
-    memory_region_init_ram(sram, NULL, "vexpress.sram", sram_size,
+    memory_region_init_ram(&vms->sram, NULL, "vexpress.sram", sram_size,
                            &error_fatal);
-    memory_region_add_subregion(sysmem, map[VE_SRAM], sram);
+    memory_region_add_subregion(sysmem, map[VE_SRAM], &vms->sram);
 
     vram_size = 0x800000;
-    memory_region_init_ram(vram, NULL, "vexpress.vram", vram_size,
+    memory_region_init_ram(&vms->vram, NULL, "vexpress.vram", vram_size,
                            &error_fatal);
-    memory_region_add_subregion(sysmem, map[VE_VIDEORAM], vram);
+    memory_region_add_subregion(sysmem, map[VE_VIDEORAM], &vms->vram);
 
     /* 0x4e000000 LAN9118 Ethernet */
     if (nd_table[0].used) {
-- 
2.34.1

Convert the u2f.txt file to rST, and place it in the right place
in our manual layout. The old text didn't fit very well into our
manual style, so the new version ends up looking like a rewrite,
although some of the original text is preserved:

* the 'building' section of the old file is removed, since we
   generally assume that users have already built QEMU
 * some rather verbose text has been cut back
 * document the passthrough device first, on the assumption
   that's most likely to be of interest to users
 * cut back on the duplication of text between sections
 * format example command lines etc with rST

As it's a short document it seemed simplest to do this all
in one go rather than try to do a minimal syntactic conversion
and then clean up the wording and layout.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Thomas Huth <thuth@redhat.com>
Message-id: 20230421163734.1152076-1-peter.maydell@linaro.org
---
 docs/system/device-emulation.rst |   1 +
 docs/system/devices/usb-u2f.rst  |  93 ++++++++++++++++++++++++++
 docs/system/devices/usb.rst      |   2 +-
 docs/u2f.txt                     | 110 -------------------------------
 4 files changed, 95 insertions(+), 111 deletions(-)
 create mode 100644 docs/system/devices/usb-u2f.rst
 delete mode 100644 docs/u2f.txt

diff --git a/docs/system/device-emulation.rst b/docs/system/device-emulation.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/device-emulation.rst
+++ b/docs/system/device-emulation.rst
@@ -XXX,XX +XXX,XX @@ Emulated Devices
    devices/virtio-pmem.rst
    devices/vhost-user-rng.rst
    devices/canokey.rst
+   devices/usb-u2f.rst
    devices/igb.rst
diff --git a/docs/system/devices/usb-u2f.rst b/docs/system/devices/usb-u2f.rst
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/docs/system/devices/usb-u2f.rst
@@ -XXX,XX +XXX,XX @@
+Universal Second Factor (U2F) USB Key Device
+============================================
+
+U2F is an open authentication standard that enables relying parties
+exposed to the internet to offer a strong second factor option for end
+user authentication.
+
+The second factor is provided by a device implementing the U2F
+protocol. In case of a USB U2F security key, it is a USB HID device
+that implements the U2F protocol.
+
+QEMU supports both pass-through of a host U2F key device to a VM,
+and software emulation of a U2F key.
+
+``u2f-passthru``
+----------------
+
+The ``u2f-passthru`` device allows you to connect a real hardware
+U2F key on your host to a guest VM. All requests made from the guest
+are passed through to the physical security key connected to the
+host machine and vice versa.
+
+In addition, the dedicated pass-through allows you to share a single
+U2F security key with several guest VMs, which is not possible with a
+simple host device assignment pass-through.
+
+You can specify the host U2F key to use with the ``hidraw``
+option, which takes the host path to a Linux ``/dev/hidrawN`` device:
+
+.. parsed-literal::
+   |qemu_system| -usb -device u2f-passthru,hidraw=/dev/hidraw0
+
+If you don't specify the device, the ``u2f-passthru`` device will
+autoscan to take the first U2F device it finds on the host (this
+requires a working libudev):
+
+.. parsed-literal::
+   |qemu_system| -usb -device u2f-passthru
+
+``u2f-emulated``
+----------------
+
+``u2f-emulated`` is a completely software emulated U2F device.
+It uses `libu2f-emu <https://github.com/MattGorko/libu2f-emu>`__
+for the U2F key emulation. libu2f-emu
+provides a complete implementation of the U2F protocol device part for
+all specified transports given by the FIDO Alliance.
+
+To work, an emulated U2F device must have four elements:
+
+ * ec x509 certificate
+ * ec private key
+ * counter (four bytes value)
+ * 48 bytes of entropy (random bits)
+
+To use this type of device, these have to be configured, and these
+four elements must be passed one way or another.
+
+Assuming that you have a working libu2f-emu installed on the host,
+there are three possible ways to configure the ``u2f-emulated`` device:
+
+ * ephemeral
+ * setup directory
+ * manual
+
+Ephemeral is the simplest way to configure; it lets the device generate
+all the elements it needs for a single use of the lifetime of the device.
+It is the default if you do not pass any other options to the device.
+
+.. parsed-literal::
+   |qemu_system| -usb -device u2f-emulated
+
+You can pass the device the path of a setup directory on the host
+using the ``dir`` option; the directory must contain these four files:
+
+ * ``certificate.pem``: ec x509 certificate
+ * ``private-key.pem``: ec private key
+ * ``counter``: counter value
+ * ``entropy``: 48 bytes of entropy
+
+.. parsed-literal::
+   |qemu_system| -usb -device u2f-emulated,dir=$dir
+
+You can also manually pass the device the paths to each of these files,
+if you don't want them all to be in the same directory, using the options
+
+ * ``cert``
+ * ``priv``
+ * ``counter``
+ * ``entropy``
+
+.. parsed-literal::
+   |qemu_system| -usb -device u2f-emulated,cert=$DIR1/$FILE1,priv=$DIR2/$FILE2,counter=$DIR3/$FILE3,entropy=$DIR4/$FILE4
diff --git a/docs/system/devices/usb.rst b/docs/system/devices/usb.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/system/devices/usb.rst
+++ b/docs/system/devices/usb.rst
@@ -XXX,XX +XXX,XX @@ option or the ``device_add`` monitor command. Available devices are:
    USB audio device
 
 ``u2f-{emulated,passthru}``
-   Universal Second Factor device
+   :doc:`usb-u2f`
 
 ``canokey``
    An Open-source Secure Key implementing FIDO2, OpenPGP, PIV and more.
diff --git a/docs/u2f.txt b/docs/u2f.txt
deleted file mode 100644
index XXXXXXX..XXXXXXX
--- a/docs/u2f.txt
+++ /dev/null
@@ -XXX,XX +XXX,XX @@
-QEMU U2F Key Device Documentation.
-
-Contents
-1. USB U2F key device
-2. Building
-3. Using u2f-emulated
-4. Using u2f-passthru
-5. Libu2f-emu
-
-1. USB U2F key device
-
-U2F is an open authentication standard that enables relying parties
-exposed to the internet to offer a strong second factor option for end
-user authentication.
-
-The standard brings many advantages to both parties, client and server,
-allowing to reduce over-reliance on passwords, it increases authentication
-security and simplifies passwords.
-
-The second factor is materialized by a device implementing the U2F
-protocol. In case of a USB U2F security key, it is a USB HID device
-that implements the U2F protocol.
-
-In QEMU, the USB U2F key device offers a dedicated support of U2F, allowing
-guest USB FIDO/U2F security keys operating in two possible modes:
-pass-through and emulated.
-
-The pass-through mode consists of passing all requests made from the guest
-to the physical security key connected to the host machine and vice versa.
-In addition, the dedicated pass-through allows to have a U2F security key
-shared on several guests which is not possible with a simple host device
-assignment pass-through.
-
-The emulated mode consists of completely emulating the behavior of an
-U2F device through software part. Libu2f-emu is used for that.
-
-
-2. Building
-
-To ensure the build of the u2f-emulated device variant which depends
-on libu2f-emu: configuring and building:
-
-    ./configure --enable-u2f && make
-
-The pass-through mode is built by default on Linux. To take advantage
-of the autoscan option it provides, make sure you have a working libudev
-installed on the host.
-
-
-3. Using u2f-emulated
-
-To work, an emulated U2F device must have four elements:
- * ec x509 certificate
- * ec private key
- * counter (four bytes value)
- * 48 bytes of entropy (random bits)
-
-To use this type of device, this one has to be configured, and these
-four elements must be passed one way or another.
-
-Assuming that you have a working libu2f-emu installed on the host.
-There are three possible ways of configurations:
- * ephemeral
- * setup directory
- * manual
-
-Ephemeral is the simplest way to configure, it lets the device generate
-all the elements it needs for a single use of the lifetime of the device.
-
-    qemu -usb -device u2f-emulated
-
-Setup directory allows to configure the device from a directory containing
-four files:
- * certificate.pem: ec x509 certificate
- * private-key.pem: ec private key
- * counter: counter value
- * entropy: 48 bytes of entropy
-
-    qemu -usb -device u2f-emulated,dir=$dir
-
-Manual allows to configure the device more finely by specifying each
-of the elements necessary for the device:
- * cert
- * priv
- * counter
- * entropy
-
-    qemu -usb -device u2f-emulated,cert=$DIR1/$FILE1,priv=$DIR2/$FILE2,counter=$DIR3/$FILE3,entropy=$DIR4/$FILE4
-
-
-4. Using u2f-passthru
-
-On the host specify the u2f-passthru device with a suitable hidraw:
-
-    qemu -usb -device u2f-passthru,hidraw=/dev/hidraw0
-
-Alternately, the u2f-passthru device can autoscan to take the first
-U2F device it finds on the host (this requires a working libudev):
-
-    qemu -usb -device u2f-passthru
-
-
-5. Libu2f-emu
-
-The u2f-emulated device uses libu2f-emu for the U2F key emulation. Libu2f-emu
-implements completely the U2F protocol device part for all specified
-transport given by the FIDO Alliance.
-
-For more information about libu2f-emu see this page:
-https://github.com/MattGorko/libu2f-emu.
-- 
2.34.1

Hi; most of this is the first half of the A64 simd decodetree
conversion; the rest is a mix of fixes from the last couple of weeks.

v2 uses patches from the v2 decodetree series to avoid a few
regressions in some A32 insns.

(Richard: I'm still planning to review the second half of the
v2 decodetree series; I just wanted to get the respin of this
pullreq out today...)

thanks
-- PMM

The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:

Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528

for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:

target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)

----------------------------------------------------------------
target-arm queue:
 * xlnx_dpdma: fix descriptor endianness bug
 * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
 * hw/arm/npcm7xx: remove setting of mp-affinity
 * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
 * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
 * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
 * hw: arm: Remove use of tabs in some source files
 * docs/system: Remove ADC from raspi documentation
 * target/arm: Start of the conversion of A64 SIMD to decodetree

----------------------------------------------------------------
Alexandra Diupina (1):
      xlnx_dpdma: fix descriptor endianness bug

Andrey Shumilin (1):
      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>

Dorjoy Chowdhury (1):
      hw/arm/npcm7xx: remove setting of mp-affinity

Inès Varhol (1):
      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size

Philippe Mathieu-Daudé (1):
      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()

Rayhan Faizel (1):
      docs/system: Remove ADC from raspi documentation

Richard Henderson (34):
      target/arm: Use PLD, PLDW, PLI not NOP for t32
      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
      target/arm: Fix decode of FMOV (hp) vs MOVI
      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
      target/arm: Split out gengvec.c
      target/arm: Split out gengvec64.c
      target/arm: Convert Cryptographic AES to decodetree
      target/arm: Convert Cryptographic 3-register SHA to decodetree
      target/arm: Convert Cryptographic 2-register SHA to decodetree
      target/arm: Convert Cryptographic 3-register SHA512 to decodetree
      target/arm: Convert Cryptographic 2-register SHA512 to decodetree
      target/arm: Convert Cryptographic 4-register to decodetree
      target/arm: Convert Cryptographic 3-register, imm2 to decodetree
      target/arm: Convert XAR to decodetree
      target/arm: Convert Advanced SIMD copy to decodetree
      target/arm: Convert FMULX to decodetree
      target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
      target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
      target/arm: Introduce vfp_load_reg16
      target/arm: Expand vfp neg and abs inline
      target/arm: Convert FNMUL to decodetree
      target/arm: Convert FMLA, FMLS to decodetree
      target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
      target/arm: Convert FABD to decodetree
      target/arm: Convert FRECPS, FRSQRTS to decodetree
      target/arm: Convert FADDP to decodetree
      target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
      target/arm: Use gvec for neon faddp, fmaxp, fminp
      target/arm: Convert ADDP to decodetree
      target/arm: Use gvec for neon padd
      target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
      target/arm: Use gvec for neon pmax, pmin
      target/arm: Convert FMLAL, FMLSL to decodetree
      target/arm: Convert disas_simd_3same_logic to decodetree

Tanmay Patil (1):
      hw: arm: Remove use of tabs in some source files

Zenghui Yu (1):
      hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers

From: Alexandra Diupina <adiupina@astralinux.ru>

Add xlnx_dpdma_read_descriptor() and
xlnx_dpdma_write_descriptor() functions.
xlnx_dpdma_read_descriptor() combines reading a
descriptor from desc_addr by calling dma_memory_read()
and swapping the desc fields from guest memory order
to host memory order. xlnx_dpdma_write_descriptor()
performs similar actions when writing a descriptor.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Fixes: d3c6369a96 ("introduce xlnx-dpdma")
Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
[PMM: tweaked indent, dropped behaviour change for write-failure case]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 64 insertions(+), 4 deletions(-)

diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/xlnx_dpdma.c
+++ b/hw/dma/xlnx_dpdma.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
     type_register_static(&xlnx_dpdma_info);
 }
 
+static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
+                                              uint64_t desc_addr,
+                                              DPDMADescriptor *desc)
+{
+    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
+                                      &desc, sizeof(DPDMADescriptor),
+                                      MEMTXATTRS_UNSPECIFIED);
+    if (res) {
+        return res;
+    }
+
+    /* Convert from LE into host endianness.  */
+    desc->control = le32_to_cpu(desc->control);
+    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
+    desc->xfer_size = le32_to_cpu(desc->xfer_size);
+    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
+    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
+    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
+    desc->address_extension = le32_to_cpu(desc->address_extension);
+    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
+    desc->source_address = le32_to_cpu(desc->source_address);
+    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
+    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
+    desc->source_address2 = le32_to_cpu(desc->source_address2);
+    desc->source_address3 = le32_to_cpu(desc->source_address3);
+    desc->source_address4 = le32_to_cpu(desc->source_address4);
+    desc->source_address5 = le32_to_cpu(desc->source_address5);
+    desc->crc = le32_to_cpu(desc->crc);
+
+    return res;
+}
+
+static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
+                                               DPDMADescriptor *desc)
+{
+    DPDMADescriptor tmp_desc = *desc;
+
+    /* Convert from host endianness into LE.  */
+    tmp_desc.control = cpu_to_le32(tmp_desc.control);
+    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
+    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
+    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
+    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
+    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
+    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
+    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
+    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
+    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
+    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
+    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
+    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
+    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
+    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
+    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
+
+    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
+                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+}
+
 size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
                                     bool one_desc)
 {
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
         }
 
-        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
-                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
+        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
             s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
             xlnx_dpdma_update_irq(s);
             s->operation_finished[channel] = true;
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             /* The descriptor need to be updated when it's completed. */
             DPRINTF("update the descriptor with the done flag set.\n");
             xlnx_dpdma_desc_set_done(&desc);
-            dma_memory_write(&address_space_memory, desc_addr, &desc,
-                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
+                DPRINTF("Can't write the descriptor.\n");
+                /* TODO: check hardware behaviour for memory write failure */
+            }
         }
 
         if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
-- 
2.34.1

From: Zenghui Yu <zenghui.yu@linux.dev>

We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
wrong key.

Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
guest can properly detect FEAT_SSBS2 on my M1 HW.

All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
it.

Cc: qemu-stable@nongnu.org
Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
Reviewed-by: Alexander Graf <agraf@csgraf.de>
Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
 1 file changed, 65 insertions(+), 65 deletions(-)

diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/hvf/hvf.c
+++ b/target/arm/hvf/hvf.c
@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
 };
 
 static struct hvf_sreg_match hvf_sreg_match[] = {
-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
 
 #ifdef SYNC_NO_RAW_REGS
     /*
@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
     { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
     { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
 #endif
-    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
+    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
     { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
-- 
2.34.1

From: Dorjoy Chowdhury <dorjoychy111@gmail.com>

The value of the mp-affinity property being set in npcm7xx_realize is
always the same as the default value it would have when arm_cpu_realizefn
is called if the property is not set here. So there is no need to set
the property value in npcm7xx_realize function.

Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/npcm7xx.c | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
 
     /* CPUs */
     for (i = 0; i < nc->num_cpus; i++) {
-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
-                                &error_abort);
         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
-- 
2.34.1

From: Inès Varhol <ines.varhol@telecom-paris.fr>

Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/char/stm32l4x5_usart.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/stm32l4x5_usart.c
+++ b/hw/char/stm32l4x5_usart.c
@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
     FIELD(CR1, UE, 0, 1)     /* USART enable */
 REG32(CR2, 0x04)
     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
+    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
-- 
2.34.1

From: Andrey Shumilin <shum.sdl@nppct.ru>

In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
reading and writing the Non-Secure view of the GICC_APR<n> registers
to functions gic_apr_ns_view() and gic_apr_write_ns_view().
Unfortunately we got the order of the arguments wrong, swapping the
CPU number and the register number (which the compiler doesn't catch
because they're both integers).

Most guests probably didn't notice this bug because directly
accessing the APR registers is typically something only done by
firmware when it is doing state save for going into a sleep mode.

Correct the mismatched call arguments.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Cc: qemu-stable@nongnu.org
Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
[PMM: Rewrote commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
---
 hw/intc/arm_gic.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gic.c
+++ b/hw/intc/arm_gic.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            *data = gic_apr_ns_view(s, regno, cpu);
+            *data = gic_apr_ns_view(s, cpu, regno);
         } else {
             *data = s->apr[regno][cpu];
         }
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            gic_apr_write_ns_view(s, regno, cpu, value);
+            gic_apr_write_ns_view(s, cpu, regno, value);
         } else {
             s->apr[regno][cpu] = value;
         }
-- 
2.34.1

From: Philippe Mathieu-Daudé <philmd@linaro.org>

Check the function index is in range and use an unsigned
variable to avoid the following warning with GCC 13.2.0:

[666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
  hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
  hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
    416 |     s->dav |= mode_regs[s->function];
        |                         ~^~~~~~~~~~

Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240508143513.44996-1-philmd@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: fixed missing ')']
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/input/tsc2005.c | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
 static void tsc2005_timer_tick(void *opaque)
 {
     TSC2005State *s = opaque;
+    unsigned int function = s->function;
+
+    assert(function < ARRAY_SIZE(mode_regs));
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
         return;
 
     s->busy = false;
-    s->dav |= mode_regs[s->function];
+    s->dav |= mode_regs[function];
     s->function = -1;
     tsc2005_pin_update(s);
 }
-- 
2.34.1

From: Tanmay Patil <tanmaynpatil105@gmail.com>

Some of the source files for older devices use hardcoded tabs
instead of our current coding standard's required spaces.
Fix these in the following files:
	- hw/arm/boot.c
	- hw/char/omap_uart.c
	- hw/gpio/zaurus.c
	- hw/input/tsc2005.c

This commit is mostly whitespace-only changes; it also
adds curly-braces to some 'if' statements.

This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
but some other files remain to be handled.

Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: tweaked commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/boot.c       |   8 +--
 hw/char/omap_uart.c |  49 +++++++++--------
 hw/gpio/zaurus.c    |  59 ++++++++++----------
 hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
 4 files changed, 130 insertions(+), 116 deletions(-)

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
     WRITE_WORD(p, info->ram_size / 4096);
     /* ramdisk_size */
     WRITE_WORD(p, 0);
-#define FLAG_READONLY	1
-#define FLAG_RDLOAD	4
-#define FLAG_RDPROMPT	8
+#define FLAG_READONLY 1
+#define FLAG_RDLOAD   4
+#define FLAG_RDPROMPT 8
     /* flags */
     WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
     /* rootdev */
-    WRITE_WORD(p, (31 << 8) | 0);	/* /dev/mtdblock0 */
+    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
     /* video_num_cols */
     WRITE_WORD(p, 0);
     /* video_num_rows */
diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/omap_uart.c
+++ b/hw/char/omap_uart.c
@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
     s->fclk = fclk;
     s->irq = irq;
     s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
-                               omap_clk_getrate(fclk)/16,
+                               omap_clk_getrate(fclk) / 16,
                                chr ?: qemu_chr_new(label, "null", NULL),
                                DEVICE_NATIVE_ENDIAN);
     return s;
@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         return s->mdr[0];
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         return s->mdr[1];
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         return s->scr;
-    case 0x44:	/* SSR */
+    case 0x44:  /* SSR */
         return 0x0;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         return s->eblr;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         return s->clksel;
-    case 0x50:	/* MVR */
+    case 0x50:  /* MVR */
         return 0x30;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         return s->syscontrol;
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x58:  /* SYSS (OMAP2) */
         return 1;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         return s->wkup;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         return s->cfps;
     }
 
@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         s->mdr[0] = value & 0x7f;
         break;
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         s->mdr[1] = value & 0xff;
         break;
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         s->scr = value & 0xff;
         break;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         s->eblr = value & 0xff;
         break;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         s->clksel = value & 1;
         break;
-    case 0x44:	/* SSR */
-    case 0x50:	/* MVR */
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x44:  /* SSR */
+    case 0x50:  /* MVR */
+    case 0x58:  /* SYSS (OMAP2) */
         OMAP_RO_REG(addr);
         break;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         s->syscontrol = value & 0x1d;
-        if (value & 2)
+        if (value & 2) {
             omap_uart_reset(s);
+        }
         break;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         s->wkup = value & 0x7f;
         break;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         s->cfps = value & 0xff;
         break;
     default:
diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/gpio/zaurus.c
+++ b/hw/gpio/zaurus.c
@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
     uint16_t isr;
 };
 
-#define SCOOP_MCR	0x00
-#define SCOOP_CDR	0x04
-#define SCOOP_CSR	0x08
-#define SCOOP_CPR	0x0c
-#define SCOOP_CCR	0x10
-#define SCOOP_IRR_IRM	0x14
-#define SCOOP_IMR	0x18
-#define SCOOP_ISR	0x1c
-#define SCOOP_GPCR	0x20
-#define SCOOP_GPWR	0x24
-#define SCOOP_GPRR	0x28
+#define SCOOP_MCR       0x00
+#define SCOOP_CDR       0x04
+#define SCOOP_CSR       0x08
+#define SCOOP_CPR       0x0c
+#define SCOOP_CCR       0x10
+#define SCOOP_IRR_IRM   0x14
+#define SCOOP_IMR       0x18
+#define SCOOP_ISR       0x1c
+#define SCOOP_GPCR      0x20
+#define SCOOP_GPWR      0x24
+#define SCOOP_GPRR      0x28
 
-static inline void scoop_gpio_handler_update(ScoopInfo *s) {
+static inline void scoop_gpio_handler_update(ScoopInfo *s)
+{
     uint32_t level, diff;
     int bit;
     level = s->gpio_level & s->gpio_dir;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         break;
     case SCOOP_CPR:
         s->power = value;
-        if (value & 0x80)
+        if (value & 0x80) {
             s->power |= 0x8040;
+        }
         break;
     case SCOOP_CCR:
         s->ccr = value;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         scoop_gpio_handler_update(s);
         break;
     case SCOOP_GPWR:
-    case SCOOP_GPRR:	/* GPRR is probably R/O in real HW */
+    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
         s->gpio_level = value & s->gpio_dir;
         scoop_gpio_handler_update(s);
         break;
@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
 {
     ScoopInfo *s = (ScoopInfo *) opaque;
 
-    if (level)
+    if (level) {
         s->gpio_level |= (1 << line);
-    else
+    } else {
         s->gpio_level &= ~(1 << line);
+    }
 }
 
 static void scoop_init(Object *obj)
@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
     return 0;
 }
 
-static bool is_version_0 (void *opaque, int version_id)
+static bool is_version_0(void *opaque, int version_id)
 {
     return version_id == 0;
 }
@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
 
 /* Write the bootloader parameters memory area.  */
 
-#define MAGIC_CHG(a, b, c, d)	((d << 24) | (c << 16) | (b << 8) | a)
+#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
 
 static struct QEMU_PACKED sl_param_info {
     uint32_t comadj_keyword;
@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
     uint32_t phad_keyword;
     int32_t phadadj;
 } zaurus_bootparam = {
-    .comadj_keyword	= MAGIC_CHG('C', 'M', 'A', 'D'),
-    .comadj		= 125,
-    .uuid_keyword	= MAGIC_CHG('U', 'U', 'I', 'D'),
-    .uuid		= { -1 },
-    .touch_keyword	= MAGIC_CHG('T', 'U', 'C', 'H'),
-    .touch_xp		= -1,
-    .adadj_keyword	= MAGIC_CHG('B', 'V', 'A', 'D'),
-    .adadj		= -1,
-    .phad_keyword	= MAGIC_CHG('P', 'H', 'A', 'D'),
-    .phadadj		= 0x01,
+    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
+    .comadj             = 125,
+    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
+    .uuid               = { -1 },
+    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
+    .touch_xp           = -1,
+    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
+    .adadj              = -1,
+    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
+    .phadadj            = 0x01,
 };
 
 void sl_bootparam_write(hwaddr ptr)
diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@
 #include "migration/vmstate.h"
 #include "trace.h"
 
-#define TSC_CUT_RESOLUTION(value, p)	((value) >> (16 - (p ? 12 : 10)))
+#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
 
 typedef struct {
-    qemu_irq pint;	/* Combination of the nPENIRQ and DAV signals */
+    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
     QEMUTimer *timer;
     uint16_t model;
 
@@ -XXX,XX +XXX,XX @@ typedef struct {
 } TSC2005State;
 
 enum {
-    TSC_MODE_XYZ_SCAN	= 0x0,
+    TSC_MODE_XYZ_SCAN = 0x0,
     TSC_MODE_XY_SCAN,
     TSC_MODE_X,
     TSC_MODE_Y,
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 static const uint16_t mode_regs[16] = {
-    0xf000,	/* X, Y, Z scan */
-    0xc000,	/* X, Y scan */
-    0x8000,	/* X */
-    0x4000,	/* Y */
-    0x3000,	/* Z */
-    0x0800,	/* AUX */
-    0x0400,	/* TEMP1 */
-    0x0200,	/* TEMP2 */
-    0x0800,	/* AUX scan */
-    0x0040,	/* X test */
-    0x0020,	/* Y test */
-    0x0080,	/* Short-circuit test */
-    0x0000,	/* Reserved */
-    0x0000,	/* X+, X- drivers */
-    0x0000,	/* Y+, Y- drivers */
-    0x0000,	/* Y+, X- drivers */
+    0xf000, /* X, Y, Z scan */
+    0xc000, /* X, Y scan */
+    0x8000, /* X */
+    0x4000, /* Y */
+    0x3000, /* Z */
+    0x0800, /* AUX */
+    0x0400, /* TEMP1 */
+    0x0200, /* TEMP2 */
+    0x0800, /* AUX scan */
+    0x0040, /* X test */
+    0x0020, /* Y test */
+    0x0080, /* Short-circuit test */
+    0x0000, /* Reserved */
+    0x0000, /* X+, X- drivers */
+    0x0000, /* Y+, Y- drivers */
+    0x0000, /* Y+, X- drivers */
 };
 
-#define X_TRANSFORM(s)			\
+#define X_TRANSFORM(s)      \
     ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
-#define Y_TRANSFORM(s)			\
+#define Y_TRANSFORM(s)      \
     ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
-#define Z1_TRANSFORM(s)			\
+#define Z1_TRANSFORM(s)     \
     ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
-#define Z2_TRANSFORM(s)			\
+#define Z2_TRANSFORM(s)     \
     ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
 
-#define AUX_VAL				(700 << 4)	/* +/- 3 at 12-bit */
-#define TEMP1_VAL			(1264 << 4)	/* +/- 5 at 12-bit */
-#define TEMP2_VAL			(1531 << 4)	/* +/- 5 at 12-bit */
+#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
+#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
+#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
 
 static uint16_t tsc2005_read(TSC2005State *s, int reg)
 {
     uint16_t ret;
 
     switch (reg) {
-    case 0x0:	/* X */
+    case 0x0: /* X */
         s->dav &= ~mode_regs[TSC_MODE_X];
         return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
                 (s->noise & 3);
-    case 0x1:	/* Y */
+    case 0x1: /* Y */
         s->dav &= ~mode_regs[TSC_MODE_Y];
-        s->noise ++;
+        s->noise++;
         return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
                 (s->noise & 3);
-    case 0x2:	/* Z1 */
+    case 0x2: /* Z1 */
         s->dav &= 0xdfff;
         return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
                 (s->noise & 3);
-    case 0x3:	/* Z2 */
+    case 0x3: /* Z2 */
         s->dav &= 0xefff;
         return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
                 (s->noise & 3);
 
-    case 0x4:	/* AUX */
+    case 0x4: /* AUX */
         s->dav &= ~mode_regs[TSC_MODE_AUX];
         return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
 
-    case 0x5:	/* TEMP1 */
+    case 0x5: /* TEMP1 */
         s->dav &= ~mode_regs[TSC_MODE_TEMP1];
         return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
                 (s->noise & 5);
-    case 0x6:	/* TEMP2 */
+    case 0x6: /* TEMP2 */
         s->dav &= 0xdfff;
         s->dav &= ~mode_regs[TSC_MODE_TEMP2];
         return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
                 (s->noise & 3);
 
-    case 0x7:	/* Status */
+    case 0x7: /* Status */
         ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
         s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
                         mode_regs[TSC_MODE_TS_TEST]);
         s->reset = true;
         return ret;
 
-    case 0x8:   /* AUX high threshold */
+    case 0x8: /* AUX high threshold */
         return s->aux_thr[1];
-    case 0x9:   /* AUX low threshold */
+    case 0x9: /* AUX low threshold */
         return s->aux_thr[0];
 
-    case 0xa:   /* TEMP high threshold */
+    case 0xa: /* TEMP high threshold */
         return s->temp_thr[1];
-    case 0xb:   /* TEMP low threshold */
+    case 0xb: /* TEMP low threshold */
         return s->temp_thr[0];
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         return (s->pressure << 15) | ((!s->busy) << 14) |
-                (s->nextprecision << 13) | s->timing[0]; 
-    case 0xd:	/* CFR1 */
+                (s->nextprecision << 13) | s->timing[0];
+    case 0xd: /* CFR1 */
         return s->timing[1];
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         return (s->pin_func << 14) | s->filter;
 
-    case 0xf:	/* Function select status */
+    case 0xf: /* Function select status */
         return s->function >= 0 ? 1 << s->function : 0;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
         s->temp_thr[0] = data;
         break;
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         s->host_mode = (data >> 15) != 0;
         if (s->enabled != !(data & 0x4000)) {
             s->enabled = !(data & 0x4000);
             trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-            if (s->busy && !s->enabled)
+            if (s->busy && !s->enabled) {
                 timer_del(s->timer);
+            }
             s->busy = s->busy && s->enabled;
         }
         s->nextprecision = (data >> 13) & 1;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
                           "tsc2005_write: illegal conversion clock setting\n");
         }
         break;
-    case 0xd:	/* CFR1 */
+    case 0xd: /* CFR1 */
         s->timing[1] = data & 0xf07;
         break;
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         s->pin_func = (data >> 14) & 3;
         s->filter = data & 0x3fff;
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     switch (s->nextfunction) {
     case TSC_MODE_XYZ_SCAN:
     case TSC_MODE_XY_SCAN:
-        if (!s->host_mode && s->dav)
+        if (!s->host_mode && s->dav) {
             s->enabled = false;
-        if (!s->pressure)
+        }
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX_SCAN:
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X:
     case TSC_MODE_Y:
     case TSC_MODE_Z:
-        if (!s->pressure)
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX:
     case TSC_MODE_TEMP1:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X_TEST:
     case TSC_MODE_Y_TEST:
     case TSC_MODE_TS_TEST:
-        if (s->dav)
+        if (s->dav) {
             s->enabled = false;
+        }
         break;
 
     case TSC_MODE_RESERVED:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
         return;
     }
 
-    if (!s->enabled || s->busy)
+    if (!s->enabled || s->busy) {
         return;
+    }
 
     s->busy = true;
     s->precision = s->nextprecision;
     s->function = s->nextfunction;
-    s->pdst = !s->pnd0;	/* Synchronised on internal clock */
+    s->pdst = !s->pnd0; /* Synchronised on internal clock */
     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
         (NANOSECONDS_PER_SECOND >> 7);
     timer_mod(s->timer, expires);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
     TSC2005State *s = opaque;
     uint32_t ret = 0;
 
-    switch (s->state ++) {
+    switch (s->state++) {
     case 0:
         if (value & 0x80) {
             /* Command */
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
                 if (s->enabled != !(value & 1)) {
                     s->enabled = !(value & 1);
                     trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-                    if (s->busy && !s->enabled)
+                    if (s->busy && !s->enabled) {
                         timer_del(s->timer);
+                    }
                     s->busy = s->busy && s->enabled;
                 }
                 tsc2005_pin_update(s);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
         break;
 
     case 1:
-        if (s->command)
+        if (s->command) {
             ret = (s->data >> 8) & 0xff;
-        else
+        } else {
             s->data |= value << 8;
+        }
         break;
 
     case 2:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
-    if (!s->busy)
+    if (!s->busy) {
         return;
+    }
 
     s->busy = false;
     s->dav |= mode_regs[function];
@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
      * signaling TS events immediately, but for now we simulate
      * the first conversion delay for sake of correctness.
      */
-    if (p != s->pressure)
+    if (p != s->pressure) {
         tsc2005_pin_update(s);
+    }
 }
 
 static int tsc2005_post_load(void *opaque, int version_id)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
but are introduced with ARMv7 and ARMv7MP respectively.
For clarity, do not use NOP for PLD.

Note that there is no PLDW (literal). Architecturally in the
T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
that it should be zero and if it is not then the behaviour
is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
value of the bit).

In our implementation we have patterns for both:

+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)

and so we effectively ignore the value of bit 5.  (This is a
permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
behaviour change in this commit, since we previously had NOP lines
for both those patterns.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
[PMM: adjusted commit message to note that PLD (lit) T1 bit 5
being 1 is an UNPREDICTABLE case.]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
 target/arm/tcg/translate.c |  4 ++--
 2 files changed, 14 insertions(+), 15 deletions(-)

diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/t32.decode
+++ b/target/arm/tcg/t32.decode
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
 # Note that Load, unsigned (literal) overlaps all other load encodings.
 {
   {
-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
+    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
     LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
   }
   LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
+    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
+    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
     LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
 {
   {
-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
+    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
   }
   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
+    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
     LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
+    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
     LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
   }
 }
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
   LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
   LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
 }
-# NOPs here are PLI.
 {
   {
-    NOP          1111 1001 -001 1111 1111 ------------
+    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
     LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1001 1001 ---- 1111 ------------
+    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
     LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
   }
   LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1001 0001 ---- 1111 1100 --------
+    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1001 0001 ---- 1111 000000 -- ----
+    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
     LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
     return ENABLE_ARCH_5TE;
 }
 
-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
+static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
 {
     return arm_dc_feature(s, ARM_FEATURE_V7MP);
 }
 
-static bool trans_PLI(DisasContext *s, arg_PLD *a)
+static bool trans_PLI(DisasContext *s, arg_PLI *a)
 {
     return ENABLE_ARCH_7;
 }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Fixes RISU mismatch for "fcvtzs h31, h0, #14".

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
             read_vec_element_i32(s, tcg_op, rn, pass, size);
             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
             if (is_scalar) {
+                if (size == MO_16 && !is_u) {
+                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
+                }
                 write_fp_sreg(s, rd, tcg_op);
             } else {
                 write_vec_element_i32(s, tcg_op, rd, pass, size);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

The decode of FMOV (vector, immediate, half-precision) vs
invalid cases of MOVI are incorrect.

Fixes RISU mismatch for invalid insn 0x2f01fd31.

Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
 1 file changed, 14 insertions(+), 10 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     bool is_q = extract32(insn, 30, 1);
     uint64_t imm = 0;
 
-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
-        /* Check for FMOV (vector, immediate) - half-precision */
-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
+    if (o2) {
+        if (cmode != 0xf || is_neg) {
             unallocated_encoding(s);
             return;
         }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (cmode == 15 && o2 && !is_neg) {
         /* FMOV (vector, immediate) - half-precision */
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = vfp_expand_imm(MO_16, abcdefgh);
         /* now duplicate across the lanes */
         imm = dup_const(MO_16, imm);
     } else {
+        if (cmode == 0xf && is_neg && !is_q) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
     }
 
+    if (!fp_access_check(s)) {
+        return;
+    }
+
     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
         /* MOVI or MVNI, with MVNI negation handled above.  */
         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
Fixes a RISU miscompare for invalid insn 0x5ef0c87a.

Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
     case 0x2f: /* FMINP */
         /* FP op, size[0] is 32 or 64 bit*/
         if (!u) {
-            if (!dc_isar_feature(aa64_fp16, s)) {
+            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
                 unallocated_encoding(s);
                 return;
             } else {
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate.h |    5 +
 target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
 target/arm/tcg/translate.c | 1588 -----------------------------------
 target/arm/tcg/meson.build |    1 +
 4 files changed, 1618 insertions(+), 1588 deletions(-)
 create mode 100644 target/arm/tcg/gengvec.c

diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+
 void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  ARM generic vector expansion
+ *
+ *  Copyright (c) 2003 Fabrice Bellard
+ *  Copyright (c) 2005-2007 CodeSourcery
+ *  Copyright (c) 2007 OpenedHand, Ltd.
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+
+
+static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+                            uint32_t opr_sz, uint32_t max_sz,
+                            gen_helper_gvec_3_ptr *fn)
+{
+    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
+                       opr_sz, max_sz, 0, fn);
+}
+
+void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+#define GEN_CMP0(NAME, COND)                              \
+    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
+              uint32_t opr_sz, uint32_t max_sz)           \
+    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
+
+GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
+GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
+GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
+GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
+GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
+
+#undef GEN_CMP0
+
+static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_sari_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_sari_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_sari_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ssra8_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_ssra16_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ssra32_i32,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ssra64_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.
+     */
+    shift = MIN(shift, (8 << vece) - 1);
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_shri_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_usra8_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8, },
+        { .fni8 = gen_usra16_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16, },
+        { .fni4 = gen_usra32_i32,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32, },
+        { .fni8 = gen_usra64_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64, },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Unsigned results in all zeros as input to accumulate: nop.
+     */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+/*
+ * Shift one less than the requested amount, and the low bit is
+ * the rounding bit.  For the 8 and 16-bit operations, because we
+ * mask the low bit, we can perform a normal integer shift instead
+ * of a vector shift.
+ */
+static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_sar8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_sar16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
+    if (sh == 32) {
+        tcg_gen_movi_i32(d, 0);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_sari_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+ void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_sari_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, sh - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_sari_vec(vece, d, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srshr8_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_srshr16_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_srshr32_i32,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_srshr64_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Signed results in all sign bits.  With rounding, this produces
+         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+         * I.e. always zero.
+         */
+        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr8_i64(t, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr16_i64(t, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    gen_srshr32_i32(t, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr64_i64(t, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    gen_srshr_vec(vece, t, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srsra8_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_srsra16_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_srsra32_i32,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_srsra64_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.  With rounding, this produces
+     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+     * I.e. always zero.  With accumulation, this leaves D unchanged.
+     */
+    if (shift == (8 << vece)) {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_shr8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_shr16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
+    if (sh == 32) {
+        tcg_gen_extract_i32(d, a, sh - 1, 1);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_shri_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_shri_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, shift - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_shri_vec(vece, d, a, shift);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_urshr8_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_urshr16_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_urshr32_i32,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_urshr64_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Unsigned results in zero.  With rounding, this produces a
+         * copy of the most significant bit.
+         */
+        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 8) {
+        tcg_gen_vec_shr8i_i64(t, a, 7);
+    } else {
+        gen_urshr8_i64(t, a, sh);
+    }
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 16) {
+        tcg_gen_vec_shr16i_i64(t, a, 15);
+    } else {
+        gen_urshr16_i64(t, a, sh);
+    }
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    if (sh == 32) {
+        tcg_gen_shri_i32(t, a, 31);
+    } else {
+        gen_urshr32_i32(t, a, sh);
+    }
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 64) {
+        tcg_gen_shri_i64(t, a, 63);
+    } else {
+        gen_urshr64_i64(t, a, sh);
+    }
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    if (sh == (8 << vece)) {
+        tcg_gen_shri_vec(vece, t, a, sh - 1);
+    } else {
+        gen_urshr_vec(vece, t, a, sh);
+    }
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ursra8_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_ursra16_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_ursra32_i32,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_ursra64_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+}
+
+static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+}
+
+static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
+    tcg_gen_shri_vec(vece, t, a, sh);
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shr8_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shr16_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shr32_ins_i32,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shr64_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /* Shift of esize leaves destination unchanged. */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+}
+
+static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+}
+
+static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shli_vec(vece, t, a, sh);
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shl8_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shl16_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shl32_ins_i32,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shl64_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [0..esize-1]. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift < (8 << vece));
+
+    if (shift == 0) {
+        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_add_u8(d, d, a);
+}
+
+static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_sub_u8(d, d, a);
+}
+
+static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_add_u16(d, d, a);
+}
+
+static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_sub_u16(d, d, a);
+}
+
+static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_sub_i32(d, d, a);
+}
+
+static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_sub_i64(d, d, a);
+}
+
+static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_sub_vec(vece, d, d, a);
+}
+
+/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
+ * these tables are shared with AArch64 which does support them.
+ */
+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mla8_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mla16_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mla32_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mla64_i64,
+          .fniv = gen_mla_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mls8_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mls16_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mls32_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mls64_i64,
+          .fniv = gen_mls_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+/* CMTST : test is "if (X & Y != 0)". */
+static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_and_i32(d, a, b);
+    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
+}
+
+void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_and_i64(d, a, b);
+    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
+}
+
+static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_and_vec(vece, d, a, b);
+    tcg_gen_dupi_vec(vece, a, 0);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+}
+
+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_helper_neon_tst_u8,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_helper_neon_tst_u16,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_cmtst_i32,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_cmtst_i64,
+          .fniv = gen_cmtst_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(32);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_shr_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(64);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_shr_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec msk, max;
+
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        msk = tcg_temp_new_vec_matching(dst);
+        tcg_gen_dupi_vec(vece, msk, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, msk);
+        tcg_gen_and_vec(vece, rsh, rsh, msk);
+    }
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_shrv_vec(vece, rval, src, rsh);
+
+    max = tcg_temp_new_vec_matching(dst);
+    tcg_gen_dupi_vec(vece, max, 8 << vece);
+
+    /*
+     * The choice of LT (signed) and GEU (unsigned) are biased toward
+     * the instructions of the x86_64 host.  For MO_8, the whole byte
+     * is significant so we must use an unsigned compare; otherwise we
+     * have already masked to a byte and so a signed compare works.
+     * Other tcg hosts have a full set of comparisons and do not care.
+     */
+    if (vece == MO_8) {
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
+        tcg_gen_andc_vec(vece, lval, lval, lsh);
+        tcg_gen_andc_vec(vece, rval, rval, rsh);
+    } else {
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
+        tcg_gen_and_vec(vece, lval, lval, lsh);
+        tcg_gen_and_vec(vece, rval, rval, rsh);
+    }
+    tcg_gen_or_vec(vece, dst, lval, rval);
+}
+
+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_shlv_vec,
+        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ushl_i32,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ushl_i64,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(31);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_umin_i32(rsh, rsh, max);
+    tcg_gen_sar_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(63);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_umin_i64(rsh, rsh, max);
+    tcg_gen_sar_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, tmp);
+        tcg_gen_and_vec(vece, rsh, rsh, tmp);
+    }
+
+    /* Bound rsh so out of bound right shift gets -1.  */
+    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
+    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
+    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
+
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_sarv_vec(vece, rval, src, rsh);
+
+    /* Select in-bound left shift.  */
+    tcg_gen_andc_vec(vece, lval, lval, tmp);
+
+    /* Select between left and right shift.  */
+    if (vece == MO_8) {
+        tcg_gen_dupi_vec(vece, tmp, 0);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0x80);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
+    }
+}
+
+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
+        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sshl_i32,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sshl_i64,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_usadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_b,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_h,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_s,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_d,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_ssadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_ussub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_sssub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_smin_vec(vece, t, a, b);
+    tcg_gen_smax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sabd_i32,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sabd_i64,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_umin_vec(vece, t, a, b);
+    tcg_gen_umax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_uabd_i32,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_uabd_i64,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_sabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_sabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_sabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_saba_i32,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_saba_i64,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_uabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_uabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_uabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_uaba_i32,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_uaba_i64,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
     gen_rfe(s, pc, load_cpu_field(spsr));
 }
 
-static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
-                            uint32_t opr_sz, uint32_t max_sz,
-                            gen_helper_gvec_3_ptr *fn)
-{
-    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
-
-    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
-                       opr_sz, max_sz, 0, fn);
-}
-
-void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-#define GEN_CMP0(NAME, COND)                              \
-    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
-              uint32_t opr_sz, uint32_t max_sz)           \
-    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
-
-GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
-GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
-GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
-GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
-GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
-
-#undef GEN_CMP0
-
-static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_sari_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_sari_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_sari_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ssra8_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_ssra16_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ssra32_i32,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ssra64_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.
-     */
-    shift = MIN(shift, (8 << vece) - 1);
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_shri_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_usra8_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8, },
-        { .fni8 = gen_usra16_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16, },
-        { .fni4 = gen_usra32_i32,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32, },
-        { .fni8 = gen_usra64_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64, },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Unsigned results in all zeros as input to accumulate: nop.
-     */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-/*
- * Shift one less than the requested amount, and the low bit is
- * the rounding bit.  For the 8 and 16-bit operations, because we
- * mask the low bit, we can perform a normal integer shift instead
- * of a vector shift.
- */
-static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_sar8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_sar16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
-    if (sh == 32) {
-        tcg_gen_movi_i32(d, 0);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_sari_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_sari_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, sh - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_sari_vec(vece, d, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srshr8_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_srshr16_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_srshr32_i32,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_srshr64_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Signed results in all sign bits.  With rounding, this produces
-         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-         * I.e. always zero.
-         */
-        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr8_i64(t, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr16_i64(t, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    gen_srshr32_i32(t, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr64_i64(t, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    gen_srshr_vec(vece, t, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srsra8_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_srsra16_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_srsra32_i32,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_srsra64_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.  With rounding, this produces
-     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-     * I.e. always zero.  With accumulation, this leaves D unchanged.
-     */
-    if (shift == (8 << vece)) {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_shr8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_shr16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
-    if (sh == 32) {
-        tcg_gen_extract_i32(d, a, sh - 1, 1);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_shri_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_shri_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, shift - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_shri_vec(vece, d, a, shift);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_urshr8_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_urshr16_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_urshr32_i32,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_urshr64_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Unsigned results in zero.  With rounding, this produces a
-         * copy of the most significant bit.
-         */
-        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 8) {
-        tcg_gen_vec_shr8i_i64(t, a, 7);
-    } else {
-        gen_urshr8_i64(t, a, sh);
-    }
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 16) {
-        tcg_gen_vec_shr16i_i64(t, a, 15);
-    } else {
-        gen_urshr16_i64(t, a, sh);
-    }
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    if (sh == 32) {
-        tcg_gen_shri_i32(t, a, 31);
-    } else {
-        gen_urshr32_i32(t, a, sh);
-    }
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 64) {
-        tcg_gen_shri_i64(t, a, 63);
-    } else {
-        gen_urshr64_i64(t, a, sh);
-    }
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    if (sh == (8 << vece)) {
-        tcg_gen_shri_vec(vece, t, a, sh - 1);
-    } else {
-        gen_urshr_vec(vece, t, a, sh);
-    }
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ursra8_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_ursra16_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_ursra32_i32,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_ursra64_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
-}
-
-static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
-}
-
-static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
-    tcg_gen_shri_vec(vece, t, a, sh);
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shr8_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shr16_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shr32_ins_i32,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shr64_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /* Shift of esize leaves destination unchanged. */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
-}
-
-static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
-}
-
-static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shli_vec(vece, t, a, sh);
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shl8_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shl16_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shl32_ins_i32,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shl64_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [0..esize-1]. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift < (8 << vece));
-
-    if (shift == 0) {
-        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_add_u8(d, d, a);
-}
-
-static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_sub_u8(d, d, a);
-}
-
-static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_add_u16(d, d, a);
-}
-
-static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_sub_u16(d, d, a);
-}
-
-static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_sub_i32(d, d, a);
-}
-
-static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_sub_i64(d, d, a);
-}
-
-static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_sub_vec(vece, d, d, a);
-}
-
-/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
- * these tables are shared with AArch64 which does support them.
- */
-void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mla8_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mla16_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mla32_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mla64_i64,
-          .fniv = gen_mla_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mls8_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mls16_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mls32_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mls64_i64,
-          .fniv = gen_mls_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-/* CMTST : test is "if (X & Y != 0)". */
-static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_and_i32(d, a, b);
-    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
-}
-
-void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_and_i64(d, a, b);
-    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
-}
-
-static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_and_vec(vece, d, a, b);
-    tcg_gen_dupi_vec(vece, a, 0);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
-}
-
-void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_helper_neon_tst_u8,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_helper_neon_tst_u16,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_cmtst_i32,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_cmtst_i64,
-          .fniv = gen_cmtst_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(32);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_shr_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(64);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_shr_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec msk, max;
-
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        msk = tcg_temp_new_vec_matching(dst);
-        tcg_gen_dupi_vec(vece, msk, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, msk);
-        tcg_gen_and_vec(vece, rsh, rsh, msk);
-    }
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_shrv_vec(vece, rval, src, rsh);
-
-    max = tcg_temp_new_vec_matching(dst);
-    tcg_gen_dupi_vec(vece, max, 8 << vece);
-
-    /*
-     * The choice of LT (signed) and GEU (unsigned) are biased toward
-     * the instructions of the x86_64 host.  For MO_8, the whole byte
-     * is significant so we must use an unsigned compare; otherwise we
-     * have already masked to a byte and so a signed compare works.
-     * Other tcg hosts have a full set of comparisons and do not care.
-     */
-    if (vece == MO_8) {
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
-        tcg_gen_andc_vec(vece, lval, lval, lsh);
-        tcg_gen_andc_vec(vece, rval, rval, rsh);
-    } else {
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
-        tcg_gen_and_vec(vece, lval, lval, lsh);
-        tcg_gen_and_vec(vece, rval, rval, rsh);
-    }
-    tcg_gen_or_vec(vece, dst, lval, rval);
-}
-
-void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_shlv_vec,
-        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ushl_i32,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ushl_i64,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(31);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_umin_i32(rsh, rsh, max);
-    tcg_gen_sar_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(63);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_umin_i64(rsh, rsh, max);
-    tcg_gen_sar_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, tmp);
-        tcg_gen_and_vec(vece, rsh, rsh, tmp);
-    }
-
-    /* Bound rsh so out of bound right shift gets -1.  */
-    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
-    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
-
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_sarv_vec(vece, rval, src, rsh);
-
-    /* Select in-bound left shift.  */
-    tcg_gen_andc_vec(vece, lval, lval, tmp);
-
-    /* Select between left and right shift.  */
-    if (vece == MO_8) {
-        tcg_gen_dupi_vec(vece, tmp, 0);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0x80);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
-    }
-}
-
-void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
-        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sshl_i32,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sshl_i64,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_usadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_b,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_h,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_s,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_d,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_ssadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_ussub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_sssub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_smin_vec(vece, t, a, b);
-    tcg_gen_smax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sabd_i32,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sabd_i64,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_umin_vec(vece, t, a, b);
-    tcg_gen_umax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_uabd_i32,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_uabd_i64,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_sabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_sabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_sabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_saba_i32,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_saba_i64,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_uabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_uabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_uabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_uaba_i32,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_uaba_i64,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
 static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
 {
     static const uint16_t mask[3] = {
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
 
 arm_ss.add(files(
   'cpu32.c',
+  'gengvec.c',
   'translate.c',
   'translate-m-nocp.c',
   'translate-mve.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Split some routines out of translate-a64.c and translate-sve.c
that are used by both.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.h |   4 +
 target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
 target/arm/tcg/translate-a64.c |  26 -----
 target/arm/tcg/translate-sve.c | 145 +------------------------
 target/arm/tcg/meson.build     |   1 +
 5 files changed, 197 insertions(+), 169 deletions(-)
 create mode 100644 target/arm/tcg/gengvec64.c

diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.h
+++ b/target/arm/tcg/translate-a64.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                   uint32_t rm_ofs, int64_t shift,
                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
 
 void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
 void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec64.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  AArch64 generic vector expansion
+ *
+ *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+#include "translate-a64.h"
+
+
+static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
+{
+    tcg_gen_rotli_i64(d, m, 1);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
+{
+    tcg_gen_rotli_vec(vece, d, m, 1);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3 op = {
+        .fni8 = gen_rax1_i64,
+        .fniv = gen_rax1_vec,
+        .opt_opc = vecop_list,
+        .fno = gen_helper_crypto_rax1,
+        .vece = MO_64,
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
+}
+
+static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_8, 0xff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 8 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 16 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
+{
+    tcg_gen_xor_i32(d, n, m);
+    tcg_gen_rotri_i32(d, d, sh);
+}
+
+static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_rotri_i64(d, d, sh);
+}
+
+static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                        TCGv_vec m, int64_t sh)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_rotri_vec(vece, d, d, sh);
+}
+
+void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, int64_t shift,
+                  uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3i ops[4] = {
+        { .fni8 = gen_xar8_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_b,
+          .opt_opc = vecop,
+          .vece = MO_8 },
+        { .fni8 = gen_xar16_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_h,
+          .opt_opc = vecop,
+          .vece = MO_16 },
+        { .fni4 = gen_xar_i32,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_s,
+          .opt_opc = vecop,
+          .vece = MO_32 },
+        { .fni8 = gen_xar_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_gvec_xar_d,
+          .opt_opc = vecop,
+          .vece = MO_64 }
+    };
+    int esize = 8 << vece;
+
+    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift <= esize);
+    shift &= esize - 1;
+
+    if (shift == 0) {
+        /* xar with no rotate devolves to xor. */
+        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
+                        shift, &ops[vece]);
+    }
+}
+
+static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_xor_i64(d, d, k);
+}
+
+static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_xor_vec(vece, d, d, k);
+}
+
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_eor3_i64,
+        .fniv = gen_eor3_vec,
+        .fno = gen_helper_sve2_eor3,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
+static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_andc_i64(d, m, k);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_andc_vec(vece, d, m, k);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_bcax_i64,
+        .fniv = gen_bcax_vec,
+        .fno = gen_helper_sve2_bcax,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
 }
 
-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
-{
-    tcg_gen_rotli_i64(d, m, 1);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
-{
-    tcg_gen_rotli_vec(vece, d, m, 1);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3 op = {
-        .fni8 = gen_rax1_i64,
-        .fniv = gen_rax1_vec,
-        .opt_opc = vecop_list,
-        .fno = gen_helper_crypto_rax1,
-        .vece = MO_64,
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
-}
-
 /* Crypto three-reg SHA512
  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
  * +-----------------------+------+---+---+-----+--------+------+------+
diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-sve.c
+++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
 TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
 TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
 
-static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_8, 0xff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 8 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 16 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
-{
-    tcg_gen_xor_i32(d, n, m);
-    tcg_gen_rotri_i32(d, d, sh);
-}
-
-static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_rotri_i64(d, d, sh);
-}
-
-static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                        TCGv_vec m, int64_t sh)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_rotri_vec(vece, d, d, sh);
-}
-
-void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, int64_t shift,
-                  uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3i ops[4] = {
-        { .fni8 = gen_xar8_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_b,
-          .opt_opc = vecop,
-          .vece = MO_8 },
-        { .fni8 = gen_xar16_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_h,
-          .opt_opc = vecop,
-          .vece = MO_16 },
-        { .fni4 = gen_xar_i32,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_s,
-          .opt_opc = vecop,
-          .vece = MO_32 },
-        { .fni8 = gen_xar_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_gvec_xar_d,
-          .opt_opc = vecop,
-          .vece = MO_64 }
-    };
-    int esize = 8 << vece;
-
-    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift <= esize);
-    shift &= esize - 1;
-
-    if (shift == 0) {
-        /* xar with no rotate devolves to xor. */
-        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
-                        shift, &ops[vece]);
-    }
-}
-
 static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
 {
     if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
     return true;
 }
 
-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_xor_i64(d, d, k);
-}
-
-static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_xor_vec(vece, d, d, k);
-}
-
-static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_eor3_i64,
-        .fniv = gen_eor3_vec,
-        .fno = gen_helper_sve2_eor3,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
-
-static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_andc_i64(d, m, k);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_andc_vec(vece, d, m, k);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_bcax_i64,
-        .fniv = gen_bcax_vec,
-        .fno = gen_helper_sve2_bcax,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
+TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
+TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
 
 static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
 
 arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
   'cpu64.c',
+  'gengvec64.c',
   'translate-a64.c',
   'translate-sve.c',
   'translate-sme.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 21 +++++++--
 target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
 2 files changed, 54 insertions(+), 53 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 # This file is processed by scripts/decodetree.py
 #
 
-&r               rn
-&ri              rd imm
-&rri_sf          rd rn imm sf
-&i               imm
+%rd             0:5
 
+&r              rn
+&ri             rd imm
+&rri_sf         rd rn imm sf
+&i              imm
+&qrr_e          q rd rn esz
+&qrrr_e         q rd rn rm esz
+
+@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
 CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
 CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
 CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
+
+### Cryptographic AES
+
+AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
+AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
+AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
+AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
     return true;
 }
 
+/*
+ * Expanders for AdvSIMD translation functions.
+ */
+
+static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
+                            gen_helper_gvec_2 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
+    }
+    return true;
+}
+
+static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
+                            gen_helper_gvec_3 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
     return true;
 }
 
+/*
+ * Cryptographic AES
+ */
+
+TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
+TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
+TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
+TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto AES
- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
- * +-----------------+------+-----------+--------+-----+------+------+
- * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
- * +-----------------+------+-----------+--------+-----+------+------+
- */
-static void disas_crypto_aes(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_2 *genfn2 = NULL;
-    gen_helper_gvec_3 *genfn3 = NULL;
-
-    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0x4: /* AESE */
-        genfn3 = gen_helper_crypto_aese;
-        break;
-    case 0x6: /* AESMC */
-        genfn2 = gen_helper_crypto_aesmc;
-        break;
-    case 0x5: /* AESD */
-        genfn3 = gen_helper_crypto_aesd;
-        break;
-    case 0x7: /* AESIMC */
-        genfn2 = gen_helper_crypto_aesimc;
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    if (genfn2) {
-        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
-    } else {
-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
-    }
-}
-
 /* Crypto three-reg SHA
  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
  * +-----------------+------+---+------+---+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 +++++
 target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
 2 files changed, 21 insertions(+), 68 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
+@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
 AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
 AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
 AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
+
+### Cryptographic three-register SHA
+
+SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
+SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
+SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
+SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
+SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
+SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
+SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES
+ * Cryptographic AES, SHA
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
 TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
 TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
 
+TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
+TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
+TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
+TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
+
+TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
+TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
+TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA
- *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
- * +-----------------+------+---+------+---+--------+-----+------+------+
- * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
- * +-----------------+------+---+------+---+--------+-----+------+------+
- */
-static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 3);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_3 *genfn;
-    bool feature;
-
-    if (size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0: /* SHA1C */
-        genfn = gen_helper_crypto_sha1c;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 1: /* SHA1P */
-        genfn = gen_helper_crypto_sha1p;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 2: /* SHA1M */
-        genfn = gen_helper_crypto_sha1m;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 3: /* SHA1SU0 */
-        genfn = gen_helper_crypto_sha1su0;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 4: /* SHA256H */
-        genfn = gen_helper_crypto_sha256h;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 5: /* SHA256H2 */
-        genfn = gen_helper_crypto_sha256h2;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 6: /* SHA256SU1 */
-        genfn = gen_helper_crypto_sha256su1;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
-}
-
 /* Crypto two-reg SHA
  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----------------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 54 +++-------------------------------
 2 files changed, 10 insertions(+), 50 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 ++++
 target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
 2 files changed, 32 insertions(+), 76 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
+@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
 SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
 SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
 SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
+
+### Cryptographic three-register SHA512
+
+SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
+SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
+SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
+RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
+SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
+SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
+SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
     return true;
 }
 
+static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES, SHA
+ * Cryptographic AES, SHA, SHA512
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
 TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
 TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
 
+TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
+TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
+TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
+TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
+TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
+TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
+TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA512
- *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
- * +-----------------------+------+---+---+-----+--------+------+------+
- * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
- * +-----------------------+------+---+---+-----+--------+------+------+
- */
-static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 10, 2);
-    int o =  extract32(insn, 14, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-    gen_helper_gvec_3 *oolfn = NULL;
-    GVecGen3Fn *gvecfn = NULL;
-
-    if (o == 0) {
-        switch (opcode) {
-        case 0: /* SHA512H */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h;
-            break;
-        case 1: /* SHA512H2 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h2;
-            break;
-        case 2: /* SHA512SU1 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512su1;
-            break;
-        case 3: /* RAX1 */
-            feature = dc_isar_feature(aa64_sha3, s);
-            gvecfn = gen_gvec_rax1;
-            break;
-        default:
-            g_assert_not_reached();
-        }
-    } else {
-        switch (opcode) {
-        case 0: /* SM3PARTW1 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw1;
-            break;
-        case 1: /* SM3PARTW2 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw2;
-            break;
-        case 2: /* SM4EKEY */
-            feature = dc_isar_feature(aa64_sm4, s);
-            oolfn = gen_helper_crypto_sm4ekey;
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (oolfn) {
-        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
-    } else {
-        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
-    }
-}
-
 /* Crypto two-reg SHA512
  *  31                                     12  11  10  9    5 4    0
  * +-----------------------------------------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
     { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  5 ++++
 target/arm/tcg/translate-a64.c | 50 ++--------------------------------
 2 files changed, 8 insertions(+), 47 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   8 ++
 target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
 2 files changed, 51 insertions(+), 89 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 &i              imm
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrrr_e        q rd rn rm ra esz
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
+@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 
 SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
 SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
+
+### Cryptographic four-register
+
+EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
+BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
+SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
     return true;
 }
 
+static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
 TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 
+TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
+TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
+
+static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
+{
+    if (!dc_isar_feature(aa64_sm3, s)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
+        TCGv_i32 tcg_res = tcg_temp_new_i32();
+        unsigned vsz, dofs;
+
+        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
+        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
+        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
+
+        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
+        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
+
+        /* Clear the whole register first, then store bits [127:96]. */
+        vsz = vec_full_reg_size(s);
+        dofs = vec_full_reg_offset(s, a->rd);
+        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
+        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
+    }
+    return true;
+}
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto four-register
- *  31               23 22 21 20  16 15  14  10 9    5 4    0
- * +-------------------+-----+------+---+------+------+------+
- * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
- * +-------------------+-----+------+---+------+------+------+
- */
-static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
-{
-    int op0 = extract32(insn, 21, 2);
-    int rm = extract32(insn, 16, 5);
-    int ra = extract32(insn, 10, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-
-    switch (op0) {
-    case 0: /* EOR3 */
-    case 1: /* BCAX */
-        feature = dc_isar_feature(aa64_sha3, s);
-        break;
-    case 2: /* SM3SS1 */
-        feature = dc_isar_feature(aa64_sm3, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (op0 < 2) {
-        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
-        int pass;
-
-        tcg_op1 = tcg_temp_new_i64();
-        tcg_op2 = tcg_temp_new_i64();
-        tcg_op3 = tcg_temp_new_i64();
-        tcg_res[0] = tcg_temp_new_i64();
-        tcg_res[1] = tcg_temp_new_i64();
-
-        for (pass = 0; pass < 2; pass++) {
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-            read_vec_element(s, tcg_op3, ra, pass, MO_64);
-
-            if (op0 == 0) {
-                /* EOR3 */
-                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            } else {
-                /* BCAX */
-                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            }
-            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
-        }
-        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
-        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
-    } else {
-        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
-
-        tcg_op1 = tcg_temp_new_i32();
-        tcg_op2 = tcg_temp_new_i32();
-        tcg_op3 = tcg_temp_new_i32();
-        tcg_res = tcg_temp_new_i32();
-        tcg_zero = tcg_constant_i32(0);
-
-        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
-        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
-        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
-
-        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
-        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
-
-        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
-        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
-    }
-}
-
 /* Crypto XAR
  *  31                   21 20  16 15    10 9    5 4    0
  * +-----------------------+------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 ++++++++
 target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
 2 files changed, 22 insertions(+), 31 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  4 ++++
 target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
 2 files changed, 18 insertions(+), 29 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  13 +
 target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
 2 files changed, 152 insertions(+), 287 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 ### Cryptographic XAR
 
 XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
+
+### Advanced SIMD scalar copy
+
+DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
+
+### Advanced SIMD copy
+
+DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
+DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
+INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
+SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
+UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
+INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
     return true;
 }
 
+/*
+ * Advanced SIMD copy
+ */
+
+static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
+{
+    unsigned esz = ctz32(imm);
+    if (esz <= MO_64) {
+        *pesz = esz;
+        *pidx = imm >> (esz + 1);
+        return true;
+    }
+    return false;
+}
+
+static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        /*
+         * This instruction just extracts the specified element and
+         * zero-extends it into the bottom of the destination register.
+         */
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        read_vec_element(s, tmp, a->rn, idx, esz);
+        write_fp_dreg(s, a->rd, tmp);
+    }
+    return true;
+}
+
+static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
+                             vec_reg_offset(s, a->rn, idx, esz),
+                             a->q ? 16 : 8, vec_full_reg_size(s));
+    }
+    return true;
+}
+
+static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
+                             a->q ? 16 : 8, vec_full_reg_size(s),
+                             cpu_reg(s, a->rn));
+    }
+    return true;
+}
+
+static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (is_signed) {
+        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
+            return false;
+        }
+    } else {
+        if (esz == MO_64 ? !a->q : a->q) {
+            return false;
+        }
+    }
+    if (fp_access_check(s)) {
+        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
+        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
+        if (is_signed && !a->q) {
+            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+        }
+    }
+    return true;
+}
+
+TRANS(SMOV, do_smov_umov, a, MO_SIGN)
+TRANS(UMOV, do_smov_umov, a, 0)
+
+static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
+static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
+{
+    MemOp esz;
+    unsigned didx, sidx;
+
+    if (!decode_esz_idx(a->di, &esz, &didx)) {
+        return false;
+    }
+    sidx = a->si >> esz;
+    if (fp_access_check(s)) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+
+        read_vec_element(s, tmp, a->rn, sidx, esz);
+        write_vec_element(s, tmp, a->rd, didx, esz);
+
+        /* INS is considered a 128-bit write for SVE. */
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_res);
 }
 
-/* DUP (Element, Vector)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-
-    if (size > 3 || (size == 3 && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
-                         vec_reg_offset(s, rn, index, size),
-                         is_q ? 16 : 8, vec_full_reg_size(s));
-}
-
-/* DUP (element, scalar)
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- */
-static void handle_simd_dupes(DisasContext *s, int rd, int rn,
-                              int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-
-    /* This instruction just extracts the specified element and
-     * zero-extends it into the bottom of the destination register.
-     */
-    tmp = tcg_temp_new_i64();
-    read_vec_element(s, tmp, rn, index, size);
-    write_fp_dreg(s, rd, tmp);
-}
-
-/* DUP (General)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    uint32_t dofs, oprsz, maxsz;
-
-    if (size > 3 || ((size == 3) && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dofs = vec_full_reg_offset(s, rd);
-    oprsz = is_q ? 16 : 8;
-    maxsz = vec_full_reg_size(s);
-
-    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
-}
-
-/* INS (Element)
- *
- *  31                   21 20    16 15  14    11  10 9    5 4    0
- * +-----------------------+--------+------------+---+------+------+
- * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
- * +-----------------------+--------+------------+---+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_inse(DisasContext *s, int rd, int rn,
-                             int imm4, int imm5)
-{
-    int size = ctz32(imm5);
-    int src_index, dst_index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dst_index = extract32(imm5, 1+size, 5);
-    src_index = extract32(imm4, size, 4);
-
-    tmp = tcg_temp_new_i64();
-
-    read_vec_element(s, tmp, rn, src_index, size);
-    write_vec_element(s, tmp, rd, dst_index, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-
-/* INS (General)
- *
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
-{
-    int size = ctz32(imm5);
-    int idx;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    idx = extract32(imm5, 1 + size, 4 - size);
-    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-/*
- * UMOV (General)
- * SMOV (General)
- *
- *  31  30   29              21 20    16 15    12   10 9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * U: unsigned when set
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
-                                  int rn, int rd, int imm5)
-{
-    int size = ctz32(imm5);
-    int element;
-    TCGv_i64 tcg_rd;
-
-    /* Check for UnallocatedEncodings */
-    if (is_signed) {
-        if (size > 2 || (size == 2 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    } else {
-        if (size > 3
-            || (size < 3 && is_q)
-            || (size == 3 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    element = extract32(imm5, 1+size, 4);
-
-    tcg_rd = cpu_reg(s, rd);
-    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
-    if (is_signed && !is_q) {
-        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
-    }
-}
-
-/* AdvSIMD copy
- *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +---+---+----+-----------------+------+---+------+---+------+------+
- * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +---+---+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int op = extract32(insn, 29, 1);
-    int is_q = extract32(insn, 30, 1);
-    int imm5 = extract32(insn, 16, 5);
-
-    if (op) {
-        if (is_q) {
-            /* INS (element) */
-            handle_simd_inse(s, rd, rn, imm4, imm5);
-        } else {
-            unallocated_encoding(s);
-        }
-    } else {
-        switch (imm4) {
-        case 0:
-            /* DUP (element - vector) */
-            handle_simd_dupe(s, is_q, rd, rn, imm5);
-            break;
-        case 1:
-            /* DUP (general) */
-            handle_simd_dupg(s, is_q, rd, rn, imm5);
-            break;
-        case 3:
-            if (is_q) {
-                /* INS (general) */
-                handle_simd_insg(s, rd, rn, imm5);
-            } else {
-                unallocated_encoding(s);
-            }
-            break;
-        case 5:
-        case 7:
-            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
-            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
-            break;
-        default:
-            unallocated_encoding(s);
-            break;
-        }
-    }
-}
-
 /* AdvSIMD modified immediate
  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     }
 }
 
-/* AdvSIMD scalar copy
- *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +-----+----+-----------------+------+---+------+---+------+------+
- * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +-----+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int imm5 = extract32(insn, 16, 5);
-    int op = extract32(insn, 29, 1);
-
-    if (op != 0 || imm4 != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    /* DUP (element, scalar) */
-    handle_simd_dupes(s, rd, rn, imm5);
-}
-
 /* AdvSIMD scalar pairwise
  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----+---+-----------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
-    { 0x0e000400, 0x9fe08400, disas_simd_copy },
     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
-    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert all forms (scalar, vector, scalar indexed, vector indexed),
which allows us to remove switch table entries elsewhere.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   8 ++
 target/arm/tcg/a64.decode      |  45 +++++++
 target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
 target/arm/tcg/vec_helper.c    |  39 +++---
 4 files changed, 259 insertions(+), 54 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 #
 
 %rd             0:5
+%esz_sd         22:1 !function=plus_2
+%hl             11:1 21:1
+%hlm            11:1 20:2
 
 &r              rn
 &ri             rd imm
 &rri_sf         rd rn imm sf
 &i              imm
+&rrr_e          rd rn rm esz
+&rrx_e          rd rn rm idx esz
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrx_e         q rd rn rm idx esz
 &qrrrr_e        q rd rn rm ra esz
 
+@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
+@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+
+@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
+@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
+@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
+
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
+@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
+
+@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
+                &qrrx_e esz=1 idx=%hlm
+@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
+                &qrrx_e esz=2 idx=%hl
+@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
+                &qrrx_e esz=3
+
 ### Data Processing - Immediate
 
 # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
+
+### Advanced SIMD scalar three same
+
+FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
+FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
+
+### Advanced SIMD three same
+
+FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
+### Advanced SIMD scalar x indexed element
+
+FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
+### Advanced SIMD vector x indexed element
+
+FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
     return true;
 }
 
+/*
+ * Advanced SIMD three same
+ */
+
+typedef struct FPScalar {
+    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
+} FPScalar;
+
+static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        return false;
+    }
+    return true;
+}
+
+static const FPScalar f_scalar_fmulx = {
+    gen_helper_advsimd_mulxh,
+    gen_helper_vfp_mulxs,
+    gen_helper_vfp_mulxd,
+};
+TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
+                          gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, 0, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
+    gen_helper_gvec_fmulx_h,
+    gen_helper_gvec_fmulx_s,
+    gen_helper_gvec_fmulx_d,
+};
+TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
+
+/*
+ * Advanced SIMD scalar/vector x indexed element
+ */
+
+static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = tcg_temp_new_i64();
+
+            read_vec_element(s, t1, a->rm, a->idx, MO_64);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
+                              gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, a->idx, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
+    gen_helper_gvec_fmulx_idx_h,
+    gen_helper_gvec_fmulx_idx_s,
+    gen_helper_gvec_fmulx_idx_d,
+};
+TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         /* Floating point: U, size[1] and opcode indicate operation */
         int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
         switch (fpopcode) {
-        case 0x1b: /* FMULX */
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
         case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         case 0x7a: /* FABD */
             break;
         default:
+        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
     case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     case 0x1d: /* FACGT */
         break;
     default:
+    case 0x03: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
-        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x04: /* FCMEQ (reg) */
         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     default:
+    case 0x03: /* FMULX */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1b: /* FMULX */
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1b: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
-    case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x3: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x2: /* FADD */
                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3: /* FMULX */
-                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x3: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
     case 0x09: /* FMUL */
-    case 0x19: /* FMULX */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             case 0x09: /* FMUL */
                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
                 break;
-            case 0x19: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x19: /* FMULX */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
-                                                  tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
+DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
+DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 
 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
 
 #undef DO_MLA_IDX
 
-#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
+#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
         TYPE mm = m[H(i + idx)];                                           \
         for (j = 0; j < segment; j++) {                                    \
-            d[i + j] = TYPE##_##ADD(d[i + j],                              \
-                                    TYPE##_mul(n[i + j], mm, stat), stat); \
+            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
         }                                                                  \
     }                                                                      \
     clear_tail(d, oprsz, simd_maxsz(desc));                                \
 }
 
-#define float16_nop(N, M, S) (M)
-#define float32_nop(N, M, S) (M)
-#define float64_nop(N, M, S) (M)
+#define nop(N, M, S) (M)
 
-DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
-DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
-DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
+DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
+
+#ifdef TARGET_AARCH64
+
+DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
+DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
+DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
+
+#endif
+
+#undef nop
 
 /*
  * Non-fused multiply-accumulate operations, for Neon. NB that unlike
  * the fused ops below they assume accumulate both from and into Vd.
  */
-DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
-DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
-DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
-DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
+DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 
-#undef float16_nop
-#undef float32_nop
-#undef float64_nop
 #undef DO_FMUL_IDX
 
 #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   4 +
 target/arm/tcg/translate.h     |   5 +
 target/arm/tcg/a64.decode      |  27 +++++
 target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 5 files changed, 143 insertions(+), 102 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
     return x << 12;
 }
 
+static inline int xor_2(DisasContext *s, int x)
+{
+    return x ^ 2;
+}
+
 static inline int neon_3same_fp_size(DisasContext *s, int x)
 {
     /* Convert 0==fp32, 1==fp16 into a MO_* value */
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 %rd             0:5
 %esz_sd         22:1 !function=plus_2
+%esz_hsd        22:2 !function=xor_2
 %hl             11:1 21:1
 %hlm            11:1 20:2
 
@@ -XXX,XX +XXX,XX @@
 
 @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
 @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
 
 @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
 @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 
 ### Advanced SIMD scalar three same
 
+FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
+FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
+FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
+FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
 ### Advanced SIMD three same
 
+FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
+FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
 ### Advanced SIMD scalar x indexed element
 
+FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
 ### Advanced SIMD vector x indexed element
 
+FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
     return true;
 }
 
+static const FPScalar f_scalar_fadd = {
+    gen_helper_vfp_addh,
+    gen_helper_vfp_adds,
+    gen_helper_vfp_addd,
+};
+TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
+
+static const FPScalar f_scalar_fsub = {
+    gen_helper_vfp_subh,
+    gen_helper_vfp_subs,
+    gen_helper_vfp_subd,
+};
+TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
+
+static const FPScalar f_scalar_fdiv = {
+    gen_helper_vfp_divh,
+    gen_helper_vfp_divs,
+    gen_helper_vfp_divd,
+};
+TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
+
+static const FPScalar f_scalar_fmul = {
+    gen_helper_vfp_mulh,
+    gen_helper_vfp_muls,
+    gen_helper_vfp_muld,
+};
+TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
+    gen_helper_gvec_fadd_h,
+    gen_helper_gvec_fadd_s,
+    gen_helper_gvec_fadd_d,
+};
+TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
+
+static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
+    gen_helper_gvec_fsub_h,
+    gen_helper_gvec_fsub_s,
+    gen_helper_gvec_fsub_d,
+};
+TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
+
+static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
+    gen_helper_gvec_fdiv_h,
+    gen_helper_gvec_fdiv_s,
+    gen_helper_gvec_fdiv_d,
+};
+TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
+    gen_helper_gvec_fmul_h,
+    gen_helper_gvec_fmul_s,
+    gen_helper_gvec_fmul_d,
+};
+TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
     return true;
 }
 
+TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
+    gen_helper_gvec_fmul_idx_h,
+    gen_helper_gvec_fmul_idx_s,
+    gen_helper_gvec_fmul_idx_d,
+};
+TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
     gen_helper_gvec_fmulx_idx_h,
     gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_sreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_dreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
         break;
     default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x18: /* FMAXNM */
                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_absd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
     case 0x18: /* FMAXNM */
-    case 0x1a: /* FADD */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
-    case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
-    case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
-    case 0x5f: /* FDIV */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x3a: /* FSUB */
+    case 0x5b: /* FMUL */
+    case 0x5f: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     switch (fpopcode) {
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
-    case 0x2: /* FADD */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
-    case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
     case 0x1a: /* FABD */
     case 0x1c: /* FCMGT */
     case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0xa: /* FSUB */
+    case 0x13: /* FMUL */
+    case 0x17: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0x2: /* FADD */
-                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xa: /* FSUB */
-                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xe: /* FMIN */
                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x13: /* FMUL */
-                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x14: /* FCMGE */
                 gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x15: /* FACGE */
                 gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x17: /* FDIV */
-                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0xa: /* FSUB */
+            case 0x13: /* FMUL */
+            case 0x17: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         break;
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
-    case 0x09: /* FMUL */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
                 gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                 break;
-            case 0x09: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x09: /* FMUL */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
-                                                tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fdiv_h, float16_div, float16)
+DO_3OP(gvec_fdiv_s, float32_div, float32)
+DO_3OP(gvec_fdiv_d, float64_div, float64)
+
 DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
 DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
 DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   4 +
 target/arm/tcg/a64.decode      |  17 ++++
 target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 4 files changed, 113 insertions(+), 80 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
 FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
 FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 
+FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
+FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
+FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
+FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
 };
 TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 
+static const FPScalar f_scalar_fmax = {
+    gen_helper_advsimd_maxh,
+    gen_helper_vfp_maxs,
+    gen_helper_vfp_maxd,
+};
+TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
+
+static const FPScalar f_scalar_fmin = {
+    gen_helper_advsimd_minh,
+    gen_helper_vfp_mins,
+    gen_helper_vfp_mind,
+};
+TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
+
+static const FPScalar f_scalar_fmaxnm = {
+    gen_helper_advsimd_maxnumh,
+    gen_helper_vfp_maxnums,
+    gen_helper_vfp_maxnumd,
+};
+TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
+
+static const FPScalar f_scalar_fminnm = {
+    gen_helper_advsimd_minnumh,
+    gen_helper_vfp_minnums,
+    gen_helper_vfp_minnumd,
+};
+TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
 };
 TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
+    gen_helper_gvec_fmax_h,
+    gen_helper_gvec_fmax_s,
+    gen_helper_gvec_fmax_d,
+};
+TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
+    gen_helper_gvec_fmin_h,
+    gen_helper_gvec_fmin_s,
+    gen_helper_gvec_fmin_d,
+};
+TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
+    gen_helper_gvec_fmaxnum_h,
+    gen_helper_gvec_fmaxnum_s,
+    gen_helper_gvec_fmaxnum_d,
+};
+TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
+    gen_helper_gvec_fminnum_h,
+    gen_helper_gvec_fminnum_s,
+    gen_helper_gvec_fminnum_d,
+};
+TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x7d: /* FACGT */
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
-    case 0x18: /* FMAXNM */
     case 0x1c: /* FCMEQ */
-    case 0x1e: /* FMAX */
-    case 0x38: /* FMINNM */
-    case 0x3e: /* FMIN */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x18: /* FMAXNM */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1e: /* FMAX */
+    case 0x38: /* FMINNM */
     case 0x3a: /* FSUB */
+    case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
     case 0x5f: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x0: /* FMAXNM */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x6: /* FMAX */
+    case 0x8: /* FMINNM */
     case 0xa: /* FSUB */
+    case 0xe: /* FMIN */
     case 0x13: /* FMUL */
     case 0x17: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x0: /* FMAXNM */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x6: /* FMAX */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x8: /* FMINNM */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x9: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xe: /* FMIN */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x0: /* FMAXNM */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x6: /* FMAX */
+            case 0x8: /* FMINNM */
             case 0xa: /* FSUB */
+            case 0xe: /* FMIN */
             case 0x13: /* FMUL */
             case 0x17: /* FDIV */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
+DO_3OP(gvec_fmax_d, float64_max, float64)
 
 DO_3OP(gvec_fmin_h, float16_min, float16)
 DO_3OP(gvec_fmin_s, float32_min, float32)
+DO_3OP(gvec_fmin_d, float64_min, float64)
 
 DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
 DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
+DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
 
 DO_3OP(gvec_fminnum_h, float16_minnum, float16)
 DO_3OP(gvec_fminnum_s, float32_minnum, float32)
+DO_3OP(gvec_fminnum_d, float64_minnum, float64)
 
 DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
 DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Load and zero-extend float16 into a TCGv_i32 before
all scalar operations.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
 1 file changed, 22 insertions(+), 17 deletions(-)

diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
 }
 
+static inline void vfp_load_reg16(TCGv_i32 var, int reg)
+{
+    tcg_gen_ld16u_i32(var, tcg_env,
+                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
+}
+
 /*
  * The imm8 encodes the sign bit, enough bits to represent an exponent in
  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
     if (a->l) {
         /* VFP to general purpose register */
         tmp = tcg_temp_new_i32();
-        vfp_load_reg32(tmp, a->vn);
-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
+        vfp_load_reg16(tmp, a->vn);
         store_reg(s, a->rt, tmp);
     } else {
         /* general purpose register to VFP */
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
     fd = tcg_temp_new_i32();
     fpst = fpstatus_ptr(FPST_FPCR_F16);
 
-    vfp_load_reg32(f0, vn);
-    vfp_load_reg32(f1, vm);
+    vfp_load_reg16(f0, vn);
+    vfp_load_reg16(f1, vm);
 
     if (reads_vd) {
-        vfp_load_reg32(fd, vd);
+        vfp_load_reg16(fd, vd);
     }
     fn(fd, f0, f1, fpst);
     vfp_store_reg32(fd, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
     }
 
     f0 = tcg_temp_new_i32();
-    vfp_load_reg32(f0, vm);
+    vfp_load_reg16(f0, vm);
     fn(f0, f0);
     vfp_store_reg32(f0, vd);
 
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vm = tcg_temp_new_i32();
     vd = tcg_temp_new_i32();
 
-    vfp_load_reg32(vn, a->vn);
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vn, a->vn);
+    vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
         gen_helper_vfp_negh(vn, vn);
     }
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
         gen_helper_vfp_negh(vd, vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
     vd = tcg_temp_new_i32();
     vm = tcg_temp_new_i32();
 
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (a->z) {
         tcg_gen_movi_i32(vm, 0);
     } else {
-        vfp_load_reg32(vm, a->vm);
+        vfp_load_reg16(vm, a->vm);
     }
 
     if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
     gen_helper_rinth(tmp, tmp, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth_exact(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
 
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     vm = tcg_temp_new_i32();
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vm, a->vm);
 
     if (a->s) {
         if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
     /* Insert low half of Vm into high half of Vd */
     rm = tcg_temp_new_i32();
     rd = tcg_temp_new_i32();
-    vfp_load_reg32(rm, a->vm);
-    vfp_load_reg32(rd, a->vd);
+    vfp_load_reg16(rm, a->vm);
+    vfp_load_reg16(rd, a->vd);
     tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
     vfp_store_reg32(rd, a->vd);
     return true;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  6 ----
 target/arm/tcg/translate.h     | 30 +++++++++++++++++++
 target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
 target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
 target/arm/vfp_helper.c        | 30 -------------------
 5 files changed, 79 insertions(+), 85 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
 DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
-DEF_HELPER_1(vfp_negh, f16, f16)
-DEF_HELPER_1(vfp_negs, f32, f32)
-DEF_HELPER_1(vfp_negd, f64, f64)
-DEF_HELPER_1(vfp_absh, f16, f16)
-DEF_HELPER_1(vfp_abss, f32, f32)
-DEF_HELPER_1(vfp_absd, f64, f64)
 DEF_HELPER_2(vfp_sqrth, f16, f16, env)
 DEF_HELPER_2(vfp_sqrts, f32, f32, env)
 DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
  */
 uint64_t vfp_expand_imm(int size, uint8_t imm8);
 
+static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT16_MAX);
+}
+
+static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT32_MAX);
+}
+
+static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_andi_i64(d, s, INT64_MAX);
+}
+
+static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 15);
+}
+
+static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 31);
+}
+
+static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_xori_i64(d, s, 1ull << 63);
+}
+
 /* Vector operations shared between ARM and AArch64.  */
 void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    uint32_t opr_sz, uint32_t max_sz);
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         break;
     case 0x1: /* FABS */
-        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
+        gen_vfp_absh(tcg_res, tcg_op);
         break;
     case 0x2: /* FNEG */
-        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_op);
         break;
     case 0x3: /* FSQRT */
         fpst = fpstatus_ptr(FPST_FPCR_F16);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         goto done;
     case 0x1: /* FABS */
-        gen_helper_vfp_abss(tcg_res, tcg_op);
+        gen_vfp_abss(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negs(tcg_res, tcg_op);
+        gen_vfp_negs(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
 
     switch (opcode) {
     case 0x1: /* FABS */
-        gen_helper_vfp_absd(tcg_res, tcg_op);
+        gen_vfp_absd(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negd(tcg_res, tcg_op);
+        gen_vfp_negd(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negs(tcg_res, tcg_res);
+        gen_vfp_negs(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negd(tcg_res, tcg_res);
+        gen_vfp_negd(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negs(tcg_op3, tcg_op3);
+        gen_vfp_negs(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negs(tcg_op1, tcg_op1);
+        gen_vfp_negs(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negd(tcg_op3, tcg_op3);
+        gen_vfp_negd(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negd(tcg_op1, tcg_op1);
+        gen_vfp_negd(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op1, tcg_op1);
+                gen_vfp_negd(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_absd(tcg_res, tcg_res);
+                gen_vfp_absd(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negs(tcg_op1, tcg_op1);
+                gen_vfp_negs(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_abss(tcg_res, tcg_res);
+                gen_vfp_abss(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
         }
         break;
     case 0x2f: /* FABS */
-        gen_helper_vfp_absd(tcg_rd, tcg_rn);
+        gen_vfp_absd(tcg_rd, tcg_rn);
         break;
     case 0x6f: /* FNEG */
-        gen_helper_vfp_negd(tcg_rd, tcg_rn);
+        gen_vfp_negd(tcg_rd, tcg_rn);
         break;
     case 0x7f: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                     }
                     break;
                 case 0x2f: /* FABS */
-                    gen_helper_vfp_abss(tcg_res, tcg_op);
+                    gen_vfp_abss(tcg_res, tcg_op);
                     break;
                 case 0x6f: /* FNEG */
-                    gen_helper_vfp_negs(tcg_res, tcg_op);
+                    gen_vfp_negs(tcg_res, tcg_op);
                     break;
                 case 0x7f: /* FSQRT */
                     gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             switch (16 * u + opcode) {
             case 0x05: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op, tcg_op);
+                gen_vfp_negd(tcg_op, tcg_op);
                 /* fall through */
             case 0x01: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
+    gen_vfp_negh(tmp, tmp);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
+    gen_vfp_negs(tmp, tmp);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
+    gen_vfp_negd(tmp, tmp);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(tmp, tmp);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(tmp, tmp);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(tmp, tmp);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_mulh(vd, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
 }
 
 static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muls(vd, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
 }
 
 static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muld(vd, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
 }
 
 static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negh(vn, vn);
+        gen_vfp_negh(vn, vn);
     }
     vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negh(vd, vd);
+        gen_vfp_negh(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg32(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negs(vn, vn);
+        gen_vfp_negs(vn, vn);
     }
     vfp_load_reg32(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negs(vd, vd);
+        gen_vfp_negs(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
     vfp_load_reg64(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negd(vn, vn);
+        gen_vfp_negd(vn, vn);
     }
     vfp_load_reg64(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negd(vd, vd);
+        gen_vfp_negd(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
 DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
 DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
 
-DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
-DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
-DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
+DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
+DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
+DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
 
-DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
-DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
-DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
+DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
+DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
+DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
 
 static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
 {
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
 VFP_BINOP(maxnum)
 #undef VFP_BINOP
 
-dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
-{
-    return float16_chs(a);
-}
-
-float32 VFP_HELPER(neg, s)(float32 a)
-{
-    return float32_chs(a);
-}
-
-float64 VFP_HELPER(neg, d)(float64 a)
-{
-    return float64_chs(a);
-}
-
-dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
-{
-    return float16_abs(a);
-}
-
-float32 VFP_HELPER(abs, s)(float32 a)
-{
-    return float32_abs(a);
-}
-
-float64 VFP_HELPER(abs, d)(float64 a)
-{
-    return float64_abs(a);
-}
-
 dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
 {
     return float16_sqrt(a, &env->vfp.fp_status_f16);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This is the last instruction within disas_fp_2src,
so remove that and its subroutines.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   1 +
 target/arm/tcg/translate-a64.c | 177 +++++----------------------------
 2 files changed, 27 insertions(+), 151 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   2 +
 target/arm/tcg/a64.decode      |  22 +++
 target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |  14 ++
 4 files changed, 163 insertions(+), 116 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
+FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
+
+FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
+FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
+FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
+FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
+FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
+
+FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
+FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
+FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 
+FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
+FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
+FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
+
+FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
+FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
+FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
 };
 TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
+    gen_helper_gvec_vfma_h,
+    gen_helper_gvec_vfma_s,
+    gen_helper_gvec_vfma_d,
+};
+TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
+    gen_helper_gvec_vfms_h,
+    gen_helper_gvec_vfms_s,
+    gen_helper_gvec_vfms_d,
+};
+TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
 TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
+static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t2 = tcg_temp_new_i64();
+
+            read_vec_element(s, t2, a->rm, a->idx, MO_64);
+            if (neg) {
+                gen_vfp_negd(t1, t1);
+            }
+            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
+            if (neg) {
+                gen_vfp_negs(t1, t1);
+            }
+            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
+            if (neg) {
+                gen_vfp_negh(t1, t1);
+            }
+            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
+                                       fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
+TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
+
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
                               gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
 };
 TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 
+static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
+{
+    static gen_helper_gvec_4_ptr * const fns[3] = {
+        gen_helper_gvec_fmla_idx_h,
+        gen_helper_gvec_fmla_idx_s,
+        gen_helper_gvec_fmla_idx_d,
+    };
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
+                          esz == MO_16, (a->idx << 1) | neg,
+                          fns[esz - 1]);
+    }
+    return true;
+}
+
+TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
+TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
+
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negs(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
     case 0x7d: /* FACGT */
-    case 0x19: /* FMLA */
-    case 0x39: /* FMLS */
     case 0x1c: /* FCMEQ */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
 
     default:
     case 0x18: /* FMAXNM */
+    case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
+    case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
-    case 0x9: /* FMLS */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         break;
     default:
     case 0x0: /* FMAXNM */
+    case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
+    case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x1: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x9: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 break;
             default:
             case 0x0: /* FMAXNM */
+            case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
+            case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x0c: /* SQDMULH */
     case 0x0d: /* SQRDMULH */
         break;
-    case 0x01: /* FMLA */
-    case 0x05: /* FMLS */
-        is_fp = 1;
-        break;
     case 0x1d: /* SQRDMLAH */
     case 0x1f: /* SQRDMLSH */
         if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x01: /* FMLA */
+    case 0x05: /* FMLS */
     case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
 
     switch (is_fp) {
     case 1: /* normal fp */
-        /* convert insn encoded size to MemOp size */
-        switch (size) {
-        case 0: /* half-precision */
-            size = MO_16;
-            is_fp16 = true;
-            break;
-        case MO_32: /* single precision */
-        case MO_64: /* double precision */
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-        break;
+        unallocated_encoding(s); /* in decodetree */
+        return;
 
     case 2: /* complex fp */
         /* Each indexable element is a complex pair.  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 
     if (size == 3) {
-        TCGv_i64 tcg_idx = tcg_temp_new_i64();
-        int pass;
-
-        assert(is_fp && is_q && !is_long);
-
-        read_vec_element(s, tcg_idx, rm, index, MO_64);
-
-        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
-            TCGv_i64 tcg_op = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op, rn, pass, MO_64);
-
-            switch (16 * u + opcode) {
-            case 0x05: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op, tcg_op);
-                /* fall through */
-            case 0x01: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
-                break;
-            default:
-            case 0x09: /* FMUL */
-            case 0x19: /* FMULX */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        }
-
-        clear_vec_high(s, !is_scalar, rd);
+        g_assert_not_reached();
     } else if (!is_long) {
         /* 32 bit floating point, or 16 or 32 bit integer.
          * For the 16 bit scalar case we use the usual Neon helpers and
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 genfn(tcg_res, tcg_op, tcg_res);
                 break;
             }
-            case 0x05: /* FMLS */
-            case 0x01: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass,
-                                     is_scalar ? size : MO_32);
-                switch (size) {
-                case 1:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for fused
-                         * multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
-                    }
-                    if (is_scalar) {
-                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
-                                                   tcg_res, fpst);
-                    } else {
-                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
-                                                    tcg_res, fpst);
-                    }
-                    break;
-                case 2:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for
-                         * fused multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
-                    }
-                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
-                                           tcg_res, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x01: /* FMLA */
+            case 0x05: /* FMLS */
             case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(op1, op2, dest, 0, stat);
 }
 
+static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(op1, op2, dest, 0, stat);
+}
+
 static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
                                  float_status *stat)
 {
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
 }
 
+static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
+}
+
 #define DO_MULADD(NAME, FUNC, TYPE)                                     \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
 
 DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
 DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
+DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
 
 DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
 DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
+DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
 
 /* For the indexed ops, SVE applies the index per 128-bit vector segment.
  * For AdvSIMD, there is of course only one such vector segment.
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 +
 target/arm/tcg/a64.decode      |  30 ++++++
 target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
 target/arm/tcg/vec_helper.c    |  30 ++++++
 4 files changed, 174 insertions(+), 79 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
+FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
+FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
+FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
+
+FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
+FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
 FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
 FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 
+FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
+FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
+FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
+
+FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
+FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
 };
 TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 
+static const FPScalar f_scalar_fcmeq = {
+    gen_helper_advsimd_ceq_f16,
+    gen_helper_neon_ceq_f32,
+    gen_helper_neon_ceq_f64,
+};
+TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
+
+static const FPScalar f_scalar_fcmge = {
+    gen_helper_advsimd_cge_f16,
+    gen_helper_neon_cge_f32,
+    gen_helper_neon_cge_f64,
+};
+TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
+
+static const FPScalar f_scalar_fcmgt = {
+    gen_helper_advsimd_cgt_f16,
+    gen_helper_neon_cgt_f32,
+    gen_helper_neon_cgt_f64,
+};
+TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
+
+static const FPScalar f_scalar_facge = {
+    gen_helper_advsimd_acge_f16,
+    gen_helper_neon_acge_f32,
+    gen_helper_neon_acge_f64,
+};
+TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
+
+static const FPScalar f_scalar_facgt = {
+    gen_helper_advsimd_acgt_f16,
+    gen_helper_neon_acgt_f32,
+    gen_helper_neon_acgt_f64,
+};
+TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 };
 TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 
+static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
+    gen_helper_gvec_fceq_h,
+    gen_helper_gvec_fceq_s,
+    gen_helper_gvec_fceq_d,
+};
+TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
+    gen_helper_gvec_fcge_h,
+    gen_helper_gvec_fcge_s,
+    gen_helper_gvec_fcge_d,
+};
+TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
+    gen_helper_gvec_fcgt_h,
+    gen_helper_gvec_fcgt_s,
+    gen_helper_gvec_fcgt_d,
+};
+TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
+
+static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
+    gen_helper_gvec_facge_h,
+    gen_helper_gvec_facge_s,
+    gen_helper_gvec_facge_d,
+};
+TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
+
+static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
+    gen_helper_gvec_facgt_h,
+    gen_helper_gvec_facgt_s,
+    gen_helper_gvec_facgt_d,
+};
+TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_absd(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_abss(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         switch (fpopcode) {
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
+        case 0x7a: /* FABD */
+            break;
+        default:
+        case 0x1b: /* FMULX */
         case 0x5d: /* FACGE */
         case 0x7d: /* FACGT */
         case 0x1c: /* FCMEQ */
         case 0x5c: /* FCMGE */
         case 0x7c: /* FCMGT */
-        case 0x7a: /* FABD */
-            break;
-        default:
-        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
         break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
-        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x07: /* FRECPS */
         gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     case 0x0f: /* FRSQRTS */
         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
-    case 0x14: /* FCMGE (reg) */
-        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x15: /* FACGE */
-        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x1a: /* FABD */
         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
         break;
-    case 0x1c: /* FCMGT (reg) */
-        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1d: /* FACGT */
-        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
-    case 0x5d: /* FACGE */
-    case 0x7d: /* FACGT */
-    case 0x1c: /* FCMEQ */
-    case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
-    case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
+    case 0x5c: /* FCMGE */
+    case 0x5d: /* FACGE */
     case 0x5f: /* FDIV */
+    case 0x7d: /* FACGT */
+    case 0x7c: /* FCMGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
     case 0xf: /* FRSQRTS */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
         pairwise = false;
         break;
     case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
+    case 0x14: /* FCMGE */
+    case 0x15: /* FACGE */
     case 0x17: /* FDIV */
+    case 0x1c: /* FCMGT */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x4: /* FCMEQ */
-                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x14: /* FCMGE */
-                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x15: /* FACGE */
-                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                 break;
-            case 0x1c: /* FCMGT */
-                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x1d: /* FACGT */
-                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x0: /* FMAXNM */
             case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x4: /* FCMEQ */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
             case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
+            case 0x14: /* FCMGE */
+            case 0x15: /* FACGE */
             case 0x17: /* FDIV */
+            case 0x1c: /* FCMGT */
+            case 0x1d: /* FACGT */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
     return -float32_eq_quiet(op1, op2, stat);
 }
 
+static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_eq_quiet(op1, op2, stat);
+}
+
 static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(op2, op1, stat);
 }
 
+static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(op2, op1, stat);
+}
+
 static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(op2, op1, stat);
 }
 
+static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(op2, op1, stat);
+}
+
 static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static int16_t vfp_tosszh(float16 x, void *fpstp)
 {
     float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
 
 DO_3OP(gvec_fceq_h, float16_ceq, float16)
 DO_3OP(gvec_fceq_s, float32_ceq, float32)
+DO_3OP(gvec_fceq_d, float64_ceq, float64)
 
 DO_3OP(gvec_fcge_h, float16_cge, float16)
 DO_3OP(gvec_fcge_s, float32_cge, float32)
+DO_3OP(gvec_fcge_d, float64_cge, float64)
 
 DO_3OP(gvec_fcgt_h, float16_cgt, float16)
 DO_3OP(gvec_fcgt_s, float32_cgt, float32)
+DO_3OP(gvec_fcgt_d, float64_cgt, float64)
 
 DO_3OP(gvec_facge_h, float16_acge, float16)
 DO_3OP(gvec_facge_s, float32_acge, float32)
+DO_3OP(gvec_facge_d, float64_acge, float64)
 
 DO_3OP(gvec_facgt_h, float16_acgt, float16)
 DO_3OP(gvec_facgt_s, float32_acgt, float32)
+DO_3OP(gvec_facgt_d, float64_acgt, float64)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  1 +
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
 target/arm/tcg/vec_helper.c    |  6 ++++
 4 files changed, 53 insertions(+), 20 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_3same_float
and disas_simd_scalar_three_reg_same_fp16 so remove them.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  12 ++
 target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
 2 files changed, 46 insertions(+), 259 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
 FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 
+FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
+FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
+
+FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
+FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
+FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
 };
 TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 
+static const FPScalar f_scalar_frecps = {
+    gen_helper_recpsf_f16,
+    gen_helper_recpsf_f32,
+    gen_helper_recpsf_f64,
+};
+TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
+
+static const FPScalar f_scalar_frsqrts = {
+    gen_helper_rsqrtsf_f16,
+    gen_helper_rsqrtsf_f32,
+    gen_helper_rsqrtsf_f64,
+};
+TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
 };
 TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 
+static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
+    gen_helper_gvec_recps_h,
+    gen_helper_gvec_recps_s,
+    gen_helper_gvec_recps_d,
+};
+TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
+
+static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
+    gen_helper_gvec_rsqrts_h,
+    gen_helper_gvec_rsqrts_s,
+    gen_helper_gvec_rsqrts_d,
+};
+TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
     }
 }
 
-/* Handle the 3-same-operands float operations; shared by the scalar
- * and vector encodings. The caller must filter out any encodings
- * not allocated for the encoding it is dealing with.
- */
-static void handle_3same_float(DisasContext *s, int size, int elements,
-                               int fpopcode, int rd, int rn, int rm)
-{
-    int pass;
-    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-
-    for (pass = 0; pass < elements; pass++) {
-        if (size) {
-            /* Double */
-            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
-            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        } else {
-            /* Single */
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            if (elements == 1) {
-                /* scalar single so clear high part */
-                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-
-                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
-                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
-            } else {
-                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-            }
-        }
-    }
-
-    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
-}
-
 /* AdvSIMD scalar three same
  *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
  * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     bool u = extract32(insn, 29, 1);
     TCGv_i64 tcg_rd;
 
-    if (opcode >= 0x18) {
-        /* Floating point: U, size[1] and opcode indicate operation */
-        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
-        switch (fpopcode) {
-        case 0x1f: /* FRECPS */
-        case 0x3f: /* FRSQRTS */
-            break;
-        default:
-        case 0x1b: /* FMULX */
-        case 0x5d: /* FACGE */
-        case 0x7d: /* FACGT */
-        case 0x1c: /* FCMEQ */
-        case 0x5c: /* FCMGE */
-        case 0x7a: /* FABD */
-        case 0x7c: /* FCMGT */
-            unallocated_encoding(s);
-            return;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
-        return;
-    }
-
     switch (opcode) {
     case 0x1: /* SQADD, UQADD */
     case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_rd);
 }
 
-/* AdvSIMD scalar three same FP16
- *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
- * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
- */
-static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-                                                  uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int opcode = extract32(insn, 11, 3);
-    int rm = extract32(insn, 16, 5);
-    bool u = extract32(insn, 29, 1);
-    bool a = extract32(insn, 23, 1);
-    int fpopcode = opcode | (a << 3) |  (u << 4);
-    TCGv_ptr fpst;
-    TCGv_i32 tcg_op1;
-    TCGv_i32 tcg_op2;
-    TCGv_i32 tcg_res;
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-    case 0x0f: /* FRSQRTS */
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    tcg_op1 = read_fp_hreg(s, rn);
-    tcg_op2 = read_fp_hreg(s, rm);
-    tcg_res = tcg_temp_new_i32();
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x0f: /* FRSQRTS */
-        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        g_assert_not_reached();
-    }
-
-    write_fp_sreg(s, rd, tcg_res);
-}
-
 /* AdvSIMD scalar three same extra
  *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 
 /* Pairwise op subgroup of C3.6.16.
  *
- * This is called directly or via the handle_3same_float for float pairwise
+ * This is called directly for float pairwise
  * operations where the opcode and size are calculated differently.
  */
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
 
-    int datasize = is_q ? 128 : 64;
-    int esize = 32 << size;
-    int elements = datasize / esize;
-
     if (size == 1 && !is_q) {
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1f: /* FRECPS */
-    case 0x3f: /* FRSQRTS */
-        if (!fp_access_check(s)) {
-            return;
-        }
-        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
-        return;
 
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x1b: /* FMULX */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
+    case 0x1f: /* FRECPS */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
+    case 0x3f: /* FRSQRTS */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      * together indicate the operation.
      */
     int fpopcode = opcode | (a << 3) | (u << 4);
-    int datasize = is_q ? 128 : 64;
-    int elements = datasize / 16;
     bool pairwise;
     TCGv_ptr fpst;
     int pass;
 
     switch (fpopcode) {
-    case 0x7: /* FRECPS */
-    case 0xf: /* FRSQRTS */
-        pairwise = false;
-        break;
     case 0x10: /* FMAXNMP */
     case 0x12: /* FADDP */
     case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
+    case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
+    case 0xf: /* FRSQRTS */
     case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
         }
     } else {
-        for (pass = 0; pass < elements; pass++) {
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
-
-            switch (fpopcode) {
-            case 0x7: /* FRECPS */
-                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FRSQRTS */
-                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x0: /* FMAXNM */
-            case 0x1: /* FMLA */
-            case 0x2: /* FADD */
-            case 0x3: /* FMULX */
-            case 0x4: /* FCMEQ */
-            case 0x6: /* FMAX */
-            case 0x8: /* FMINNM */
-            case 0x9: /* FMLS */
-            case 0xa: /* FSUB */
-            case 0xe: /* FMIN */
-            case 0x13: /* FMUL */
-            case 0x14: /* FCMGE */
-            case 0x15: /* FACGE */
-            case 0x17: /* FDIV */
-            case 0x1a: /* FABD */
-            case 0x1c: /* FCMGT */
-            case 0x1d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-        }
+        g_assert_not_reached();
     }
 
     clear_vec_high(s, is_q, rd);
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  4 ++
 target/arm/tcg/a64.decode      | 12 +++++
 target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
 target/arm/tcg/vec_helper.c    | 23 +++++++++
 4 files changed, 105 insertions(+), 21 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within disas_simd_three_reg_same_fp16,
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 ++
 target/arm/tcg/a64.decode      |  24 +++
 target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  16 ++
 4 files changed, 107 insertions(+), 245 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 #ifdef TARGET_AARCH64
 #include "tcg/helper-a64.h"
 #include "tcg/helper-sve.h"
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
 FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
 
+FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
+FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
+
+FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
+FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
+
+FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
+FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
+
+FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
+FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
 };
 TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
+    gen_helper_gvec_fmaxp_h,
+    gen_helper_gvec_fmaxp_s,
+    gen_helper_gvec_fmaxp_d,
+};
+TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
+    gen_helper_gvec_fminp_h,
+    gen_helper_gvec_fminp_s,
+    gen_helper_gvec_fminp_d,
+};
+TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
+    gen_helper_gvec_fmaxnump_h,
+    gen_helper_gvec_fmaxnump_s,
+    gen_helper_gvec_fmaxnump_d,
+};
+TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
+    gen_helper_gvec_fminnump_h,
+    gen_helper_gvec_fminnump_s,
+    gen_helper_gvec_fminnump_d,
+};
+TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
 }
 
 TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
+TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
+TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
+TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
+TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 12, 5);
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
-    TCGv_ptr fpst;
 
     /* For some ops (the FP ones), size[1] is part of the encoding.
      * For ADDP strictly it is not but size[1] is always 1 for valid
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         if (!fp_access_check(s)) {
             return;
         }
-
-        fpst = NULL;
         break;
+    default:
     case 0xc: /* FMAXNMP */
+    case 0xd: /* FADDP */
     case 0xf: /* FMAXP */
     case 0x2c: /* FMINNMP */
     case 0x2f: /* FMINP */
-        /* FP op, size[0] is 32 or 64 bit*/
-        if (!u) {
-            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
-                unallocated_encoding(s);
-                return;
-            } else {
-                size = MO_16;
-            }
-        } else {
-            size = extract32(size, 0, 1) ? MO_64 : MO_32;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-        break;
-    default:
-    case 0xd: /* FADDP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         case 0x3b: /* ADDP */
             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
             break;
-        case 0xc: /* FMAXNMP */
-            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0xf: /* FMAXP */
-            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2c: /* FMINNMP */
-            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2f: /* FMINP */
-            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
         default:
+        case 0xc: /* FMAXNMP */
         case 0xd: /* FADDP */
+        case 0xf: /* FMAXP */
+        case 0x2c: /* FMINNMP */
+        case 0x2f: /* FMINP */
             g_assert_not_reached();
         }
 
         write_fp_dreg(s, rd, tcg_res);
     } else {
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-        read_vec_element_i32(s, tcg_op1, rn, 0, size);
-        read_vec_element_i32(s, tcg_op2, rn, 1, size);
-
-        if (size == MO_16) {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        } else {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        write_fp_sreg(s, rd, tcg_res);
+        g_assert_not_reached();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                                    int size, int rn, int rm, int rd)
 {
-    TCGv_ptr fpst;
     int pass;
 
-    /* Floating point operations need fpst */
-    if (opcode >= 0x58) {
-        fpst = fpstatus_ptr(FPST_FPCR);
-    } else {
-        fpst = NULL;
-    }
-
     if (!fp_access_check(s)) {
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
             case 0x17: /* ADDP */
                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
                 break;
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
         }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                 genfn = fns[size][u];
                 break;
             }
-            /* The FP operations are all on single floats (32 bit) */
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     }
 
     switch (fpopcode) {
-    case 0x58: /* FMAXNMP */
-    case 0x5e: /* FMAXP */
-    case 0x78: /* FMINNMP */
-    case 0x7e: /* FMINP */
-        if (size && !is_q) {
-            unallocated_encoding(s);
-            return;
-        }
-        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
-                               rn, rm, rd);
-        return;
-
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
     case 0x59: /* FMLAL2 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x3f: /* FRSQRTS */
+    case 0x58: /* FMAXNMP */
     case 0x5a: /* FADDP */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
+    case 0x5e: /* FMAXP */
     case 0x5f: /* FDIV */
+    case 0x78: /* FMINNMP */
     case 0x7a: /* FABD */
     case 0x7d: /* FACGT */
     case 0x7c: /* FCMGT */
+    case 0x7e: /* FMINP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     }
 }
 
-/*
- * Advanced SIMD three same (ARMv8.2 FP16 variants)
- *
- *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- *
- * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
- * (register), FACGE, FABD, FCMGT (register) and FACGT.
- *
- */
-static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 11, 3);
-    int u = extract32(insn, 29, 1);
-    int a = extract32(insn, 23, 1);
-    int is_q = extract32(insn, 30, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    /*
-     * For these floating point ops, the U, a and opcode bits
-     * together indicate the operation.
-     */
-    int fpopcode = opcode | (a << 3) | (u << 4);
-    bool pairwise;
-    TCGv_ptr fpst;
-    int pass;
-
-    switch (fpopcode) {
-    case 0x10: /* FMAXNMP */
-    case 0x16: /* FMAXP */
-    case 0x18: /* FMINNMP */
-    case 0x1e: /* FMINP */
-        pairwise = true;
-        break;
-    default:
-    case 0x0: /* FMAXNM */
-    case 0x1: /* FMLA */
-    case 0x2: /* FADD */
-    case 0x3: /* FMULX */
-    case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
-    case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
-    case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
-    case 0xe: /* FMIN */
-    case 0xf: /* FRSQRTS */
-    case 0x12: /* FADDP */
-    case 0x13: /* FMUL */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    if (pairwise) {
-        int maxpass = is_q ? 8 : 4;
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res[8];
-
-        for (pass = 0; pass < maxpass; pass++) {
-            int passreg = pass < (maxpass / 2) ? rn : rm;
-            int passelt = (pass << 1) & (maxpass - 1);
-
-            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
-            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
-            tcg_res[pass] = tcg_temp_new_i32();
-
-            switch (fpopcode) {
-            case 0x10: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x16: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x18: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x1e: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x12: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        for (pass = 0; pass < maxpass; pass++) {
-            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
-        }
-    } else {
-        g_assert_not_reached();
-    }
-
-    clear_vec_high(s, is_q, rd);
-}
-
 /* AdvSIMD three same extra
  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
 DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
 DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
 
+DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
+DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
+DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
+
+DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
+DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
+DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
+
+DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
+DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
+DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
+
+DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
+DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
+DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
+
 #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
     {                                                                   \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             |  7 -----
 target/arm/tcg/translate-neon.c | 55 ++-------------------------------
 target/arm/tcg/vec_helper.c     | 45 ---------------------------
 3 files changed, 3 insertions(+), 104 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 ++
 target/arm/tcg/translate.h     |   3 +
 target/arm/tcg/a64.decode      |   6 ++
 target/arm/tcg/gengvec.c       |  12 ++++
 target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  30 ++++++++
 6 files changed, 77 insertions(+), 107 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             | 2 --
 target/arm/tcg/neon_helper.c    | 5 -----
 target/arm/tcg/translate-neon.c | 3 +--
 3 files changed, 1 insertion(+), 9 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
 
 DEF_HELPER_2(neon_add_u8, i32, i32, i32)
 DEF_HELPER_2(neon_add_u16, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
 DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/neon_helper.c
+++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
     return (a + b) ^ mask;
 }
 
-#define NEON_FN(dest, src1, src2) dest = src1 + src2
-NEON_POP(padd_u8, neon_u8, 4)
-NEON_POP(padd_u16, neon_u16, 2)
-#undef NEON_FN
-
 #define NEON_FN(dest, src1, src2) dest = src1 - src2
 NEON_VOP(sub_u8, neon_u8, 4)
 NEON_VOP(sub_u16, neon_u16, 2)
diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
 DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
+DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
 #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-#define gen_helper_neon_padd_u32  tcg_gen_add_i32
 
 DO_3SAME_PAIR(VPMAX_S, pmax_s)
 DO_3SAME_PAIR(VPMIN_S, pmin_s)
 DO_3SAME_PAIR(VPMAX_U, pmax_u)
 DO_3SAME_PAIR(VPMIN_U, pmin_u)
-DO_3SAME_PAIR(VPADD, padd_u)
 
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_simd_3same_pair
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 +++++
 target/arm/tcg/translate.h     |   8 +++
 target/arm/tcg/a64.decode      |   4 ++
 target/arm/tcg/gengvec.c       |  48 +++++++++++++
 target/arm/tcg/translate-a64.c | 119 +++++----------------------------
 target/arm/tcg/vec_helper.c    |  16 +++++
 6 files changed, 109 insertions(+), 102 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-neon.c | 78 ++-------------------------------
 1 file changed, 4 insertions(+), 74 deletions(-)

diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
 DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
+DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
+DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
+DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
+DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
 DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
 DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
 
-static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
-{
-    /* Operations handled pairwise 32 bits at a time */
-    TCGv_i32 tmp, tmp2, tmp3;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-        return false;
-    }
-
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vn | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if (a->size == 3) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    assert(a->q == 0); /* enforced by decode patterns */
-
-    /*
-     * Note that we have to be careful not to clobber the source operands
-     * in the "vm == vd" case by storing the result of the first pass too
-     * early. Since Q is 0 there are always just two passes, so instead
-     * of a complicated loop over each pass we just unroll.
-     */
-    tmp = tcg_temp_new_i32();
-    tmp2 = tcg_temp_new_i32();
-    tmp3 = tcg_temp_new_i32();
-
-    read_neon_element32(tmp, a->vn, 0, MO_32);
-    read_neon_element32(tmp2, a->vn, 1, MO_32);
-    fn(tmp, tmp, tmp2);
-
-    read_neon_element32(tmp3, a->vm, 0, MO_32);
-    read_neon_element32(tmp2, a->vm, 1, MO_32);
-    fn(tmp3, tmp3, tmp2);
-
-    write_neon_element32(tmp, a->vd, 0, MO_32);
-    write_neon_element32(tmp3, a->vd, 1, MO_32);
-
-    return true;
-}
-
-#define DO_3SAME_PAIR(INSN, func)                                       \
-    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-    {                                                                   \
-        static NeonGenTwoOpFn * const fns[] = {                         \
-            gen_helper_neon_##func##8,                                  \
-            gen_helper_neon_##func##16,                                 \
-            gen_helper_neon_##func##32,                                 \
-        };                                                              \
-        if (a->size > 2) {                                              \
-            return false;                                               \
-        }                                                               \
-        return do_3same_pair(s, a, fns[a->size]);                       \
-    }
-
-/* 32-bit pairwise ops end up the same as the elementwise versions.  */
-#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
-#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
-#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
-#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-
-DO_3SAME_PAIR(VPMAX_S, pmax_s)
-DO_3SAME_PAIR(VPMIN_S, pmin_s)
-DO_3SAME_PAIR(VPMAX_U, pmax_u)
-DO_3SAME_PAIR(VPMIN_U, pmin_u)
-
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
     WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  10 +++
 target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
 2 files changed, 51 insertions(+), 103 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 +++++
 target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
 2 files changed, 29 insertions(+), 49 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
 @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 
+AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
 
+TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
+TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
+TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
+TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
+TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
+
+static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
+{
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
+    }
+    return true;
+}
+
+TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
+TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
+TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Logic op (opcode == 3) subgroup of C3.6.16. */
-static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int rm = extract32(insn, 16, 5);
-    int size = extract32(insn, 22, 2);
-    bool is_u = extract32(insn, 29, 1);
-    bool is_q = extract32(insn, 30, 1);
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    switch (size + 4 * is_u) {
-    case 0: /* AND */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
-        return;
-    case 1: /* BIC */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
-        return;
-    case 2: /* ORR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
-        return;
-    case 3: /* ORN */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
-        return;
-    case 4: /* EOR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
-        return;
-
-    case 5: /* BSL bitwise select */
-        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 6: /* BIT, bitwise insert if true */
-        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 7: /* BIF, bitwise insert if false */
-        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
-        return;
-
-    default:
-        g_assert_not_reached();
-    }
-}
-
 /* Integer op subgroup of C3.6.16. */
 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
 {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 11, 5);
 
     switch (opcode) {
-    case 0x3: /* logic ops */
-        disas_simd_3same_logic(s, insn);
-        break;
     default:
         disas_simd_3same_int(s, insn);
         break;
+    case 0x3: /* logic ops */
     case 0x14: /* SMAXP, UMAXP */
     case 0x15: /* SMINP, UMINP */
     case 0x17: /* ADDP */
-- 
2.34.1