Series comparison

-[PULL 00/28] target-arm queue
+[PULL v2 00/42] target-arm queue
-Just flushing my target-arm queue since I won't be working next week :-)
+Hi; most of this is the first half of the A64 simd decodetree
 conversion; the rest is a mix of fixes from the last couple of weeks.
+v2 uses patches from the v2 decodetree series to avoid a few
+regressions in some A32 insns.
+(Richard: I'm still planning to review the second half of the
+v2 decodetree series; I just wanted to get the respin of this
+pullreq out today...)
+thanks
 -- PMM
-The following changes since commit b3cd3b5a66f0dddfe3d5ba2bef13cd4f5b89cde9:
+The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:
-  Merge tag 'pull-riscv-to-apply-20220610' of github.com:alistair23/qemu into staging (2022-06-09 22:08:27 -0700)
+  Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20220610
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528
-for you to fetch changes up to 90c072e063737e9e8f431489bbd334452f89056e:
+for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:
-  semihosting/config: Merge --semihosting-config option groups (2022-06-10 14:32:36 +0100)
+  target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)
 ----------------------------------------------------------------
- * refactor exception routing code
+target-arm queue:
- * fix SCR_EL3 RAO/RAZ bits
+ * xlnx_dpdma: fix descriptor endianness bug
- * gdbstub: Don't use GDB syscalls if no GDB is attached
+ * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
- * semihosting/config: Merge --semihosting-config option groups
+ * hw/arm/npcm7xx: remove setting of mp-affinity
- * tests/qtest: Reduce npcm7xx_sdhci test image size
+ * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
  * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
  * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
  * hw: arm: Remove use of tabs in some source files
  * docs/system: Remove ADC from raspi documentation
  * target/arm: Start of the conversion of A64 SIMD to decodetree
 ----------------------------------------------------------------
-Hao Wu (1):
+Alexandra Diupina (1):
-      tests/qtest: Reduce npcm7xx_sdhci test image size
+      xlnx_dpdma: fix descriptor endianness bug
-Peter Maydell (2):
+Andrey Shumilin (1):
-      gdbstub: Don't use GDB syscalls if no GDB is attached
+      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
       semihosting/config: Merge --semihosting-config option groups
-Richard Henderson (25):
+Dorjoy Chowdhury (1):
-      target/arm: Mark exception helpers as noreturn
+      hw/arm/npcm7xx: remove setting of mp-affinity
       target/arm: Add coproc parameter to syn_fp_access_trap
       target/arm: Move exception_target_el out of line
       target/arm: Move arm_singlestep_active out of line
       target/arm: Move arm_generate_debug_exceptions out of line
       target/arm: Use is_a64 in arm_generate_debug_exceptions
       target/arm: Move exception_bkpt_insn to debug_helper.c
       target/arm: Move arm_debug_exception_fsr to debug_helper.c
       target/arm: Rename helper_exception_with_syndrome
       target/arm: Introduce gen_exception_insn_el_v
       target/arm: Rename gen_exception_insn to gen_exception_insn_el
       target/arm: Introduce gen_exception_insn
       target/arm: Create helper_exception_swstep
       target/arm: Remove TBFLAG_ANY.DEBUG_TARGET_EL
       target/arm: Move gen_exception to translate.c
       target/arm: Rename gen_exception to gen_exception_el
       target/arm: Introduce gen_exception
       target/arm: Introduce gen_exception_el_v
       target/arm: Introduce helper_exception_with_syndrome
       target/arm: Remove default_exception_el
       target/arm: Create raise_exception_debug
       target/arm: Move arm_debug_target_el to debug_helper.c
       target/arm: Fix Secure PL1 tests in fp_exception_el
       target/arm: Adjust format test in scr_write
       target/arm: SCR_EL3.RW is RAO/WI without AArch32 EL[12]
- target/arm/cpu.h                 | 133 ++---------------------
+Inès Varhol (1):
- target/arm/helper.h              |   8 +-
+      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
- target/arm/internals.h           |  43 +-------
- target/arm/syndrome.h            |   7 +-
+Philippe Mathieu-Daudé (1):
- target/arm/translate.h           |  43 ++------
+      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
- gdbstub.c                        |  14 ++-
- semihosting/config.c             |   1 +
+Rayhan Faizel (1):
- target/arm/debug_helper.c        | 220 +++++++++++++++++++++++++++++++++++++--
+      docs/system: Remove ADC from raspi documentation
- target/arm/helper.c              |  53 ++++------
- target/arm/op_helper.c           |  52 +++++----
+Richard Henderson (34):
- target/arm/translate-a64.c       |  34 +++---
+      target/arm: Use PLD, PLDW, PLI not NOP for t32
- target/arm/translate-m-nocp.c    |  15 ++-
+      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
- target/arm/translate-mve.c       |   3 +-
+      target/arm: Fix decode of FMOV (hp) vs MOVI
- target/arm/translate-vfp.c       |  18 +++-
+      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
- target/arm/translate.c           | 106 ++++++++++---------
+      target/arm: Split out gengvec.c
- tests/qtest/npcm7xx_sdhci-test.c |   2 +-
+      target/arm: Split out gengvec64.c
-files changed, 390 insertions(+), 362 deletions(-)
+      target/arm: Convert Cryptographic AES to decodetree
       target/arm: Convert Cryptographic 3-register SHA to decodetree
       target/arm: Convert Cryptographic 2-register SHA to decodetree
       target/arm: Convert Cryptographic 3-register SHA512 to decodetree
       target/arm: Convert Cryptographic 2-register SHA512 to decodetree
       target/arm: Convert Cryptographic 4-register to decodetree
       target/arm: Convert Cryptographic 3-register, imm2 to decodetree
       target/arm: Convert XAR to decodetree
       target/arm: Convert Advanced SIMD copy to decodetree
       target/arm: Convert FMULX to decodetree
       target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
       target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
       target/arm: Introduce vfp_load_reg16
       target/arm: Expand vfp neg and abs inline
       target/arm: Convert FNMUL to decodetree
       target/arm: Convert FMLA, FMLS to decodetree
       target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
       target/arm: Convert FABD to decodetree
       target/arm: Convert FRECPS, FRSQRTS to decodetree
       target/arm: Convert FADDP to decodetree
       target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
       target/arm: Use gvec for neon faddp, fmaxp, fminp
       target/arm: Convert ADDP to decodetree
       target/arm: Use gvec for neon padd
       target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
       target/arm: Use gvec for neon pmax, pmin
       target/arm: Convert FMLAL, FMLSL to decodetree
       target/arm: Convert disas_simd_3same_logic to decodetree
 Tanmay Patil (1):
       hw: arm: Remove use of tabs in some source files
 Zenghui Yu (1):
       hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
  docs/system/arm/raspi.rst       |    1 -
  target/arm/helper.h             |   68 +-
  target/arm/tcg/helper-a64.h     |   12 +
  target/arm/tcg/translate-a64.h  |    4 +
  target/arm/tcg/translate.h      |   51 +
  target/arm/tcg/a64.decode       |  315 +++-
  target/arm/tcg/t32.decode       |   25 +-
  hw/arm/boot.c                   |    8 +-
  hw/arm/npcm7xx.c                |    3 -
  hw/char/omap_uart.c             |   49 +-
  hw/char/stm32l4x5_usart.c       |    2 +-
  hw/dma/xlnx_dpdma.c             |   68 +-
  hw/gpio/zaurus.c                |   59 +-
  hw/input/tsc2005.c              |  135 +-
  hw/intc/arm_gic.c               |    4 +-
  target/arm/hvf/hvf.c            |  130 +-
  target/arm/tcg/gengvec.c        | 1672 +++++++++++++++++++++
  target/arm/tcg/gengvec64.c      |  190 +++
  target/arm/tcg/neon_helper.c    |    5 -
  target/arm/tcg/translate-a64.c  | 3137 +++++++++++++--------------------------
  target/arm/tcg/translate-neon.c |  136 +-
  target/arm/tcg/translate-sve.c  |  145 +-
  target/arm/tcg/translate-vfp.c  |   93 +-
  target/arm/tcg/translate.c      | 1592 +-------------------
  target/arm/tcg/vec_helper.c     |  221 ++-
  target/arm/vfp_helper.c         |   30 -
  target/arm/tcg/meson.build      |    2 +
 files changed, 3860 insertions(+), 4297 deletions(-)
  create mode 100644 target/arm/tcg/gengvec.c
  create mode 100644 target/arm/tcg/gengvec64.c

-New patch
+[PULL 01/42] xlnx_dpdma: fix descriptor endianness bug
+From: Alexandra Diupina <adiupina@astralinux.ru>
+Add xlnx_dpdma_read_descriptor() and
+xlnx_dpdma_write_descriptor() functions.
+xlnx_dpdma_read_descriptor() combines reading a
+descriptor from desc_addr by calling dma_memory_read()
+and swapping the desc fields from guest memory order
+to host memory order. xlnx_dpdma_write_descriptor()
+performs similar actions when writing a descriptor.
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
+Fixes: d3c6369a96 ("introduce xlnx-dpdma")
+Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
+[PMM: tweaked indent, dropped behaviour change for write-failure case]
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
+file changed, 64 insertions(+), 4 deletions(-)
+diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/dma/xlnx_dpdma.c
++++ b/hw/dma/xlnx_dpdma.c
+@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
+     type_register_static(&xlnx_dpdma_info);
+ }
++static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
++                                              uint64_t desc_addr,
++                                              DPDMADescriptor *desc)
++{
++    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
++                                      &desc, sizeof(DPDMADescriptor),
++                                      MEMTXATTRS_UNSPECIFIED);
++    if (res) {
++        return res;
++    }
++
++    /* Convert from LE into host endianness.  */
++    desc->control = le32_to_cpu(desc->control);
++    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
++    desc->xfer_size = le32_to_cpu(desc->xfer_size);
++    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
++    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
++    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
++    desc->address_extension = le32_to_cpu(desc->address_extension);
++    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
++    desc->source_address = le32_to_cpu(desc->source_address);
++    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
++    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
++    desc->source_address2 = le32_to_cpu(desc->source_address2);
++    desc->source_address3 = le32_to_cpu(desc->source_address3);
++    desc->source_address4 = le32_to_cpu(desc->source_address4);
++    desc->source_address5 = le32_to_cpu(desc->source_address5);
++    desc->crc = le32_to_cpu(desc->crc);
++
++    return res;
++}
++
++static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
++                                               DPDMADescriptor *desc)
++{
++    DPDMADescriptor tmp_desc = *desc;
++
++    /* Convert from host endianness into LE.  */
++    tmp_desc.control = cpu_to_le32(tmp_desc.control);
++    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
++    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
++    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
++    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
++    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
++    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
++    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
++    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
++    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
++    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
++    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
++    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
++    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
++    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
++    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
++
++    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
++                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
++}
++
+ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
+                                     bool one_desc)
+ {
+@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
+             desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
+         }
+-        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
+-                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
++        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
+             s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
+             xlnx_dpdma_update_irq(s);
+             s->operation_finished[channel] = true;
+@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
+             /* The descriptor need to be updated when it's completed. */
+             DPRINTF("update the descriptor with the done flag set.\n");
+             xlnx_dpdma_desc_set_done(&desc);
+-            dma_memory_write(&address_space_memory, desc_addr, &desc,
+-                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
++            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
++                DPRINTF("Can't write the descriptor.\n");
++                /* TODO: check hardware behaviour for memory write failure */
++            }
+         }
+         if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
+--
+.34.1

-New patch
+[PULL 02/42] hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
+From: Zenghui Yu <zenghui.yu@linux.dev>
+We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
+we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
+wrong key.
+Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
+guest can properly detect FEAT_SSBS2 on my M1 HW.
+All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
+It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
+HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
+it.
+Cc: qemu-stable@nongnu.org
+Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
+Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
+Reviewed-by: Alexander Graf <agraf@csgraf.de>
+Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
+file changed, 65 insertions(+), 65 deletions(-)
+diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/hvf/hvf.c
++++ b/target/arm/hvf/hvf.c
+@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
+ };
+ static struct hvf_sreg_match hvf_sreg_match[] = {
+-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
+-    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
+-    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
+-    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
+-    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
++    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
++    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
++    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
++    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
+ #ifdef SYNC_NO_RAW_REGS
+     /*
+@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
+     { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
+     { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
+ #endif
+-    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
++    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
+     { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
+     { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
+     { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
+--
+.34.1

-New patch
+[PULL 03/42] hw/arm/npcm7xx: remove setting of mp-affinity
+From: Dorjoy Chowdhury <dorjoychy111@gmail.com>
+The value of the mp-affinity property being set in npcm7xx_realize is
+always the same as the default value it would have when arm_cpu_realizefn
+is called if the property is not set here. So there is no need to set
+the property value in npcm7xx_realize function.
+Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/arm/npcm7xx.c | 3 ---
+file changed, 3 deletions(-)
+diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/npcm7xx.c
++++ b/hw/arm/npcm7xx.c
+@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
+     /* CPUs */
+     for (i = 0; i < nc->num_cpus; i++) {
+-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
+-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
+-                                &error_abort);
+         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
+                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
+         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
+--
+.34.1

-[PULL 24/28] tests/qtest: Reduce npcm7xx_sdhci test image size
+[PULL 04/42] hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
-From: Hao Wu <wuhaotsh@google.com>
+From: Inès Varhol <ines.varhol@telecom-paris.fr>
-Creating 1GB image for a simple qtest is unnecessary
+Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
-and could lead to failures. We reduce the image size
+Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
-to 1MB to reduce the test overhead.
+Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
 Signed-off-by: Hao Wu <wuhaotsh@google.com>
 Message-id: 20220609214125.4192212-1-wuhaotsh@google.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- tests/qtest/npcm7xx_sdhci-test.c | 2 +-
+ hw/char/stm32l4x5_usart.c | 2 +-
 file changed, 1 insertion(+), 1 deletion(-)
-diff --git a/tests/qtest/npcm7xx_sdhci-test.c b/tests/qtest/npcm7xx_sdhci-test.c
+diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
 index XXXXXXX..XXXXXXX 100644
---- a/tests/qtest/npcm7xx_sdhci-test.c
+--- a/hw/char/stm32l4x5_usart.c
-+++ b/tests/qtest/npcm7xx_sdhci-test.c
++++ b/hw/char/stm32l4x5_usart.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
- #define NPCM7XX_REG_SIZE 0x100
+     FIELD(CR1, UE, 0, 1)     /* USART enable */
- #define NPCM7XX_MMC_BA 0xF0842000
+ REG32(CR2, 0x04)
- #define NPCM7XX_BLK_SIZE 512
+     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
--#define NPCM7XX_TEST_IMAGE_SIZE (1 << 30)
+-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
-+#define NPCM7XX_TEST_IMAGE_SIZE (1 << 20)
++    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
+     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
- char *sd_path;
+     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
+     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
 --
-.25.1
+.34.1

-New patch
+[PULL 05/42] hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
+From: Andrey Shumilin <shum.sdl@nppct.ru>
+In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
+reading and writing the Non-Secure view of the GICC_APR<n> registers
+to functions gic_apr_ns_view() and gic_apr_write_ns_view().
+Unfortunately we got the order of the arguments wrong, swapping the
+CPU number and the register number (which the compiler doesn't catch
+because they're both integers).
+Most guests probably didn't notice this bug because directly
+accessing the APR registers is typically something only done by
+firmware when it is doing state save for going into a sleep mode.
+Correct the mismatched call arguments.
+Found by Linux Verification Center (linuxtesting.org) with SVACE.
+Cc: qemu-stable@nongnu.org
+Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
+Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
+[PMM: Rewrote commit message]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
+---
+ hw/intc/arm_gic.c | 4 ++--
+file changed, 2 insertions(+), 2 deletions(-)
+diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/intc/arm_gic.c
++++ b/hw/intc/arm_gic.c
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
+             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
+-            *data = gic_apr_ns_view(s, regno, cpu);
++            *data = gic_apr_ns_view(s, cpu, regno);
+         } else {
+             *data = s->apr[regno][cpu];
+         }
+@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
+             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
+         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
+             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
+-            gic_apr_write_ns_view(s, regno, cpu, value);
++            gic_apr_write_ns_view(s, cpu, regno, value);
+         } else {
+             s->apr[regno][cpu] = value;
+         }
+--
+.34.1

-New patch
+[PULL 06/42] hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
+From: Philippe Mathieu-Daudé <philmd@linaro.org>
+Check the function index is in range and use an unsigned
+variable to avoid the following warning with GCC 13.2.0:
+  [666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
+  hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
+  hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
+|     s->dav |= mode_regs[s->function];
+        |                         ~^~~~~~~~~~
+Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-id: 20240508143513.44996-1-philmd@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+[PMM: fixed missing ')']
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/input/tsc2005.c | 5 ++++-
+file changed, 4 insertions(+), 1 deletion(-)
+diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/input/tsc2005.c
++++ b/hw/input/tsc2005.c
+@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
+ static void tsc2005_timer_tick(void *opaque)
+ {
+     TSC2005State *s = opaque;
++    unsigned int function = s->function;
++
++    assert(function < ARRAY_SIZE(mode_regs));
+     /* Timer ticked -- a set of conversions has been finished.  */
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
+         return;
+     s->busy = false;
+-    s->dav |= mode_regs[s->function];
++    s->dav |= mode_regs[function];
+     s->function = -1;
+     tsc2005_pin_update(s);
+ }
+--
+.34.1

-New patch
+[PULL 07/42] hw: arm: Remove use of tabs in some source files
+From: Tanmay Patil <tanmaynpatil105@gmail.com>
+Some of the source files for older devices use hardcoded tabs
+instead of our current coding standard's required spaces.
+Fix these in the following files:
+    - hw/arm/boot.c
+    - hw/char/omap_uart.c
+    - hw/gpio/zaurus.c
+    - hw/input/tsc2005.c
+This commit is mostly whitespace-only changes; it also
+adds curly-braces to some 'if' statements.
+This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
+but some other files remain to be handled.
+Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
+Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+[PMM: tweaked commit message]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ hw/arm/boot.c       |   8 +--
+ hw/char/omap_uart.c |  49 +++++++++--------
+ hw/gpio/zaurus.c    |  59 ++++++++++----------
+ hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
+files changed, 130 insertions(+), 116 deletions(-)
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/arm/boot.c
++++ b/hw/arm/boot.c
+@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
+     WRITE_WORD(p, info->ram_size / 4096);
+     /* ramdisk_size */
+     WRITE_WORD(p, 0);
+-#define FLAG_READONLY    1
+-#define FLAG_RDLOAD    4
+-#define FLAG_RDPROMPT    8
++#define FLAG_READONLY 1
++#define FLAG_RDLOAD   4
++#define FLAG_RDPROMPT 8
+     /* flags */
+     WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
+     /* rootdev */
+-    WRITE_WORD(p, (31 << 8) | 0);    /* /dev/mtdblock0 */
++    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
+     /* video_num_cols */
+     WRITE_WORD(p, 0);
+     /* video_num_rows */
+diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/char/omap_uart.c
++++ b/hw/char/omap_uart.c
+@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
+     s->fclk = fclk;
+     s->irq = irq;
+     s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
+-                               omap_clk_getrate(fclk)/16,
++                               omap_clk_getrate(fclk) / 16,
+                                chr ?: qemu_chr_new(label, "null", NULL),
+                                DEVICE_NATIVE_ENDIAN);
+     return s;
+@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
+     }
+     switch (addr) {
+-    case 0x20:    /* MDR1 */
++    case 0x20:  /* MDR1 */
+         return s->mdr[0];
+-    case 0x24:    /* MDR2 */
++    case 0x24:  /* MDR2 */
+         return s->mdr[1];
+-    case 0x40:    /* SCR */
++    case 0x40:  /* SCR */
+         return s->scr;
+-    case 0x44:    /* SSR */
++    case 0x44:  /* SSR */
+         return 0x0;
+-    case 0x48:    /* EBLR (OMAP2) */
++    case 0x48:  /* EBLR (OMAP2) */
+         return s->eblr;
+-    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
++    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
+         return s->clksel;
+-    case 0x50:    /* MVR */
++    case 0x50:  /* MVR */
+         return 0x30;
+-    case 0x54:    /* SYSC (OMAP2) */
++    case 0x54:  /* SYSC (OMAP2) */
+         return s->syscontrol;
+-    case 0x58:    /* SYSS (OMAP2) */
++    case 0x58:  /* SYSS (OMAP2) */
+         return 1;
+-    case 0x5c:    /* WER (OMAP2) */
++    case 0x5c:  /* WER (OMAP2) */
+         return s->wkup;
+-    case 0x60:    /* CFPS (OMAP2) */
++    case 0x60:  /* CFPS (OMAP2) */
+         return s->cfps;
+     }
+@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
+     }
+     switch (addr) {
+-    case 0x20:    /* MDR1 */
++    case 0x20:  /* MDR1 */
+         s->mdr[0] = value & 0x7f;
+         break;
+-    case 0x24:    /* MDR2 */
++    case 0x24:  /* MDR2 */
+         s->mdr[1] = value & 0xff;
+         break;
+-    case 0x40:    /* SCR */
++    case 0x40:  /* SCR */
+         s->scr = value & 0xff;
+         break;
+-    case 0x48:    /* EBLR (OMAP2) */
++    case 0x48:  /* EBLR (OMAP2) */
+         s->eblr = value & 0xff;
+         break;
+-    case 0x4C:    /* OSC_12M_SEL (OMAP1) */
++    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
+         s->clksel = value & 1;
+         break;
+-    case 0x44:    /* SSR */
+-    case 0x50:    /* MVR */
+-    case 0x58:    /* SYSS (OMAP2) */
++    case 0x44:  /* SSR */
++    case 0x50:  /* MVR */
++    case 0x58:  /* SYSS (OMAP2) */
+         OMAP_RO_REG(addr);
+         break;
+-    case 0x54:    /* SYSC (OMAP2) */
++    case 0x54:  /* SYSC (OMAP2) */
+         s->syscontrol = value & 0x1d;
+-        if (value & 2)
++        if (value & 2) {
+             omap_uart_reset(s);
++        }
+         break;
+-    case 0x5c:    /* WER (OMAP2) */
++    case 0x5c:  /* WER (OMAP2) */
+         s->wkup = value & 0x7f;
+         break;
+-    case 0x60:    /* CFPS (OMAP2) */
++    case 0x60:  /* CFPS (OMAP2) */
+         s->cfps = value & 0xff;
+         break;
+     default:
+diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/gpio/zaurus.c
++++ b/hw/gpio/zaurus.c
+@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
+     uint16_t isr;
+ };
+-#define SCOOP_MCR    0x00
+-#define SCOOP_CDR    0x04
+-#define SCOOP_CSR    0x08
+-#define SCOOP_CPR    0x0c
+-#define SCOOP_CCR    0x10
+-#define SCOOP_IRR_IRM    0x14
+-#define SCOOP_IMR    0x18
+-#define SCOOP_ISR    0x1c
+-#define SCOOP_GPCR    0x20
+-#define SCOOP_GPWR    0x24
+-#define SCOOP_GPRR    0x28
++#define SCOOP_MCR       0x00
++#define SCOOP_CDR       0x04
++#define SCOOP_CSR       0x08
++#define SCOOP_CPR       0x0c
++#define SCOOP_CCR       0x10
++#define SCOOP_IRR_IRM   0x14
++#define SCOOP_IMR       0x18
++#define SCOOP_ISR       0x1c
++#define SCOOP_GPCR      0x20
++#define SCOOP_GPWR      0x24
++#define SCOOP_GPRR      0x28
+-static inline void scoop_gpio_handler_update(ScoopInfo *s) {
++static inline void scoop_gpio_handler_update(ScoopInfo *s)
++{
+     uint32_t level, diff;
+     int bit;
+     level = s->gpio_level & s->gpio_dir;
+@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
+         break;
+     case SCOOP_CPR:
+         s->power = value;
+-        if (value & 0x80)
++        if (value & 0x80) {
+             s->power |= 0x8040;
++        }
+         break;
+     case SCOOP_CCR:
+         s->ccr = value;
+@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
+         scoop_gpio_handler_update(s);
+         break;
+     case SCOOP_GPWR:
+-    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
++    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
+         s->gpio_level = value & s->gpio_dir;
+         scoop_gpio_handler_update(s);
+         break;
+@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
+ {
+     ScoopInfo *s = (ScoopInfo *) opaque;
+-    if (level)
++    if (level) {
+         s->gpio_level |= (1 << line);
+-    else
++    } else {
+         s->gpio_level &= ~(1 << line);
++    }
+ }
+ static void scoop_init(Object *obj)
+@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
+     return 0;
+ }
+-static bool is_version_0 (void *opaque, int version_id)
++static bool is_version_0(void *opaque, int version_id)
+ {
+     return version_id == 0;
+ }
+@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
+ /* Write the bootloader parameters memory area.  */
+-#define MAGIC_CHG(a, b, c, d)    ((d << 24) | (c << 16) | (b << 8) | a)
++#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
+ static struct QEMU_PACKED sl_param_info {
+     uint32_t comadj_keyword;
+@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
+     uint32_t phad_keyword;
+     int32_t phadadj;
+ } zaurus_bootparam = {
+-    .comadj_keyword    = MAGIC_CHG('C', 'M', 'A', 'D'),
+-    .comadj        = 125,
+-    .uuid_keyword    = MAGIC_CHG('U', 'U', 'I', 'D'),
+-    .uuid        = { -1 },
+-    .touch_keyword    = MAGIC_CHG('T', 'U', 'C', 'H'),
+-    .touch_xp        = -1,
+-    .adadj_keyword    = MAGIC_CHG('B', 'V', 'A', 'D'),
+-    .adadj        = -1,
+-    .phad_keyword    = MAGIC_CHG('P', 'H', 'A', 'D'),
+-    .phadadj        = 0x01,
++    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
++    .comadj             = 125,
++    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
++    .uuid               = { -1 },
++    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
++    .touch_xp           = -1,
++    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
++    .adadj              = -1,
++    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
++    .phadadj            = 0x01,
+ };
+ void sl_bootparam_write(hwaddr ptr)
+diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
+index XXXXXXX..XXXXXXX 100644
+--- a/hw/input/tsc2005.c
++++ b/hw/input/tsc2005.c
+@@ -XXX,XX +XXX,XX @@
+ #include "migration/vmstate.h"
+ #include "trace.h"
+-#define TSC_CUT_RESOLUTION(value, p)    ((value) >> (16 - (p ? 12 : 10)))
++#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
+ typedef struct {
+-    qemu_irq pint;    /* Combination of the nPENIRQ and DAV signals */
++    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
+     QEMUTimer *timer;
+     uint16_t model;
+@@ -XXX,XX +XXX,XX @@ typedef struct {
+ } TSC2005State;
+ enum {
+-    TSC_MODE_XYZ_SCAN    = 0x0,
++    TSC_MODE_XYZ_SCAN = 0x0,
+     TSC_MODE_XY_SCAN,
+     TSC_MODE_X,
+     TSC_MODE_Y,
+@@ -XXX,XX +XXX,XX @@ enum {
+ };
+ static const uint16_t mode_regs[16] = {
+-    0xf000,    /* X, Y, Z scan */
+-    0xc000,    /* X, Y scan */
+-    0x8000,    /* X */
+-    0x4000,    /* Y */
+-    0x3000,    /* Z */
+-    0x0800,    /* AUX */
+-    0x0400,    /* TEMP1 */
+-    0x0200,    /* TEMP2 */
+-    0x0800,    /* AUX scan */
+-    0x0040,    /* X test */
+-    0x0020,    /* Y test */
+-    0x0080,    /* Short-circuit test */
+-    0x0000,    /* Reserved */
+-    0x0000,    /* X+, X- drivers */
+-    0x0000,    /* Y+, Y- drivers */
+-    0x0000,    /* Y+, X- drivers */
++    0xf000, /* X, Y, Z scan */
++    0xc000, /* X, Y scan */
++    0x8000, /* X */
++    0x4000, /* Y */
++    0x3000, /* Z */
++    0x0800, /* AUX */
++    0x0400, /* TEMP1 */
++    0x0200, /* TEMP2 */
++    0x0800, /* AUX scan */
++    0x0040, /* X test */
++    0x0020, /* Y test */
++    0x0080, /* Short-circuit test */
++    0x0000, /* Reserved */
++    0x0000, /* X+, X- drivers */
++    0x0000, /* Y+, Y- drivers */
++    0x0000, /* Y+, X- drivers */
+ };
+-#define X_TRANSFORM(s)            \
++#define X_TRANSFORM(s)      \
+     ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
+-#define Y_TRANSFORM(s)            \
++#define Y_TRANSFORM(s)      \
+     ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
+-#define Z1_TRANSFORM(s)            \
++#define Z1_TRANSFORM(s)     \
+     ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
+-#define Z2_TRANSFORM(s)            \
++#define Z2_TRANSFORM(s)     \
+     ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
+-#define AUX_VAL                (700 << 4)    /* +/- 3 at 12-bit */
+-#define TEMP1_VAL            (1264 << 4)    /* +/- 5 at 12-bit */
+-#define TEMP2_VAL            (1531 << 4)    /* +/- 5 at 12-bit */
++#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
++#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
++#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
+ static uint16_t tsc2005_read(TSC2005State *s, int reg)
+ {
+     uint16_t ret;
+     switch (reg) {
+-    case 0x0:    /* X */
++    case 0x0: /* X */
+         s->dav &= ~mode_regs[TSC_MODE_X];
+         return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
+                 (s->noise & 3);
+-    case 0x1:    /* Y */
++    case 0x1: /* Y */
+         s->dav &= ~mode_regs[TSC_MODE_Y];
+-        s->noise ++;
++        s->noise++;
+         return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
+                 (s->noise & 3);
+-    case 0x2:    /* Z1 */
++    case 0x2: /* Z1 */
+         s->dav &= 0xdfff;
+         return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
+                 (s->noise & 3);
+-    case 0x3:    /* Z2 */
++    case 0x3: /* Z2 */
+         s->dav &= 0xefff;
+         return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
+                 (s->noise & 3);
+-    case 0x4:    /* AUX */
++    case 0x4: /* AUX */
+         s->dav &= ~mode_regs[TSC_MODE_AUX];
+         return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
+-    case 0x5:    /* TEMP1 */
++    case 0x5: /* TEMP1 */
+         s->dav &= ~mode_regs[TSC_MODE_TEMP1];
+         return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
+                 (s->noise & 5);
+-    case 0x6:    /* TEMP2 */
++    case 0x6: /* TEMP2 */
+         s->dav &= 0xdfff;
+         s->dav &= ~mode_regs[TSC_MODE_TEMP2];
+         return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
+                 (s->noise & 3);
+-    case 0x7:    /* Status */
++    case 0x7: /* Status */
+         ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
+         s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
+                         mode_regs[TSC_MODE_TS_TEST]);
+         s->reset = true;
+         return ret;
+-    case 0x8:   /* AUX high threshold */
++    case 0x8: /* AUX high threshold */
+         return s->aux_thr[1];
+-    case 0x9:   /* AUX low threshold */
++    case 0x9: /* AUX low threshold */
+         return s->aux_thr[0];
+-    case 0xa:   /* TEMP high threshold */
++    case 0xa: /* TEMP high threshold */
+         return s->temp_thr[1];
+-    case 0xb:   /* TEMP low threshold */
++    case 0xb: /* TEMP low threshold */
+         return s->temp_thr[0];
+-    case 0xc:    /* CFR0 */
++    case 0xc: /* CFR0 */
+         return (s->pressure << 15) | ((!s->busy) << 14) |
+-                (s->nextprecision << 13) | s->timing[0];
+-    case 0xd:    /* CFR1 */
++                (s->nextprecision << 13) | s->timing[0];
++    case 0xd: /* CFR1 */
+         return s->timing[1];
+-    case 0xe:    /* CFR2 */
++    case 0xe: /* CFR2 */
+         return (s->pin_func << 14) | s->filter;
+-    case 0xf:    /* Function select status */
++    case 0xf: /* Function select status */
+         return s->function >= 0 ? 1 << s->function : 0;
+     }
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
+         s->temp_thr[0] = data;
+         break;
+-    case 0xc:    /* CFR0 */
++    case 0xc: /* CFR0 */
+         s->host_mode = (data >> 15) != 0;
+         if (s->enabled != !(data & 0x4000)) {
+             s->enabled = !(data & 0x4000);
+             trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
+-            if (s->busy && !s->enabled)
++            if (s->busy && !s->enabled) {
+                 timer_del(s->timer);
++            }
+             s->busy = s->busy && s->enabled;
+         }
+         s->nextprecision = (data >> 13) & 1;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
+                           "tsc2005_write: illegal conversion clock setting\n");
+         }
+         break;
+-    case 0xd:    /* CFR1 */
++    case 0xd: /* CFR1 */
+         s->timing[1] = data & 0xf07;
+         break;
+-    case 0xe:    /* CFR2 */
++    case 0xe: /* CFR2 */
+         s->pin_func = (data >> 14) & 3;
+         s->filter = data & 0x3fff;
+         break;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     switch (s->nextfunction) {
+     case TSC_MODE_XYZ_SCAN:
+     case TSC_MODE_XY_SCAN:
+-        if (!s->host_mode && s->dav)
++        if (!s->host_mode && s->dav) {
+             s->enabled = false;
+-        if (!s->pressure)
++        }
++        if (!s->pressure) {
+             return;
++        }
+         /* Fall through */
+     case TSC_MODE_AUX_SCAN:
+         break;
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     case TSC_MODE_X:
+     case TSC_MODE_Y:
+     case TSC_MODE_Z:
+-        if (!s->pressure)
++        if (!s->pressure) {
+             return;
++        }
+         /* Fall through */
+     case TSC_MODE_AUX:
+     case TSC_MODE_TEMP1:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+     case TSC_MODE_X_TEST:
+     case TSC_MODE_Y_TEST:
+     case TSC_MODE_TS_TEST:
+-        if (s->dav)
++        if (s->dav) {
+             s->enabled = false;
++        }
+         break;
+     case TSC_MODE_RESERVED:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
+         return;
+     }
+-    if (!s->enabled || s->busy)
++    if (!s->enabled || s->busy) {
+         return;
++    }
+     s->busy = true;
+     s->precision = s->nextprecision;
+     s->function = s->nextfunction;
+-    s->pdst = !s->pnd0;    /* Synchronised on internal clock */
++    s->pdst = !s->pnd0; /* Synchronised on internal clock */
+     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
+         (NANOSECONDS_PER_SECOND >> 7);
+     timer_mod(s->timer, expires);
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+     TSC2005State *s = opaque;
+     uint32_t ret = 0;
+-    switch (s->state ++) {
++    switch (s->state++) {
+     case 0:
+         if (value & 0x80) {
+             /* Command */
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+                 if (s->enabled != !(value & 1)) {
+                     s->enabled = !(value & 1);
+                     trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
+-                    if (s->busy && !s->enabled)
++                    if (s->busy && !s->enabled) {
+                         timer_del(s->timer);
++                    }
+                     s->busy = s->busy && s->enabled;
+                 }
+                 tsc2005_pin_update(s);
+@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
+         break;
+     case 1:
+-        if (s->command)
++        if (s->command) {
+             ret = (s->data >> 8) & 0xff;
+-        else
++        } else {
+             s->data |= value << 8;
++        }
+         break;
+     case 2:
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
+     /* Timer ticked -- a set of conversions has been finished.  */
+-    if (!s->busy)
++    if (!s->busy) {
+         return;
++    }
+     s->busy = false;
+     s->dav |= mode_regs[function];
+@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
+      * signaling TS events immediately, but for now we simulate
+      * the first conversion delay for sake of correctness.
+      */
+-    if (p != s->pressure)
++    if (p != s->pressure) {
+         tsc2005_pin_update(s);
++    }
+ }
+ static int tsc2005_post_load(void *opaque, int version_id)
+--
+.34.1

-New patch
+[PULL 08/42] docs/system: Remove ADC from raspi documentation
+From: Rayhan Faizel <rayhan.faizel@gmail.com>
+None of the RPi boards have ADC on-board. In real life, an external ADC chip
+is required to operate on analog signals.
+Signed-off-by: Rayhan Faizel <rayhan.faizel@gmail.com>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Message-id: 20240512085716.222326-1-rayhan.faizel@gmail.com
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ docs/system/arm/raspi.rst | 1 -
+file changed, 1 deletion(-)
+diff --git a/docs/system/arm/raspi.rst b/docs/system/arm/raspi.rst
+index XXXXXXX..XXXXXXX 100644
+--- a/docs/system/arm/raspi.rst
++++ b/docs/system/arm/raspi.rst
+@@ -XXX,XX +XXX,XX @@ Implemented devices
+ Missing devices
+ ---------------
+- * Analog to Digital Converter (ADC)
+  * Pulse Width Modulation (PWM)
+  * PCIE Root Port (raspi4b)
+  * GENET Ethernet Controller (raspi4b)
+--
+.34.1

-New patch
+[PULL 09/42] target/arm: Use PLD, PLDW, PLI not NOP for t32
+From: Richard Henderson <richard.henderson@linaro.org>
+This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
+but are introduced with ARMv7 and ARMv7MP respectively.
+For clarity, do not use NOP for PLD.
+Note that there is no PLDW (literal). Architecturally in the
+T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
+that it should be zero and if it is not then the behaviour
+is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
+value of the bit).
+In our implementation we have patterns for both:
++    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
++    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
+and so we effectively ignore the value of bit 5.  (This is a
+permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
+behaviour change in this commit, since we previously had NOP lines
+for both those patterns.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
+[PMM: adjusted commit message to note that PLD (lit) T1 bit 5
+being 1 is an UNPREDICTABLE case.]
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
+ target/arm/tcg/translate.c |  4 ++--
+files changed, 14 insertions(+), 15 deletions(-)
+diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/t32.decode
++++ b/target/arm/tcg/t32.decode
+@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
+ # Note that Load, unsigned (literal) overlaps all other load encodings.
+ {
+   {
+-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
++    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
+     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
++    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
+     LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
+   }
+   LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
++    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
+     LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
++    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
+     LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+ {
+   {
+-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
++    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
+     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
++    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
+     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
+   }
+   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
++    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
+     LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
++    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
+     LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
+   LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
+   LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
+ }
+-# NOPs here are PLI.
+ {
+   {
+-    NOP          1111 1001 -001 1111 1111 ------------
++    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
+     LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
+   }
+   {
+-    NOP          1111 1001 1001 ---- 1111 ------------
++    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
+     LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
+   }
+   LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
+   {
+-    NOP          1111 1001 0001 ---- 1111 1100 --------
++    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
+     LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
+   }
+   LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
+   {
+-    NOP          1111 1001 0001 ---- 1111 000000 -- ----
++    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
+     LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
+   }
+ }
+diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.c
++++ b/target/arm/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
+     return ENABLE_ARCH_5TE;
+ }
+-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
++static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
+ {
+     return arm_dc_feature(s, ARM_FEATURE_V7MP);
+ }
+-static bool trans_PLI(DisasContext *s, arg_PLD *a)
++static bool trans_PLI(DisasContext *s, arg_PLI *a)
+ {
+     return ENABLE_ARCH_7;
+ }
+--
+.34.1

-[PULL 25/28] target/arm: Adjust format test in scr_write
+[PULL 10/42] target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
 From: Richard Henderson <richard.henderson@linaro.org>
-Because reset always initializes the AA64 version, SCR_EL3,
+Fixes RISU mismatch for "fcvtzs h31, h0, #14".
 test the mode of EL3 instead of the type of the cpreg.
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609214657.1217913-2-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 14 ++++++++------
+ target/arm/tcg/translate-a64.c | 3 +++
-file changed, 8 insertions(+), 6 deletions(-)
+file changed, 3 insertions(+)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/tcg/translate-a64.c
-+++ b/target/arm/helper.c
++++ b/target/arm/tcg/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void scr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
-     uint32_t valid_mask = 0x3fff;
+             read_vec_element_i32(s, tcg_op, rn, pass, size);
-     ARMCPU *cpu = env_archcpu(env);
+             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
+             if (is_scalar) {
--    if (ri->state == ARM_CP_STATE_AA64) {
++                if (size == MO_16 && !is_u) {
--        if (arm_feature(env, ARM_FEATURE_AARCH64) &&
++                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
--            !cpu_isar_feature(aa64_aa32_el1, cpu)) {
++                }
--                value |= SCR_FW | SCR_AW;   /* these two bits are RES1.  */
+                 write_fp_sreg(s, rd, tcg_op);
--        }
+             } else {
--        valid_mask &= ~SCR_NET;
+                 write_vec_element_i32(s, tcg_op, rd, pass, size);
 +    /*
 +     * Because SCR_EL3 is the "real" cpreg and SCR is the alias, reset always
 +     * passes the reginfo for SCR_EL3, which has type ARM_CP_STATE_AA64.
 +     * Instead, choose the format based on the mode of EL3.
 +     */
 +    if (arm_el_is_aa64(env, 3)) {
 +        value |= SCR_FW | SCR_AW;      /* RES1 */
 +        valid_mask &= ~SCR_NET;        /* RES0 */
          if (cpu_isar_feature(aa64_ras, cpu)) {
              valid_mask |= SCR_TERR;
 --
-.25.1
+.34.1

-New patch
+[PULL 11/42] target/arm: Fix decode of FMOV (hp) vs MOVI
+From: Richard Henderson <richard.henderson@linaro.org>
+The decode of FMOV (vector, immediate, half-precision) vs
+invalid cases of MOVI are incorrect.
+Fixes RISU mismatch for invalid insn 0x2f01fd31.
+Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
+file changed, 14 insertions(+), 10 deletions(-)
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
+     bool is_q = extract32(insn, 30, 1);
+     uint64_t imm = 0;
+-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
+-        /* Check for FMOV (vector, immediate) - half-precision */
+-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
++    if (o2) {
++        if (cmode != 0xf || is_neg) {
+             unallocated_encoding(s);
+             return;
+         }
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    if (cmode == 15 && o2 && !is_neg) {
+         /* FMOV (vector, immediate) - half-precision */
++        if (!dc_isar_feature(aa64_fp16, s)) {
++            unallocated_encoding(s);
++            return;
++        }
+         imm = vfp_expand_imm(MO_16, abcdefgh);
+         /* now duplicate across the lanes */
+         imm = dup_const(MO_16, imm);
+     } else {
++        if (cmode == 0xf && is_neg && !is_q) {
++            unallocated_encoding(s);
++            return;
++        }
+         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
+     }
++    if (!fp_access_check(s)) {
++        return;
++    }
++
+     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
+         /* MOVI or MVNI, with MVNI negation handled above.  */
+         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
+--
+.34.1

-New patch
+[PULL 12/42] target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
+From: Richard Henderson <richard.henderson@linaro.org>
+All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
+Fixes a RISU miscompare for invalid insn 0x5ef0c87a.
+Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate-a64.c | 2 +-
+file changed, 1 insertion(+), 1 deletion(-)
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
+     case 0x2f: /* FMINP */
+         /* FP op, size[0] is 32 or 64 bit*/
+         if (!u) {
+-            if (!dc_isar_feature(aa64_fp16, s)) {
++            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
+                 unallocated_encoding(s);
+                 return;
+             } else {
+--
+.34.1

-New patch
+[PULL 13/42] target/arm: Split out gengvec.c
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate.h |    5 +
+ target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/translate.c | 1588 -----------------------------------
+ target/arm/tcg/meson.build |    1 +
+files changed, 1618 insertions(+), 1588 deletions(-)
+ create mode 100644 target/arm/tcg/gengvec.c
+diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.h
++++ b/target/arm/tcg/translate.h
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
++void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
++void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
++void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
++void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
++
+ void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+ void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
+new file mode 100644
+index XXXXXXX..XXXXXXX
+--- /dev/null
++++ b/target/arm/tcg/gengvec.c
+@@ -XXX,XX +XXX,XX @@
++/*
++ *  ARM generic vector expansion
++ *
++ *  Copyright (c) 2003 Fabrice Bellard
++ *  Copyright (c) 2005-2007 CodeSourcery
++ *  Copyright (c) 2007 OpenedHand, Ltd.
++ *
++ * This library is free software; you can redistribute it and/or
++ * modify it under the terms of the GNU Lesser General Public
++ * License as published by the Free Software Foundation; either
++ * version 2.1 of the License, or (at your option) any later version.
++ *
++ * This library is distributed in the hope that it will be useful,
++ * but WITHOUT ANY WARRANTY; without even the implied warranty of
++ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
++ * Lesser General Public License for more details.
++ *
++ * You should have received a copy of the GNU Lesser General Public
++ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
++ */
++
++#include "qemu/osdep.h"
++#include "translate.h"
++
++
++static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
++                            uint32_t opr_sz, uint32_t max_sz,
++                            gen_helper_gvec_3_ptr *fn)
++{
++    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
++
++    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
++    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
++                       opr_sz, max_sz, 0, fn);
++}
++
++void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static gen_helper_gvec_3_ptr * const fns[2] = {
++        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
++    };
++    tcg_debug_assert(vece >= 1 && vece <= 2);
++    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
++}
++
++void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static gen_helper_gvec_3_ptr * const fns[2] = {
++        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
++    };
++    tcg_debug_assert(vece >= 1 && vece <= 2);
++    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
++}
++
++#define GEN_CMP0(NAME, COND)                              \
++    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
++              uint32_t opr_sz, uint32_t max_sz)           \
++    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
++
++GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
++GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
++GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
++GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
++GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
++
++#undef GEN_CMP0
++
++static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_sar8i_i64(a, a, shift);
++    tcg_gen_vec_add8_i64(d, d, a);
++}
++
++static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_sar16i_i64(a, a, shift);
++    tcg_gen_vec_add16_i64(d, d, a);
++}
++
++static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_sari_i32(a, a, shift);
++    tcg_gen_add_i32(d, d, a);
++}
++
++static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_sari_i64(a, a, shift);
++    tcg_gen_add_i64(d, d, a);
++}
++
++static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    tcg_gen_sari_vec(vece, a, a, sh);
++    tcg_gen_add_vec(vece, d, d, a);
++}
++
++void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sari_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_ssra8_i64,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_ssra16_i64,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_ssra32_i32,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_ssra64_i64,
++          .fniv = gen_ssra_vec,
++          .fno = gen_helper_gvec_ssra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize]. */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /*
++     * Shifts larger than the element size are architecturally valid.
++     * Signed results in all sign bits.
++     */
++    shift = MIN(shift, (8 << vece) - 1);
++    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++}
++
++static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_shr8i_i64(a, a, shift);
++    tcg_gen_vec_add8_i64(d, d, a);
++}
++
++static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_vec_shr16i_i64(a, a, shift);
++    tcg_gen_vec_add16_i64(d, d, a);
++}
++
++static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_shri_i32(a, a, shift);
++    tcg_gen_add_i32(d, d, a);
++}
++
++static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_shri_i64(a, a, shift);
++    tcg_gen_add_i64(d, d, a);
++}
++
++static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    tcg_gen_shri_vec(vece, a, a, sh);
++    tcg_gen_add_vec(vece, d, d, a);
++}
++
++void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_usra8_i64,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8, },
++        { .fni8 = gen_usra16_i64,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16, },
++        { .fni4 = gen_usra32_i32,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32, },
++        { .fni8 = gen_usra64_i64,
++          .fniv = gen_usra_vec,
++          .fno = gen_helper_gvec_usra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64, },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize]. */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /*
++     * Shifts larger than the element size are architecturally valid.
++     * Unsigned results in all zeros as input to accumulate: nop.
++     */
++    if (shift < (8 << vece)) {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    } else {
++        /* Nop, but we do need to clear the tail. */
++        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
++    }
++}
++
++/*
++ * Shift one less than the requested amount, and the low bit is
++ * the rounding bit.  For the 8 and 16-bit operations, because we
++ * mask the low bit, we can perform a normal integer shift instead
++ * of a vector shift.
++ */
++static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
++    tcg_gen_vec_sar8i_i64(d, a, sh);
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
++    tcg_gen_vec_sar16i_i64(d, a, sh);
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t;
++
++    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
++    if (sh == 32) {
++        tcg_gen_movi_i32(d, 0);
++        return;
++    }
++    t = tcg_temp_new_i32();
++    tcg_gen_extract_i32(t, a, sh - 1, 1);
++    tcg_gen_sari_i32(d, a, sh);
++    tcg_gen_add_i32(d, d, t);
++}
++
++ void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_extract_i64(t, a, sh - 1, 1);
++    tcg_gen_sari_i64(d, a, sh);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec ones = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_shri_vec(vece, t, a, sh - 1);
++    tcg_gen_dupi_vec(vece, ones, 1);
++    tcg_gen_and_vec(vece, t, t, ones);
++    tcg_gen_sari_vec(vece, d, a, sh);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_srshr8_i64,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_srshr16_i64,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_srshr32_i32,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_srshr64_i64,
++          .fniv = gen_srshr_vec,
++          .fno = gen_helper_gvec_srshr_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    if (shift == (8 << vece)) {
++        /*
++         * Shifts larger than the element size are architecturally valid.
++         * Signed results in all sign bits.  With rounding, this produces
++         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
++         * I.e. always zero.
++         */
++        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    gen_srshr8_i64(t, a, sh);
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    gen_srshr16_i64(t, a, sh);
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    gen_srshr32_i32(t, a, sh);
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    gen_srshr64_i64(t, a, sh);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    gen_srshr_vec(vece, t, a, sh);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_srsra8_i64,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fni8 = gen_srsra16_i64,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_srsra32_i32,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_srsra64_i64,
++          .fniv = gen_srsra_vec,
++          .fno = gen_helper_gvec_srsra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /*
++     * Shifts larger than the element size are architecturally valid.
++     * Signed results in all sign bits.  With rounding, this produces
++     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
++     * I.e. always zero.  With accumulation, this leaves D unchanged.
++     */
++    if (shift == (8 << vece)) {
++        /* Nop, but we do need to clear the tail. */
++        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
++    tcg_gen_vec_shr8i_i64(d, a, sh);
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, sh - 1);
++    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
++    tcg_gen_vec_shr16i_i64(d, a, sh);
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t;
++
++    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
++    if (sh == 32) {
++        tcg_gen_extract_i32(d, a, sh - 1, 1);
++        return;
++    }
++    t = tcg_temp_new_i32();
++    tcg_gen_extract_i32(t, a, sh - 1, 1);
++    tcg_gen_shri_i32(d, a, sh);
++    tcg_gen_add_i32(d, d, t);
++}
++
++void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_extract_i64(t, a, sh - 1, 1);
++    tcg_gen_shri_i64(d, a, sh);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec ones = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_shri_vec(vece, t, a, shift - 1);
++    tcg_gen_dupi_vec(vece, ones, 1);
++    tcg_gen_and_vec(vece, t, t, ones);
++    tcg_gen_shri_vec(vece, d, a, shift);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_urshr8_i64,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_urshr16_i64,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_urshr32_i32,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_urshr64_i64,
++          .fniv = gen_urshr_vec,
++          .fno = gen_helper_gvec_urshr_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    if (shift == (8 << vece)) {
++        /*
++         * Shifts larger than the element size are architecturally valid.
++         * Unsigned results in zero.  With rounding, this produces a
++         * copy of the most significant bit.
++         */
++        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    if (sh == 8) {
++        tcg_gen_vec_shr8i_i64(t, a, 7);
++    } else {
++        gen_urshr8_i64(t, a, sh);
++    }
++    tcg_gen_vec_add8_i64(d, d, t);
++}
++
++static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    if (sh == 16) {
++        tcg_gen_vec_shr16i_i64(t, a, 15);
++    } else {
++        gen_urshr16_i64(t, a, sh);
++    }
++    tcg_gen_vec_add16_i64(d, d, t);
++}
++
++static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    if (sh == 32) {
++        tcg_gen_shri_i32(t, a, 31);
++    } else {
++        gen_urshr32_i32(t, a, sh);
++    }
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    if (sh == 64) {
++        tcg_gen_shri_i64(t, a, 63);
++    } else {
++        gen_urshr64_i64(t, a, sh);
++    }
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    if (sh == (8 << vece)) {
++        tcg_gen_shri_vec(vece, t, a, sh - 1);
++    } else {
++        gen_urshr_vec(vece, t, a, sh);
++    }
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_shri_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen2i ops[4] = {
++        { .fni8 = gen_ursra8_i64,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fni8 = gen_ursra16_i64,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_ursra32_i32,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_ursra64_i64,
++          .fniv = gen_ursra_vec,
++          .fno = gen_helper_gvec_ursra_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize] */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++}
++
++static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_8, 0xff >> shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shri_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_shri_i32(a, a, shift);
++    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
++}
++
++static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_shri_i64(a, a, shift);
++    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
++}
++
++static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec m = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
++    tcg_gen_shri_vec(vece, t, a, sh);
++    tcg_gen_and_vec(vece, d, d, m);
++    tcg_gen_or_vec(vece, d, d, t);
++}
++
++void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
++    const GVecGen2i ops[4] = {
++        { .fni8 = gen_shr8_ins_i64,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_shr16_ins_i64,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_shr32_ins_i32,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_shr64_ins_i64,
++          .fniv = gen_shr_ins_vec,
++          .fno = gen_helper_gvec_sri_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [1..esize]. */
++    tcg_debug_assert(shift > 0);
++    tcg_debug_assert(shift <= (8 << vece));
++
++    /* Shift of esize leaves destination unchanged. */
++    if (shift < (8 << vece)) {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    } else {
++        /* Nop, but we do need to clear the tail. */
++        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
++    }
++}
++
++static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_8, 0xff << shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shli_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    uint64_t mask = dup_const(MO_16, 0xffff << shift);
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_shli_i64(t, a, shift);
++    tcg_gen_andi_i64(t, t, mask);
++    tcg_gen_andi_i64(d, d, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
++{
++    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
++}
++
++static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
++{
++    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
++}
++
++static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_vec m = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_shli_vec(vece, t, a, sh);
++    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
++    tcg_gen_and_vec(vece, d, d, m);
++    tcg_gen_or_vec(vece, d, d, t);
++}
++
++void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
++    const GVecGen2i ops[4] = {
++        { .fni8 = gen_shl8_ins_i64,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_b,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni8 = gen_shl16_ins_i64,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_h,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_shl32_ins_i32,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_s,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_shl64_ins_i64,
++          .fniv = gen_shl_ins_vec,
++          .fno = gen_helper_gvec_sli_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++
++    /* tszimm encoding produces immediates in the range [0..esize-1]. */
++    tcg_debug_assert(shift >= 0);
++    tcg_debug_assert(shift < (8 << vece));
++
++    if (shift == 0) {
++        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
++    } else {
++        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
++    }
++}
++
++static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u8(a, a, b);
++    gen_helper_neon_add_u8(d, d, a);
++}
++
++static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u8(a, a, b);
++    gen_helper_neon_sub_u8(d, d, a);
++}
++
++static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u16(a, a, b);
++    gen_helper_neon_add_u16(d, d, a);
++}
++
++static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    gen_helper_neon_mul_u16(a, a, b);
++    gen_helper_neon_sub_u16(d, d, a);
++}
++
++static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    tcg_gen_mul_i32(a, a, b);
++    tcg_gen_add_i32(d, d, a);
++}
++
++static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    tcg_gen_mul_i32(a, a, b);
++    tcg_gen_sub_i32(d, d, a);
++}
++
++static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    tcg_gen_mul_i64(a, a, b);
++    tcg_gen_add_i64(d, d, a);
++}
++
++static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    tcg_gen_mul_i64(a, a, b);
++    tcg_gen_sub_i64(d, d, a);
++}
++
++static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    tcg_gen_mul_vec(vece, a, a, b);
++    tcg_gen_add_vec(vece, d, d, a);
++}
++
++static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    tcg_gen_mul_vec(vece, a, a, b);
++    tcg_gen_sub_vec(vece, d, d, a);
++}
++
++/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
++ * these tables are shared with AArch64 which does support them.
++ */
++void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_mul_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fni4 = gen_mla8_i32,
++          .fniv = gen_mla_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni4 = gen_mla16_i32,
++          .fniv = gen_mla_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_mla32_i32,
++          .fniv = gen_mla_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_mla64_i64,
++          .fniv = gen_mla_vec,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fni4 = gen_mls8_i32,
++          .fniv = gen_mls_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni4 = gen_mls16_i32,
++          .fniv = gen_mls_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_mls32_i32,
++          .fniv = gen_mls_vec,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_mls64_i64,
++          .fniv = gen_mls_vec,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .load_dest = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++/* CMTST : test is "if (X & Y != 0)". */
++static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    tcg_gen_and_i32(d, a, b);
++    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
++}
++
++void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    tcg_gen_and_i64(d, a, b);
++    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
++}
++
++static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    tcg_gen_and_vec(vece, d, a, b);
++    tcg_gen_dupi_vec(vece, a, 0);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
++}
++
++void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
++    static const GVecGen3 ops[4] = {
++        { .fni4 = gen_helper_neon_tst_u8,
++          .fniv = gen_cmtst_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fni4 = gen_helper_neon_tst_u16,
++          .fniv = gen_cmtst_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_cmtst_i32,
++          .fniv = gen_cmtst_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_cmtst_i64,
++          .fniv = gen_cmtst_vec,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
++{
++    TCGv_i32 lval = tcg_temp_new_i32();
++    TCGv_i32 rval = tcg_temp_new_i32();
++    TCGv_i32 lsh = tcg_temp_new_i32();
++    TCGv_i32 rsh = tcg_temp_new_i32();
++    TCGv_i32 zero = tcg_constant_i32(0);
++    TCGv_i32 max = tcg_constant_i32(32);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i32(lsh, shift);
++    tcg_gen_neg_i32(rsh, lsh);
++    tcg_gen_shl_i32(lval, src, lsh);
++    tcg_gen_shr_i32(rval, src, rsh);
++    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
++    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
++}
++
++void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
++{
++    TCGv_i64 lval = tcg_temp_new_i64();
++    TCGv_i64 rval = tcg_temp_new_i64();
++    TCGv_i64 lsh = tcg_temp_new_i64();
++    TCGv_i64 rsh = tcg_temp_new_i64();
++    TCGv_i64 zero = tcg_constant_i64(0);
++    TCGv_i64 max = tcg_constant_i64(64);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i64(lsh, shift);
++    tcg_gen_neg_i64(rsh, lsh);
++    tcg_gen_shl_i64(lval, src, lsh);
++    tcg_gen_shr_i64(rval, src, rsh);
++    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
++    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
++}
++
++static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
++                         TCGv_vec src, TCGv_vec shift)
++{
++    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec msk, max;
++
++    tcg_gen_neg_vec(vece, rsh, shift);
++    if (vece == MO_8) {
++        tcg_gen_mov_vec(lsh, shift);
++    } else {
++        msk = tcg_temp_new_vec_matching(dst);
++        tcg_gen_dupi_vec(vece, msk, 0xff);
++        tcg_gen_and_vec(vece, lsh, shift, msk);
++        tcg_gen_and_vec(vece, rsh, rsh, msk);
++    }
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_shlv_vec(vece, lval, src, lsh);
++    tcg_gen_shrv_vec(vece, rval, src, rsh);
++
++    max = tcg_temp_new_vec_matching(dst);
++    tcg_gen_dupi_vec(vece, max, 8 << vece);
++
++    /*
++     * The choice of LT (signed) and GEU (unsigned) are biased toward
++     * the instructions of the x86_64 host.  For MO_8, the whole byte
++     * is significant so we must use an unsigned compare; otherwise we
++     * have already masked to a byte and so a signed compare works.
++     * Other tcg hosts have a full set of comparisons and do not care.
++     */
++    if (vece == MO_8) {
++        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
++        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
++        tcg_gen_andc_vec(vece, lval, lval, lsh);
++        tcg_gen_andc_vec(vece, rval, rval, rsh);
++    } else {
++        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
++        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
++        tcg_gen_and_vec(vece, lval, lval, lsh);
++        tcg_gen_and_vec(vece, rval, rval, rsh);
++    }
++    tcg_gen_or_vec(vece, dst, lval, rval);
++}
++
++void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_neg_vec, INDEX_op_shlv_vec,
++        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_ushl_vec,
++          .fno = gen_helper_gvec_ushl_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_ushl_vec,
++          .fno = gen_helper_gvec_ushl_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_ushl_i32,
++          .fniv = gen_ushl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_ushl_i64,
++          .fniv = gen_ushl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
++{
++    TCGv_i32 lval = tcg_temp_new_i32();
++    TCGv_i32 rval = tcg_temp_new_i32();
++    TCGv_i32 lsh = tcg_temp_new_i32();
++    TCGv_i32 rsh = tcg_temp_new_i32();
++    TCGv_i32 zero = tcg_constant_i32(0);
++    TCGv_i32 max = tcg_constant_i32(31);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i32(lsh, shift);
++    tcg_gen_neg_i32(rsh, lsh);
++    tcg_gen_shl_i32(lval, src, lsh);
++    tcg_gen_umin_i32(rsh, rsh, max);
++    tcg_gen_sar_i32(rval, src, rsh);
++    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
++    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
++}
++
++void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
++{
++    TCGv_i64 lval = tcg_temp_new_i64();
++    TCGv_i64 rval = tcg_temp_new_i64();
++    TCGv_i64 lsh = tcg_temp_new_i64();
++    TCGv_i64 rsh = tcg_temp_new_i64();
++    TCGv_i64 zero = tcg_constant_i64(0);
++    TCGv_i64 max = tcg_constant_i64(63);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_ext8s_i64(lsh, shift);
++    tcg_gen_neg_i64(rsh, lsh);
++    tcg_gen_shl_i64(lval, src, lsh);
++    tcg_gen_umin_i64(rsh, rsh, max);
++    tcg_gen_sar_i64(rval, src, rsh);
++    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
++    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
++}
++
++static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
++                         TCGv_vec src, TCGv_vec shift)
++{
++    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
++    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
++    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
++
++    /*
++     * Rely on the TCG guarantee that out of range shifts produce
++     * unspecified results, not undefined behaviour (i.e. no trap).
++     * Discard out-of-range results after the fact.
++     */
++    tcg_gen_neg_vec(vece, rsh, shift);
++    if (vece == MO_8) {
++        tcg_gen_mov_vec(lsh, shift);
++    } else {
++        tcg_gen_dupi_vec(vece, tmp, 0xff);
++        tcg_gen_and_vec(vece, lsh, shift, tmp);
++        tcg_gen_and_vec(vece, rsh, rsh, tmp);
++    }
++
++    /* Bound rsh so out of bound right shift gets -1.  */
++    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
++    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
++    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
++
++    tcg_gen_shlv_vec(vece, lval, src, lsh);
++    tcg_gen_sarv_vec(vece, rval, src, rsh);
++
++    /* Select in-bound left shift.  */
++    tcg_gen_andc_vec(vece, lval, lval, tmp);
++
++    /* Select between left and right shift.  */
++    if (vece == MO_8) {
++        tcg_gen_dupi_vec(vece, tmp, 0);
++        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
++    } else {
++        tcg_gen_dupi_vec(vece, tmp, 0x80);
++        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
++    }
++}
++
++void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
++        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_sshl_vec,
++          .fno = gen_helper_gvec_sshl_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_sshl_vec,
++          .fno = gen_helper_gvec_sshl_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_sshl_i32,
++          .fniv = gen_sshl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_sshl_i64,
++          .fniv = gen_sshl_vec,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_add_vec(vece, x, a, b);
++    tcg_gen_usadd_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_b,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_h,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_s,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fniv = gen_uqadd_vec,
++          .fno = gen_helper_gvec_uqadd_d,
++          .write_aofs = true,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_add_vec(vece, x, a, b);
++    tcg_gen_ssadd_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_b,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_8 },
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_h,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_16 },
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_s,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_32 },
++        { .fniv = gen_sqadd_vec,
++          .fno = gen_helper_gvec_sqadd_d,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_sub_vec(vece, x, a, b);
++    tcg_gen_ussub_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_b,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_8 },
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_h,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_16 },
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_s,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_32 },
++        { .fniv = gen_uqsub_vec,
++          .fno = gen_helper_gvec_uqsub_d,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
++                          TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec x = tcg_temp_new_vec_matching(t);
++    tcg_gen_sub_vec(vece, x, a, b);
++    tcg_gen_sssub_vec(vece, t, a, b);
++    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
++    tcg_gen_or_vec(vece, sat, sat, x);
++}
++
++void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
++    };
++    static const GVecGen4 ops[4] = {
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_b,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_8 },
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_h,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_16 },
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_s,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_32 },
++        { .fniv = gen_sqsub_vec,
++          .fno = gen_helper_gvec_sqsub_d,
++          .opt_opc = vecop_list,
++          .write_aofs = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    tcg_gen_sub_i32(t, a, b);
++    tcg_gen_sub_i32(d, b, a);
++    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
++}
++
++static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_sub_i64(t, a, b);
++    tcg_gen_sub_i64(d, b, a);
++    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
++}
++
++static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_smin_vec(vece, t, a, b);
++    tcg_gen_smax_vec(vece, d, a, b);
++    tcg_gen_sub_vec(vece, d, d, t);
++}
++
++void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_sabd_i32,
++          .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_sabd_i64,
++          .fniv = gen_sabd_vec,
++          .fno = gen_helper_gvec_sabd_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++
++    tcg_gen_sub_i32(t, a, b);
++    tcg_gen_sub_i32(d, b, a);
++    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
++}
++
++static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++
++    tcg_gen_sub_i64(t, a, b);
++    tcg_gen_sub_i64(d, b, a);
++    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
++}
++
++static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++
++    tcg_gen_umin_vec(vece, t, a, b);
++    tcg_gen_umax_vec(vece, d, a, b);
++    tcg_gen_sub_vec(vece, d, d, t);
++}
++
++void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_b,
++          .opt_opc = vecop_list,
++          .vece = MO_8 },
++        { .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_h,
++          .opt_opc = vecop_list,
++          .vece = MO_16 },
++        { .fni4 = gen_uabd_i32,
++          .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_s,
++          .opt_opc = vecop_list,
++          .vece = MO_32 },
++        { .fni8 = gen_uabd_i64,
++          .fniv = gen_uabd_vec,
++          .fno = gen_helper_gvec_uabd_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++    gen_sabd_i32(t, a, b);
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++    gen_sabd_i64(t, a, b);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    gen_sabd_vec(vece, t, a, b);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_add_vec,
++        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_saba_i32,
++          .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_saba_i64,
++          .fniv = gen_saba_vec,
++          .fno = gen_helper_gvec_saba_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
++
++static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++{
++    TCGv_i32 t = tcg_temp_new_i32();
++    gen_uabd_i32(t, a, b);
++    tcg_gen_add_i32(d, d, t);
++}
++
++static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++    gen_uabd_i64(t, a, b);
++    tcg_gen_add_i64(d, d, t);
++}
++
++static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++{
++    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    gen_uabd_vec(vece, t, a, b);
++    tcg_gen_add_vec(vece, d, d, t);
++}
++
++void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = {
++        INDEX_op_sub_vec, INDEX_op_add_vec,
++        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
++    };
++    static const GVecGen3 ops[4] = {
++        { .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_b,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_8 },
++        { .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_h,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_16 },
++        { .fni4 = gen_uaba_i32,
++          .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_s,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_32 },
++        { .fni8 = gen_uaba_i64,
++          .fniv = gen_uaba_vec,
++          .fno = gen_helper_gvec_uaba_d,
++          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++          .opt_opc = vecop_list,
++          .load_dest = true,
++          .vece = MO_64 },
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++}
+diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate.c
++++ b/target/arm/tcg/translate.c
+@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
+     gen_rfe(s, pc, load_cpu_field(spsr));
+ }
+-static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+-                            uint32_t opr_sz, uint32_t max_sz,
+-                            gen_helper_gvec_3_ptr *fn)
+-{
+-    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
+-
+-    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
+-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
+-                       opr_sz, max_sz, 0, fn);
+-}
+-
+-void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static gen_helper_gvec_3_ptr * const fns[2] = {
+-        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
+-    };
+-    tcg_debug_assert(vece >= 1 && vece <= 2);
+-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+-}
+-
+-void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static gen_helper_gvec_3_ptr * const fns[2] = {
+-        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
+-    };
+-    tcg_debug_assert(vece >= 1 && vece <= 2);
+-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+-}
+-
+-#define GEN_CMP0(NAME, COND)                              \
+-    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
+-              uint32_t opr_sz, uint32_t max_sz)           \
+-    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
+-
+-GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
+-GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
+-GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
+-GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
+-GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
+-
+-#undef GEN_CMP0
+-
+-static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_sar8i_i64(a, a, shift);
+-    tcg_gen_vec_add8_i64(d, d, a);
+-}
+-
+-static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_sar16i_i64(a, a, shift);
+-    tcg_gen_vec_add16_i64(d, d, a);
+-}
+-
+-static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_sari_i32(a, a, shift);
+-    tcg_gen_add_i32(d, d, a);
+-}
+-
+-static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_sari_i64(a, a, shift);
+-    tcg_gen_add_i64(d, d, a);
+-}
+-
+-static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    tcg_gen_sari_vec(vece, a, a, sh);
+-    tcg_gen_add_vec(vece, d, d, a);
+-}
+-
+-void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sari_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_ssra8_i64,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_ssra16_i64,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_ssra32_i32,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_ssra64_i64,
+-          .fniv = gen_ssra_vec,
+-          .fno = gen_helper_gvec_ssra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize]. */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /*
+-     * Shifts larger than the element size are architecturally valid.
+-     * Signed results in all sign bits.
+-     */
+-    shift = MIN(shift, (8 << vece) - 1);
+-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-}
+-
+-static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_shr8i_i64(a, a, shift);
+-    tcg_gen_vec_add8_i64(d, d, a);
+-}
+-
+-static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_vec_shr16i_i64(a, a, shift);
+-    tcg_gen_vec_add16_i64(d, d, a);
+-}
+-
+-static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_shri_i32(a, a, shift);
+-    tcg_gen_add_i32(d, d, a);
+-}
+-
+-static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_shri_i64(a, a, shift);
+-    tcg_gen_add_i64(d, d, a);
+-}
+-
+-static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    tcg_gen_shri_vec(vece, a, a, sh);
+-    tcg_gen_add_vec(vece, d, d, a);
+-}
+-
+-void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_usra8_i64,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8, },
+-        { .fni8 = gen_usra16_i64,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16, },
+-        { .fni4 = gen_usra32_i32,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32, },
+-        { .fni8 = gen_usra64_i64,
+-          .fniv = gen_usra_vec,
+-          .fno = gen_helper_gvec_usra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64, },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize]. */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /*
+-     * Shifts larger than the element size are architecturally valid.
+-     * Unsigned results in all zeros as input to accumulate: nop.
+-     */
+-    if (shift < (8 << vece)) {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    } else {
+-        /* Nop, but we do need to clear the tail. */
+-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+-    }
+-}
+-
+-/*
+- * Shift one less than the requested amount, and the low bit is
+- * the rounding bit.  For the 8 and 16-bit operations, because we
+- * mask the low bit, we can perform a normal integer shift instead
+- * of a vector shift.
+- */
+-static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+-    tcg_gen_vec_sar8i_i64(d, a, sh);
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+-    tcg_gen_vec_sar16i_i64(d, a, sh);
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t;
+-
+-    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
+-    if (sh == 32) {
+-        tcg_gen_movi_i32(d, 0);
+-        return;
+-    }
+-    t = tcg_temp_new_i32();
+-    tcg_gen_extract_i32(t, a, sh - 1, 1);
+-    tcg_gen_sari_i32(d, a, sh);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_extract_i64(t, a, sh - 1, 1);
+-    tcg_gen_sari_i64(d, a, sh);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_shri_vec(vece, t, a, sh - 1);
+-    tcg_gen_dupi_vec(vece, ones, 1);
+-    tcg_gen_and_vec(vece, t, t, ones);
+-    tcg_gen_sari_vec(vece, d, a, sh);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_srshr8_i64,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_srshr16_i64,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_srshr32_i32,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_srshr64_i64,
+-          .fniv = gen_srshr_vec,
+-          .fno = gen_helper_gvec_srshr_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    if (shift == (8 << vece)) {
+-        /*
+-         * Shifts larger than the element size are architecturally valid.
+-         * Signed results in all sign bits.  With rounding, this produces
+-         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+-         * I.e. always zero.
+-         */
+-        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    gen_srshr8_i64(t, a, sh);
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    gen_srshr16_i64(t, a, sh);
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    gen_srshr32_i32(t, a, sh);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    gen_srshr64_i64(t, a, sh);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    gen_srshr_vec(vece, t, a, sh);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_srsra8_i64,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fni8 = gen_srsra16_i64,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_srsra32_i32,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_srsra64_i64,
+-          .fniv = gen_srsra_vec,
+-          .fno = gen_helper_gvec_srsra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /*
+-     * Shifts larger than the element size are architecturally valid.
+-     * Signed results in all sign bits.  With rounding, this produces
+-     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+-     * I.e. always zero.  With accumulation, this leaves D unchanged.
+-     */
+-    if (shift == (8 << vece)) {
+-        /* Nop, but we do need to clear the tail. */
+-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+-    tcg_gen_vec_shr8i_i64(d, a, sh);
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, sh - 1);
+-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+-    tcg_gen_vec_shr16i_i64(d, a, sh);
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t;
+-
+-    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
+-    if (sh == 32) {
+-        tcg_gen_extract_i32(d, a, sh - 1, 1);
+-        return;
+-    }
+-    t = tcg_temp_new_i32();
+-    tcg_gen_extract_i32(t, a, sh - 1, 1);
+-    tcg_gen_shri_i32(d, a, sh);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_extract_i64(t, a, sh - 1, 1);
+-    tcg_gen_shri_i64(d, a, sh);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_shri_vec(vece, t, a, shift - 1);
+-    tcg_gen_dupi_vec(vece, ones, 1);
+-    tcg_gen_and_vec(vece, t, t, ones);
+-    tcg_gen_shri_vec(vece, d, a, shift);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_urshr8_i64,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_urshr16_i64,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_urshr32_i32,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_urshr64_i64,
+-          .fniv = gen_urshr_vec,
+-          .fno = gen_helper_gvec_urshr_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    if (shift == (8 << vece)) {
+-        /*
+-         * Shifts larger than the element size are architecturally valid.
+-         * Unsigned results in zero.  With rounding, this produces a
+-         * copy of the most significant bit.
+-         */
+-        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    if (sh == 8) {
+-        tcg_gen_vec_shr8i_i64(t, a, 7);
+-    } else {
+-        gen_urshr8_i64(t, a, sh);
+-    }
+-    tcg_gen_vec_add8_i64(d, d, t);
+-}
+-
+-static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    if (sh == 16) {
+-        tcg_gen_vec_shr16i_i64(t, a, 15);
+-    } else {
+-        gen_urshr16_i64(t, a, sh);
+-    }
+-    tcg_gen_vec_add16_i64(d, d, t);
+-}
+-
+-static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    if (sh == 32) {
+-        tcg_gen_shri_i32(t, a, 31);
+-    } else {
+-        gen_urshr32_i32(t, a, sh);
+-    }
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    if (sh == 64) {
+-        tcg_gen_shri_i64(t, a, 63);
+-    } else {
+-        gen_urshr64_i64(t, a, sh);
+-    }
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    if (sh == (8 << vece)) {
+-        tcg_gen_shri_vec(vece, t, a, sh - 1);
+-    } else {
+-        gen_urshr_vec(vece, t, a, sh);
+-    }
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen2i ops[4] = {
+-        { .fni8 = gen_ursra8_i64,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fni8 = gen_ursra16_i64,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_ursra32_i32,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_ursra64_i64,
+-          .fniv = gen_ursra_vec,
+-          .fno = gen_helper_gvec_ursra_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize] */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-}
+-
+-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shri_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_shri_i32(a, a, shift);
+-    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+-}
+-
+-static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_shri_i64(a, a, shift);
+-    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+-}
+-
+-static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec m = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
+-    tcg_gen_shri_vec(vece, t, a, sh);
+-    tcg_gen_and_vec(vece, d, d, m);
+-    tcg_gen_or_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
+-    const GVecGen2i ops[4] = {
+-        { .fni8 = gen_shr8_ins_i64,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_shr16_ins_i64,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_shr32_ins_i32,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_shr64_ins_i64,
+-          .fniv = gen_shr_ins_vec,
+-          .fno = gen_helper_gvec_sri_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [1..esize]. */
+-    tcg_debug_assert(shift > 0);
+-    tcg_debug_assert(shift <= (8 << vece));
+-
+-    /* Shift of esize leaves destination unchanged. */
+-    if (shift < (8 << vece)) {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    } else {
+-        /* Nop, but we do need to clear the tail. */
+-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+-    }
+-}
+-
+-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_8, 0xff << shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shli_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    uint64_t mask = dup_const(MO_16, 0xffff << shift);
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_shli_i64(t, a, shift);
+-    tcg_gen_andi_i64(t, t, mask);
+-    tcg_gen_andi_i64(d, d, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+-{
+-    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+-}
+-
+-static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+-{
+-    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+-}
+-
+-static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    TCGv_vec m = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_shli_vec(vece, t, a, sh);
+-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
+-    tcg_gen_and_vec(vece, d, d, m);
+-    tcg_gen_or_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
+-    const GVecGen2i ops[4] = {
+-        { .fni8 = gen_shl8_ins_i64,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_b,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni8 = gen_shl16_ins_i64,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_h,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_shl32_ins_i32,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_s,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_shl64_ins_i64,
+-          .fniv = gen_shl_ins_vec,
+-          .fno = gen_helper_gvec_sli_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-
+-    /* tszimm encoding produces immediates in the range [0..esize-1]. */
+-    tcg_debug_assert(shift >= 0);
+-    tcg_debug_assert(shift < (8 << vece));
+-
+-    if (shift == 0) {
+-        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
+-    } else {
+-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+-    }
+-}
+-
+-static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u8(a, a, b);
+-    gen_helper_neon_add_u8(d, d, a);
+-}
+-
+-static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u8(a, a, b);
+-    gen_helper_neon_sub_u8(d, d, a);
+-}
+-
+-static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u16(a, a, b);
+-    gen_helper_neon_add_u16(d, d, a);
+-}
+-
+-static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    gen_helper_neon_mul_u16(a, a, b);
+-    gen_helper_neon_sub_u16(d, d, a);
+-}
+-
+-static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    tcg_gen_mul_i32(a, a, b);
+-    tcg_gen_add_i32(d, d, a);
+-}
+-
+-static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    tcg_gen_mul_i32(a, a, b);
+-    tcg_gen_sub_i32(d, d, a);
+-}
+-
+-static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    tcg_gen_mul_i64(a, a, b);
+-    tcg_gen_add_i64(d, d, a);
+-}
+-
+-static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    tcg_gen_mul_i64(a, a, b);
+-    tcg_gen_sub_i64(d, d, a);
+-}
+-
+-static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    tcg_gen_mul_vec(vece, a, a, b);
+-    tcg_gen_add_vec(vece, d, d, a);
+-}
+-
+-static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    tcg_gen_mul_vec(vece, a, a, b);
+-    tcg_gen_sub_vec(vece, d, d, a);
+-}
+-
+-/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
+- * these tables are shared with AArch64 which does support them.
+- */
+-void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_mul_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fni4 = gen_mla8_i32,
+-          .fniv = gen_mla_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni4 = gen_mla16_i32,
+-          .fniv = gen_mla_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_mla32_i32,
+-          .fniv = gen_mla_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_mla64_i64,
+-          .fniv = gen_mla_vec,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fni4 = gen_mls8_i32,
+-          .fniv = gen_mls_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni4 = gen_mls16_i32,
+-          .fniv = gen_mls_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_mls32_i32,
+-          .fniv = gen_mls_vec,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_mls64_i64,
+-          .fniv = gen_mls_vec,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .load_dest = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-/* CMTST : test is "if (X & Y != 0)". */
+-static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    tcg_gen_and_i32(d, a, b);
+-    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
+-}
+-
+-void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    tcg_gen_and_i64(d, a, b);
+-    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
+-}
+-
+-static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    tcg_gen_and_vec(vece, d, a, b);
+-    tcg_gen_dupi_vec(vece, a, 0);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+-}
+-
+-void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+-    static const GVecGen3 ops[4] = {
+-        { .fni4 = gen_helper_neon_tst_u8,
+-          .fniv = gen_cmtst_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fni4 = gen_helper_neon_tst_u16,
+-          .fniv = gen_cmtst_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_cmtst_i32,
+-          .fniv = gen_cmtst_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_cmtst_i64,
+-          .fniv = gen_cmtst_vec,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+-{
+-    TCGv_i32 lval = tcg_temp_new_i32();
+-    TCGv_i32 rval = tcg_temp_new_i32();
+-    TCGv_i32 lsh = tcg_temp_new_i32();
+-    TCGv_i32 rsh = tcg_temp_new_i32();
+-    TCGv_i32 zero = tcg_constant_i32(0);
+-    TCGv_i32 max = tcg_constant_i32(32);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i32(lsh, shift);
+-    tcg_gen_neg_i32(rsh, lsh);
+-    tcg_gen_shl_i32(lval, src, lsh);
+-    tcg_gen_shr_i32(rval, src, rsh);
+-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
+-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
+-}
+-
+-void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+-{
+-    TCGv_i64 lval = tcg_temp_new_i64();
+-    TCGv_i64 rval = tcg_temp_new_i64();
+-    TCGv_i64 lsh = tcg_temp_new_i64();
+-    TCGv_i64 rsh = tcg_temp_new_i64();
+-    TCGv_i64 zero = tcg_constant_i64(0);
+-    TCGv_i64 max = tcg_constant_i64(64);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i64(lsh, shift);
+-    tcg_gen_neg_i64(rsh, lsh);
+-    tcg_gen_shl_i64(lval, src, lsh);
+-    tcg_gen_shr_i64(rval, src, rsh);
+-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
+-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
+-}
+-
+-static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
+-                         TCGv_vec src, TCGv_vec shift)
+-{
+-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec msk, max;
+-
+-    tcg_gen_neg_vec(vece, rsh, shift);
+-    if (vece == MO_8) {
+-        tcg_gen_mov_vec(lsh, shift);
+-    } else {
+-        msk = tcg_temp_new_vec_matching(dst);
+-        tcg_gen_dupi_vec(vece, msk, 0xff);
+-        tcg_gen_and_vec(vece, lsh, shift, msk);
+-        tcg_gen_and_vec(vece, rsh, rsh, msk);
+-    }
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_shlv_vec(vece, lval, src, lsh);
+-    tcg_gen_shrv_vec(vece, rval, src, rsh);
+-
+-    max = tcg_temp_new_vec_matching(dst);
+-    tcg_gen_dupi_vec(vece, max, 8 << vece);
+-
+-    /*
+-     * The choice of LT (signed) and GEU (unsigned) are biased toward
+-     * the instructions of the x86_64 host.  For MO_8, the whole byte
+-     * is significant so we must use an unsigned compare; otherwise we
+-     * have already masked to a byte and so a signed compare works.
+-     * Other tcg hosts have a full set of comparisons and do not care.
+-     */
+-    if (vece == MO_8) {
+-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
+-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
+-        tcg_gen_andc_vec(vece, lval, lval, lsh);
+-        tcg_gen_andc_vec(vece, rval, rval, rsh);
+-    } else {
+-        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
+-        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
+-        tcg_gen_and_vec(vece, lval, lval, lsh);
+-        tcg_gen_and_vec(vece, rval, rval, rsh);
+-    }
+-    tcg_gen_or_vec(vece, dst, lval, rval);
+-}
+-
+-void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_neg_vec, INDEX_op_shlv_vec,
+-        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_ushl_vec,
+-          .fno = gen_helper_gvec_ushl_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_ushl_vec,
+-          .fno = gen_helper_gvec_ushl_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_ushl_i32,
+-          .fniv = gen_ushl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_ushl_i64,
+-          .fniv = gen_ushl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+-{
+-    TCGv_i32 lval = tcg_temp_new_i32();
+-    TCGv_i32 rval = tcg_temp_new_i32();
+-    TCGv_i32 lsh = tcg_temp_new_i32();
+-    TCGv_i32 rsh = tcg_temp_new_i32();
+-    TCGv_i32 zero = tcg_constant_i32(0);
+-    TCGv_i32 max = tcg_constant_i32(31);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i32(lsh, shift);
+-    tcg_gen_neg_i32(rsh, lsh);
+-    tcg_gen_shl_i32(lval, src, lsh);
+-    tcg_gen_umin_i32(rsh, rsh, max);
+-    tcg_gen_sar_i32(rval, src, rsh);
+-    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
+-    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
+-}
+-
+-void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+-{
+-    TCGv_i64 lval = tcg_temp_new_i64();
+-    TCGv_i64 rval = tcg_temp_new_i64();
+-    TCGv_i64 lsh = tcg_temp_new_i64();
+-    TCGv_i64 rsh = tcg_temp_new_i64();
+-    TCGv_i64 zero = tcg_constant_i64(0);
+-    TCGv_i64 max = tcg_constant_i64(63);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_ext8s_i64(lsh, shift);
+-    tcg_gen_neg_i64(rsh, lsh);
+-    tcg_gen_shl_i64(lval, src, lsh);
+-    tcg_gen_umin_i64(rsh, rsh, max);
+-    tcg_gen_sar_i64(rval, src, rsh);
+-    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
+-    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
+-}
+-
+-static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
+-                         TCGv_vec src, TCGv_vec shift)
+-{
+-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+-    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
+-
+-    /*
+-     * Rely on the TCG guarantee that out of range shifts produce
+-     * unspecified results, not undefined behaviour (i.e. no trap).
+-     * Discard out-of-range results after the fact.
+-     */
+-    tcg_gen_neg_vec(vece, rsh, shift);
+-    if (vece == MO_8) {
+-        tcg_gen_mov_vec(lsh, shift);
+-    } else {
+-        tcg_gen_dupi_vec(vece, tmp, 0xff);
+-        tcg_gen_and_vec(vece, lsh, shift, tmp);
+-        tcg_gen_and_vec(vece, rsh, rsh, tmp);
+-    }
+-
+-    /* Bound rsh so out of bound right shift gets -1.  */
+-    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
+-    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
+-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
+-
+-    tcg_gen_shlv_vec(vece, lval, src, lsh);
+-    tcg_gen_sarv_vec(vece, rval, src, rsh);
+-
+-    /* Select in-bound left shift.  */
+-    tcg_gen_andc_vec(vece, lval, lval, tmp);
+-
+-    /* Select between left and right shift.  */
+-    if (vece == MO_8) {
+-        tcg_gen_dupi_vec(vece, tmp, 0);
+-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
+-    } else {
+-        tcg_gen_dupi_vec(vece, tmp, 0x80);
+-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
+-    }
+-}
+-
+-void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
+-        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_sshl_vec,
+-          .fno = gen_helper_gvec_sshl_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_sshl_vec,
+-          .fno = gen_helper_gvec_sshl_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_sshl_i32,
+-          .fniv = gen_sshl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_sshl_i64,
+-          .fniv = gen_sshl_vec,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_add_vec(vece, x, a, b);
+-    tcg_gen_usadd_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_b,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_h,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_s,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fniv = gen_uqadd_vec,
+-          .fno = gen_helper_gvec_uqadd_d,
+-          .write_aofs = true,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_add_vec(vece, x, a, b);
+-    tcg_gen_ssadd_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_b,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_h,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_16 },
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_s,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_32 },
+-        { .fniv = gen_sqadd_vec,
+-          .fno = gen_helper_gvec_sqadd_d,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_sub_vec(vece, x, a, b);
+-    tcg_gen_ussub_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_b,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_h,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_16 },
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_s,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_32 },
+-        { .fniv = gen_uqsub_vec,
+-          .fno = gen_helper_gvec_uqsub_d,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+-                          TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec x = tcg_temp_new_vec_matching(t);
+-    tcg_gen_sub_vec(vece, x, a, b);
+-    tcg_gen_sssub_vec(vece, t, a, b);
+-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+-    tcg_gen_or_vec(vece, sat, sat, x);
+-}
+-
+-void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+-    };
+-    static const GVecGen4 ops[4] = {
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_b,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_h,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_16 },
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_s,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_32 },
+-        { .fniv = gen_sqsub_vec,
+-          .fno = gen_helper_gvec_sqsub_d,
+-          .opt_opc = vecop_list,
+-          .write_aofs = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    tcg_gen_sub_i32(t, a, b);
+-    tcg_gen_sub_i32(d, b, a);
+-    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
+-}
+-
+-static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_sub_i64(t, a, b);
+-    tcg_gen_sub_i64(d, b, a);
+-    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
+-}
+-
+-static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_smin_vec(vece, t, a, b);
+-    tcg_gen_smax_vec(vece, d, a, b);
+-    tcg_gen_sub_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_sabd_i32,
+-          .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_sabd_i64,
+-          .fniv = gen_sabd_vec,
+-          .fno = gen_helper_gvec_sabd_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-
+-    tcg_gen_sub_i32(t, a, b);
+-    tcg_gen_sub_i32(d, b, a);
+-    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
+-}
+-
+-static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-
+-    tcg_gen_sub_i64(t, a, b);
+-    tcg_gen_sub_i64(d, b, a);
+-    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
+-}
+-
+-static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-
+-    tcg_gen_umin_vec(vece, t, a, b);
+-    tcg_gen_umax_vec(vece, d, a, b);
+-    tcg_gen_sub_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_b,
+-          .opt_opc = vecop_list,
+-          .vece = MO_8 },
+-        { .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_h,
+-          .opt_opc = vecop_list,
+-          .vece = MO_16 },
+-        { .fni4 = gen_uabd_i32,
+-          .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_s,
+-          .opt_opc = vecop_list,
+-          .vece = MO_32 },
+-        { .fni8 = gen_uabd_i64,
+-          .fniv = gen_uabd_vec,
+-          .fno = gen_helper_gvec_uabd_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-    gen_sabd_i32(t, a, b);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-    gen_sabd_i64(t, a, b);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    gen_sabd_vec(vece, t, a, b);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_add_vec,
+-        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_saba_i32,
+-          .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_saba_i64,
+-          .fniv = gen_saba_vec,
+-          .fno = gen_helper_gvec_saba_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+-static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+-{
+-    TCGv_i32 t = tcg_temp_new_i32();
+-    gen_uabd_i32(t, a, b);
+-    tcg_gen_add_i32(d, d, t);
+-}
+-
+-static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-    gen_uabd_i64(t, a, b);
+-    tcg_gen_add_i64(d, d, t);
+-}
+-
+-static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+-{
+-    TCGv_vec t = tcg_temp_new_vec_matching(d);
+-    gen_uabd_vec(vece, t, a, b);
+-    tcg_gen_add_vec(vece, d, d, t);
+-}
+-
+-void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = {
+-        INDEX_op_sub_vec, INDEX_op_add_vec,
+-        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+-    };
+-    static const GVecGen3 ops[4] = {
+-        { .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_b,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_8 },
+-        { .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_h,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_16 },
+-        { .fni4 = gen_uaba_i32,
+-          .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_s,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_32 },
+-        { .fni8 = gen_uaba_i64,
+-          .fniv = gen_uaba_vec,
+-          .fno = gen_helper_gvec_uaba_d,
+-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-          .opt_opc = vecop_list,
+-          .load_dest = true,
+-          .vece = MO_64 },
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+-}
+-
+ static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
+ {
+     static const uint16_t mask[3] = {
+diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/meson.build
++++ b/target/arm/tcg/meson.build
+@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
+ arm_ss.add(files(
+   'cpu32.c',
++  'gengvec.c',
+   'translate.c',
+   'translate-m-nocp.c',
+   'translate-mve.c',
+--
+.34.1

-New patch
+[PULL 14/42] target/arm: Split out gengvec64.c
+From: Richard Henderson <richard.henderson@linaro.org>
+Split some routines out of translate-a64.c and translate-sve.c
+that are used by both.
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/translate-a64.h |   4 +
+ target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
+ target/arm/tcg/translate-a64.c |  26 -----
+ target/arm/tcg/translate-sve.c | 145 +------------------------
+ target/arm/tcg/meson.build     |   1 +
+files changed, 197 insertions(+), 169 deletions(-)
+ create mode 100644 target/arm/tcg/gengvec64.c
+diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.h
++++ b/target/arm/tcg/translate-a64.h
+@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, int64_t shift,
+                   uint32_t opr_sz, uint32_t max_sz);
++void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
++                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
++void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
++                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
+ void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
+ void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
+diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
+new file mode 100644
+index XXXXXXX..XXXXXXX
+--- /dev/null
++++ b/target/arm/tcg/gengvec64.c
+@@ -XXX,XX +XXX,XX @@
++/*
++ *  AArch64 generic vector expansion
++ *
++ *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
++ *
++ * This library is free software; you can redistribute it and/or
++ * modify it under the terms of the GNU Lesser General Public
++ * License as published by the Free Software Foundation; either
++ * version 2.1 of the License, or (at your option) any later version.
++ *
++ * This library is distributed in the hope that it will be useful,
++ * but WITHOUT ANY WARRANTY; without even the implied warranty of
++ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
++ * Lesser General Public License for more details.
++ *
++ * You should have received a copy of the GNU Lesser General Public
++ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
++ */
++
++#include "qemu/osdep.h"
++#include "translate.h"
++#include "translate-a64.h"
++
++
++static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
++{
++    tcg_gen_rotli_i64(d, m, 1);
++    tcg_gen_xor_i64(d, d, n);
++}
++
++static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
++{
++    tcg_gen_rotli_vec(vece, d, m, 1);
++    tcg_gen_xor_vec(vece, d, d, n);
++}
++
++void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
++    static const GVecGen3 op = {
++        .fni8 = gen_rax1_i64,
++        .fniv = gen_rax1_vec,
++        .opt_opc = vecop_list,
++        .fno = gen_helper_crypto_rax1,
++        .vece = MO_64,
++    };
++    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
++}
++
++static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++    uint64_t mask = dup_const(MO_8, 0xff >> sh);
++
++    tcg_gen_xor_i64(t, n, m);
++    tcg_gen_shri_i64(d, t, sh);
++    tcg_gen_shli_i64(t, t, 8 - sh);
++    tcg_gen_andi_i64(d, d, mask);
++    tcg_gen_andi_i64(t, t, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
++{
++    TCGv_i64 t = tcg_temp_new_i64();
++    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
++
++    tcg_gen_xor_i64(t, n, m);
++    tcg_gen_shri_i64(d, t, sh);
++    tcg_gen_shli_i64(t, t, 16 - sh);
++    tcg_gen_andi_i64(d, d, mask);
++    tcg_gen_andi_i64(t, t, ~mask);
++    tcg_gen_or_i64(d, d, t);
++}
++
++static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
++{
++    tcg_gen_xor_i32(d, n, m);
++    tcg_gen_rotri_i32(d, d, sh);
++}
++
++static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
++{
++    tcg_gen_xor_i64(d, n, m);
++    tcg_gen_rotri_i64(d, d, sh);
++}
++
++static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
++                        TCGv_vec m, int64_t sh)
++{
++    tcg_gen_xor_vec(vece, d, n, m);
++    tcg_gen_rotri_vec(vece, d, d, sh);
++}
++
++void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++                  uint32_t rm_ofs, int64_t shift,
++                  uint32_t opr_sz, uint32_t max_sz)
++{
++    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
++    static const GVecGen3i ops[4] = {
++        { .fni8 = gen_xar8_i64,
++          .fniv = gen_xar_vec,
++          .fno = gen_helper_sve2_xar_b,
++          .opt_opc = vecop,
++          .vece = MO_8 },
++        { .fni8 = gen_xar16_i64,
++          .fniv = gen_xar_vec,
++          .fno = gen_helper_sve2_xar_h,
++          .opt_opc = vecop,
++          .vece = MO_16 },
++        { .fni4 = gen_xar_i32,
++          .fniv = gen_xar_vec,
++          .fno = gen_helper_sve2_xar_s,
++          .opt_opc = vecop,
++          .vece = MO_32 },
++        { .fni8 = gen_xar_i64,
++          .fniv = gen_xar_vec,
++          .fno = gen_helper_gvec_xar_d,
++          .opt_opc = vecop,
++          .vece = MO_64 }
++    };
++    int esize = 8 << vece;
++
++    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
++    tcg_debug_assert(shift >= 0);
++    tcg_debug_assert(shift <= esize);
++    shift &= esize - 1;
++
++    if (shift == 0) {
++        /* xar with no rotate devolves to xor. */
++        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
++    } else {
++        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
++                        shift, &ops[vece]);
++    }
++}
++
++static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
++{
++    tcg_gen_xor_i64(d, n, m);
++    tcg_gen_xor_i64(d, d, k);
++}
++
++static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
++                         TCGv_vec m, TCGv_vec k)
++{
++    tcg_gen_xor_vec(vece, d, n, m);
++    tcg_gen_xor_vec(vece, d, d, k);
++}
++
++void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
++                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
++{
++    static const GVecGen4 op = {
++        .fni8 = gen_eor3_i64,
++        .fniv = gen_eor3_vec,
++        .fno = gen_helper_sve2_eor3,
++        .vece = MO_64,
++        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++    };
++    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
++}
++
++static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
++{
++    tcg_gen_andc_i64(d, m, k);
++    tcg_gen_xor_i64(d, d, n);
++}
++
++static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
++                         TCGv_vec m, TCGv_vec k)
++{
++    tcg_gen_andc_vec(vece, d, m, k);
++    tcg_gen_xor_vec(vece, d, d, n);
++}
++
++void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
++                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
++{
++    static const GVecGen4 op = {
++        .fni8 = gen_bcax_i64,
++        .fniv = gen_bcax_vec,
++        .fno = gen_helper_sve2_bcax,
++        .vece = MO_64,
++        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++    };
++    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
++}
++
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
+     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
+ }
+-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
+-{
+-    tcg_gen_rotli_i64(d, m, 1);
+-    tcg_gen_xor_i64(d, d, n);
+-}
+-
+-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
+-{
+-    tcg_gen_rotli_vec(vece, d, m, 1);
+-    tcg_gen_xor_vec(vece, d, d, n);
+-}
+-
+-void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
+-    static const GVecGen3 op = {
+-        .fni8 = gen_rax1_i64,
+-        .fniv = gen_rax1_vec,
+-        .opt_opc = vecop_list,
+-        .fno = gen_helper_crypto_rax1,
+-        .vece = MO_64,
+-    };
+-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
+-}
+-
+ /* Crypto three-reg SHA512
+  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
+  * +-----------------------+------+---+---+-----+--------+------+------+
+diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-sve.c
++++ b/target/arm/tcg/translate-sve.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
+ TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
+ TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
+-static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-    uint64_t mask = dup_const(MO_8, 0xff >> sh);
+-
+-    tcg_gen_xor_i64(t, n, m);
+-    tcg_gen_shri_i64(d, t, sh);
+-    tcg_gen_shli_i64(t, t, 8 - sh);
+-    tcg_gen_andi_i64(d, d, mask);
+-    tcg_gen_andi_i64(t, t, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+-{
+-    TCGv_i64 t = tcg_temp_new_i64();
+-    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
+-
+-    tcg_gen_xor_i64(t, n, m);
+-    tcg_gen_shri_i64(d, t, sh);
+-    tcg_gen_shli_i64(t, t, 16 - sh);
+-    tcg_gen_andi_i64(d, d, mask);
+-    tcg_gen_andi_i64(t, t, ~mask);
+-    tcg_gen_or_i64(d, d, t);
+-}
+-
+-static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
+-{
+-    tcg_gen_xor_i32(d, n, m);
+-    tcg_gen_rotri_i32(d, d, sh);
+-}
+-
+-static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+-{
+-    tcg_gen_xor_i64(d, n, m);
+-    tcg_gen_rotri_i64(d, d, sh);
+-}
+-
+-static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+-                        TCGv_vec m, int64_t sh)
+-{
+-    tcg_gen_xor_vec(vece, d, n, m);
+-    tcg_gen_rotri_vec(vece, d, d, sh);
+-}
+-
+-void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-                  uint32_t rm_ofs, int64_t shift,
+-                  uint32_t opr_sz, uint32_t max_sz)
+-{
+-    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
+-    static const GVecGen3i ops[4] = {
+-        { .fni8 = gen_xar8_i64,
+-          .fniv = gen_xar_vec,
+-          .fno = gen_helper_sve2_xar_b,
+-          .opt_opc = vecop,
+-          .vece = MO_8 },
+-        { .fni8 = gen_xar16_i64,
+-          .fniv = gen_xar_vec,
+-          .fno = gen_helper_sve2_xar_h,
+-          .opt_opc = vecop,
+-          .vece = MO_16 },
+-        { .fni4 = gen_xar_i32,
+-          .fniv = gen_xar_vec,
+-          .fno = gen_helper_sve2_xar_s,
+-          .opt_opc = vecop,
+-          .vece = MO_32 },
+-        { .fni8 = gen_xar_i64,
+-          .fniv = gen_xar_vec,
+-          .fno = gen_helper_gvec_xar_d,
+-          .opt_opc = vecop,
+-          .vece = MO_64 }
+-    };
+-    int esize = 8 << vece;
+-
+-    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
+-    tcg_debug_assert(shift >= 0);
+-    tcg_debug_assert(shift <= esize);
+-    shift &= esize - 1;
+-
+-    if (shift == 0) {
+-        /* xar with no rotate devolves to xor. */
+-        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
+-    } else {
+-        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
+-                        shift, &ops[vece]);
+-    }
+-}
+-
+ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
+ {
+     if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
+@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
+     return true;
+ }
+-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+-{
+-    tcg_gen_xor_i64(d, n, m);
+-    tcg_gen_xor_i64(d, d, k);
+-}
+-
+-static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+-                         TCGv_vec m, TCGv_vec k)
+-{
+-    tcg_gen_xor_vec(vece, d, n, m);
+-    tcg_gen_xor_vec(vece, d, d, k);
+-}
+-
+-static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
+-{
+-    static const GVecGen4 op = {
+-        .fni8 = gen_eor3_i64,
+-        .fniv = gen_eor3_vec,
+-        .fno = gen_helper_sve2_eor3,
+-        .vece = MO_64,
+-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-    };
+-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+-}
+-
+-TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
+-
+-static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+-{
+-    tcg_gen_andc_i64(d, m, k);
+-    tcg_gen_xor_i64(d, d, n);
+-}
+-
+-static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+-                         TCGv_vec m, TCGv_vec k)
+-{
+-    tcg_gen_andc_vec(vece, d, m, k);
+-    tcg_gen_xor_vec(vece, d, d, n);
+-}
+-
+-static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
+-{
+-    static const GVecGen4 op = {
+-        .fni8 = gen_bcax_i64,
+-        .fniv = gen_bcax_vec,
+-        .fno = gen_helper_sve2_bcax,
+-        .vece = MO_64,
+-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+-    };
+-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+-}
+-
+-TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
++TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
++TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
+ static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
+diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/meson.build
++++ b/target/arm/tcg/meson.build
+@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
+ arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
+   'cpu64.c',
++  'gengvec64.c',
+   'translate-a64.c',
+   'translate-sve.c',
+   'translate-sme.c',
+--
+.34.1

-[PULL 10/28] target/arm: Introduce gen_exception_insn_el_v
+[PULL 15/42] target/arm: Convert Cryptographic AES to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Create a function below gen_exception_insn that takes
-the target_el as a TCGv_i32, replacing gen_exception_el.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-11-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c | 27 ++++++++++++---------------
+ target/arm/tcg/a64.decode      | 21 +++++++--
-file changed, 12 insertions(+), 15 deletions(-)
+ target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
 files changed, 54 insertions(+), 53 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static void gen_exception_internal_insn(DisasContext *s, uint32_t pc, int excp)
+@@ -XXX,XX +XXX,XX @@
-     s->base.is_jmp = DISAS_NORETURN;
+ # This file is processed by scripts/decodetree.py
  #
 -&r               rn
 -&ri              rd imm
 -&rri_sf          rd rn imm sf
 -&i               imm
 +%rd             0:5
 +&r              rn
 +&ri             rd imm
 +&rri_sf         rd rn imm sf
 +&i              imm
 +&qrr_e          q rd rn esz
 +&qrrr_e         q rd rn rm esz
 +
 +@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 +@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
  CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
  CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
  CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
 +
 +### Cryptographic AES
 +
 +AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
 +AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
 +AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
 +AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
      return true;
  }
--void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
++/*
--                        uint32_t syn, uint32_t target_el)
++ * Expanders for AdvSIMD translation functions.
-+static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
++ */
-+                                    uint32_t syn, TCGv_i32 tcg_el)
++
- {
++static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
-     if (s->aarch64) {
++                            gen_helper_gvec_2 *fn)
          gen_a64_set_pc_im(pc);
@@ -XXX,XX +XXX,XX @@ void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
          gen_set_condexec(s);
          gen_set_pc_im(s, pc);
      }
 -    gen_exception(excp, syn, target_el);
 +    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
 +                                          tcg_constant_i32(syn), tcg_el);
      s->base.is_jmp = DISAS_NORETURN;
  }
 +void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
 +                        uint32_t syn, uint32_t target_el)
 +{
-+    gen_exception_insn_el_v(s, pc, excp, syn, tcg_constant_i32(target_el));
++    if (!a->q && a->esz == MO_64) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
 +    }
 +    return true;
 +}
 +
- static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
++static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
- {
++                            gen_helper_gvec_3 *fn)
-     gen_set_condexec(s);
++{
-@@ -XXX,XX +XXX,XX @@ void unallocated_encoding(DisasContext *s)
++    if (!a->q && a->esz == MO_64) {
-                        default_exception_el(s));
++        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
 +    }
 +    return true;
 +}
 +
  /*
   * This utility function is for doing register extension with an
   * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
      return true;
  }
--static void gen_exception_el(DisasContext *s, int excp, uint32_t syn,
++/*
--                             TCGv_i32 tcg_el)
++ * Cryptographic AES
 + */
 +
 +TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
 +TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
 +TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
 +TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
 -/* Crypto AES
 - *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
 - * +-----------------+------+-----------+--------+-----+------+------+
 - * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
 - * +-----------------+------+-----------+--------+-----+------+------+
 - */
 -static void disas_crypto_aes(DisasContext *s, uint32_t insn)
 -{
--    gen_set_condexec(s);
+-    int size = extract32(insn, 22, 2);
--    gen_set_pc_im(s, s->pc_curr);
+-    int opcode = extract32(insn, 12, 5);
--    gen_helper_exception_with_syndrome_el(cpu_env,
+-    int rn = extract32(insn, 5, 5);
--                                          tcg_constant_i32(excp),
+-    int rd = extract32(insn, 0, 5);
--                                          tcg_constant_i32(syn), tcg_el);
+-    gen_helper_gvec_2 *genfn2 = NULL;
--    s->base.is_jmp = DISAS_NORETURN;
+-    gen_helper_gvec_3 *genfn3 = NULL;
 -
 -    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (opcode) {
 -    case 0x4: /* AESE */
 -        genfn3 = gen_helper_crypto_aese;
 -        break;
 -    case 0x6: /* AESMC */
 -        genfn2 = gen_helper_crypto_aesmc;
 -        break;
 -    case 0x5: /* AESD */
 -        genfn3 = gen_helper_crypto_aesd;
 -        break;
 -    case 0x7: /* AESIMC */
 -        genfn2 = gen_helper_crypto_aesimc;
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -    if (genfn2) {
 -        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
 -    } else {
 -        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
 -    }
 -}
 -
- /* Force a TB lookup after an instruction that changes the CPU state.  */
+ /* Crypto three-reg SHA
- void gen_lookup_tb(DisasContext *s)
+  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
- {
+  * +-----------------+------+---+------+---+--------+-----+------+------+
-@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-                 tcg_el = tcg_constant_i32(3);
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
-             }
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
--            gen_exception_el(s, EXCP_UDEF, syn_uncategorized(), tcg_el);
+-    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
-+            gen_exception_insn_el_v(s, s->pc_curr, EXCP_UDEF,
+     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
-+                                    syn_uncategorized(), tcg_el);
+     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
-             tcg_temp_free_i32(tcg_el);
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
              return false;
          }
 --
-.25.1
+.34.1

-[PULL 14/28] target/arm: Remove TBFLAG_ANY.DEBUG_TARGET_EL
+[PULL 16/42] target/arm: Convert Cryptographic 3-register SHA to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-We no longer need this value during translation,
-as it is now handled within the helpers.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-15-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h           |  6 ++----
+ target/arm/tcg/a64.decode      | 11 +++++
- target/arm/translate.h     |  2 --
+ target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
- target/arm/helper.c        | 12 ++----------
+files changed, 21 insertions(+), 68 deletions(-)
  target/arm/translate-a64.c |  1 -
  target/arm/translate.c     |  1 -
 files changed, 4 insertions(+), 18 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, BE_DATA, 3, 1)
+@@ -XXX,XX +XXX,XX @@
- FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
- /* Target EL if we take a floating-point-disabled exception */
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
- FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
--/* For A-profile only, target EL for debug exceptions.  */
++@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
--FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
- /* Memory operations require alignment: SCTLR_ELx.A or CCR.UNALIGN_TRP */
+ ### Data Processing - Immediate
--FIELD(TBFLAG_ANY, ALIGN_MEM, 12, 1)
--FIELD(TBFLAG_ANY, PSTATE__IL, 13, 1)
+@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
-+FIELD(TBFLAG_ANY, ALIGN_MEM, 10, 1)
+ AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
-+FIELD(TBFLAG_ANY, PSTATE__IL, 11, 1)
+ AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
  AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
 +
 +### Cryptographic three-register SHA
 +
 +SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
 +SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
 +SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
 +SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
 +SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
 +SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
 +SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
  }
  /*
-  * Bit usage when in AArch32 state, both A- and M-profile.
+- * Cryptographic AES
-diff --git a/target/arm/translate.h b/target/arm/translate.h
++ * Cryptographic AES, SHA
-index XXXXXXX..XXXXXXX 100644
+  */
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
+ TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
-      */
+ TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
-     uint32_t svc_imm;
+ TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
-     int current_el;
--    /* Debug target exception level for single-step exceptions */
++TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
--    int debug_target_el;
++TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
-     GHashTable *cp_regs;
++TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
-     uint64_t features; /* CPU features bits */
++TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
-     bool aarch64;
++
-diff --git a/target/arm/helper.c b/target/arm/helper.c
++TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
-index XXXXXXX..XXXXXXX 100644
++TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
---- a/target/arm/helper.c
++TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
-+++ b/target/arm/helper.c
++
-@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
+  * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
--static CPUARMTBFlags rebuild_hflags_aprofile(CPUARMState *env)
+-/* Crypto three-reg SHA
 - *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
 - * +-----------------+------+---+------+---+--------+-----+------+------+
 - * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
 - * +-----------------+------+---+------+---+--------+-----+------+------+
 - */
 -static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
 -{
--    CPUARMTBFlags flags = {};
+-    int size = extract32(insn, 22, 2);
 -    int opcode = extract32(insn, 12, 3);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    gen_helper_gvec_3 *genfn;
 -    bool feature;
 -
--    DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
+-    if (size != 0) {
--    return flags;
+-        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (opcode) {
 -    case 0: /* SHA1C */
 -        genfn = gen_helper_crypto_sha1c;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 1: /* SHA1P */
 -        genfn = gen_helper_crypto_sha1p;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 2: /* SHA1M */
 -        genfn = gen_helper_crypto_sha1m;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 3: /* SHA1SU0 */
 -        genfn = gen_helper_crypto_sha1su0;
 -        feature = dc_isar_feature(aa64_sha1, s);
 -        break;
 -    case 4: /* SHA256H */
 -        genfn = gen_helper_crypto_sha256h;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    case 5: /* SHA256H2 */
 -        genfn = gen_helper_crypto_sha256h2;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    case 6: /* SHA256SU1 */
 -        genfn = gen_helper_crypto_sha256su1;
 -        feature = dc_isar_feature(aa64_sha256, s);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
 -}
 -
- static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
+ /* Crypto two-reg SHA
-                                         ARMMMUIdx mmu_idx)
+  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
- {
+  * +-----------------+------+-----------+--------+-----+------+------+
--    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-+    CPUARMTBFlags flags = {};
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
-     int el = arm_current_el(env);
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-     if (arm_sctlr(env, el) & SCTLR_A) {
+-    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
-@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
+     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
- static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
-                                         ARMMMUIdx mmu_idx)
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
  {
 -    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
 +    CPUARMTBFlags flags = {};
      ARMMMUIdx stage1 = stage_1_mmu_idx(mmu_idx);
      uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
      uint64_t sctlr;
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
      dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
      dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
      dc->is_ldex = false;
 -    dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
      /* Bound the number of insns to execute to those left on the page.  */
      bound = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
          dc->v7m_lspact = EX_TBFLAG_M32(tb_flags, LSPACT);
          dc->mve_no_pred = EX_TBFLAG_M32(tb_flags, MVE_NO_PRED);
      } else {
 -        dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
          dc->sctlr_b = EX_TBFLAG_A32(tb_flags, SCTLR__B);
          dc->hstr_active = EX_TBFLAG_A32(tb_flags, HSTR_ACTIVE);
          dc->ns = EX_TBFLAG_A32(tb_flags, NS);
 --
-.25.1
+.34.1

-New patch
+[PULL 17/42] target/arm: Convert Cryptographic 2-register SHA to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |  6 ++++
+ target/arm/tcg/translate-a64.c | 54 +++-------------------------------
+files changed, 10 insertions(+), 50 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
+ SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
+ SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
+ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
++
++### Cryptographic two-register SHA
++
++SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
++SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
++SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256
+ TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
+ TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
++TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
++TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
++TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto two-reg SHA
+- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
+- * +-----------------+------+-----------+--------+-----+------+------+
+- * | 0 1 0 1 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
+- * +-----------------+------+-----------+--------+-----+------+------+
+- */
+-static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
+-{
+-    int size = extract32(insn, 22, 2);
+-    int opcode = extract32(insn, 12, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    gen_helper_gvec_2 *genfn;
+-    bool feature;
+-
+-    if (size != 0) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0: /* SHA1H */
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        genfn = gen_helper_crypto_sha1h;
+-        break;
+-    case 1: /* SHA1SU1 */
+-        feature = dc_isar_feature(aa64_sha1, s);
+-        genfn = gen_helper_crypto_sha1su1;
+-        break;
+-    case 2: /* SHA256SU0 */
+-        feature = dc_isar_feature(aa64_sha256, s);
+-        genfn = gen_helper_crypto_sha256su0;
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-    gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
+-}
+-
+ /* Crypto three-reg SHA512
+  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
+  * +-----------------------+------+---+---+-----+--------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
+     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
+--
+.34.1

-[PULL 18/28] target/arm: Introduce gen_exception_el_v
+[PULL 18/42] target/arm: Convert Cryptographic 3-register SHA512 to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Split out a common helper function for gen_exception_el
-and gen_exception_insn_el_v.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-19-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c | 13 ++++++++-----
+ target/arm/tcg/a64.decode      | 11 ++++
-file changed, 8 insertions(+), 5 deletions(-)
+ target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
 files changed, 32 insertions(+), 76 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static void gen_exception_internal_insn(DisasContext *s, uint32_t pc, int excp)
+@@ -XXX,XX +XXX,XX @@
-     s->base.is_jmp = DISAS_NORETURN;
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
  @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 +@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
  SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
  SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
  SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
 +
 +### Cryptographic three-register SHA512
 +
 +SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
 +SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
 +SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
 +RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
 +SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
 +SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
 +SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
      return true;
  }
--static void gen_exception_el(int excp, uint32_t syndrome, uint32_t target_el)
++static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
-+static void gen_exception_el_v(int excp, uint32_t syndrome, TCGv_i32 tcg_el)
++{
- {
++    if (!a->q && a->esz == MO_64) {
-     gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
++        return false;
--                                          tcg_constant_i32(syndrome),
++    }
--                                          tcg_constant_i32(target_el));
++    if (fp_access_check(s)) {
-+                                          tcg_constant_i32(syndrome), tcg_el);
++        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
 +    }
 +    return true;
 +}
 +
-+static void gen_exception_el(int excp, uint32_t syndrome, uint32_t target_el)
+ /*
-+{
+  * This utility function is for doing register extension with an
-+    gen_exception_el_v(excp, syndrome, tcg_constant_i32(target_el));
+  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
  }
- static void gen_exception(DisasContext *s, int excp, uint32_t syndrome)
+ /*
-@@ -XXX,XX +XXX,XX @@ static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
+- * Cryptographic AES, SHA
-         gen_set_condexec(s);
++ * Cryptographic AES, SHA, SHA512
-         gen_set_pc_im(s, pc);
+  */
  TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
  TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
  TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
 +TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
 +TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
 +TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
 +TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
 +TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
 +TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
 +TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 +
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
--    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
--                                          tcg_constant_i32(syn), tcg_el);
-+    gen_exception_el_v(excp, syn, tcg_el);
-     s->base.is_jmp = DISAS_NORETURN;
  }
+-/* Crypto three-reg SHA512
+- *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
+- * +-----------------------+------+---+---+-----+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
+- * +-----------------------+------+---+---+-----+--------+------+------+
+- */
+-static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
+-{
+-    int opcode = extract32(insn, 10, 2);
+-    int o =  extract32(insn, 14, 1);
+-    int rm = extract32(insn, 16, 5);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    bool feature;
+-    gen_helper_gvec_3 *oolfn = NULL;
+-    GVecGen3Fn *gvecfn = NULL;
+-
+-    if (o == 0) {
+-        switch (opcode) {
+-        case 0: /* SHA512H */
+-            feature = dc_isar_feature(aa64_sha512, s);
+-            oolfn = gen_helper_crypto_sha512h;
+-            break;
+-        case 1: /* SHA512H2 */
+-            feature = dc_isar_feature(aa64_sha512, s);
+-            oolfn = gen_helper_crypto_sha512h2;
+-            break;
+-        case 2: /* SHA512SU1 */
+-            feature = dc_isar_feature(aa64_sha512, s);
+-            oolfn = gen_helper_crypto_sha512su1;
+-            break;
+-        case 3: /* RAX1 */
+-            feature = dc_isar_feature(aa64_sha3, s);
+-            gvecfn = gen_gvec_rax1;
+-            break;
+-        default:
+-            g_assert_not_reached();
+-        }
+-    } else {
+-        switch (opcode) {
+-        case 0: /* SM3PARTW1 */
+-            feature = dc_isar_feature(aa64_sm3, s);
+-            oolfn = gen_helper_crypto_sm3partw1;
+-            break;
+-        case 1: /* SM3PARTW2 */
+-            feature = dc_isar_feature(aa64_sm3, s);
+-            oolfn = gen_helper_crypto_sm3partw2;
+-            break;
+-        case 2: /* SM4EKEY */
+-            feature = dc_isar_feature(aa64_sm4, s);
+-            oolfn = gen_helper_crypto_sm4ekey;
+-            break;
+-        default:
+-            unallocated_encoding(s);
+-            return;
+-        }
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    if (oolfn) {
+-        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
+-    } else {
+-        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
+-    }
+-}
+-
+ /* Crypto two-reg SHA512
+  *  31                                     12  11  10  9    5 4    0
+  * +-----------------------------------------+--------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
+     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
 --
-.25.1
+.34.1

-New patch
+[PULL 19/42] target/arm: Convert Cryptographic 2-register SHA512 to decodetree
+From: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+---
+ target/arm/tcg/a64.decode      |  5 ++++
+ target/arm/tcg/translate-a64.c | 50 ++--------------------------------
+files changed, 8 insertions(+), 47 deletions(-)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/a64.decode
++++ b/target/arm/tcg/a64.decode
+@@ -XXX,XX +XXX,XX @@ RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
+ SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
+ SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
+ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
++
++### Cryptographic two-register SHA512
++
++SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
++SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/translate-a64.c
++++ b/target/arm/tcg/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3part
+ TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
+ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
++TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
++TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
++
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
+  * Note that it is the caller's responsibility to ensure that the
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
+     }
+ }
+-/* Crypto two-reg SHA512
+- *  31                                     12  11  10  9    5 4    0
+- * +-----------------------------------------+--------+------+------+
+- * | 1 1 0 0 1 1 1 0 1 1 0 0 0 0 0 0 1 0 0 0 | opcode |  Rn  |  Rd  |
+- * +-----------------------------------------+--------+------+------+
+- */
+-static void disas_crypto_two_reg_sha512(DisasContext *s, uint32_t insn)
+-{
+-    int opcode = extract32(insn, 10, 2);
+-    int rn = extract32(insn, 5, 5);
+-    int rd = extract32(insn, 0, 5);
+-    bool feature;
+-
+-    switch (opcode) {
+-    case 0: /* SHA512SU0 */
+-        feature = dc_isar_feature(aa64_sha512, s);
+-        break;
+-    case 1: /* SM4E */
+-        feature = dc_isar_feature(aa64_sm4, s);
+-        break;
+-    default:
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!feature) {
+-        unallocated_encoding(s);
+-        return;
+-    }
+-
+-    if (!fp_access_check(s)) {
+-        return;
+-    }
+-
+-    switch (opcode) {
+-    case 0: /* SHA512SU0 */
+-        gen_gvec_op2_ool(s, true, rd, rn, 0, gen_helper_crypto_sha512su0);
+-        break;
+-    case 1: /* SM4E */
+-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, gen_helper_crypto_sm4e);
+-        break;
+-    default:
+-        g_assert_not_reached();
+-    }
+-}
+-
+ /* Crypto four-register
+  *  31               23 22 21 20  16 15  14  10 9    5 4    0
+  * +-------------------+-----+------+---+------+------+------+
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
+-    { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
+     { 0xce000000, 0xff808000, disas_crypto_four_reg },
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
+     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
+--
+.34.1

-[PULL 17/28] target/arm: Introduce gen_exception
+[PULL 20/42] target/arm: Convert Cryptographic 4-register to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Create a new wrapper function that passes the default
-exception target to gen_exception_el.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-18-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c | 11 +++++++----
+ target/arm/tcg/a64.decode      |   8 ++
-file changed, 7 insertions(+), 4 deletions(-)
+ target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
 files changed, 51 insertions(+), 89 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static void gen_exception_el(int excp, uint32_t syndrome, uint32_t target_el)
+@@ -XXX,XX +XXX,XX @@
-                                           tcg_constant_i32(target_el));
+ &i              imm
  &qrr_e          q rd rn esz
  &qrrr_e         q rd rn rm esz
 +&qrrrr_e        q rd rn rm ra esz
  @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
  @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
  @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
  @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 +@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
  ### Data Processing - Immediate
@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
  SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
  SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
 +
 +### Cryptographic four-register
 +
 +EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
 +BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
 +SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
      return true;
  }
-+static void gen_exception(DisasContext *s, int excp, uint32_t syndrome)
++static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
 +{
-+    gen_exception_el(excp, syndrome, default_exception_el(s));
++    if (!a->q && a->esz == MO_64) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
 +    }
 +    return true;
 +}
 +
- static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
+ /*
-                                     uint32_t syn, TCGv_i32 tcg_el)
+  * This utility function is for doing register extension with an
- {
+  * optional shift. You will likely want to pass a temporary for the
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
-         switch (dc->base.is_jmp) {
+ TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
-         case DISAS_SWI:
+ TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
-             gen_ss_advance(dc);
--            gen_exception_el(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
++TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
--                             default_exception_el(dc));
++TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
-+            gen_exception(dc, EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
++
-             break;
++static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
-         case DISAS_HVC:
++{
-             gen_ss_advance(dc);
++    if (!dc_isar_feature(aa64_sm3, s)) {
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
++        return false;
-             gen_helper_yield(cpu_env);
++    }
-             break;
++    if (fp_access_check(s)) {
-         case DISAS_SWI:
++        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
--            gen_exception_el(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
++        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
--                             default_exception_el(dc));
++        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
-+            gen_exception(dc, EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
++        TCGv_i32 tcg_res = tcg_temp_new_i32();
-             break;
++        unsigned vsz, dofs;
-         case DISAS_HVC:
++
-             gen_exception_el(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
++        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
 +        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
 +        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
 +
 +        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
 +        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
 +        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
 +        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
 +
 +        /* Clear the whole register first, then store bits [127:96]. */
 +        vsz = vec_full_reg_size(s);
 +        dofs = vec_full_reg_offset(s, a->rd);
 +        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
 +        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
 +    }
 +    return true;
 +}
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
 -/* Crypto four-register
 - *  31               23 22 21 20  16 15  14  10 9    5 4    0
 - * +-------------------+-----+------+---+------+------+------+
 - * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
 - * +-------------------+-----+------+---+------+------+------+
 - */
 -static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
 -{
 -    int op0 = extract32(insn, 21, 2);
 -    int rm = extract32(insn, 16, 5);
 -    int ra = extract32(insn, 10, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    bool feature;
 -
 -    switch (op0) {
 -    case 0: /* EOR3 */
 -    case 1: /* BCAX */
 -        feature = dc_isar_feature(aa64_sha3, s);
 -        break;
 -    case 2: /* SM3SS1 */
 -        feature = dc_isar_feature(aa64_sm3, s);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!feature) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    if (op0 < 2) {
 -        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
 -        int pass;
 -
 -        tcg_op1 = tcg_temp_new_i64();
 -        tcg_op2 = tcg_temp_new_i64();
 -        tcg_op3 = tcg_temp_new_i64();
 -        tcg_res[0] = tcg_temp_new_i64();
 -        tcg_res[1] = tcg_temp_new_i64();
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            read_vec_element(s, tcg_op1, rn, pass, MO_64);
 -            read_vec_element(s, tcg_op2, rm, pass, MO_64);
 -            read_vec_element(s, tcg_op3, ra, pass, MO_64);
 -
 -            if (op0 == 0) {
 -                /* EOR3 */
 -                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
 -            } else {
 -                /* BCAX */
 -                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
 -            }
 -            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
 -        }
 -        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
 -        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
 -    } else {
 -        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
 -
 -        tcg_op1 = tcg_temp_new_i32();
 -        tcg_op2 = tcg_temp_new_i32();
 -        tcg_op3 = tcg_temp_new_i32();
 -        tcg_res = tcg_temp_new_i32();
 -        tcg_zero = tcg_constant_i32(0);
 -
 -        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
 -        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
 -        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
 -
 -        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
 -        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
 -        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
 -        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
 -
 -        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
 -        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
 -        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
 -        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
 -    }
 -}
 -
  /* Crypto XAR
   *  31                   21 20  16 15    10 9    5 4    0
   * +-----------------------+------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0xce000000, 0xff808000, disas_crypto_four_reg },
      { 0xce800000, 0xffe00000, disas_crypto_xar },
      { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
      { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
 --
-.25.1
+.34.1

-[PULL 20/28] target/arm: Remove default_exception_el
+[PULL 21/42] target/arm: Convert Cryptographic 3-register, imm2 to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This function is no longer used.  At the same time, remove
-DisasContext.secure_routed_to_el3, as it in turn becomes unused.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-21-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.h     | 16 ----------------
+ target/arm/tcg/a64.decode      | 10 ++++++++
- target/arm/translate-a64.c |  5 -----
+ target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
- target/arm/translate.c     |  5 -----
+files changed, 22 insertions(+), 31 deletions(-)
 files changed, 26 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
+@@ -XXX,XX +XXX,XX @@ SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
-     int fp_excp_el; /* FP exception EL or 0 if enabled */
+ EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
-     int sve_excp_el; /* SVE exception EL or 0 if enabled */
+ BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
-     int vl;          /* current vector length in bytes */
+ SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
--    /* Flag indicating that exceptions from secure mode are routed to EL3. */
++
--    bool secure_routed_to_el3;
++### Cryptographic three-register, imm2
-     bool vfp_enabled; /* FP enabled via FPSCR.EN */
++
-     int vec_len;
++&crypto3i       rd rn rm imm
-     int vec_stride;
++@crypto3i       ........ ... rm:5 .. imm:2 .. rn:5 rd:5 &crypto3i
-@@ -XXX,XX +XXX,XX @@ static inline int get_mem_index(DisasContext *s)
++
-     return arm_to_core_mmu_idx(s->mmu_idx);
++SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
 +SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
 +SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
 +SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
      return true;
  }
--/* Function used to determine the target exception EL when otherwise not known
++static bool do_crypto3i(DisasContext *s, arg_crypto3i *a, gen_helper_gvec_3 *fn)
-- * or default.
++{
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_ool(s, true, a->rd, a->rn, a->rm, a->imm, fn);
 +    }
 +    return true;
 +}
 +TRANS_FEAT(SM3TT1A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1a)
 +TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
 +TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
 +TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_xar(DisasContext *s, uint32_t insn)
                   vec_full_reg_size(s));
  }
 -/* Crypto three-reg imm2
 - *  31                   21 20  16 15  14 13 12  11  10  9    5 4    0
 - * +-----------------------+------+-----+------+--------+------+------+
 - * | 1 1 0 0 1 1 1 0 0 1 0 |  Rm  | 1 0 | imm2 | opcode |  Rn  |  Rd  |
 - * +-----------------------+------+-----+------+--------+------+------+
 - */
--static inline int default_exception_el(DisasContext *s)
+-static void disas_crypto_three_reg_imm2(DisasContext *s, uint32_t insn)
 -{
--    /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
+-    static gen_helper_gvec_3 * const fns[4] = {
--     * there is no secure EL1, so we route exceptions to EL3.  Otherwise,
+-        gen_helper_crypto_sm3tt1a, gen_helper_crypto_sm3tt1b,
--     * exceptions can only be routed to ELs above 1, so we target the higher of
+-        gen_helper_crypto_sm3tt2a, gen_helper_crypto_sm3tt2b,
--     * 1 or the current EL.
+-    };
--     */
+-    int opcode = extract32(insn, 10, 2);
--    return (s->mmu_idx == ARMMMUIdx_SE10_0 && s->secure_routed_to_el3)
+-    int imm2 = extract32(insn, 12, 2);
--            ? 3 : MAX(1, s->current_el);
+-    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -
 -    if (!dc_isar_feature(aa64_sm3, s)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    gen_gvec_op3_ool(s, true, rd, rn, rm, imm2, fns[opcode]);
 -}
 -
- static inline void disas_set_insn_syndrome(DisasContext *s, uint32_t syn)
+ /* C3.6 Data processing - SIMD, inc Crypto
- {
+  *
-     /* We don't need to save all of the syndrome so we mask and shift
+  * As the decode gets a little complex we are using a table based
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-index XXXXXXX..XXXXXXX 100644
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
---- a/target/arm/translate-a64.c
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-+++ b/target/arm/translate-a64.c
+     { 0xce800000, 0xffe00000, disas_crypto_xar },
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
+-    { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
-     dc->condjmp = 0;
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-     dc->aarch64 = true;
+     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
 -    /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
 -     * there is no secure EL1, so we route exceptions to EL3.
 -     */
 -    dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
 -                               !arm_el_is_aa64(env, 3);
      dc->thumb = false;
      dc->sctlr_b = 0;
      dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
      dc->condjmp = 0;
      dc->aarch64 = false;
 -    /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
 -     * there is no secure EL1, so we route exceptions to EL3.
 -     */
 -    dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
 -                               !arm_el_is_aa64(env, 3);
      dc->thumb = EX_TBFLAG_AM32(tb_flags, THUMB);
      dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
      condexec = EX_TBFLAG_AM32(tb_flags, CONDEXEC);
 --
-.25.1
+.34.1

-[PULL 16/28] target/arm: Rename gen_exception to gen_exception_el
+[PULL 22/42] target/arm: Convert XAR to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-17-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.c | 18 +++++++++---------
+ target/arm/tcg/a64.decode      |  4 ++++
-file changed, 9 insertions(+), 9 deletions(-)
+ target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
 files changed, 18 insertions(+), 29 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static void gen_exception_internal_insn(DisasContext *s, uint32_t pc, int excp)
+@@ -XXX,XX +XXX,XX @@ SM3TT1A         11001110 010 ..... 10 .. 00 ..... ..... @crypto3i
-     s->base.is_jmp = DISAS_NORETURN;
+ SM3TT1B         11001110 010 ..... 10 .. 01 ..... ..... @crypto3i
  SM3TT2A         11001110 010 ..... 10 .. 10 ..... ..... @crypto3i
  SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 +
 +### Cryptographic XAR
 +
 +XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM3TT1B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt1b)
  TRANS_FEAT(SM3TT2A, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2a)
  TRANS_FEAT(SM3TT2B, aa64_sm3, do_crypto3i, a, gen_helper_crypto_sm3tt2b)
 +static bool trans_XAR(DisasContext *s, arg_XAR *a)
 +{
 +    if (!dc_isar_feature(aa64_sha3, s)) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_xar(MO_64, vec_full_reg_offset(s, a->rd),
 +                     vec_full_reg_offset(s, a->rn),
 +                     vec_full_reg_offset(s, a->rm), a->imm, 16,
 +                     vec_full_reg_size(s));
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
  }
--static void gen_exception(int excp, uint32_t syndrome, uint32_t target_el)
+-/* Crypto XAR
-+static void gen_exception_el(int excp, uint32_t syndrome, uint32_t target_el)
+- *  31                   21 20  16 15    10 9    5 4    0
- {
+- * +-----------------------+------+--------+------+------+
-     gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
+- * | 1 1 0 0 1 1 1 0 1 0 0 |  Rm  |  imm6  |  Rn  |  Rd  |
-                                           tcg_constant_i32(syndrome),
+- * +-----------------------+------+--------+------+------+
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+- */
-         switch (dc->base.is_jmp) {
+-static void disas_crypto_xar(DisasContext *s, uint32_t insn)
-         case DISAS_SWI:
+-{
-             gen_ss_advance(dc);
+-    int rm = extract32(insn, 16, 5);
--            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
+-    int imm6 = extract32(insn, 10, 6);
--                          default_exception_el(dc));
+-    int rn = extract32(insn, 5, 5);
-+            gen_exception_el(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
+-    int rd = extract32(insn, 0, 5);
-+                             default_exception_el(dc));
+-
-             break;
+-    if (!dc_isar_feature(aa64_sha3, s)) {
-         case DISAS_HVC:
+-        unallocated_encoding(s);
-             gen_ss_advance(dc);
+-        return;
--            gen_exception(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
+-    }
-+            gen_exception_el(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
+-
-             break;
+-    if (!fp_access_check(s)) {
-         case DISAS_SMC:
+-        return;
-             gen_ss_advance(dc);
+-    }
--            gen_exception(EXCP_SMC, syn_aa32_smc(), 3);
+-
-+            gen_exception_el(EXCP_SMC, syn_aa32_smc(), 3);
+-    gen_gvec_xar(MO_64, vec_full_reg_offset(s, rd),
-             break;
+-                 vec_full_reg_offset(s, rn),
-         case DISAS_NEXT:
+-                 vec_full_reg_offset(s, rm), imm6, 16,
-         case DISAS_TOO_MANY:
+-                 vec_full_reg_size(s));
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+-}
-             gen_helper_yield(cpu_env);
+-
-             break;
+ /* C3.6 Data processing - SIMD, inc Crypto
-         case DISAS_SWI:
+  *
--            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
+  * As the decode gets a little complex we are using a table based
--                          default_exception_el(dc));
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-+            gen_exception_el(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
+     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
-+                             default_exception_el(dc));
+     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
-             break;
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-         case DISAS_HVC:
+-    { 0xce800000, 0xffe00000, disas_crypto_xar },
--            gen_exception(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-+            gen_exception_el(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-             break;
+     { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
          case DISAS_SMC:
 -            gen_exception(EXCP_SMC, syn_aa32_smc(), 3);
 +            gen_exception_el(EXCP_SMC, syn_aa32_smc(), 3);
              break;
          }
      }
 --
-.25.1
+.34.1

-[PULL 08/28] target/arm: Move arm_debug_exception_fsr to debug_helper.c
+[PULL 23/42] target/arm: Convert Advanced SIMD copy to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This function now now only used in debug_helper.c, so there is
-no reason to have a declaration in a header.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-9-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h    | 25 -------------------------
+ target/arm/tcg/a64.decode      |  13 +
- target/arm/debug_helper.c | 26 ++++++++++++++++++++++++++
+ target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
-files changed, 26 insertions(+), 25 deletions(-)
+files changed, 152 insertions(+), 287 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static inline TCR *regime_tcr(CPUARMState *env, ARMMMUIdx mmu_idx)
+@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
-     return &env->cp15.tcr_el[regime_el(env, mmu_idx)];
+ ### Cryptographic XAR
  XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
 +
 +### Advanced SIMD scalar copy
 +
 +DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
 +
 +### Advanced SIMD copy
 +
 +DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
 +DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
 +INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 +SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 +UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 +INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
      return true;
  }
--/* Return the FSR value for a debug exception (watchpoint, hardware
++/*
-- * breakpoint or BKPT insn) targeting the specified exception level.
++ * Advanced SIMD copy
-- */
++ */
--static inline uint32_t arm_debug_exception_fsr(CPUARMState *env)
++
--{
++static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
--    ARMMMUFaultInfo fi = { .type = ARMFault_Debug };
++{
--    int target_el = arm_debug_target_el(env);
++    unsigned esz = ctz32(imm);
--    bool using_lpae = false;
++    if (esz <= MO_64) {
--
++        *pesz = esz;
--    if (target_el == 2 || arm_el_is_aa64(env, target_el)) {
++        *pidx = imm >> (esz + 1);
--        using_lpae = true;
++        return true;
 +    }
 +    return false;
 +}
 +
 +static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        /*
 +         * This instruction just extracts the specified element and
 +         * zero-extends it into the bottom of the destination register.
 +         */
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +        read_vec_element(s, tmp, a->rn, idx, esz);
 +        write_fp_dreg(s, a->rd, tmp);
 +    }
 +    return true;
 +}
 +
 +static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
 +                             vec_reg_offset(s, a->rn, idx, esz),
 +                             a->q ? 16 : 8, vec_full_reg_size(s));
 +    }
 +    return true;
 +}
 +
 +static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (esz == MO_64 && !a->q) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
 +                             a->q ? 16 : 8, vec_full_reg_size(s),
 +                             cpu_reg(s, a->rn));
 +    }
 +    return true;
 +}
 +
 +static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (is_signed) {
 +        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
 +            return false;
 +        }
 +    } else {
 +        if (esz == MO_64 ? !a->q : a->q) {
 +            return false;
 +        }
 +    }
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
 +        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
 +        if (is_signed && !a->q) {
 +            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 +        }
 +    }
 +    return true;
 +}
 +
 +TRANS(SMOV, do_smov_umov, a, MO_SIGN)
 +TRANS(UMOV, do_smov_umov, a, 0)
 +
 +static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
 +{
 +    MemOp esz;
 +    unsigned idx;
 +
 +    if (!decode_esz_idx(a->imm, &esz, &idx)) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
 +static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
 +{
 +    MemOp esz;
 +    unsigned didx, sidx;
 +
 +    if (!decode_esz_idx(a->di, &esz, &didx)) {
 +        return false;
 +    }
 +    sidx = a->si >> esz;
 +    if (fp_access_check(s)) {
 +        TCGv_i64 tmp = tcg_temp_new_i64();
 +
 +        read_vec_element(s, tmp, a->rn, sidx, esz);
 +        write_vec_element(s, tmp, a->rd, didx, esz);
 +
 +        /* INS is considered a 128-bit write for SVE. */
 +        clear_vec_high(s, true, a->rd);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_res);
  }
 -/* DUP (Element, Vector)
 - *
 - *  31  30   29              21 20    16 15        10  9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
 -                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -
 -    if (size > 3 || (size == 3 && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
 -                         vec_reg_offset(s, rn, index, size),
 -                         is_q ? 16 : 8, vec_full_reg_size(s));
 -}
 -
 -/* DUP (element, scalar)
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - */
 -static void handle_simd_dupes(DisasContext *s, int rd, int rn,
 -                              int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    index = imm5 >> (size + 1);
 -
 -    /* This instruction just extracts the specified element and
 -     * zero-extends it into the bottom of the destination register.
 -     */
 -    tmp = tcg_temp_new_i64();
 -    read_vec_element(s, tmp, rn, index, size);
 -    write_fp_dreg(s, rd, tmp);
 -}
 -
 -/* DUP (General)
 - *
 - *  31  30   29              21 20    16 15        10  9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
 -                             int imm5)
 -{
 -    int size = ctz32(imm5);
 -    uint32_t dofs, oprsz, maxsz;
 -
 -    if (size > 3 || ((size == 3) && !is_q)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dofs = vec_full_reg_offset(s, rd);
 -    oprsz = is_q ? 16 : 8;
 -    maxsz = vec_full_reg_size(s);
 -
 -    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
 -}
 -
 -/* INS (Element)
 - *
 - *  31                   21 20    16 15  14    11  10 9    5 4    0
 - * +-----------------------+--------+------------+---+------+------+
 - * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+------------+---+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_inse(DisasContext *s, int rd, int rn,
 -                             int imm4, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int src_index, dst_index;
 -    TCGv_i64 tmp;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    dst_index = extract32(imm5, 1+size, 5);
 -    src_index = extract32(imm4, size, 4);
 -
 -    tmp = tcg_temp_new_i64();
 -
 -    read_vec_element(s, tmp, rn, src_index, size);
 -    write_vec_element(s, tmp, rd, dst_index, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -
 -/* INS (General)
 - *
 - *  31                   21 20    16 15        10  9    5 4    0
 - * +-----------------------+--------+-------------+------+------+
 - * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
 - * +-----------------------+--------+-------------+------+------+
 - *
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - * index: encoded in imm5<4:size+1>
 - */
 -static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int idx;
 -
 -    if (size > 3) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    idx = extract32(imm5, 1 + size, 4 - size);
 -    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
 -
 -    /* INS is considered a 128-bit write for SVE. */
 -    clear_vec_high(s, true, rd);
 -}
 -
 -/*
 - * UMOV (General)
 - * SMOV (General)
 - *
 - *  31  30   29              21 20    16 15    12   10 9    5 4    0
 - * +---+---+-------------------+--------+-------------+------+------+
 - * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
 - * +---+---+-------------------+--------+-------------+------+------+
 - *
 - * U: unsigned when set
 - * size: encoded in imm5 (see ARM ARM LowestSetBit())
 - */
 -static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
 -                                  int rn, int rd, int imm5)
 -{
 -    int size = ctz32(imm5);
 -    int element;
 -    TCGv_i64 tcg_rd;
 -
 -    /* Check for UnallocatedEncodings */
 -    if (is_signed) {
 -        if (size > 2 || (size == 2 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    } else {
--        if (arm_feature(env, ARM_FEATURE_LPAE) &&
+-        if (size > 3
--            (env->cp15.tcr_el[target_el].raw_tcr & TTBCR_EAE)) {
+-            || (size < 3 && is_q)
--            using_lpae = true;
+-            || (size == 3 && !is_q)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -    }
 -
--    if (using_lpae) {
+-    if (!fp_access_check(s)) {
--        return arm_fi_to_lfsc(&fi);
+-        return;
 -    }
 -
 -    element = extract32(imm5, 1+size, 4);
 -
 -    tcg_rd = cpu_reg(s, rd);
 -    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
 -    if (is_signed && !is_q) {
 -        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
 -    }
 -}
 -
 -/* AdvSIMD copy
 - *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
 - * +---+---+----+-----------------+------+---+------+---+------+------+
 - */
 -static void disas_simd_copy(DisasContext *s, uint32_t insn)
 -{
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int imm4 = extract32(insn, 11, 4);
 -    int op = extract32(insn, 29, 1);
 -    int is_q = extract32(insn, 30, 1);
 -    int imm5 = extract32(insn, 16, 5);
 -
 -    if (op) {
 -        if (is_q) {
 -            /* INS (element) */
 -            handle_simd_inse(s, rd, rn, imm4, imm5);
 -        } else {
 -            unallocated_encoding(s);
 -        }
 -    } else {
--        return arm_fi_to_sfsc(&fi);
+-        switch (imm4) {
--    }
+-        case 0:
--}
+-            /* DUP (element - vector) */
--
+-            handle_simd_dupe(s, is_q, rd, rn, imm5);
- /**
+-            break;
-  * arm_num_brps: Return number of implemented breakpoints.
+-        case 1:
-  * Note that the ID register BRPS field is "number of bps - 1",
+-            /* DUP (general) */
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
+-            handle_simd_dupg(s, is_q, rd, rn, imm5);
-index XXXXXXX..XXXXXXX 100644
+-            break;
---- a/target/arm/debug_helper.c
+-        case 3:
-+++ b/target/arm/debug_helper.c
+-            if (is_q) {
-@@ -XXX,XX +XXX,XX @@ bool arm_debug_check_watchpoint(CPUState *cs, CPUWatchpoint *wp)
+-                /* INS (general) */
-     return check_watchpoints(cpu);
+-                handle_simd_insg(s, rd, rn, imm5);
 -            } else {
 -                unallocated_encoding(s);
 -            }
 -            break;
 -        case 5:
 -        case 7:
 -            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
 -            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            break;
 -        }
 -    }
 -}
 -
  /* AdvSIMD modified immediate
   *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
   * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
  }
-+/*
+-/* AdvSIMD scalar copy
-+ * Return the FSR value for a debug exception (watchpoint, hardware
+- *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
-+ * breakpoint or BKPT insn) targeting the specified exception level.
+- * +-----+----+-----------------+------+---+------+---+------+------+
-+ */
+- * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
-+static uint32_t arm_debug_exception_fsr(CPUARMState *env)
+- * +-----+----+-----------------+------+---+------+---+------+------+
-+{
+- */
-+    ARMMMUFaultInfo fi = { .type = ARMFault_Debug };
+-static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
-+    int target_el = arm_debug_target_el(env);
+-{
-+    bool using_lpae = false;
+-    int rd = extract32(insn, 0, 5);
-+
+-    int rn = extract32(insn, 5, 5);
-+    if (target_el == 2 || arm_el_is_aa64(env, target_el)) {
+-    int imm4 = extract32(insn, 11, 4);
-+        using_lpae = true;
+-    int imm5 = extract32(insn, 16, 5);
-+    } else {
+-    int op = extract32(insn, 29, 1);
-+        if (arm_feature(env, ARM_FEATURE_LPAE) &&
+-
-+            (env->cp15.tcr_el[target_el].raw_tcr & TTBCR_EAE)) {
+-    if (op != 0 || imm4 != 0) {
-+            using_lpae = true;
+-        unallocated_encoding(s);
-+        }
+-        return;
-+    }
+-    }
-+
+-
-+    if (using_lpae) {
+-    /* DUP (element, scalar) */
-+        return arm_fi_to_lfsc(&fi);
+-    handle_simd_dupes(s, rd, rn, imm5);
-+    } else {
+-}
-+        return arm_fi_to_sfsc(&fi);
+-
-+    }
+ /* AdvSIMD scalar pairwise
-+}
+  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
-+
+  * +-----+---+-----------+------+-----------+--------+-----+------+------+
- void arm_debug_excp_handler(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
- {
+     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
-     /*
+     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
      { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
 -    { 0x0e000400, 0x9fe08400, disas_simd_copy },
      { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
      /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
      { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
      { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
      { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
 -    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
 --
-.25.1
+.34.1

-[PULL 11/28] target/arm: Rename gen_exception_insn to gen_exception_insn_el
+[PULL 24/42] target/arm: Convert FMULX to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
+Convert all forms (scalar, vector, scalar indexed, vector indexed),
+which allows us to remove switch table entries elsewhere.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-12-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.h        |  4 ++--
+ target/arm/tcg/helper-a64.h    |   8 ++
- target/arm/translate-a64.c    | 36 ++++++++++++++++----------------
+ target/arm/tcg/a64.decode      |  45 +++++++
- target/arm/translate-m-nocp.c | 16 +++++++-------
+ target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
- target/arm/translate-mve.c    |  4 ++--
+ target/arm/tcg/vec_helper.c    |  39 +++---
- target/arm/translate-vfp.c    |  6 +++---
+files changed, 259 insertions(+), 54 deletions(-)
  target/arm/translate.c        | 39 ++++++++++++++++++-----------------
 files changed, 53 insertions(+), 52 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/tcg/helper-a64.h
-+++ b/target/arm/translate.h
++++ b/target/arm/tcg/helper-a64.h
-@@ -XXX,XX +XXX,XX @@ void arm_jump_cc(DisasCompare *cmp, TCGLabel *label);
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
- void arm_gen_test_cc(int cc, TCGLabel *label);
+ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
- MemOp pow2_align(unsigned i);
+ DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
- void unallocated_encoding(DisasContext *s);
+ DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
--void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
++
--                        uint32_t syn, uint32_t target_el);
++DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
++DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+                           uint32_t syn, uint32_t target_el);
++DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++
- /* Return state of Alternate Half-precision flag, caller frees result */
++DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- static inline TCGv_i32 get_ahp_flag(void)
++DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
++DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static bool fp_access_check(DisasContext *s)
+@@ -XXX,XX +XXX,XX @@
-         assert(!s->fp_access_checked);
+ #
-         s->fp_access_checked = true;
+ %rd             0:5
--        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
++%esz_sd         22:1 !function=plus_2
--                           syn_fp_access_trap(1, 0xe, false, 0),
++%hl             11:1 21:1
--                           s->fp_excp_el);
++%hlm            11:1 20:2
-+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
-+                              syn_fp_access_trap(1, 0xe, false, 0),
+ &r              rn
-+                              s->fp_excp_el);
+ &ri             rd imm
-         return false;
+ &rri_sf         rd rn imm sf
-     }
+ &i              imm
-     s->fp_access_checked = true;
++&rrr_e          rd rn rm esz
-@@ -XXX,XX +XXX,XX @@ bool sve_access_check(DisasContext *s)
++&rrx_e          rd rn rm idx esz
-         assert(!s->sve_access_checked);
+ &qrr_e          q rd rn esz
-         s->sve_access_checked = true;
+ &qrrr_e         q rd rn rm esz
++&qrrx_e         q rd rn rm idx esz
--        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+ &qrrrr_e        q rd rn rm ra esz
--                           syn_sve_access_trap(), s->sve_excp_el);
-+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
++@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
-+                              syn_sve_access_trap(), s->sve_excp_el);
++@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
-         return false;
++
-     }
++@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
-     s->sve_access_checked = true;
++@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
-@@ -XXX,XX +XXX,XX @@ static void gen_sysreg_undef(DisasContext *s, bool isread,
++@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
-     } else {
++
-         syndrome = syn_uncategorized();
+ @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
-     }
+ @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
--    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syndrome,
+ @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
--                       default_exception_el(s));
+ @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
-+    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syndrome,
+ @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
-+                          default_exception_el(s));
 +@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 +@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 +
 +@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
 +                &qrrx_e esz=1 idx=%hlm
 +@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
 +                &qrrx_e esz=2 idx=%hl
 +@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
 +                &qrrx_e esz=3
 +
  ### Data Processing - Immediate
  # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
  SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
  UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
  INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 +
 +### Advanced SIMD scalar three same
 +
 +FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 +FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 +
 +### Advanced SIMD three same
 +
 +FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 +FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +
 +### Advanced SIMD scalar x indexed element
 +
 +FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 +FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +
 +### Advanced SIMD vector x indexed element
 +
 +FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 +FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 +FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
      return true;
  }
- /* MRS - move from system register
++/*
-@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
++ * Advanced SIMD three same
-         switch (op2_ll) {
++ */
-         case 1:                                                     /* SVC */
++
-             gen_ss_advance(s);
++typedef struct FPScalar {
--            gen_exception_insn(s, s->base.pc_next, EXCP_SWI,
++    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
--                               syn_aa64_svc(imm16), default_exception_el(s));
++    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
-+            gen_exception_insn_el(s, s->base.pc_next, EXCP_SWI,
++    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
-+                                  syn_aa64_svc(imm16), default_exception_el(s));
++} FPScalar;
-             break;
++
-         case 2:                                                     /* HVC */
++static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
-             if (s->current_el == 0) {
++{
-@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
++    switch (a->esz) {
-             gen_a64_set_pc_im(s->pc_curr);
++    case MO_64:
-             gen_helper_pre_hvc(cpu_env);
++        if (fp_access_check(s)) {
-             gen_ss_advance(s);
++            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
--            gen_exception_insn(s, s->base.pc_next, EXCP_HVC,
++            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
--                               syn_aa64_hvc(imm16), 2);
++            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
-+            gen_exception_insn_el(s, s->base.pc_next, EXCP_HVC,
++            write_fp_dreg(s, a->rd, t0);
-+                                  syn_aa64_hvc(imm16), 2);
++        }
-             break;
++        break;
-         case 3:                                                     /* SMC */
++    case MO_32:
-             if (s->current_el == 0) {
++        if (fp_access_check(s)) {
-@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
++            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
-             gen_a64_set_pc_im(s->pc_curr);
++            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
-             gen_helper_pre_smc(cpu_env, tcg_constant_i32(syn_aa64_smc(imm16)));
++            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
-             gen_ss_advance(s);
++            write_fp_sreg(s, a->rd, t0);
--            gen_exception_insn(s, s->base.pc_next, EXCP_SMC,
++        }
--                               syn_aa64_smc(imm16), 3);
++        break;
-+            gen_exception_insn_el(s, s->base.pc_next, EXCP_SMC,
++    case MO_16:
-+                                  syn_aa64_smc(imm16), 3);
++        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
 +    return true;
 +}
 +
 +static const FPScalar f_scalar_fmulx = {
 +    gen_helper_advsimd_mulxh,
 +    gen_helper_vfp_mulxs,
 +    gen_helper_vfp_mulxd,
 +};
 +TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
 +
 +static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
 +                          gen_helper_gvec_3_ptr * const fns[3])
 +{
 +    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
 +                          esz == MO_16, 0, fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
 +    gen_helper_gvec_fmulx_h,
 +    gen_helper_gvec_fmulx_s,
 +    gen_helper_gvec_fmulx_d,
 +};
 +TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 +
 +/*
 + * Advanced SIMD scalar/vector x indexed element
 + */
 +
 +static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
 +{
 +    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t1, a->rm, a->idx, MO_64);
 +            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
 +TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 +
 +static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
 +                              gen_helper_gvec_3_ptr * const fns[3])
 +{
 +    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
 +                          esz == MO_16, a->idx, fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
 +static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
 +    gen_helper_gvec_fmulx_idx_h,
 +    gen_helper_gvec_fmulx_idx_s,
 +    gen_helper_gvec_fmulx_idx_d,
 +};
 +TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 +
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1a: /* FADD */
                  gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x1a: /* FADD */
                  gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1b: /* FMULX */
 -                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1b: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          /* Floating point: U, size[1] and opcode indicate operation */
          int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
          switch (fpopcode) {
 -        case 0x1b: /* FMULX */
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
          case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          case 0x7a: /* FABD */
              break;
          default:
++        case 0x1b: /* FMULX */
              unallocated_encoding(s);
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
+             return;
-          * Illegal execution state. This has priority over BTI
+         }
-          * exceptions, but comes after instruction abort exceptions.
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-          */
+     TCGv_i32 tcg_res;
--        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
--                           syn_illegalstate(), default_exception_el(s));
+     switch (fpopcode) {
-+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+-    case 0x03: /* FMULX */
-+                              syn_illegalstate(), default_exception_el(s));
+     case 0x04: /* FCMEQ (reg) */
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      case 0x1d: /* FACGT */
          break;
      default:
 +    case 0x03: /* FMULX */
          unallocated_encoding(s);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
+     tcg_res = tcg_temp_new_i32();
-             if (s->btype != 0
-                 && s->guarded_page
+     switch (fpopcode) {
-                 && !btype_destination_ok(insn, s->bt, s->btype)) {
+-    case 0x03: /* FMULX */
--                gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+-        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
--                                   syn_btitrap(s->btype),
+-        break;
--                                   default_exception_el(s));
+     case 0x04: /* FCMEQ (reg) */
-+                gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-+                                      syn_btitrap(s->btype),
+         break;
-+                                      default_exception_el(s));
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-                 return;
+         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-             }
+         break;
-         } else {
+     default:
-diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
++    case 0x03: /* FMULX */
-index XXXXXXX..XXXXXXX 100644
+         g_assert_not_reached();
 --- a/target/arm/translate-m-nocp.c
 +++ b/target/arm/translate-m-nocp.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
      tcg_gen_brcondi_i32(TCG_COND_EQ, sfpa, 0, s->condlabel);
      if (s->fp_excp_el != 0) {
 -        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                           syn_uncategorized(), s->fp_excp_el);
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
 +                              syn_uncategorized(), s->fp_excp_el);
          return true;
      }
-@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
-         if (!vfp_access_check_m(s, true)) {
+         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
-             /*
+                                rn, rm, rd);
-              * This was only a conditional exception, so override
+         return;
--             * gen_exception_insn()'s default to DISAS_NORETURN
+-    case 0x1b: /* FMULX */
-+             * gen_exception_insn_el()'s default to DISAS_NORETURN
+     case 0x1f: /* FRECPS */
-              */
+     case 0x3f: /* FRSQRTS */
-             s->base.is_jmp = DISAS_NEXT;
+     case 0x5d: /* FACGE */
-             break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
+         return;
-         if (!vfp_access_check_m(s, true)) {
              /*
               * This was only a conditional exception, so override
 -             * gen_exception_insn()'s default to DISAS_NORETURN
 +             * gen_exception_insn_el()'s default to DISAS_NORETURN
               */
              s->base.is_jmp = DISAS_NEXT;
              break;
@@ -XXX,XX +XXX,XX @@ static bool trans_NOCP(DisasContext *s, arg_nocp *a)
      }
      if (a->cp != 10) {
 -        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                           syn_uncategorized(), default_exception_el(s));
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
 +                              syn_uncategorized(), default_exception_el(s));
          return true;
      }
      if (s->fp_excp_el != 0) {
 -        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                           syn_uncategorized(), s->fp_excp_el);
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
 +                              syn_uncategorized(), s->fp_excp_el);
          return true;
      }
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ bool mve_eci_check(DisasContext *s)
          return true;
      default:
-         /* Reserved value: INVSTATE UsageFault */
++    case 0x1b: /* FMULX */
--        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+         unallocated_encoding(s);
 -                           default_exception_el(s));
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 +                              default_exception_el(s));
          return false;
      }
  }
 diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-vfp.c
 +++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static bool vfp_access_check_a(DisasContext *s, bool ignore_vfp_enabled)
          int coproc = arm_dc_feature(s, ARM_FEATURE_V8) ? 0 : 0xa;
          uint32_t syn = syn_fp_access_trap(1, 0xe, false, coproc);
 -        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn, s->fp_excp_el);
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syn, s->fp_excp_el);
          return false;
      }
@@ -XXX,XX +XXX,XX @@ bool vfp_access_check_m(DisasContext *s, bool skip_context_update)
           * the encoding space handled by the patterns in m-nocp.decode,
           * and for them we may need to raise NOCP here.
           */
 -        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
 -                           syn_uncategorized(), s->fp_excp_el);
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
 +                              syn_uncategorized(), s->fp_excp_el);
          return false;
      }
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
      s->base.is_jmp = DISAS_NORETURN;
  }
 -void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
 -                        uint32_t syn, uint32_t target_el)
 +void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
 +                           uint32_t syn, uint32_t target_el)
  {
      gen_exception_insn_el_v(s, pc, excp, syn, tcg_constant_i32(target_el));
  }
@@ -XXX,XX +XXX,XX @@ static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
  void unallocated_encoding(DisasContext *s)
  {
      /* Unallocated and reserved encodings are uncategorized */
 -    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(),
 -                       default_exception_el(s));
 +    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(),
 +                          default_exception_el(s));
  }
  /* Force a TB lookup after an instruction that changes the CPU state.  */
@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
  undef:
      /* If we get here then some access check did not pass */
 -    gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
 -                       syn_uncategorized(), exc_target);
 +    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
 +                          syn_uncategorized(), exc_target);
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static void gen_srs(DisasContext *s,
       * For the UNPREDICTABLE cases we choose to UNDEF.
       */
      if (s->current_el == 1 && !s->ns && mode == ARM_CPU_MODE_MON) {
 -        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(), 3);
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
 +                              syn_uncategorized(), 3);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static bool trans_WLS(DisasContext *s, arg_WLS *a)
+     case 0x0: /* FMAXNM */
-          * Do the check-and-raise-exception by hand.
+     case 0x1: /* FMLA */
-          */
+     case 0x2: /* FADD */
-         if (s->fp_excp_el) {
+-    case 0x3: /* FMULX */
--            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
+     case 0x4: /* FCMEQ */
--                               syn_uncategorized(), s->fp_excp_el);
+     case 0x6: /* FMAX */
-+            gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
+     case 0x7: /* FRECPS */
-+                                  syn_uncategorized(), s->fp_excp_el);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-             return true;
+         pairwise = true;
-         }
+         break;
-     }
+     default:
-@@ -XXX,XX +XXX,XX @@ static bool trans_LE(DisasContext *s, arg_LE *a)
++    case 0x3: /* FMULX */
-         tmp = load_cpu_field(v7m.ltpsize);
+         unallocated_encoding(s);
          tcg_gen_brcondi_i32(TCG_COND_EQ, tmp, 4, skipexc);
          tcg_temp_free_i32(tmp);
 -        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 -                           default_exception_el(s));
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 +                              default_exception_el(s));
          gen_set_label(skipexc);
      }
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
       * UsageFault exception.
       */
      if (arm_dc_feature(s, ARM_FEATURE_M)) {
 -        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 -                           default_exception_el(s));
 +        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 +                              default_exception_el(s));
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
+             case 0x2: /* FADD */
-          * Illegal execution state. This has priority over BTI
+                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-          * exceptions, but comes after instruction abort exceptions.
+                 break;
-          */
+-            case 0x3: /* FMULX */
--        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+-                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
--                           syn_illegalstate(), default_exception_el(s));
+-                break;
-+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+             case 0x4: /* FCMEQ */
-+                              syn_illegalstate(), default_exception_el(s));
+                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x3: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      case 0x01: /* FMLA */
      case 0x05: /* FMLS */
      case 0x09: /* FMUL */
 -    case 0x19: /* FMULX */
          is_fp = 1;
          break;
      case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x19: /* FMULX */
          unallocated_encoding(s);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
+             case 0x09: /* FMUL */
-          * Illegal execution state. This has priority over BTI
+                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
-          * exceptions, but comes after instruction abort exceptions.
+                 break;
-          */
+-            case 0x19: /* FMULX */
--        gen_exception_insn(dc, dc->pc_curr, EXCP_UDEF,
+-                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
--                           syn_illegalstate(), default_exception_el(dc));
+-                break;
-+        gen_exception_insn_el(dc, dc->pc_curr, EXCP_UDEF,
+             default:
-+                              syn_illegalstate(), default_exception_el(dc));
++            case 0x19: /* FMULX */
-         return;
+                 g_assert_not_reached();
-     }
+             }
-@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
-          */
+                     g_assert_not_reached();
-         tcg_remove_ops_after(dc->insn_eci_rewind);
+                 }
-         dc->condjmp = 0;
+                 break;
--        gen_exception_insn(dc, dc->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+-            case 0x19: /* FMULX */
--                           default_exception_el(dc));
+-                switch (size) {
-+        gen_exception_insn_el(dc, dc->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+-                case 1:
-+                              default_exception_el(dc));
+-                    if (is_scalar) {
-     }
+-                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
+-                                                 tcg_idx, fpst);
-     arm_post_translate_insn(dc);
+-                    } else {
 -                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
 -                                                  tcg_idx, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
  DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
  #ifdef TARGET_AARCH64
 +DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
 +DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
 +DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
  DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
  DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
  #undef DO_MLA_IDX
 -#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
 +#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
  void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
  {                                                                          \
      intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
      for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
          TYPE mm = m[H(i + idx)];                                           \
          for (j = 0; j < segment; j++) {                                    \
 -            d[i + j] = TYPE##_##ADD(d[i + j],                              \
 -                                    TYPE##_mul(n[i + j], mm, stat), stat); \
 +            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
          }                                                                  \
      }                                                                      \
      clear_tail(d, oprsz, simd_maxsz(desc));                                \
  }
 -#define float16_nop(N, M, S) (M)
 -#define float32_nop(N, M, S) (M)
 -#define float64_nop(N, M, S) (M)
 +#define nop(N, M, S) (M)
 -DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
 -DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
 -DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
 +DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
 +DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
 +
 +#ifdef TARGET_AARCH64
 +
 +DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
 +DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
 +DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
 +
 +#endif
 +
 +#undef nop
  /*
   * Non-fused multiply-accumulate operations, for Neon. NB that unlike
   * the fused ops below they assume accumulate both from and into Vd.
   */
 -DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
 -DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
 -DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
 -DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
 +DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
 +DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 -#undef float16_nop
 -#undef float32_nop
 -#undef float64_nop
  #undef DO_FMUL_IDX
  #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
 --
-.25.1
+.34.1

-[PULL 28/28] semihosting/config: Merge --semihosting-config option groups
+[PULL 25/42] target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
-Currently we mishandle the --semihosting-config option if the
+From: Richard Henderson <richard.henderson@linaro.org>
 user specifies it on the command line more than once. For
 example with:
  --semihosting-config target=gdb --semihosting-config arg=foo,arg=bar
-the function qemu_semihosting_config_options() is called twice, once
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-for each argument.  But that function expects to be called only once,
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-and it always unconditionally sets the semihosting.enabled,
+Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
-semihost_chardev and semihosting.target variables.  This means that
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-if any of those options were set anywhere except the last
+---
---semihosting-config option on the command line, those settings are
+ target/arm/tcg/helper-a64.h    |   4 +
-ignored.  In the example above, 'target=gdb' in the first option is
+ target/arm/tcg/translate.h     |   5 +
-overridden by an implied default 'target=auto' in the second.
+ target/arm/tcg/a64.decode      |  27 +++++
  target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |   4 +
 files changed, 143 insertions(+), 102 deletions(-)
-The QemuOptsList machinery has a flag for handling this kind of
+diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
 "option group is setting global state": by setting
  .merge_lists = true;
 we make the machinery merge all the --semihosting-config arguments
 the user passes into a single set of options and call our
 qemu_semihosting_config_options() just once.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Luc Michel <luc@lmichel.fr>
 Message-id: 20220526190053.521505-3-peter.maydell@linaro.org
 ---
  semihosting/config.c | 1 +
 file changed, 1 insertion(+)
 diff --git a/semihosting/config.c b/semihosting/config.c
 index XXXXXXX..XXXXXXX 100644
---- a/semihosting/config.c
+--- a/target/arm/tcg/helper-a64.h
-+++ b/semihosting/config.c
++++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
  DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
  DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
 +DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
      return x << 12;
  }
 +static inline int xor_2(DisasContext *s, int x)
 +{
 +    return x ^ 2;
 +}
 +
  static inline int neon_3same_fp_size(DisasContext *s, int x)
  {
      /* Convert 0==fp32, 1==fp16 into a MO_* value */
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
 @@ -XXX,XX +XXX,XX @@
- QemuOptsList qemu_semihosting_config_opts = {
+ %rd             0:5
-     .name = "semihosting-config",
+ %esz_sd         22:1 !function=plus_2
-+    .merge_lists = true,
++%esz_hsd        22:2 !function=xor_2
-     .implied_opt_name = "enable",
+ %hl             11:1 21:1
-     .head = QTAILQ_HEAD_INITIALIZER(qemu_semihosting_config_opts.head),
+ %hlm            11:1 20:2
-     .desc = {
@@ -XXX,XX +XXX,XX @@
  @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
  @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
 +@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
  @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
  @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
  ### Advanced SIMD scalar three same
 +FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
 +FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
 +FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
 +FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 +
  FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
  FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
  ### Advanced SIMD three same
 +FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 +FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
 +FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 +FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
 +FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
 +FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
 +FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 +FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +
  FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
  ### Advanced SIMD scalar x indexed element
 +FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 +FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 +FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +
  FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
  FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
  ### Advanced SIMD vector x indexed element
 +FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 +FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 +FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
      return true;
  }
 +static const FPScalar f_scalar_fadd = {
 +    gen_helper_vfp_addh,
 +    gen_helper_vfp_adds,
 +    gen_helper_vfp_addd,
 +};
 +TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
 +
 +static const FPScalar f_scalar_fsub = {
 +    gen_helper_vfp_subh,
 +    gen_helper_vfp_subs,
 +    gen_helper_vfp_subd,
 +};
 +TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
 +
 +static const FPScalar f_scalar_fdiv = {
 +    gen_helper_vfp_divh,
 +    gen_helper_vfp_divs,
 +    gen_helper_vfp_divd,
 +};
 +TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
 +
 +static const FPScalar f_scalar_fmul = {
 +    gen_helper_vfp_mulh,
 +    gen_helper_vfp_muls,
 +    gen_helper_vfp_muld,
 +};
 +TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 +
  static const FPScalar f_scalar_fmulx = {
      gen_helper_advsimd_mulxh,
      gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
      return true;
  }
 +static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
 +    gen_helper_gvec_fadd_h,
 +    gen_helper_gvec_fadd_s,
 +    gen_helper_gvec_fadd_d,
 +};
 +TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
 +    gen_helper_gvec_fsub_h,
 +    gen_helper_gvec_fsub_s,
 +    gen_helper_gvec_fsub_d,
 +};
 +TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
 +    gen_helper_gvec_fdiv_h,
 +    gen_helper_gvec_fdiv_s,
 +    gen_helper_gvec_fdiv_d,
 +};
 +TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
 +    gen_helper_gvec_fmul_h,
 +    gen_helper_gvec_fmul_s,
 +    gen_helper_gvec_fmul_d,
 +};
 +TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
      gen_helper_gvec_fmulx_h,
      gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
      return true;
  }
 +TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
  static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
      return true;
  }
 +static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
 +    gen_helper_gvec_fmul_idx_h,
 +    gen_helper_gvec_fmul_idx_s,
 +    gen_helper_gvec_fmul_idx_d,
 +};
 +TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
 +
  static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
      gen_helper_gvec_fmulx_idx_h,
      gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      tcg_op2 = read_fp_sreg(s, rm);
      switch (opcode) {
 -    case 0x0: /* FMUL */
 -        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1: /* FDIV */
 -        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x2: /* FADD */
 -        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x3: /* FSUB */
 -        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x4: /* FMAX */
          gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negs(tcg_res, tcg_res);
          break;
 +    default:
 +    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
 +        g_assert_not_reached();
      }
      write_fp_sreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
      tcg_op2 = read_fp_dreg(s, rm);
      switch (opcode) {
 -    case 0x0: /* FMUL */
 -        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1: /* FDIV */
 -        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x2: /* FADD */
 -        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x3: /* FSUB */
 -        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x4: /* FMAX */
          gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
          gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negd(tcg_res, tcg_res);
          break;
 +    default:
 +    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
 +        g_assert_not_reached();
      }
      write_fp_dreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
      tcg_op2 = read_fp_hreg(s, rm);
      switch (opcode) {
 -    case 0x0: /* FMUL */
 -        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1: /* FDIV */
 -        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x2: /* FADD */
 -        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x3: /* FSUB */
 -        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x4: /* FMAX */
          gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
          tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
          break;
      default:
 +    case 0x0: /* FMUL */
 +    case 0x1: /* FDIV */
 +    case 0x2: /* FADD */
 +    case 0x3: /* FSUB */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x18: /* FMAXNM */
                  gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1a: /* FADD */
 -                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x38: /* FMINNM */
                  gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3a: /* FSUB */
 -                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3e: /* FMIN */
                  gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5b: /* FMUL */
 -                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5c: /* FCMGE */
                  gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x5d: /* FACGE */
                  gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5f: /* FDIV */
 -                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_helper_vfp_absd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x3a: /* FSUB */
 +            case 0x5b: /* FMUL */
 +            case 0x5f: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                         tcg_res, fpst);
                  break;
 -            case 0x1a: /* FADD */
 -                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x38: /* FMINNM */
                  gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x3a: /* FSUB */
 -                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x3e: /* FMIN */
                  gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5b: /* FMUL */
 -                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5c: /* FCMGE */
                  gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x5d: /* FACGE */
                  gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5f: /* FDIV */
 -                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x3a: /* FSUB */
 +            case 0x5b: /* FMUL */
 +            case 0x5f: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x39: /* FMLS */
      case 0x18: /* FMAXNM */
 -    case 0x1a: /* FADD */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 -    case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 -    case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
 -    case 0x5f: /* FDIV */
      case 0x7a: /* FABD */
      case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      default:
 +    case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x3a: /* FSUB */
 +    case 0x5b: /* FMUL */
 +    case 0x5f: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x0: /* FMAXNM */
      case 0x1: /* FMLA */
 -    case 0x2: /* FADD */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
 -    case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0xf: /* FRSQRTS */
 -    case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
 -    case 0x17: /* FDIV */
      case 0x1a: /* FABD */
      case 0x1c: /* FCMGT */
      case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          pairwise = true;
          break;
      default:
 +    case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0xa: /* FSUB */
 +    case 0x13: /* FMUL */
 +    case 0x17: /* FDIV */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0x2: /* FADD */
 -                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                             fpst);
                  break;
 -            case 0xa: /* FSUB */
 -                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xe: /* FMIN */
                  gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x13: /* FMUL */
 -                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x14: /* FCMGE */
                  gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x15: /* FACGE */
                  gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x17: /* FDIV */
 -                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0xa: /* FSUB */
 +            case 0x13: /* FMUL */
 +            case 0x17: /* FDIV */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          break;
      case 0x01: /* FMLA */
      case 0x05: /* FMLS */
 -    case 0x09: /* FMUL */
          is_fp = 1;
          break;
      case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
                  gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                  break;
 -            case 0x09: /* FMUL */
 -                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
 -                break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                      g_assert_not_reached();
                  }
                  break;
 -            case 0x09: /* FMUL */
 -                switch (size) {
 -                case 1:
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
 -                                                tcg_idx, fpst);
 -                    } else {
 -                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
 -                                                 tcg_idx, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
  DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
  #ifdef TARGET_AARCH64
 +DO_3OP(gvec_fdiv_h, float16_div, float16)
 +DO_3OP(gvec_fdiv_s, float32_div, float32)
 +DO_3OP(gvec_fdiv_d, float64_div, float64)
 +
  DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
  DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
  DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 --
-.25.1
+.34.1

-[PULL 23/28] target/arm: Fix Secure PL1 tests in fp_exception_el
+[PULL 26/42] target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-We were using arm_is_secure and is_a64, which are
-tests against the current EL, as opposed to
-arm_el_is_aa64 and arm_is_secure_below_el3, which
-can be applied to a different EL than current.
-Consolidate the two tests.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-24-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.c | 23 +++++++++--------------
+ target/arm/helper.h            |   4 +
-file changed, 9 insertions(+), 14 deletions(-)
+ target/arm/tcg/a64.decode      |  17 ++++
  target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
  target/arm/tcg/vec_helper.c    |   4 +
 files changed, 113 insertions(+), 80 deletions(-)
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.c
+--- a/target/arm/helper.h
-+++ b/target/arm/helper.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         int fpen = FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, FPEN);
+ DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         switch (fpen) {
+ DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+        case 1:
++DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+            if (cur_el != 0) {
-+                break;
+ DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+            }
+ DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+            /* fall through */
++DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-         case 0:
-         case 2:
+ DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--            if (cur_el == 0 || cur_el == 1) {
+ DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--                /* Trap to PL1, which might be EL1 or EL3 */
++DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--                if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
--                    return 3;
+ DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--                }
+ DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--                return 1;
++DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--            }
--            if (cur_el == 3 && !is_a64(env)) {
+ DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--                /* Secure PL1 running at EL3 */
+ DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+            /* Trap from Secure PL0 or PL1 to Secure PL1. */
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+            if (!arm_el_is_aa64(env, 3)
+index XXXXXXX..XXXXXXX 100644
-+                && (cur_el == 3 || arm_is_secure_below_el3(env))) {
+--- a/target/arm/tcg/a64.decode
-                 return 3;
++++ b/target/arm/tcg/a64.decode
-             }
+@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
--            break;
+ FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
--        case 1:
+ FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
--            if (cur_el == 0) {
-+            if (cur_el <= 1) {
++FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
-                 return 1;
++FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
-             }
++FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
-             break;
++FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
--        case 3:
++
--            break;
+ FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
-         }
+ FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
  FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
 +FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
 +FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
 +FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
 +FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
 +FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
  FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
  FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
  };
  TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 +static const FPScalar f_scalar_fmax = {
 +    gen_helper_advsimd_maxh,
 +    gen_helper_vfp_maxs,
 +    gen_helper_vfp_maxd,
 +};
 +TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
 +
 +static const FPScalar f_scalar_fmin = {
 +    gen_helper_advsimd_minh,
 +    gen_helper_vfp_mins,
 +    gen_helper_vfp_mind,
 +};
 +TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
 +
 +static const FPScalar f_scalar_fmaxnm = {
 +    gen_helper_advsimd_maxnumh,
 +    gen_helper_vfp_maxnums,
 +    gen_helper_vfp_maxnumd,
 +};
 +TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
 +
 +static const FPScalar f_scalar_fminnm = {
 +    gen_helper_advsimd_minnumh,
 +    gen_helper_vfp_minnums,
 +    gen_helper_vfp_minnumd,
 +};
 +TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
 +
  static const FPScalar f_scalar_fmulx = {
      gen_helper_advsimd_mulxh,
      gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
  };
  TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 +static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
 +    gen_helper_gvec_fmax_h,
 +    gen_helper_gvec_fmax_s,
 +    gen_helper_gvec_fmax_d,
 +};
 +TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
 +    gen_helper_gvec_fmin_h,
 +    gen_helper_gvec_fmin_s,
 +    gen_helper_gvec_fmin_d,
 +};
 +TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
 +    gen_helper_gvec_fmaxnum_h,
 +    gen_helper_gvec_fmaxnum_s,
 +    gen_helper_gvec_fmaxnum_d,
 +};
 +TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
 +    gen_helper_gvec_fminnum_h,
 +    gen_helper_gvec_fminnum_s,
 +    gen_helper_gvec_fminnum_d,
 +};
 +TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
 +
  static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
      gen_helper_gvec_fmulx_h,
      gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      tcg_op2 = read_fp_sreg(s, rm);
      switch (opcode) {
 -    case 0x4: /* FMAX */
 -        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x5: /* FMIN */
 -        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x6: /* FMAXNM */
 -        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x7: /* FMINNM */
 -        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x8: /* FNMUL */
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
          gen_helper_vfp_negs(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      case 0x1: /* FDIV */
      case 0x2: /* FADD */
      case 0x3: /* FSUB */
 +    case 0x4: /* FMAX */
 +    case 0x5: /* FMIN */
 +    case 0x6: /* FMAXNM */
 +    case 0x7: /* FMINNM */
          g_assert_not_reached();
      }
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
+     tcg_op2 = read_fp_dreg(s, rm);
+     switch (opcode) {
+-    case 0x4: /* FMAX */
+-        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x5: /* FMIN */
+-        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x6: /* FMAXNM */
+-        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x7: /* FMINNM */
+-        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+     case 0x8: /* FNMUL */
+         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
+         gen_helper_vfp_negd(tcg_res, tcg_res);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
+     case 0x1: /* FDIV */
+     case 0x2: /* FADD */
+     case 0x3: /* FSUB */
++    case 0x4: /* FMAX */
++    case 0x5: /* FMIN */
++    case 0x6: /* FMAXNM */
++    case 0x7: /* FMINNM */
+         g_assert_not_reached();
+     }
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
+     tcg_op2 = read_fp_hreg(s, rm);
+     switch (opcode) {
+-    case 0x4: /* FMAX */
+-        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x5: /* FMIN */
+-        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x6: /* FMAXNM */
+-        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+-    case 0x7: /* FMINNM */
+-        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-        break;
+     case 0x8: /* FNMUL */
+         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
+         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
+@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
+     case 0x1: /* FDIV */
+     case 0x2: /* FADD */
+     case 0x3: /* FSUB */
++    case 0x4: /* FMAX */
++    case 0x5: /* FMIN */
++    case 0x6: /* FMAXNM */
++    case 0x7: /* FMINNM */
+         g_assert_not_reached();
+     }
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
+                                        tcg_res, fpst);
+                 break;
+-            case 0x18: /* FMAXNM */
+-                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1c: /* FCMEQ */
+                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x1e: /* FMAX */
+-                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1f: /* FRECPS */
+                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x38: /* FMINNM */
+-                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+-            case 0x3e: /* FMIN */
+-                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x18: /* FMAXNM */
+             case 0x1a: /* FADD */
+             case 0x1b: /* FMULX */
++            case 0x1e: /* FMAX */
++            case 0x38: /* FMINNM */
+             case 0x3a: /* FSUB */
++            case 0x3e: /* FMIN */
+             case 0x5b: /* FMUL */
+             case 0x5f: /* FDIV */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+             case 0x1c: /* FCMEQ */
+                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x1e: /* FMAX */
+-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1f: /* FRECPS */
+                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x18: /* FMAXNM */
+-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+-            case 0x38: /* FMINNM */
+-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+-            case 0x3e: /* FMIN */
+-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x3f: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
+                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x18: /* FMAXNM */
+             case 0x1a: /* FADD */
+             case 0x1b: /* FMULX */
++            case 0x1e: /* FMAX */
++            case 0x38: /* FMINNM */
+             case 0x3a: /* FSUB */
++            case 0x3e: /* FMIN */
+             case 0x5b: /* FMUL */
+             case 0x5f: /* FDIV */
+                 g_assert_not_reached();
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+     case 0x7d: /* FACGT */
+     case 0x19: /* FMLA */
+     case 0x39: /* FMLS */
+-    case 0x18: /* FMAXNM */
+     case 0x1c: /* FCMEQ */
+-    case 0x1e: /* FMAX */
+-    case 0x38: /* FMINNM */
+-    case 0x3e: /* FMIN */
+     case 0x5c: /* FCMGE */
+     case 0x7a: /* FABD */
+     case 0x7c: /* FCMGT */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
+         return;
+     default:
++    case 0x18: /* FMAXNM */
+     case 0x1a: /* FADD */
+     case 0x1b: /* FMULX */
++    case 0x1e: /* FMAX */
++    case 0x38: /* FMINNM */
+     case 0x3a: /* FSUB */
++    case 0x3e: /* FMIN */
+     case 0x5b: /* FMUL */
+     case 0x5f: /* FDIV */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+     int pass;
+     switch (fpopcode) {
+-    case 0x0: /* FMAXNM */
+     case 0x1: /* FMLA */
+     case 0x4: /* FCMEQ */
+-    case 0x6: /* FMAX */
+     case 0x7: /* FRECPS */
+-    case 0x8: /* FMINNM */
+     case 0x9: /* FMLS */
+-    case 0xe: /* FMIN */
+     case 0xf: /* FRSQRTS */
+     case 0x14: /* FCMGE */
+     case 0x15: /* FACGE */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+         pairwise = true;
+         break;
+     default:
++    case 0x0: /* FMAXNM */
+     case 0x2: /* FADD */
+     case 0x3: /* FMULX */
++    case 0x6: /* FMAX */
++    case 0x8: /* FMINNM */
+     case 0xa: /* FSUB */
++    case 0xe: /* FMIN */
+     case 0x13: /* FMUL */
+     case 0x17: /* FDIV */
+         unallocated_encoding(s);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
+             switch (fpopcode) {
+-            case 0x0: /* FMAXNM */
+-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x1: /* FMLA */
+                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
+                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+             case 0x4: /* FCMEQ */
+                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x6: /* FMAX */
+-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x7: /* FRECPS */
+                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+-            case 0x8: /* FMINNM */
+-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0x9: /* FMLS */
+                 /* As usual for ARM, separate negation for fused multiply-add */
+                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
+                                            fpst);
+                 break;
+-            case 0xe: /* FMIN */
+-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
+-                break;
+             case 0xf: /* FRSQRTS */
+                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
+                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
+                 break;
+             default:
++            case 0x0: /* FMAXNM */
+             case 0x2: /* FADD */
+             case 0x3: /* FMULX */
++            case 0x6: /* FMAX */
++            case 0x8: /* FMINNM */
+             case 0xa: /* FSUB */
++            case 0xe: /* FMIN */
+             case 0x13: /* FMUL */
+             case 0x17: /* FDIV */
+                 g_assert_not_reached();
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
+index XXXXXXX..XXXXXXX 100644
+--- a/target/arm/tcg/vec_helper.c
++++ b/target/arm/tcg/vec_helper.c
+@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
+ DO_3OP(gvec_fmax_h, float16_max, float16)
+ DO_3OP(gvec_fmax_s, float32_max, float32)
++DO_3OP(gvec_fmax_d, float64_max, float64)
+ DO_3OP(gvec_fmin_h, float16_min, float16)
+ DO_3OP(gvec_fmin_s, float32_min, float32)
++DO_3OP(gvec_fmin_d, float64_min, float64)
+ DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
+ DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
++DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
+ DO_3OP(gvec_fminnum_h, float16_minnum, float16)
+ DO_3OP(gvec_fminnum_s, float32_minnum, float32)
++DO_3OP(gvec_fminnum_d, float64_minnum, float64)
+ DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
+ DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
 --
-.25.1
+.34.1

-[PULL 26/28] target/arm: SCR_EL3.RW is RAO/WI without AArch32 EL[12]
+[PULL 27/42] target/arm: Introduce vfp_load_reg16
 From: Richard Henderson <richard.henderson@linaro.org>
-Since DDI0487F.a, the RW bit is RAO/WI.  When specifically
+Load and zero-extend float16 into a TCGv_i32 before
-targeting such a cpu, e.g. cortex-a76, it is legitimate to
+all scalar operations.
 ignore the bit within the secure monitor.
-Resolves: https://gitlab.com/qemu-project/qemu/-/issues/1062
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609214657.1217913-3-richard.henderson@linaro.org
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h    | 5 +++++
+ target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
- target/arm/helper.c | 4 ++++
+file changed, 22 insertions(+), 17 deletions(-)
 files changed, 9 insertions(+)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/translate-vfp.c
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/translate-vfp.c
-@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_aa32_el1(const ARMISARegisters *id)
+@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
-     return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, EL1) >= 2;
+     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
  }
-+static inline bool isar_feature_aa64_aa32_el2(const ARMISARegisters *id)
++static inline void vfp_load_reg16(TCGv_i32 var, int reg)
 +{
-+    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, EL2) >= 2;
++    tcg_gen_ld16u_i32(var, tcg_env,
 +                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
 +}
 +
- static inline bool isar_feature_aa64_ras(const ARMISARegisters *id)
+ /*
- {
+  * The imm8 encodes the sign bit, enough bits to represent an exponent in
-     return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, RAS) != 0;
+  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
-diff --git a/target/arm/helper.c b/target/arm/helper.c
+@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
-index XXXXXXX..XXXXXXX 100644
+     if (a->l) {
---- a/target/arm/helper.c
+         /* VFP to general purpose register */
-+++ b/target/arm/helper.c
+         tmp = tcg_temp_new_i32();
-@@ -XXX,XX +XXX,XX @@ static void scr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
+-        vfp_load_reg32(tmp, a->vn);
-         value |= SCR_FW | SCR_AW;      /* RES1 */
+-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
-         valid_mask &= ~SCR_NET;        /* RES0 */
++        vfp_load_reg16(tmp, a->vn);
+         store_reg(s, a->rt, tmp);
-+        if (!cpu_isar_feature(aa64_aa32_el1, cpu) &&
+     } else {
-+            !cpu_isar_feature(aa64_aa32_el2, cpu)) {
+         /* general purpose register to VFP */
-+            value |= SCR_RW;           /* RAO/WI */
+@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
-+        }
+     fd = tcg_temp_new_i32();
-         if (cpu_isar_feature(aa64_ras, cpu)) {
+     fpst = fpstatus_ptr(FPST_FPCR_F16);
-             valid_mask |= SCR_TERR;
-         }
+-    vfp_load_reg32(f0, vn);
 -    vfp_load_reg32(f1, vm);
 +    vfp_load_reg16(f0, vn);
 +    vfp_load_reg16(f1, vm);
      if (reads_vd) {
 -        vfp_load_reg32(fd, vd);
 +        vfp_load_reg16(fd, vd);
      }
      fn(fd, f0, f1, fpst);
      vfp_store_reg32(fd, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
      }
      f0 = tcg_temp_new_i32();
 -    vfp_load_reg32(f0, vm);
 +    vfp_load_reg16(f0, vm);
      fn(f0, f0);
      vfp_store_reg32(f0, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
      vm = tcg_temp_new_i32();
      vd = tcg_temp_new_i32();
 -    vfp_load_reg32(vn, a->vn);
 -    vfp_load_reg32(vm, a->vm);
 +    vfp_load_reg16(vn, a->vn);
 +    vfp_load_reg16(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
          gen_helper_vfp_negh(vn, vn);
      }
 -    vfp_load_reg32(vd, a->vd);
 +    vfp_load_reg16(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
          gen_helper_vfp_negh(vd, vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
      vd = tcg_temp_new_i32();
      vm = tcg_temp_new_i32();
 -    vfp_load_reg32(vd, a->vd);
 +    vfp_load_reg16(vd, a->vd);
      if (a->z) {
          tcg_gen_movi_i32(vm, 0);
      } else {
 -        vfp_load_reg32(vm, a->vm);
 +        vfp_load_reg16(vm, a->vm);
      }
      if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth(tmp, tmp, fpst);
      vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
      gen_helper_rinth(tmp, tmp, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
      }
      tmp = tcg_temp_new_i32();
 -    vfp_load_reg32(tmp, a->vm);
 +    vfp_load_reg16(tmp, a->vm);
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_rinth_exact(tmp, tmp, fpst);
      vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      vm = tcg_temp_new_i32();
 -    vfp_load_reg32(vm, a->vm);
 +    vfp_load_reg16(vm, a->vm);
      if (a->s) {
          if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
      /* Insert low half of Vm into high half of Vd */
      rm = tcg_temp_new_i32();
      rd = tcg_temp_new_i32();
 -    vfp_load_reg32(rm, a->vm);
 -    vfp_load_reg32(rd, a->vd);
 +    vfp_load_reg16(rm, a->vm);
 +    vfp_load_reg16(rd, a->vd);
      tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
      vfp_store_reg32(rd, a->vd);
      return true;
 --
-.25.1
+.34.1

-[PULL 06/28] target/arm: Use is_a64 in arm_generate_debug_exceptions
+[PULL 28/42] target/arm: Expand vfp neg and abs inline
 From: Richard Henderson <richard.henderson@linaro.org>
-Use the accessor rather than the raw structure member.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-7-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/debug_helper.c | 2 +-
+ target/arm/helper.h            |  6 ----
-file changed, 1 insertion(+), 1 deletion(-)
+ target/arm/tcg/translate.h     | 30 +++++++++++++++++++
  target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
  target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
  target/arm/vfp_helper.c        | 30 -------------------
 files changed, 79 insertions(+), 85 deletions(-)
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/debug_helper.c
+--- a/target/arm/helper.h
-+++ b/target/arm/debug_helper.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static bool aa32_generate_debug_exceptions(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
  DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
  DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
  DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
 -DEF_HELPER_1(vfp_negh, f16, f16)
 -DEF_HELPER_1(vfp_negs, f32, f32)
 -DEF_HELPER_1(vfp_negd, f64, f64)
 -DEF_HELPER_1(vfp_absh, f16, f16)
 -DEF_HELPER_1(vfp_abss, f32, f32)
 -DEF_HELPER_1(vfp_absd, f64, f64)
  DEF_HELPER_2(vfp_sqrth, f16, f16, env)
  DEF_HELPER_2(vfp_sqrts, f32, f32, env)
  DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
   */
- bool arm_generate_debug_exceptions(CPUARMState *env)
+ uint64_t vfp_expand_imm(int size, uint8_t imm8);
 +static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_andi_i32(d, s, INT16_MAX);
 +}
 +
 +static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_andi_i32(d, s, INT32_MAX);
 +}
 +
 +static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
 +{
 +    tcg_gen_andi_i64(d, s, INT64_MAX);
 +}
 +
 +static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_xori_i32(d, s, 1u << 15);
 +}
 +
 +static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
 +{
 +    tcg_gen_xori_i32(d, s, 1u << 31);
 +}
 +
 +static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
 +{
 +    tcg_gen_xori_i64(d, s, 1ull << 63);
 +}
 +
  /* Vector operations shared between ARM and AArch64.  */
  void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                     uint32_t opr_sz, uint32_t max_sz);
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
          tcg_gen_mov_i32(tcg_res, tcg_op);
          break;
      case 0x1: /* FABS */
 -        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
 +        gen_vfp_absh(tcg_res, tcg_op);
          break;
      case 0x2: /* FNEG */
 -        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
 +        gen_vfp_negh(tcg_res, tcg_op);
          break;
      case 0x3: /* FSQRT */
          fpst = fpstatus_ptr(FPST_FPCR_F16);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
          tcg_gen_mov_i32(tcg_res, tcg_op);
          goto done;
      case 0x1: /* FABS */
 -        gen_helper_vfp_abss(tcg_res, tcg_op);
 +        gen_vfp_abss(tcg_res, tcg_op);
          goto done;
      case 0x2: /* FNEG */
 -        gen_helper_vfp_negs(tcg_res, tcg_op);
 +        gen_vfp_negs(tcg_res, tcg_op);
          goto done;
      case 0x3: /* FSQRT */
          gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
      switch (opcode) {
      case 0x1: /* FABS */
 -        gen_helper_vfp_absd(tcg_res, tcg_op);
 +        gen_vfp_absd(tcg_res, tcg_op);
          goto done;
      case 0x2: /* FNEG */
 -        gen_helper_vfp_negd(tcg_res, tcg_op);
 +        gen_vfp_negd(tcg_res, tcg_op);
          goto done;
      case 0x3: /* FSQRT */
          gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
      switch (opcode) {
      case 0x8: /* FNMUL */
          gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_helper_vfp_negs(tcg_res, tcg_res);
 +        gen_vfp_negs(tcg_res, tcg_res);
          break;
      default:
      case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
      switch (opcode) {
      case 0x8: /* FNMUL */
          gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_helper_vfp_negd(tcg_res, tcg_res);
 +        gen_vfp_negd(tcg_res, tcg_res);
          break;
      default:
      case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
      switch (opcode) {
      case 0x8: /* FNMUL */
          gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
 +        gen_vfp_negh(tcg_res, tcg_res);
          break;
      default:
      case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
       * flipped if it is a negated-input.
       */
      if (o1 == true) {
 -        gen_helper_vfp_negs(tcg_op3, tcg_op3);
 +        gen_vfp_negs(tcg_op3, tcg_op3);
      }
      if (o0 != o1) {
 -        gen_helper_vfp_negs(tcg_op1, tcg_op1);
 +        gen_vfp_negs(tcg_op1, tcg_op1);
      }
      gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
       * flipped if it is a negated-input.
       */
      if (o1 == true) {
 -        gen_helper_vfp_negd(tcg_op3, tcg_op3);
 +        gen_vfp_negd(tcg_op3, tcg_op3);
      }
      if (o0 != o1) {
 -        gen_helper_vfp_negd(tcg_op1, tcg_op1);
 +        gen_vfp_negd(tcg_op1, tcg_op1);
      }
      gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              switch (fpopcode) {
              case 0x39: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_helper_vfp_negd(tcg_op1, tcg_op1);
 +                gen_vfp_negd(tcg_op1, tcg_op1);
                  /* fall through */
              case 0x19: /* FMLA */
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                gen_helper_vfp_absd(tcg_res, tcg_res);
 +                gen_vfp_absd(tcg_res, tcg_res);
                  break;
              case 0x7c: /* FCMGT */
                  gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              switch (fpopcode) {
              case 0x39: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_helper_vfp_negs(tcg_op1, tcg_op1);
 +                gen_vfp_negs(tcg_op1, tcg_op1);
                  /* fall through */
              case 0x19: /* FMLA */
                  read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                gen_helper_vfp_abss(tcg_res, tcg_res);
 +                gen_vfp_abss(tcg_res, tcg_res);
                  break;
              case 0x7c: /* FCMGT */
                  gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
          }
          break;
      case 0x2f: /* FABS */
 -        gen_helper_vfp_absd(tcg_rd, tcg_rn);
 +        gen_vfp_absd(tcg_rd, tcg_rn);
          break;
      case 0x6f: /* FNEG */
 -        gen_helper_vfp_negd(tcg_rd, tcg_rn);
 +        gen_vfp_negd(tcg_rd, tcg_rn);
          break;
      case 0x7f: /* FSQRT */
          gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                      }
                      break;
                  case 0x2f: /* FABS */
 -                    gen_helper_vfp_abss(tcg_res, tcg_op);
 +                    gen_vfp_abss(tcg_res, tcg_op);
                      break;
                  case 0x6f: /* FNEG */
 -                    gen_helper_vfp_negs(tcg_res, tcg_op);
 +                    gen_vfp_negs(tcg_res, tcg_op);
                      break;
                  case 0x7f: /* FSQRT */
                      gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
              switch (16 * u + opcode) {
              case 0x05: /* FMLS */
                  /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_helper_vfp_negd(tcg_op, tcg_op);
 +                gen_vfp_negd(tcg_op, tcg_op);
                  /* fall through */
              case 0x01: /* FMLA */
                  read_vec_element(s, tcg_res, rd, pass, MO_64);
 diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-vfp.c
 +++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negh(tmp, tmp);
 +    gen_vfp_negh(tmp, tmp);
      gen_helper_vfp_addh(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_muls(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negs(tmp, tmp);
 +    gen_vfp_negs(tmp, tmp);
      gen_helper_vfp_adds(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
      TCGv_i64 tmp = tcg_temp_new_i64();
      gen_helper_vfp_muld(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negd(tmp, tmp);
 +    gen_vfp_negd(tmp, tmp);
      gen_helper_vfp_addd(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negh(vd, vd);
 +    gen_vfp_negh(vd, vd);
      gen_helper_vfp_addh(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_muls(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negs(vd, vd);
 +    gen_vfp_negs(vd, vd);
      gen_helper_vfp_adds(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
      TCGv_i64 tmp = tcg_temp_new_i64();
      gen_helper_vfp_muld(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negd(vd, vd);
 +    gen_vfp_negd(vd, vd);
      gen_helper_vfp_addd(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_mulh(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negh(tmp, tmp);
 -    gen_helper_vfp_negh(vd, vd);
 +    gen_vfp_negh(tmp, tmp);
 +    gen_vfp_negh(vd, vd);
      gen_helper_vfp_addh(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
      TCGv_i32 tmp = tcg_temp_new_i32();
      gen_helper_vfp_muls(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negs(tmp, tmp);
 -    gen_helper_vfp_negs(vd, vd);
 +    gen_vfp_negs(tmp, tmp);
 +    gen_vfp_negs(vd, vd);
      gen_helper_vfp_adds(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
      TCGv_i64 tmp = tcg_temp_new_i64();
      gen_helper_vfp_muld(tmp, vn, vm, fpst);
 -    gen_helper_vfp_negd(tmp, tmp);
 -    gen_helper_vfp_negd(vd, vd);
 +    gen_vfp_negd(tmp, tmp);
 +    gen_vfp_negd(vd, vd);
      gen_helper_vfp_addd(vd, vd, tmp, fpst);
  }
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
--    if (env->aarch64) {
+     /* VNMUL: -(fn * fm) */
-+    if (is_a64(env)) {
+     gen_helper_vfp_mulh(vd, vn, vm, fpst);
-         return aa64_generate_debug_exceptions(env);
+-    gen_helper_vfp_negh(vd, vd);
-     } else {
++    gen_vfp_negh(vd, vd);
-         return aa32_generate_debug_exceptions(env);
+ }
  static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
  {
      /* VNMUL: -(fn * fm) */
      gen_helper_vfp_muls(vd, vn, vm, fpst);
 -    gen_helper_vfp_negs(vd, vd);
 +    gen_vfp_negs(vd, vd);
  }
  static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
  {
      /* VNMUL: -(fn * fm) */
      gen_helper_vfp_muld(vd, vn, vm, fpst);
 -    gen_helper_vfp_negd(vd, vd);
 +    gen_vfp_negd(vd, vd);
  }
  static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
      vfp_load_reg16(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
 -        gen_helper_vfp_negh(vn, vn);
 +        gen_vfp_negh(vn, vn);
      }
      vfp_load_reg16(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
 -        gen_helper_vfp_negh(vd, vd);
 +        gen_vfp_negh(vd, vd);
      }
      fpst = fpstatus_ptr(FPST_FPCR_F16);
      gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
      vfp_load_reg32(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
 -        gen_helper_vfp_negs(vn, vn);
 +        gen_vfp_negs(vn, vn);
      }
      vfp_load_reg32(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
 -        gen_helper_vfp_negs(vd, vd);
 +        gen_vfp_negs(vd, vd);
      }
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
      vfp_load_reg64(vm, a->vm);
      if (neg_n) {
          /* VFNMS, VFMS */
 -        gen_helper_vfp_negd(vn, vn);
 +        gen_vfp_negd(vn, vn);
      }
      vfp_load_reg64(vd, a->vd);
      if (neg_d) {
          /* VFNMA, VFNMS */
 -        gen_helper_vfp_negd(vd, vd);
 +        gen_vfp_negd(vd, vd);
      }
      fpst = fpstatus_ptr(FPST_FPCR);
      gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
  DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
  DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
 -DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
 -DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
 -DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
 +DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
 +DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
 +DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
 -DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
 -DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
 -DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
 +DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
 +DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
 +DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
  static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
  {
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
  VFP_BINOP(maxnum)
  #undef VFP_BINOP
 -dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
 -{
 -    return float16_chs(a);
 -}
 -
 -float32 VFP_HELPER(neg, s)(float32 a)
 -{
 -    return float32_chs(a);
 -}
 -
 -float64 VFP_HELPER(neg, d)(float64 a)
 -{
 -    return float64_chs(a);
 -}
 -
 -dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
 -{
 -    return float16_abs(a);
 -}
 -
 -float32 VFP_HELPER(abs, s)(float32 a)
 -{
 -    return float32_abs(a);
 -}
 -
 -float64 VFP_HELPER(abs, d)(float64 a)
 -{
 -    return float64_abs(a);
 -}
 -
  dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
  {
      return float16_sqrt(a, &env->vfp.fp_status_f16);
 --
-.25.1
+.34.1

-[PULL 21/28] target/arm: Create raise_exception_debug
+[PULL 29/42] target/arm: Convert FNMUL to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Handle the debug vs current el exception test in one place.
+This is the last instruction within disas_fp_2src,
-Leave EXCP_BKPT alone, since that treats debug < current differently.
+so remove that and its subroutines.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-22-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/debug_helper.c | 44 +++++++++++++++++++++------------------
+ target/arm/tcg/a64.decode      |   1 +
-file changed, 24 insertions(+), 20 deletions(-)
+ target/arm/tcg/translate-a64.c | 177 +++++----------------------------
 files changed, 27 insertions(+), 151 deletions(-)
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/debug_helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/debug_helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
- #include "exec/helper-proto.h"
+ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
+ FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
+ FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
-+/*
++FNMUL_s         0001 1110 ..1 ..... 1000 10 ..... ..... @rrr_hsd
-+ * Raise an exception to the debug target el.
-+ * Modify syndrome to indicate when origin and target EL are the same.
+ FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
-+ */
+ FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
-+G_NORETURN static void
+diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
-+raise_exception_debug(CPUARMState *env, uint32_t excp, uint32_t syndrome)
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmulx = {
  };
  TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
 +static void gen_fnmul_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
 +{
-+    int debug_el = arm_debug_target_el(env);
++    gen_helper_vfp_mulh(d, n, m, s);
-+    int cur_el = arm_current_el(env);
++    gen_vfp_negh(d, d);
 +
 +    /*
 +     * If singlestep is targeting a lower EL than the current one, then
 +     * DisasContext.ss_active must be false and we can never get here.
 +     * Similarly for watchpoint and breakpoint matches.
 +     */
 +    assert(debug_el >= cur_el);
 +    syndrome |= (debug_el == cur_el) << ARM_EL_EC_SHIFT;
 +    raise_exception(env, excp, syndrome, debug_el);
 +}
 +
- /* See AArch64.GenerateDebugExceptionsFrom() in ARM ARM pseudocode */
++static void gen_fnmul_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
- static bool aa64_generate_debug_exceptions(CPUARMState *env)
++{
 +    gen_helper_vfp_muls(d, n, m, s);
 +    gen_vfp_negs(d, d);
 +}
 +
 +static void gen_fnmul_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_muld(d, n, m, s);
 +    gen_vfp_negd(d, d);
 +}
 +
 +static const FPScalar f_scalar_fnmul = {
 +    gen_fnmul_h,
 +    gen_fnmul_s,
 +    gen_fnmul_d,
 +};
 +TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
-@@ -XXX,XX +XXX,XX @@ void arm_debug_excp_handler(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ static void disas_fp_1src(DisasContext *s, uint32_t insn)
      if (wp_hit) {
          if (wp_hit->flags & BP_CPU) {
              bool wnr = (wp_hit->flags & BP_WATCHPOINT_HIT_WRITE) != 0;
 -            bool same_el = arm_debug_target_el(env) == arm_current_el(env);
              cs->watchpoint_hit = NULL;
              env->exception.fsr = arm_debug_exception_fsr(env);
              env->exception.vaddress = wp_hit->hitaddr;
 -            raise_exception(env, EXCP_DATA_ABORT,
 -                    syn_watchpoint(same_el, 0, wnr),
 -                    arm_debug_target_el(env));
 +            raise_exception_debug(env, EXCP_DATA_ABORT,
 +                                  syn_watchpoint(0, 0, wnr));
          }
      } else {
          uint64_t pc = is_a64(env) ? env->pc : env->regs[15];
 -        bool same_el = (arm_debug_target_el(env) == arm_current_el(env));
          /*
           * (1) GDB breakpoints should be handled first.
@@ -XXX,XX +XXX,XX @@ void arm_debug_excp_handler(CPUState *cs)
           * exception/security level.
           */
          env->exception.vaddress = 0;
 -        raise_exception(env, EXCP_PREFETCH_ABORT,
 -                        syn_breakpoint(same_el),
 -                        arm_debug_target_el(env));
 +        raise_exception_debug(env, EXCP_PREFETCH_ABORT, syn_breakpoint(0));
      }
  }
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
+-/* Floating-point data-processing (2 source) - single precision */
+-static void handle_fp_2src_single(DisasContext *s, int opcode,
- void HELPER(exception_swstep)(CPUARMState *env, uint32_t syndrome)
+-                                  int rd, int rn, int rm)
- {
+-{
--    int debug_el = arm_debug_target_el(env);
+-    TCGv_i32 tcg_op1;
--    int cur_el = arm_current_el(env);
+-    TCGv_i32 tcg_op2;
--
+-    TCGv_i32 tcg_res;
--    /*
+-    TCGv_ptr fpst;
--     * If singlestep is targeting a lower EL than the current one, then
+-
--     * DisasContext.ss_active must be false and we can never get here.
+-    tcg_res = tcg_temp_new_i32();
--     */
+-    fpst = fpstatus_ptr(FPST_FPCR);
--    assert(debug_el >= cur_el);
+-    tcg_op1 = read_fp_sreg(s, rn);
--    if (debug_el == cur_el) {
+-    tcg_op2 = read_fp_sreg(s, rm);
--        syndrome |= 1 << ARM_EL_EC_SHIFT;
+-
--    }
+-    switch (opcode) {
--    raise_exception(env, EXCP_UDEF, syndrome, debug_el);
+-    case 0x8: /* FNMUL */
-+    raise_exception_debug(env, EXCP_UDEF, syndrome);
+-        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
- }
+-        gen_vfp_negs(tcg_res, tcg_res);
+-        break;
- #if !defined(CONFIG_USER_ONLY)
+-    default:
 -    case 0x0: /* FMUL */
 -    case 0x1: /* FDIV */
 -    case 0x2: /* FADD */
 -    case 0x3: /* FSUB */
 -    case 0x4: /* FMAX */
 -    case 0x5: /* FMIN */
 -    case 0x6: /* FMAXNM */
 -    case 0x7: /* FMINNM */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
 -/* Floating-point data-processing (2 source) - double precision */
 -static void handle_fp_2src_double(DisasContext *s, int opcode,
 -                                  int rd, int rn, int rm)
 -{
 -    TCGv_i64 tcg_op1;
 -    TCGv_i64 tcg_op2;
 -    TCGv_i64 tcg_res;
 -    TCGv_ptr fpst;
 -
 -    tcg_res = tcg_temp_new_i64();
 -    fpst = fpstatus_ptr(FPST_FPCR);
 -    tcg_op1 = read_fp_dreg(s, rn);
 -    tcg_op2 = read_fp_dreg(s, rm);
 -
 -    switch (opcode) {
 -    case 0x8: /* FNMUL */
 -        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_vfp_negd(tcg_res, tcg_res);
 -        break;
 -    default:
 -    case 0x0: /* FMUL */
 -    case 0x1: /* FDIV */
 -    case 0x2: /* FADD */
 -    case 0x3: /* FSUB */
 -    case 0x4: /* FMAX */
 -    case 0x5: /* FMIN */
 -    case 0x6: /* FMAXNM */
 -    case 0x7: /* FMINNM */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_dreg(s, rd, tcg_res);
 -}
 -
 -/* Floating-point data-processing (2 source) - half precision */
 -static void handle_fp_2src_half(DisasContext *s, int opcode,
 -                                int rd, int rn, int rm)
 -{
 -    TCGv_i32 tcg_op1;
 -    TCGv_i32 tcg_op2;
 -    TCGv_i32 tcg_res;
 -    TCGv_ptr fpst;
 -
 -    tcg_res = tcg_temp_new_i32();
 -    fpst = fpstatus_ptr(FPST_FPCR_F16);
 -    tcg_op1 = read_fp_hreg(s, rn);
 -    tcg_op2 = read_fp_hreg(s, rm);
 -
 -    switch (opcode) {
 -    case 0x8: /* FNMUL */
 -        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        gen_vfp_negh(tcg_res, tcg_res);
 -        break;
 -    default:
 -    case 0x0: /* FMUL */
 -    case 0x1: /* FDIV */
 -    case 0x2: /* FADD */
 -    case 0x3: /* FSUB */
 -    case 0x4: /* FMAX */
 -    case 0x5: /* FMIN */
 -    case 0x6: /* FMAXNM */
 -    case 0x7: /* FMINNM */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
 -/* Floating point data-processing (2 source)
 - *   31  30  29 28       24 23  22  21 20  16 15    12 11 10 9    5 4    0
 - * +---+---+---+-----------+------+---+------+--------+-----+------+------+
 - * | M | 0 | S | 1 1 1 1 0 | type | 1 |  Rm  | opcode | 1 0 |  Rn  |  Rd  |
 - * +---+---+---+-----------+------+---+------+--------+-----+------+------+
 - */
 -static void disas_fp_2src(DisasContext *s, uint32_t insn)
 -{
 -    int mos = extract32(insn, 29, 3);
 -    int type = extract32(insn, 22, 2);
 -    int rd = extract32(insn, 0, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rm = extract32(insn, 16, 5);
 -    int opcode = extract32(insn, 12, 4);
 -
 -    if (opcode > 8 || mos) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    switch (type) {
 -    case 0:
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_fp_2src_single(s, opcode, rd, rn, rm);
 -        break;
 -    case 1:
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_fp_2src_double(s, opcode, rd, rn, rm);
 -        break;
 -    case 3:
 -        if (!dc_isar_feature(aa64_fp16, s)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_fp_2src_half(s, opcode, rd, rn, rm);
 -        break;
 -    default:
 -        unallocated_encoding(s);
 -    }
 -}
 -
  /* Floating-point data-processing (3 source) - single precision */
  static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
                                    int rd, int rn, int rm, int ra)
@@ -XXX,XX +XXX,XX @@ static void disas_data_proc_fp(DisasContext *s, uint32_t insn)
              break;
          case 2:
              /* Floating point data-processing (2 source) */
 -            disas_fp_2src(s, insn);
 +            unallocated_encoding(s); /* in decodetree */
              break;
          case 3:
              /* Floating point conditional select */
 --
-.25.1
+.34.1

-[PULL 13/28] target/arm: Create helper_exception_swstep
+[PULL 30/42] target/arm: Convert FMLA, FMLS to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Move the computation from gen_swstep_exception into a helper.
-This fixes a bug when:
-  - MDSCR_EL1.KDE == 1 to enable debug exceptions within EL_D itself
-  - we singlestep an ERET from EL_D to some lower EL
-Previously we were computing 'same el' based on the EL which
-executed the ERET instruction, whereas it ought to be computed
-based on the EL to which ERET returned.  This happens naturally
-with the new helper, which runs after EL has been changed.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-14-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h       |  1 +
+ target/arm/helper.h            |   2 +
- target/arm/translate.h    | 12 +++---------
+ target/arm/tcg/a64.decode      |  22 +++
- target/arm/debug_helper.c | 16 ++++++++++++++++
+ target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
-files changed, 20 insertions(+), 9 deletions(-)
+ target/arm/tcg/vec_helper.c    |  14 ++
 files changed, 163 insertions(+), 116 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_2(exception_internal, noreturn, env, i32)
- DEF_HELPER_4(exception_with_syndrome_el, noreturn, env, i32, i32, i32)
+ DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
+ DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_2(exception_swstep, noreturn, env, i32)
++DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_2(exception_pc_alignment, noreturn, env, tl)
- DEF_HELPER_1(setend, void, env)
+ DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_2(wfi, void, env, i32)
+ DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
++DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static inline void gen_exception(int excp, uint32_t syndrome,
+@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
- /* Generate an architectural singlestep exception */
+ FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
- static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
+ FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 +FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
 +FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
 +
 +FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
 +FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
  FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 +FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
 +FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
 +FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
 +
 +FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
 +FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
 +FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
 +
  FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
  FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
  FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
 +FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
 +FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
 +
 +FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
 +FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
 +FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
 +
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
  };
  TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 +static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
 +    gen_helper_gvec_vfma_h,
 +    gen_helper_gvec_vfma_s,
 +    gen_helper_gvec_vfma_d,
 +};
 +TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 +    gen_helper_gvec_vfms_h,
 +    gen_helper_gvec_vfms_s,
 +    gen_helper_gvec_vfms_d,
 +};
 +TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
  TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
  TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 +static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
 +{
 +    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
 +            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
 +            TCGv_i64 t2 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t2, a->rm, a->idx, MO_64);
 +            if (neg) {
 +                gen_vfp_negd(t1, t1);
 +            }
 +            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
 +            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
 +            TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
 +            if (neg) {
 +                gen_vfp_negs(t1, t1);
 +            }
 +            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
 +            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
 +            TCGv_i32 t2 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
 +            if (neg) {
 +                gen_vfp_negh(t1, t1);
 +            }
 +            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
 +                                       fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
 +TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
 +TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
 +
  static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
                                gen_helper_gvec_3_ptr * const fns[3])
  {
--    bool same_el = (s->debug_target_el == s->current_el);
+@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
--
+ };
--    /*
+ TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
--     * If singlestep is targeting a lower EL than the current one,
--     * then s->ss_active must be false and we can never get here.
++static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
--     */
++{
--    assert(s->debug_target_el >= s->current_el);
++    static gen_helper_gvec_4_ptr * const fns[3] = {
--
++        gen_helper_gvec_fmla_idx_h,
--    gen_exception(EXCP_UDEF, syn_swstep(same_el, isv, ex), s->debug_target_el);
++        gen_helper_gvec_fmla_idx_s,
-+    /* Fill in the same_el field of the syndrome in the helper. */
++        gen_helper_gvec_fmla_idx_d,
-+    uint32_t syn = syn_swstep(false, isv, ex);
++    };
-+    gen_helper_exception_swstep(cpu_env, tcg_constant_i32(syn));
++    MemOp esz = a->esz;
 +
 +    switch (esz) {
 +    case MO_64:
 +        if (!a->q) {
 +            return false;
 +        }
 +        break;
 +    case MO_32:
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
 +                          esz == MO_16, (a->idx << 1) | neg,
 +                          fns[esz - 1]);
 +    }
 +    return true;
 +}
 +
 +TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
 +TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element(s, tcg_op2, rm, pass, MO_64);
              switch (fpopcode) {
 -            case 0x39: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negd(tcg_op1, tcg_op1);
 -                /* fall through */
 -            case 0x19: /* FMLA */
 -                read_vec_element(s, tcg_res, rd, pass, MO_64);
 -                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
 -                                       tcg_res, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              default:
              case 0x18: /* FMAXNM */
 +            case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
 +            case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
              switch (fpopcode) {
 -            case 0x39: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negs(tcg_op1, tcg_op1);
 -                /* fall through */
 -            case 0x19: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
 -                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
 -                                       tcg_res, fpst);
 -                break;
              case 0x1c: /* FCMEQ */
                  gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                  break;
              default:
              case 0x18: /* FMAXNM */
 +            case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
 +            case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3f: /* FRSQRTS */
      case 0x5d: /* FACGE */
      case 0x7d: /* FACGT */
 -    case 0x19: /* FMLA */
 -    case 0x39: /* FMLS */
      case 0x1c: /* FCMEQ */
      case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      default:
      case 0x18: /* FMAXNM */
 +    case 0x19: /* FMLA */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
 +    case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x1: /* FMLA */
      case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
 -    case 0x9: /* FMLS */
      case 0xf: /* FRSQRTS */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
          break;
      default:
      case 0x0: /* FMAXNM */
 +    case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
 +    case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x1: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0x4: /* FCMEQ */
                  gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x9: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
 -                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
 -                                           fpst);
 -                break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  break;
              default:
              case 0x0: /* FMAXNM */
 +            case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
 +            case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      case 0x0c: /* SQDMULH */
      case 0x0d: /* SQRDMULH */
          break;
 -    case 0x01: /* FMLA */
 -    case 0x05: /* FMLS */
 -        is_fp = 1;
 -        break;
      case 0x1d: /* SQRDMLAH */
      case 0x1f: /* SQRDMLSH */
          if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          /* is_fp, but we pass tcg_env not fp_status.  */
          break;
      default:
 +    case 0x01: /* FMLA */
 +    case 0x05: /* FMLS */
      case 0x09: /* FMUL */
      case 0x19: /* FMULX */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      switch (is_fp) {
      case 1: /* normal fp */
 -        /* convert insn encoded size to MemOp size */
 -        switch (size) {
 -        case 0: /* half-precision */
 -            size = MO_16;
 -            is_fp16 = true;
 -            break;
 -        case MO_32: /* single precision */
 -        case MO_64: /* double precision */
 -            break;
 -        default:
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        break;
 +        unallocated_encoding(s); /* in decodetree */
 +        return;
      case 2: /* complex fp */
          /* Each indexable element is a complex pair.  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
      }
      if (size == 3) {
 -        TCGv_i64 tcg_idx = tcg_temp_new_i64();
 -        int pass;
 -
 -        assert(is_fp && is_q && !is_long);
 -
 -        read_vec_element(s, tcg_idx, rm, index, MO_64);
 -
 -        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
 -            TCGv_i64 tcg_op = tcg_temp_new_i64();
 -            TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -            read_vec_element(s, tcg_op, rn, pass, MO_64);
 -
 -            switch (16 * u + opcode) {
 -            case 0x05: /* FMLS */
 -                /* As usual for ARM, separate negation for fused multiply-add */
 -                gen_vfp_negd(tcg_op, tcg_op);
 -                /* fall through */
 -            case 0x01: /* FMLA */
 -                read_vec_element(s, tcg_res, rd, pass, MO_64);
 -                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
 -                break;
 -            default:
 -            case 0x09: /* FMUL */
 -            case 0x19: /* FMULX */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element(s, tcg_res, rd, pass, MO_64);
 -        }
 -
 -        clear_vec_high(s, !is_scalar, rd);
 +        g_assert_not_reached();
      } else if (!is_long) {
          /* 32 bit floating point, or 16 or 32 bit integer.
           * For the 16 bit scalar case we use the usual Neon helpers and
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  genfn(tcg_res, tcg_op, tcg_res);
                  break;
              }
 -            case 0x05: /* FMLS */
 -            case 0x01: /* FMLA */
 -                read_vec_element_i32(s, tcg_res, rd, pass,
 -                                     is_scalar ? size : MO_32);
 -                switch (size) {
 -                case 1:
 -                    if (opcode == 0x5) {
 -                        /* As usual for ARM, separate negation for fused
 -                         * multiply-add */
 -                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
 -                    }
 -                    if (is_scalar) {
 -                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
 -                                                   tcg_res, fpst);
 -                    } else {
 -                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
 -                                                    tcg_res, fpst);
 -                    }
 -                    break;
 -                case 2:
 -                    if (opcode == 0x5) {
 -                        /* As usual for ARM, separate negation for
 -                         * fused multiply-add */
 -                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
 -                    }
 -                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
 -                                           tcg_res, fpst);
 -                    break;
 -                default:
 -                    g_assert_not_reached();
 -                }
 -                break;
              case 0x0c: /* SQDMULH */
                  if (size == 1) {
                      gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                  }
                  break;
              default:
 +            case 0x01: /* FMLA */
 +            case 0x05: /* FMLS */
              case 0x09: /* FMUL */
              case 0x19: /* FMULX */
                  g_assert_not_reached();
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
      return float32_muladd(op1, op2, dest, 0, stat);
  }
- /*
++static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
++                                 float_status *stat)
-index XXXXXXX..XXXXXXX 100644
++{
---- a/target/arm/debug_helper.c
++    return float64_muladd(op1, op2, dest, 0, stat);
-+++ b/target/arm/debug_helper.c
++}
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
++
-     raise_exception(env, EXCP_BKPT, syndrome, debug_el);
+ static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
                                   float_status *stat)
  {
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
      return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
  }
-+void HELPER(exception_swstep)(CPUARMState *env, uint32_t syndrome)
++static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
 +                                 float_status *stat)
 +{
-+    int debug_el = arm_debug_target_el(env);
++    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
 +    int cur_el = arm_current_el(env);
 +
 +    /*
 +     * If singlestep is targeting a lower EL than the current one, then
 +     * DisasContext.ss_active must be false and we can never get here.
 +     */
 +    assert(debug_el >= cur_el);
 +    if (debug_el == cur_el) {
 +        syndrome |= 1 << ARM_EL_EC_SHIFT;
 +    }
 +    raise_exception(env, EXCP_UDEF, syndrome, debug_el);
 +}
 +
- #if !defined(CONFIG_USER_ONLY)
+ #define DO_MULADD(NAME, FUNC, TYPE)                                     \
+ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
- vaddr arm_adjust_watchpoint_address(CPUState *cs, vaddr addr, int len)
+ {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
  DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
  DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
 +DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
  DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
  DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
 +DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
  /* For the indexed ops, SVE applies the index per 128-bit vector segment.
   * For AdvSIMD, there is of course only one such vector segment.
 --
-.25.1
+.34.1

-[PULL 19/28] target/arm: Introduce helper_exception_with_syndrome
+[PULL 31/42] target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-With the helper we can use exception_target_el at runtime,
-instead of default_exception_el at translate time.
-While we're at it, remove the DisasContext parameter from
-gen_exception, as it is no longer used.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-20-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h    |  1 +
+ target/arm/helper.h            |   5 +
- target/arm/op_helper.c | 10 ++++++++++
+ target/arm/tcg/a64.decode      |  30 ++++++
- target/arm/translate.c | 18 +++++++++++++-----
+ target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
-files changed, 24 insertions(+), 5 deletions(-)
+ target/arm/tcg/vec_helper.c    |  30 ++++++
 files changed, 174 insertions(+), 79 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(usad8, TCG_CALL_NO_RWG_SE, i32, i32, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
-                    i32, i32, i32, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_2(exception_internal, noreturn, env, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_3(exception_with_syndrome, noreturn, env, i32, i32)
++DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_4(exception_with_syndrome_el, noreturn, env, i32, i32, i32)
- DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
+ DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_2(exception_swstep, noreturn, env, i32)
+ DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
++DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/op_helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/op_helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_with_syndrome_el)(CPUARMState *env, uint32_t excp,
+@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
-     raise_exception(env, excp, syndrome, target_el);
+ FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
  FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 +FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
 +FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
 +FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
 +FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
 +
 +FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
 +FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
 +
 +FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
 +FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
  FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
  FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 +FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
 +FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
 +FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
 +FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
 +
 +FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
 +FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
 +
 +FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
 +FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
  };
  TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 +static const FPScalar f_scalar_fcmeq = {
 +    gen_helper_advsimd_ceq_f16,
 +    gen_helper_neon_ceq_f32,
 +    gen_helper_neon_ceq_f64,
 +};
 +TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
 +
 +static const FPScalar f_scalar_fcmge = {
 +    gen_helper_advsimd_cge_f16,
 +    gen_helper_neon_cge_f32,
 +    gen_helper_neon_cge_f64,
 +};
 +TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
 +
 +static const FPScalar f_scalar_fcmgt = {
 +    gen_helper_advsimd_cgt_f16,
 +    gen_helper_neon_cgt_f32,
 +    gen_helper_neon_cgt_f64,
 +};
 +TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
 +
 +static const FPScalar f_scalar_facge = {
 +    gen_helper_advsimd_acge_f16,
 +    gen_helper_neon_acge_f32,
 +    gen_helper_neon_acge_f64,
 +};
 +TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
 +
 +static const FPScalar f_scalar_facgt = {
 +    gen_helper_advsimd_acgt_f16,
 +    gen_helper_neon_acgt_f32,
 +    gen_helper_neon_acgt_f64,
 +};
 +TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
  };
  TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 +static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
 +    gen_helper_gvec_fceq_h,
 +    gen_helper_gvec_fceq_s,
 +    gen_helper_gvec_fceq_d,
 +};
 +TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
 +    gen_helper_gvec_fcge_h,
 +    gen_helper_gvec_fcge_s,
 +    gen_helper_gvec_fcge_d,
 +};
 +TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
 +    gen_helper_gvec_fcgt_h,
 +    gen_helper_gvec_fcgt_s,
 +    gen_helper_gvec_fcgt_d,
 +};
 +TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
 +    gen_helper_gvec_facge_h,
 +    gen_helper_gvec_facge_s,
 +    gen_helper_gvec_facge_d,
 +};
 +TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
 +    gen_helper_gvec_facgt_h,
 +    gen_helper_gvec_facgt_s,
 +    gen_helper_gvec_facgt_d,
 +};
 +TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element(s, tcg_op2, rm, pass, MO_64);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_absd(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
              switch (fpopcode) {
 -            case 0x1c: /* FCMEQ */
 -                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1f: /* FRECPS */
                  gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5c: /* FCMGE */
 -                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5d: /* FACGE */
 -                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7a: /* FABD */
                  gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                  gen_vfp_abss(tcg_res, tcg_res);
                  break;
 -            case 0x7c: /* FCMGT */
 -                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7d: /* FACGT */
 -                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
              case 0x1a: /* FADD */
              case 0x1b: /* FMULX */
 +            case 0x1c: /* FCMEQ */
              case 0x1e: /* FMAX */
              case 0x38: /* FMINNM */
              case 0x39: /* FMLS */
              case 0x3a: /* FSUB */
              case 0x3e: /* FMIN */
              case 0x5b: /* FMUL */
 +            case 0x5c: /* FCMGE */
 +            case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7c: /* FCMGT */
 +            case 0x7d: /* FACGT */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          switch (fpopcode) {
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
 +        case 0x7a: /* FABD */
 +            break;
 +        default:
 +        case 0x1b: /* FMULX */
          case 0x5d: /* FACGE */
          case 0x7d: /* FACGT */
          case 0x1c: /* FCMEQ */
          case 0x5c: /* FCMGE */
          case 0x7c: /* FCMGT */
 -        case 0x7a: /* FABD */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
              unallocated_encoding(s);
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      TCGv_i32 tcg_res;
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
          break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      tcg_res = tcg_temp_new_i32();
      switch (fpopcode) {
 -    case 0x04: /* FCMEQ (reg) */
 -        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x07: /* FRECPS */
          gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
      case 0x0f: /* FRSQRTS */
          gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
 -    case 0x14: /* FCMGE (reg) */
 -        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x15: /* FACGE */
 -        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      case 0x1a: /* FABD */
          gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
          tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
          break;
 -    case 0x1c: /* FCMGT (reg) */
 -        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x1d: /* FACGT */
 -        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
      default:
      case 0x03: /* FMULX */
 +    case 0x04: /* FCMEQ (reg) */
 +    case 0x14: /* FCMGE (reg) */
 +    case 0x15: /* FACGE */
 +    case 0x1c: /* FCMGT (reg) */
 +    case 0x1d: /* FACGT */
          g_assert_not_reached();
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
 -    case 0x5d: /* FACGE */
 -    case 0x7d: /* FACGT */
 -    case 0x1c: /* FCMEQ */
 -    case 0x5c: /* FCMGE */
      case 0x7a: /* FABD */
 -    case 0x7c: /* FCMGT */
          if (!fp_access_check(s)) {
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x19: /* FMLA */
      case 0x1a: /* FADD */
      case 0x1b: /* FMULX */
 +    case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x5b: /* FMUL */
 +    case 0x5c: /* FCMGE */
 +    case 0x5d: /* FACGE */
      case 0x5f: /* FDIV */
 +    case 0x7d: /* FACGT */
 +    case 0x7c: /* FCMGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      int pass;
      switch (fpopcode) {
 -    case 0x4: /* FCMEQ */
      case 0x7: /* FRECPS */
      case 0xf: /* FRSQRTS */
 -    case 0x14: /* FCMGE */
 -    case 0x15: /* FACGE */
      case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT */
 -    case 0x1d: /* FACGT */
          pairwise = false;
          break;
      case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x1: /* FMLA */
      case 0x2: /* FADD */
      case 0x3: /* FMULX */
 +    case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0x13: /* FMUL */
 +    case 0x14: /* FCMGE */
 +    case 0x15: /* FACGE */
      case 0x17: /* FDIV */
 +    case 0x1c: /* FCMGT */
 +    case 0x1d: /* FACGT */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
              switch (fpopcode) {
 -            case 0x4: /* FCMEQ */
 -                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x7: /* FRECPS */
                  gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x14: /* FCMGE */
 -                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x15: /* FACGE */
 -                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x1a: /* FABD */
                  gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                  tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                  break;
 -            case 0x1c: /* FCMGT */
 -                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x1d: /* FACGT */
 -                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              default:
              case 0x0: /* FMAXNM */
              case 0x1: /* FMLA */
              case 0x2: /* FADD */
              case 0x3: /* FMULX */
 +            case 0x4: /* FCMEQ */
              case 0x6: /* FMAX */
              case 0x8: /* FMINNM */
              case 0x9: /* FMLS */
              case 0xa: /* FSUB */
              case 0xe: /* FMIN */
              case 0x13: /* FMUL */
 +            case 0x14: /* FCMGE */
 +            case 0x15: /* FACGE */
              case 0x17: /* FDIV */
 +            case 0x1c: /* FCMGT */
 +            case 0x1d: /* FACGT */
                  g_assert_not_reached();
              }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
      return -float32_eq_quiet(op1, op2, stat);
  }
-+/*
++static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
 + * Raise an exception with the specified syndrome register value
 + * to the default target el.
 + */
 +void HELPER(exception_with_syndrome)(CPUARMState *env, uint32_t excp,
 +                                     uint32_t syndrome)
 +{
-+    raise_exception(env, excp, syndrome, exception_target_el(env));
++    return -float64_eq_quiet(op1, op2, stat);
 +}
 +
- uint32_t HELPER(cpsr_read)(CPUARMState *env)
+ static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
  {
-     return cpsr_read(env) & ~CPSR_EXEC;
+     return -float16_le(op2, op1, stat);
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
-index XXXXXXX..XXXXXXX 100644
+     return -float32_le(op2, op1, stat);
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_el(int excp, uint32_t syndrome, uint32_t target_el)
      gen_exception_el_v(excp, syndrome, tcg_constant_i32(target_el));
  }
--static void gen_exception(DisasContext *s, int excp, uint32_t syndrome)
++static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
-+static void gen_exception(int excp, uint32_t syndrome)
++{
 +    return -float64_le(op2, op1, stat);
 +}
 +
  static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
  {
--    gen_exception_el(excp, syndrome, default_exception_el(s));
+     return -float16_lt(op2, op1, stat);
-+    gen_helper_exception_with_syndrome(cpu_env, tcg_constant_i32(excp),
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
-+                                       tcg_constant_i32(syndrome));
+     return -float32_lt(op2, op1, stat);
  }
- static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
++static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
-@@ -XXX,XX +XXX,XX @@ void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
++{
++    return -float64_lt(op2, op1, stat);
- void gen_exception_insn(DisasContext *s, uint64_t pc, int excp, uint32_t syn)
++}
 +
  static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
  {
--    gen_exception_insn_el(s, pc, excp, syn, default_exception_el(s));
+     return -float16_le(float16_abs(op2), float16_abs(op1), stat);
-+    if (s->aarch64) {
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
-+        gen_a64_set_pc_im(pc);
+     return -float32_le(float32_abs(op2), float32_abs(op1), stat);
 +    } else {
 +        gen_set_condexec(s);
 +        gen_set_pc_im(s, pc);
 +    }
 +    gen_exception(excp, syn);
 +    s->base.is_jmp = DISAS_NORETURN;
  }
- static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
++static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
++{
-         switch (dc->base.is_jmp) {
++    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
-         case DISAS_SWI:
++}
-             gen_ss_advance(dc);
++
--            gen_exception(dc, EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
+ static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
-+            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
+ {
-             break;
+     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
-         case DISAS_HVC:
+@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
-             gen_ss_advance(dc);
+     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
-@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
+ }
-             gen_helper_yield(cpu_env);
-             break;
++static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
-         case DISAS_SWI:
++{
--            gen_exception(dc, EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
++    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
-+            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
++}
-             break;
++
-         case DISAS_HVC:
+ static int16_t vfp_tosszh(float16 x, void *fpstp)
-             gen_exception_el(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
+ {
      float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
  DO_3OP(gvec_fceq_h, float16_ceq, float16)
  DO_3OP(gvec_fceq_s, float32_ceq, float32)
 +DO_3OP(gvec_fceq_d, float64_ceq, float64)
  DO_3OP(gvec_fcge_h, float16_cge, float16)
  DO_3OP(gvec_fcge_s, float32_cge, float32)
 +DO_3OP(gvec_fcge_d, float64_cge, float64)
  DO_3OP(gvec_fcgt_h, float16_cgt, float16)
  DO_3OP(gvec_fcgt_s, float32_cgt, float32)
 +DO_3OP(gvec_fcgt_d, float64_cgt, float64)
  DO_3OP(gvec_facge_h, float16_acge, float16)
  DO_3OP(gvec_facge_s, float32_acge, float32)
 +DO_3OP(gvec_facge_d, float64_acge, float64)
  DO_3OP(gvec_facgt_h, float16_acgt, float16)
  DO_3OP(gvec_facgt_s, float32_acgt, float32)
 +DO_3OP(gvec_facgt_d, float64_acgt, float64)
  DO_3OP(gvec_fmax_h, float16_max, float16)
  DO_3OP(gvec_fmax_s, float32_max, float32)
 --
-.25.1
+.34.1

-[PULL 01/28] target/arm: Mark exception helpers as noreturn
+[PULL 32/42] target/arm: Convert FABD to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-2-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h | 6 +++---
+ target/arm/helper.h            |  1 +
-file changed, 3 insertions(+), 3 deletions(-)
+ target/arm/tcg/a64.decode      |  6 ++++
  target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
  target/arm/tcg/vec_helper.c    |  6 ++++
 files changed, 53 insertions(+), 20 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(usad8, TCG_CALL_NO_RWG_SE, i32, i32, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
+ DEF_HELPER_FLAGS_5(gvec_fabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-                    i32, i32, i32, i32)
+ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--DEF_HELPER_2(exception_internal, void, env, i32)
++DEF_HELPER_FLAGS_5(gvec_fabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
--DEF_HELPER_4(exception_with_syndrome, void, env, i32, i32, i32)
--DEF_HELPER_2(exception_bkpt_insn, void, env, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_2(exception_internal, noreturn, env, i32)
+ DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-+DEF_HELPER_4(exception_with_syndrome, noreturn, env, i32, i32, i32)
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
-+DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
+index XXXXXXX..XXXXXXX 100644
- DEF_HELPER_2(exception_pc_alignment, noreturn, env, tl)
+--- a/target/arm/tcg/a64.decode
- DEF_HELPER_1(setend, void, env)
++++ b/target/arm/tcg/a64.decode
- DEF_HELPER_2(wfi, void, env, i32)
+@@ -XXX,XX +XXX,XX @@ FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
  FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
  FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 +FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
 +FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
  FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
  FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 +FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 +FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_facgt = {
  };
  TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
 +static void gen_fabd_h(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_subh(d, n, m, s);
 +    gen_vfp_absh(d, d);
 +}
 +
 +static void gen_fabd_s(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_subs(d, n, m, s);
 +    gen_vfp_abss(d, d);
 +}
 +
 +static void gen_fabd_d(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_ptr s)
 +{
 +    gen_helper_vfp_subd(d, n, m, s);
 +    gen_vfp_absd(d, d);
 +}
 +
 +static const FPScalar f_scalar_fabd = {
 +    gen_fabd_h,
 +    gen_fabd_s,
 +    gen_fabd_d,
 +};
 +TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
  };
  TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
 +static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
 +    gen_helper_gvec_fabd_h,
 +    gen_helper_gvec_fabd_s,
 +    gen_helper_gvec_fabd_d,
 +};
 +TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x7a: /* FABD */
 -                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
 -                gen_vfp_absd(tcg_res, tcg_res);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x5c: /* FCMGE */
              case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7a: /* FABD */
              case 0x7c: /* FCMGT */
              case 0x7d: /* FACGT */
                  g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x3f: /* FRSQRTS */
                  gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x7a: /* FABD */
 -                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                gen_vfp_abss(tcg_res, tcg_res);
 -                break;
              default:
              case 0x18: /* FMAXNM */
              case 0x19: /* FMLA */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
              case 0x5c: /* FCMGE */
              case 0x5d: /* FACGE */
              case 0x5f: /* FDIV */
 +            case 0x7a: /* FABD */
              case 0x7c: /* FCMGT */
              case 0x7d: /* FACGT */
                  g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          switch (fpopcode) {
          case 0x1f: /* FRECPS */
          case 0x3f: /* FRSQRTS */
 -        case 0x7a: /* FABD */
              break;
          default:
          case 0x1b: /* FMULX */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
          case 0x7d: /* FACGT */
          case 0x1c: /* FCMEQ */
          case 0x5c: /* FCMGE */
 +        case 0x7a: /* FABD */
          case 0x7c: /* FCMGT */
              unallocated_encoding(s);
              return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      switch (fpopcode) {
      case 0x07: /* FRECPS */
      case 0x0f: /* FRSQRTS */
 -    case 0x1a: /* FABD */
          break;
      default:
      case 0x03: /* FMULX */
      case 0x04: /* FCMEQ (reg) */
      case 0x14: /* FCMGE (reg) */
      case 0x15: /* FACGE */
 +    case 0x1a: /* FABD */
      case 0x1c: /* FCMGT (reg) */
      case 0x1d: /* FACGT */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
      case 0x0f: /* FRSQRTS */
          gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
          break;
 -    case 0x1a: /* FABD */
 -        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -        tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
 -        break;
      default:
      case 0x03: /* FMULX */
      case 0x04: /* FCMEQ (reg) */
      case 0x14: /* FCMGE (reg) */
      case 0x15: /* FACGE */
 +    case 0x1a: /* FABD */
      case 0x1c: /* FCMGT (reg) */
      case 0x1d: /* FACGT */
          g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          return;
      case 0x1f: /* FRECPS */
      case 0x3f: /* FRSQRTS */
 -    case 0x7a: /* FABD */
          if (!fp_access_check(s)) {
              return;
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
      case 0x5f: /* FDIV */
 +    case 0x7a: /* FABD */
      case 0x7d: /* FACGT */
      case 0x7c: /* FCMGT */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x7: /* FRECPS */
      case 0xf: /* FRSQRTS */
 -    case 0x1a: /* FABD */
          pairwise = false;
          break;
      case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
      case 0x17: /* FDIV */
 +    case 0x1a: /* FABD */
      case 0x1c: /* FCMGT */
      case 0x1d: /* FACGT */
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0xf: /* FRSQRTS */
                  gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x1a: /* FABD */
 -                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
 -                break;
              default:
              case 0x0: /* FMAXNM */
              case 0x1: /* FMLA */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              case 0x14: /* FCMGE */
              case 0x15: /* FACGE */
              case 0x17: /* FDIV */
 +            case 0x1a: /* FABD */
              case 0x1c: /* FCMGT */
              case 0x1d: /* FACGT */
                  g_assert_not_reached();
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
      return float32_abs(float32_sub(op1, op2, stat));
  }
 +static float64 float64_abd(float64 op1, float64 op2, float_status *stat)
 +{
 +    return float64_abs(float64_sub(op1, op2, stat));
 +}
 +
  /*
   * Reciprocal step. These are the AArch32 version which uses a
   * non-fused multiply-and-subtract.
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
  DO_3OP(gvec_fabd_h, float16_abd, float16)
  DO_3OP(gvec_fabd_s, float32_abd, float32)
 +DO_3OP(gvec_fabd_d, float64_abd, float64)
  DO_3OP(gvec_fceq_h, float16_ceq, float16)
  DO_3OP(gvec_fceq_s, float32_ceq, float32)
 --
-.25.1
+.34.1

-[PULL 02/28] target/arm: Add coproc parameter to syn_fp_access_trap
+[PULL 33/42] target/arm: Convert FRECPS, FRSQRTS to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-With ARMv8, this field is always RES0.
+These are the last instructions within handle_3same_float
-With ARMv7, targeting EL2 and TA=0, it is always 0xA.
+and disas_simd_scalar_three_reg_same_fp16 so remove them.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-3-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/syndrome.h      |  7 ++++---
+ target/arm/tcg/a64.decode      |  12 ++
- target/arm/translate-a64.c |  3 ++-
+ target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
- target/arm/translate-vfp.c | 14 ++++++++++++--
+files changed, 46 insertions(+), 259 deletions(-)
 files changed, 18 insertions(+), 6 deletions(-)
-diff --git a/target/arm/syndrome.h b/target/arm/syndrome.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/syndrome.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/syndrome.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_cp15_rrt_trap(int cv, int cond, int opc1, int crm,
+@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
-         | (rt2 << 10) | (rt << 5) | (crm << 1) | isread;
+ FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
  FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 +FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
 +FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
 +
 +FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
 +FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
  FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
  FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 +FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
 +FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
 +FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
 +FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
  };
  TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 +static const FPScalar f_scalar_frecps = {
 +    gen_helper_recpsf_f16,
 +    gen_helper_recpsf_f32,
 +    gen_helper_recpsf_f64,
 +};
 +TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
 +
 +static const FPScalar f_scalar_frsqrts = {
 +    gen_helper_rsqrtsf_f16,
 +    gen_helper_rsqrtsf_f32,
 +    gen_helper_rsqrtsf_f64,
 +};
 +TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
 +
  static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                            gen_helper_gvec_3_ptr * const fns[3])
  {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
  };
  TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 +static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
 +    gen_helper_gvec_recps_h,
 +    gen_helper_gvec_recps_s,
 +    gen_helper_gvec_recps_d,
 +};
 +TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
 +    gen_helper_gvec_rsqrts_h,
 +    gen_helper_gvec_rsqrts_s,
 +    gen_helper_gvec_rsqrts_d,
 +};
 +TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
      }
  }
--static inline uint32_t syn_fp_access_trap(int cv, int cond, bool is_16bit)
+-/* Handle the 3-same-operands float operations; shared by the scalar
-+static inline uint32_t syn_fp_access_trap(int cv, int cond, bool is_16bit,
+- * and vector encodings. The caller must filter out any encodings
-+                                          int coproc)
+- * not allocated for the encoding it is dealing with.
- {
+- */
--    /* AArch32 FP trap or any AArch64 FP/SIMD trap: TA == 0 coproc == 0xa */
+-static void handle_3same_float(DisasContext *s, int size, int elements,
-+    /* AArch32 FP trap or any AArch64 FP/SIMD trap: TA == 0 */
+-                               int fpopcode, int rd, int rn, int rm)
-     return (EC_ADVSIMDFPACCESSTRAP << ARM_EL_EC_SHIFT)
+-{
-         | (is_16bit ? 0 : ARM_EL_IL)
+-    int pass;
--        | (cv << 24) | (cond << 20) | 0xa;
+-    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-+        | (cv << 24) | (cond << 20) | coproc;
+-
 -    for (pass = 0; pass < elements; pass++) {
 -        if (size) {
 -            /* Double */
 -            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -            read_vec_element(s, tcg_op1, rn, pass, MO_64);
 -            read_vec_element(s, tcg_op2, rm, pass, MO_64);
 -
 -            switch (fpopcode) {
 -            case 0x1f: /* FRECPS */
 -                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3f: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element(s, tcg_res, rd, pass, MO_64);
 -        } else {
 -            /* Single */
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 -
 -            switch (fpopcode) {
 -            case 0x1f: /* FRECPS */
 -                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x3f: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x18: /* FMAXNM */
 -            case 0x19: /* FMLA */
 -            case 0x1a: /* FADD */
 -            case 0x1b: /* FMULX */
 -            case 0x1c: /* FCMEQ */
 -            case 0x1e: /* FMAX */
 -            case 0x38: /* FMINNM */
 -            case 0x39: /* FMLS */
 -            case 0x3a: /* FSUB */
 -            case 0x3e: /* FMIN */
 -            case 0x5b: /* FMUL */
 -            case 0x5c: /* FCMGE */
 -            case 0x5d: /* FACGE */
 -            case 0x5f: /* FDIV */
 -            case 0x7a: /* FABD */
 -            case 0x7c: /* FCMGT */
 -            case 0x7d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            if (elements == 1) {
 -                /* scalar single so clear high part */
 -                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
 -
 -                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
 -                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
 -            } else {
 -                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
 -            }
 -        }
 -    }
 -
 -    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
 -}
 -
  /* AdvSIMD scalar three same
   *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
   * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      bool u = extract32(insn, 29, 1);
      TCGv_i64 tcg_rd;
 -    if (opcode >= 0x18) {
 -        /* Floating point: U, size[1] and opcode indicate operation */
 -        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
 -        switch (fpopcode) {
 -        case 0x1f: /* FRECPS */
 -        case 0x3f: /* FRSQRTS */
 -            break;
 -        default:
 -        case 0x1b: /* FMULX */
 -        case 0x5d: /* FACGE */
 -        case 0x7d: /* FACGT */
 -        case 0x1c: /* FCMEQ */
 -        case 0x5c: /* FCMGE */
 -        case 0x7a: /* FABD */
 -        case 0x7c: /* FCMGT */
 -            unallocated_encoding(s);
 -            return;
 -        }
 -
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -
 -        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
 -        return;
 -    }
 -
      switch (opcode) {
      case 0x1: /* SQADD, UQADD */
      case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
      write_fp_dreg(s, rd, tcg_rd);
  }
- static inline uint32_t syn_simd_access_trap(int cv, int cond, bool is_16bit)
+-/* AdvSIMD scalar three same FP16
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+- *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
-index XXXXXXX..XXXXXXX 100644
+- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
---- a/target/arm/translate-a64.c
+- * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
-+++ b/target/arm/translate-a64.c
+- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
-@@ -XXX,XX +XXX,XX @@ static bool fp_access_check(DisasContext *s)
+- * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
-         s->fp_access_checked = true;
+- * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
+- */
-         gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+-static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
--                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
+-                                                  uint32_t insn)
-+                           syn_fp_access_trap(1, 0xe, false, 0),
+-{
-+                           s->fp_excp_el);
+-    int rd = extract32(insn, 0, 5);
-         return false;
+-    int rn = extract32(insn, 5, 5);
 -    int opcode = extract32(insn, 11, 3);
 -    int rm = extract32(insn, 16, 5);
 -    bool u = extract32(insn, 29, 1);
 -    bool a = extract32(insn, 23, 1);
 -    int fpopcode = opcode | (a << 3) |  (u << 4);
 -    TCGv_ptr fpst;
 -    TCGv_i32 tcg_op1;
 -    TCGv_i32 tcg_op2;
 -    TCGv_i32 tcg_res;
 -
 -    switch (fpopcode) {
 -    case 0x07: /* FRECPS */
 -    case 0x0f: /* FRSQRTS */
 -        break;
 -    default:
 -    case 0x03: /* FMULX */
 -    case 0x04: /* FCMEQ (reg) */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!dc_isar_feature(aa64_fp16, s)) {
 -        unallocated_encoding(s);
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    fpst = fpstatus_ptr(FPST_FPCR_F16);
 -
 -    tcg_op1 = read_fp_hreg(s, rn);
 -    tcg_op2 = read_fp_hreg(s, rm);
 -    tcg_res = tcg_temp_new_i32();
 -
 -    switch (fpopcode) {
 -    case 0x07: /* FRECPS */
 -        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    case 0x0f: /* FRSQRTS */
 -        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -        break;
 -    default:
 -    case 0x03: /* FMULX */
 -    case 0x04: /* FCMEQ (reg) */
 -    case 0x14: /* FCMGE (reg) */
 -    case 0x15: /* FACGE */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT (reg) */
 -    case 0x1d: /* FACGT */
 -        g_assert_not_reached();
 -    }
 -
 -    write_fp_sreg(s, rd, tcg_res);
 -}
 -
  /* AdvSIMD scalar three same extra
   *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
   * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
  /* Pairwise op subgroup of C3.6.16.
   *
 - * This is called directly or via the handle_3same_float for float pairwise
 + * This is called directly for float pairwise
   * operations where the opcode and size are calculated differently.
   */
  static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      int rn = extract32(insn, 5, 5);
      int rd = extract32(insn, 0, 5);
 -    int datasize = is_q ? 128 : 64;
 -    int esize = 32 << size;
 -    int elements = datasize / esize;
 -
      if (size == 1 && !is_q) {
          unallocated_encoding(s);
          return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
          handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                 rn, rm, rd);
          return;
 -    case 0x1f: /* FRECPS */
 -    case 0x3f: /* FRSQRTS */
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
 -        return;
      case 0x1d: /* FMLAL  */
      case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x1b: /* FMULX */
      case 0x1c: /* FCMEQ */
      case 0x1e: /* FMAX */
 +    case 0x1f: /* FRECPS */
      case 0x38: /* FMINNM */
      case 0x39: /* FMLS */
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
 +    case 0x3f: /* FRSQRTS */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
       * together indicate the operation.
       */
      int fpopcode = opcode | (a << 3) | (u << 4);
 -    int datasize = is_q ? 128 : 64;
 -    int elements = datasize / 16;
      bool pairwise;
      TCGv_ptr fpst;
      int pass;
      switch (fpopcode) {
 -    case 0x7: /* FRECPS */
 -    case 0xf: /* FRSQRTS */
 -        pairwise = false;
 -        break;
      case 0x10: /* FMAXNMP */
      case 0x12: /* FADDP */
      case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0x3: /* FMULX */
      case 0x4: /* FCMEQ */
      case 0x6: /* FMAX */
 +    case 0x7: /* FRECPS */
      case 0x8: /* FMINNM */
      case 0x9: /* FMLS */
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
 +    case 0xf: /* FRSQRTS */
      case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
              write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
          }
      } else {
 -        for (pass = 0; pass < elements; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_res = tcg_temp_new_i32();
 -
 -            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
 -            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 -
 -            switch (fpopcode) {
 -            case 0x7: /* FRECPS */
 -                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FRSQRTS */
 -                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x0: /* FMAXNM */
 -            case 0x1: /* FMLA */
 -            case 0x2: /* FADD */
 -            case 0x3: /* FMULX */
 -            case 0x4: /* FCMEQ */
 -            case 0x6: /* FMAX */
 -            case 0x8: /* FMINNM */
 -            case 0x9: /* FMLS */
 -            case 0xa: /* FSUB */
 -            case 0xe: /* FMIN */
 -            case 0x13: /* FMUL */
 -            case 0x14: /* FCMGE */
 -            case 0x15: /* FACGE */
 -            case 0x17: /* FDIV */
 -            case 0x1a: /* FABD */
 -            case 0x1c: /* FCMGT */
 -            case 0x1d: /* FACGT */
 -                g_assert_not_reached();
 -            }
 -
 -            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
 -        }
 +        g_assert_not_reached();
      }
-     s->fp_access_checked = true;
-diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
+     clear_vec_high(s, is_q, rd);
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
---- a/target/arm/translate-vfp.c
+     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-+++ b/target/arm/translate-vfp.c
+     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-@@ -XXX,XX +XXX,XX @@ static void gen_update_fp_context(DisasContext *s)
+     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
- static bool vfp_access_check_a(DisasContext *s, bool ignore_vfp_enabled)
+-    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
- {
+     { 0x00000000, 0x00000000, NULL }
-     if (s->fp_excp_el) {
+ };
 -        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
 -                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
 +        /*
 +         * The full syndrome is only used for HSR when HCPTR traps:
 +         * For v8, when TA==0, coproc is RES0.
 +         * For v7, any use of a Floating-point instruction or access
 +         * to a Floating-point Extension register that is trapped to
 +         * Hyp mode because of a trap configured in the HCPTR sets
 +         * this field to 0xA.
 +         */
 +        int coproc = arm_dc_feature(s, ARM_FEATURE_V8) ? 0 : 0xa;
 +        uint32_t syn = syn_fp_access_trap(1, 0xe, false, coproc);
 +
 +        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn, s->fp_excp_el);
          return false;
      }
 --
-.25.1
+.34.1

-[PULL 27/28] gdbstub: Don't use GDB syscalls if no GDB is attached
+[PULL 34/42] target/arm: Convert FADDP to decodetree
-In two places in gdbstub.c we look at gdbserver_state.init to decide
+From: Richard Henderson <richard.henderson@linaro.org>
 whether we're going to do a semihosting syscall via the gdb remote
 protocol:
  * when setting up, if the user didn't explicitly select either
    native semihosting or gdb semihosting, we autoselect, with the
    intended behaviour "use gdb if gdb is connected"
  * when the semihosting layer attempts to do a syscall via gdb, we
    silently ignore it if the gdbstub wasn't actually set up
-However, if the user's commandline sets up the gdbstub but tells QEMU
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-to start rather than waiting for a GDB to connect (eg using '-s' but
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-not '-S'), then we will have gdbserver_state.init true but no actual
+Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
-connection; an attempt to use gdb syscalls will then crash because we
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-try to use gdbserver_state.c_cpu when it hasn't been set up:
+---
  target/arm/helper.h            |  4 ++
  target/arm/tcg/a64.decode      | 12 +++++
  target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
  target/arm/tcg/vec_helper.c    | 23 +++++++++
 files changed, 105 insertions(+), 21 deletions(-)
-#0  0x00007ffff6803ba8 in qemu_cpu_kick (cpu=0x0) at ../../softmmu/cpus.c:457
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 #1  0x00007ffff6c03913 in gdb_do_syscallv (cb=0x7ffff6c19944 <common_semi_cb>,
     fmt=0x7ffff7573b7e "", va=0x7ffff56294c0) at ../../gdbstub.c:2946
 #2  0x00007ffff6c19c3a in common_semi_gdb_syscall (cs=0x7ffff83fe060,
     cb=0x7ffff6c19944 <common_semi_cb>, fmt=0x7ffff7573b75 "isatty,%x")
     at ../../semihosting/arm-compat-semi.c:494
 #3  0x00007ffff6c1a064 in gdb_isattyfn (cs=0x7ffff83fe060, gf=0x7ffff86a3690)
     at ../../semihosting/arm-compat-semi.c:636
 #4  0x00007ffff6c1b20f in do_common_semihosting (cs=0x7ffff83fe060)
     at ../../semihosting/arm-compat-semi.c:967
 #5  0x00007ffff693a037 in handle_semihosting (cs=0x7ffff83fe060)
     at ../../target/arm/helper.c:10316
 You can probably also get into this state via some odd
 corner cases involving connecting a GDB and then telling it
 to detach from all the vCPUs.
 Abstract out the test into a new gdb_attached() function
 which returns true only if there's actually a GDB connected
 to the debug stub and attached to at least one vCPU.
 Reported-by: Liviu Ionescu <ilg@livius.net>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
 Reviewed-by: Luc Michel <luc@lmichel.fr>
 Message-id: 20220526190053.521505-2-peter.maydell@linaro.org
 ---
  gdbstub.c | 14 +++++++++++---
 file changed, 11 insertions(+), 3 deletions(-)
 diff --git a/gdbstub.c b/gdbstub.c
 index XXXXXXX..XXXXXXX 100644
---- a/gdbstub.c
+--- a/target/arm/helper.h
-+++ b/gdbstub.c
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static int get_char(void)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_uclamp_s, TCG_CALL_NO_RWG,
- }
+ DEF_HELPER_FLAGS_5(gvec_uclamp_d, TCG_CALL_NO_RWG,
- #endif
+                    void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "tcg/helper-a64.h"
  #include "tcg/helper-sve.h"
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
  &ri             rd imm
  &rri_sf         rd rn imm sf
  &i              imm
 +&rr_e           rd rn esz
  &rrr_e          rd rn rm esz
  &rrx_e          rd rn rm idx esz
  &qrr_e          q rd rn esz
@@ -XXX,XX +XXX,XX @@
  &qrrx_e         q rd rn rm idx esz
  &qrrrr_e        q rd rn rm ra esz
 +@rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
 +@rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
 +
  @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
  @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
  @rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
@@ -XXX,XX +XXX,XX @@ FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
  FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
  FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 +### Advanced SIMD scalar pairwise
 +
 +FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
 +FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
  FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
  FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 +FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 +FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
  };
  TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
 +static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
 +    gen_helper_gvec_faddp_h,
 +    gen_helper_gvec_faddp_s,
 +    gen_helper_gvec_faddp_d,
 +};
 +TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
  TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
  TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
 +/*
-+ * Return true if there is a GDB currently connected to the stub
++ * Advanced SIMD scalar pairwise
 + * and attached to a CPU
 + */
-+static bool gdb_attached(void)
++
 +static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
 +{
-+    return gdbserver_state.init && gdbserver_state.c_cpu;
++    switch (a->esz) {
 +    case MO_64:
 +        if (fp_access_check(s)) {
 +            TCGv_i64 t0 = tcg_temp_new_i64();
 +            TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +            read_vec_element(s, t0, a->rn, 0, MO_64);
 +            read_vec_element(s, t1, a->rn, 1, MO_64);
 +            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_dreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_32:
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = tcg_temp_new_i32();
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t0, a->rn, 0, MO_32);
 +            read_vec_element_i32(s, t1, a->rn, 1, MO_32);
 +            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    case MO_16:
 +        if (!dc_isar_feature(aa64_fp16, s)) {
 +            return false;
 +        }
 +        if (fp_access_check(s)) {
 +            TCGv_i32 t0 = tcg_temp_new_i32();
 +            TCGv_i32 t1 = tcg_temp_new_i32();
 +
 +            read_vec_element_i32(s, t0, a->rn, 0, MO_16);
 +            read_vec_element_i32(s, t1, a->rn, 1, MO_16);
 +            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
 +            write_fp_sreg(s, a->rd, t0);
 +        }
 +        break;
 +    default:
 +        g_assert_not_reached();
 +    }
 +    return true;
 +}
 +
- static enum {
++TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
-     GDB_SYS_UNKNOWN,
-     GDB_SYS_ENABLED,
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-@@ -XXX,XX +XXX,XX @@ int use_gdb_syscalls(void)
+  * Note that it is the caller's responsibility to ensure that the
-     /* -semihosting-config target=auto */
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-     /* On the first call check if gdb is connected and remember. */
+         fpst = NULL;
-     if (gdb_syscall_mode == GDB_SYS_UNKNOWN) {
+         break;
--        gdb_syscall_mode = gdbserver_state.init ?
+     case 0xc: /* FMAXNMP */
--            GDB_SYS_ENABLED : GDB_SYS_DISABLED;
+-    case 0xd: /* FADDP */
-+        gdb_syscall_mode = gdb_attached() ? GDB_SYS_ENABLED : GDB_SYS_DISABLED;
+     case 0xf: /* FMAXP */
-     }
+     case 0x2c: /* FMINNMP */
-     return gdb_syscall_mode == GDB_SYS_ENABLED;
+     case 0x2f: /* FMINP */
- }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ void gdb_do_syscallv(gdb_syscall_complete_cb cb, const char *fmt, va_list va)
+         fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-     target_ulong addr;
+         break;
-     uint64_t i64;
+     default:
++    case 0xd: /* FADDP */
--    if (!gdbserver_state.init) {
+         unallocated_encoding(s);
 +    if (!gdb_attached()) {
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
          case 0xc: /* FMAXNMP */
              gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
              break;
 -        case 0xd: /* FADDP */
 -            gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
 -            break;
          case 0xf: /* FMAXP */
              gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
              break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
              gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
              break;
          default:
 +        case 0xd: /* FADDP */
              g_assert_not_reached();
          }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
              case 0xc: /* FMAXNMP */
                  gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0xd: /* FADDP */
 -                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xf: /* FMAXP */
                  gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0xd: /* FADDP */
                  g_assert_not_reached();
              }
          } else {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
              case 0xc: /* FMAXNMP */
                  gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0xd: /* FADDP */
 -                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
              case 0xf: /* FMAXP */
                  gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
                  gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0xd: /* FADDP */
                  g_assert_not_reached();
              }
          }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
              case 0x58: /* FMAXNMP */
                  gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5a: /* FADDP */
 -                gen_helper_vfp_addd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5e: /* FMAXP */
                  gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x5a: /* FADDP */
                  g_assert_not_reached();
              }
          }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
              case 0x58: /* FMAXNMP */
                  gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
 -            case 0x5a: /* FADDP */
 -                gen_helper_vfp_adds(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x5e: /* FMAXP */
                  gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x5a: /* FADDP */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x58: /* FMAXNMP */
 -    case 0x5a: /* FADDP */
      case 0x5e: /* FMAXP */
      case 0x78: /* FMINNMP */
      case 0x7e: /* FMINP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x3f: /* FRSQRTS */
 +    case 0x5a: /* FADDP */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      switch (fpopcode) {
      case 0x10: /* FMAXNMP */
 -    case 0x12: /* FADDP */
      case 0x16: /* FMAXP */
      case 0x18: /* FMINNMP */
      case 0x1e: /* FMINP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      case 0xa: /* FSUB */
      case 0xe: /* FMIN */
      case 0xf: /* FRSQRTS */
 +    case 0x12: /* FADDP */
      case 0x13: /* FMUL */
      case 0x14: /* FCMGE */
      case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
                                             fpst);
                  break;
 -            case 0x12: /* FADDP */
 -                gen_helper_advsimd_addh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              case 0x16: /* FMAXP */
                  gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                  gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
                  break;
              default:
 +            case 0x12: /* FADDP */
                  g_assert_not_reached();
              }
          }
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_NEON_PAIRWISE(neon_pmin, min)
  #undef DO_NEON_PAIRWISE
 +#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 +{                                                                          \
 +    ARMVectorReg scratch;                                                  \
 +    intptr_t oprsz = simd_oprsz(desc);                                     \
 +    intptr_t half = oprsz / sizeof(TYPE) / 2;                              \
 +    TYPE *d = vd, *n = vn, *m = vm;                                        \
 +    if (unlikely(d == m)) {                                                \
 +        m = memcpy(&scratch, m, oprsz);                                    \
 +    }                                                                      \
 +    for (intptr_t i = 0; i < half; ++i) {                                  \
 +        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)], stat);                \
 +    }                                                                      \
 +    for (intptr_t i = 0; i < half; ++i) {                                  \
 +        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)], stat);         \
 +    }                                                                      \
 +    clear_tail(d, oprsz, simd_maxsz(desc));                                \
 +}
 +
 +DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
 +DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
 +DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
 +
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
      void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
      {                                                                   \
 --
-.25.1
+.34.1

-[PULL 12/28] target/arm: Introduce gen_exception_insn
+[PULL 35/42] target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Create a new wrapper function that passes the default
+These are the last instructions within disas_simd_three_reg_same_fp16,
-exception target to gen_exception_insn_el.
+so remove it.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-13-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.h        |  1 +
+ target/arm/helper.h            |  16 ++
- target/arm/translate-a64.c    | 15 ++++++---------
+ target/arm/tcg/a64.decode      |  24 +++
- target/arm/translate-m-nocp.c |  3 +--
+ target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
- target/arm/translate-mve.c    |  3 +--
+ target/arm/tcg/vec_helper.c    |  16 ++
- target/arm/translate.c        | 29 +++++++++++++----------------
+files changed, 107 insertions(+), 245 deletions(-)
 files changed, 22 insertions(+), 29 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/helper.h
-+++ b/target/arm/translate.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ MemOp pow2_align(unsigned i);
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- void unallocated_encoding(DisasContext *s);
+ DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
+ DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
-                            uint32_t syn, uint32_t target_el);
-+void gen_exception_insn(DisasContext *s, uint64_t pc, int excp, uint32_t syn);
++DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- /* Return state of Alternate Half-precision flag, caller frees result */
++DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
- static inline TCGv_i32 get_ahp_flag(void)
++
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
++DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "tcg/helper-a64.h"
  #include "tcg/helper-sve.h"
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static void gen_sysreg_undef(DisasContext *s, bool isread,
+@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
-     } else {
+ FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
-         syndrome = syn_uncategorized();
+ FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
-     }
--    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syndrome,
++FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
--                          default_exception_el(s));
++FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
-+    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syndrome);
++
 +FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
 +FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
 +
 +FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
 +FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
 +
 +FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
 +FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
  FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
  FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 +FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
 +FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
 +FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
 +
 +FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
 +FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
 +FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
 +FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
  };
  TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
 +    gen_helper_gvec_fmaxp_h,
 +    gen_helper_gvec_fmaxp_s,
 +    gen_helper_gvec_fmaxp_d,
 +};
 +TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
 +    gen_helper_gvec_fminp_h,
 +    gen_helper_gvec_fminp_s,
 +    gen_helper_gvec_fminp_d,
 +};
 +TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
 +    gen_helper_gvec_fmaxnump_h,
 +    gen_helper_gvec_fmaxnump_s,
 +    gen_helper_gvec_fmaxnump_d,
 +};
 +TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
 +
 +static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
 +    gen_helper_gvec_fminnump_h,
 +    gen_helper_gvec_fminnump_s,
 +    gen_helper_gvec_fminnump_d,
 +};
 +TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
  }
- /* MRS - move from system register
+ TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
-@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
++TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
-         switch (op2_ll) {
++TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
-         case 1:                                                     /* SVC */
++TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
-             gen_ss_advance(s);
++TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
--            gen_exception_insn_el(s, s->base.pc_next, EXCP_SWI,
--                                  syn_aa64_svc(imm16), default_exception_el(s));
+ /* Shift a TCGv src by TCGv shift_amount, put result in dst.
-+            gen_exception_insn(s, s->base.pc_next, EXCP_SWI,
+  * Note that it is the caller's responsibility to ensure that the
-+                               syn_aa64_svc(imm16));
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-             break;
+     int opcode = extract32(insn, 12, 5);
-         case 2:                                                     /* HVC */
+     int rn = extract32(insn, 5, 5);
-             if (s->current_el == 0) {
+     int rd = extract32(insn, 0, 5);
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
+-    TCGv_ptr fpst;
-          * Illegal execution state. This has priority over BTI
-          * exceptions, but comes after instruction abort exceptions.
+     /* For some ops (the FP ones), size[1] is part of the encoding.
-          */
+      * For ADDP strictly it is not but size[1] is always 1 for valid
--        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
--                              syn_illegalstate(), default_exception_el(s));
+         if (!fp_access_check(s)) {
-+        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_illegalstate());
+             return;
          }
 -
 -        fpst = NULL;
          break;
 +    default:
      case 0xc: /* FMAXNMP */
 +    case 0xd: /* FADDP */
      case 0xf: /* FMAXP */
      case 0x2c: /* FMINNMP */
      case 0x2f: /* FMINP */
 -        /* FP op, size[0] is 32 or 64 bit*/
 -        if (!u) {
 -            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
 -                unallocated_encoding(s);
 -                return;
 -            } else {
 -                size = MO_16;
 -            }
 -        } else {
 -            size = extract32(size, 0, 1) ? MO_64 : MO_32;
 -        }
 -
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -
 -        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
 -        break;
 -    default:
 -    case 0xd: /* FADDP */
          unallocated_encoding(s);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
-@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
+         case 0x3b: /* ADDP */
-             if (s->btype != 0
+             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
-                 && s->guarded_page
+             break;
-                 && !btype_destination_ok(insn, s->bt, s->btype)) {
+-        case 0xc: /* FMAXNMP */
--                gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+-            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
--                                      syn_btitrap(s->btype),
+-            break;
--                                      default_exception_el(s));
+-        case 0xf: /* FMAXP */
-+                gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+-            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-+                                   syn_btitrap(s->btype));
+-            break;
-                 return;
+-        case 0x2c: /* FMINNMP */
-             }
+-            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-         } else {
+-            break;
-diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
+-        case 0x2f: /* FMINP */
-index XXXXXXX..XXXXXXX 100644
+-            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
---- a/target/arm/translate-m-nocp.c
+-            break;
-+++ b/target/arm/translate-m-nocp.c
+         default:
-@@ -XXX,XX +XXX,XX @@ static bool trans_NOCP(DisasContext *s, arg_nocp *a)
++        case 0xc: /* FMAXNMP */
-     }
+         case 0xd: /* FADDP */
++        case 0xf: /* FMAXP */
-     if (a->cp != 10) {
++        case 0x2c: /* FMINNMP */
--        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
++        case 0x2f: /* FMINP */
--                              syn_uncategorized(), default_exception_el(s));
+             g_assert_not_reached();
-+        gen_exception_insn(s, s->pc_curr, EXCP_NOCP, syn_uncategorized());
+         }
-         return true;
-     }
+         write_fp_dreg(s, rd, tcg_res);
+     } else {
-diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
+-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-index XXXXXXX..XXXXXXX 100644
+-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
---- a/target/arm/translate-mve.c
+-        TCGv_i32 tcg_res = tcg_temp_new_i32();
-+++ b/target/arm/translate-mve.c
+-
-@@ -XXX,XX +XXX,XX @@ bool mve_eci_check(DisasContext *s)
+-        read_vec_element_i32(s, tcg_op1, rn, 0, size);
-         return true;
+-        read_vec_element_i32(s, tcg_op2, rn, 1, size);
-     default:
+-
-         /* Reserved value: INVSTATE UsageFault */
+-        if (size == MO_16) {
--        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+-            switch (opcode) {
--                              default_exception_el(s));
+-            case 0xc: /* FMAXNMP */
-+        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized());
+-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-         return false;
+-                break;
 -            case 0xf: /* FMAXP */
 -                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2c: /* FMINNMP */
 -                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2f: /* FMINP */
 -                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0xd: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        } else {
 -            switch (opcode) {
 -            case 0xc: /* FMAXNMP */
 -                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0xf: /* FMAXP */
 -                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2c: /* FMINNMP */
 -                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x2f: /* FMINP */
 -                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0xd: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        write_fp_sreg(s, rd, tcg_res);
 +        g_assert_not_reached();
      }
  }
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
---- a/target/arm/translate.c
+ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
-+++ b/target/arm/translate.c
+                                    int size, int rn, int rm, int rd)
@@ -XXX,XX +XXX,XX @@ void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
      gen_exception_insn_el_v(s, pc, excp, syn, tcg_constant_i32(target_el));
  }
 +void gen_exception_insn(DisasContext *s, uint64_t pc, int excp, uint32_t syn)
 +{
 +    gen_exception_insn_el(s, pc, excp, syn, default_exception_el(s));
 +}
 +
  static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
  {
-     gen_set_condexec(s);
+-    TCGv_ptr fpst;
-@@ -XXX,XX +XXX,XX @@ static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
+     int pass;
- void unallocated_encoding(DisasContext *s)
- {
+-    /* Floating point operations need fpst */
-     /* Unallocated and reserved encodings are uncategorized */
+-    if (opcode >= 0x58) {
--    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(),
+-        fpst = fpstatus_ptr(FPST_FPCR);
--                          default_exception_el(s));
+-    } else {
-+    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized());
+-        fpst = NULL;
- }
+-    }
+-
- /* Force a TB lookup after an instruction that changes the CPU state.  */
+     if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
       * an exception and return false. Otherwise it will return true,
       * and set *tgtmode and *regno appropriately.
       */
 -    int exc_target = default_exception_el(s);
 -
      /* These instructions are present only in ARMv8, or in ARMv7 with the
       * Virtualization Extensions.
       */
@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
  undef:
      /* If we get here then some access check did not pass */
 -    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
 -                          syn_uncategorized(), exc_target);
 +    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized());
      return false;
  }
@@ -XXX,XX +XXX,XX @@ static bool trans_LE(DisasContext *s, arg_LE *a)
          tmp = load_cpu_field(v7m.ltpsize);
          tcg_gen_brcondi_i32(TCG_COND_EQ, tmp, 4, skipexc);
          tcg_temp_free_i32(tmp);
 -        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 -                              default_exception_el(s));
 +        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized());
          gen_set_label(skipexc);
      }
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
       * UsageFault exception.
       */
      if (arm_dc_feature(s, ARM_FEATURE_M)) {
 -        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
 -                              default_exception_el(s));
 +        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized());
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
-@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
+             case 0x17: /* ADDP */
-          * Illegal execution state. This has priority over BTI
+                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
-          * exceptions, but comes after instruction abort exceptions.
+                 break;
-          */
+-            case 0x58: /* FMAXNMP */
--        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+-                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
--                              syn_illegalstate(), default_exception_el(s));
+-                break;
-+        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_illegalstate());
+-            case 0x5e: /* FMAXP */
 -                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
          }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  genfn = fns[size][u];
                  break;
              }
 -            /* The FP operations are all on single floats (32 bit) */
 -            case 0x58: /* FMAXNMP */
 -                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x5e: /* FMAXP */
 -                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x78: /* FMINNMP */
 -                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x7e: /* FMINP */
 -                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
              default:
 +            case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
 +            case 0x5e: /* FMAXP */
 +            case 0x78: /* FMINNMP */
 +            case 0x7e: /* FMINP */
                  g_assert_not_reached();
              }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      }
      switch (fpopcode) {
 -    case 0x58: /* FMAXNMP */
 -    case 0x5e: /* FMAXP */
 -    case 0x78: /* FMINNMP */
 -    case 0x7e: /* FMINP */
 -        if (size && !is_q) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
 -                               rn, rm, rd);
 -        return;
 -
      case 0x1d: /* FMLAL  */
      case 0x3d: /* FMLSL  */
      case 0x59: /* FMLAL2 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
      case 0x3a: /* FSUB */
      case 0x3e: /* FMIN */
      case 0x3f: /* FRSQRTS */
 +    case 0x58: /* FMAXNMP */
      case 0x5a: /* FADDP */
      case 0x5b: /* FMUL */
      case 0x5c: /* FCMGE */
      case 0x5d: /* FACGE */
 +    case 0x5e: /* FMAXP */
      case 0x5f: /* FDIV */
 +    case 0x78: /* FMINNMP */
      case 0x7a: /* FABD */
      case 0x7d: /* FACGT */
      case 0x7c: /* FCMGT */
 +    case 0x7e: /* FMINP */
          unallocated_encoding(s);
          return;
      }
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
           * Illegal execution state. This has priority over BTI
           * exceptions, but comes after instruction abort exceptions.
           */
 -        gen_exception_insn_el(dc, dc->pc_curr, EXCP_UDEF,
 -                              syn_illegalstate(), default_exception_el(dc));
 +        gen_exception_insn(dc, dc->pc_curr, EXCP_UDEF, syn_illegalstate());
          return;
      }
+ }
-@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
-          */
+-/*
-         tcg_remove_ops_after(dc->insn_eci_rewind);
+- * Advanced SIMD three same (ARMv8.2 FP16 variants)
-         dc->condjmp = 0;
+- *
--        gen_exception_insn_el(dc, dc->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+- *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
--                              default_exception_el(dc));
+- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
-+        gen_exception_insn(dc, dc->pc_curr, EXCP_INVSTATE,
+- * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
-+                           syn_uncategorized());
+- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
-     }
+- *
+- * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
-     arm_post_translate_insn(dc);
+- * (register), FACGE, FABD, FCMGT (register) and FACGT.
 - *
 - */
 -static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
 -{
 -    int opcode = extract32(insn, 11, 3);
 -    int u = extract32(insn, 29, 1);
 -    int a = extract32(insn, 23, 1);
 -    int is_q = extract32(insn, 30, 1);
 -    int rm = extract32(insn, 16, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -    /*
 -     * For these floating point ops, the U, a and opcode bits
 -     * together indicate the operation.
 -     */
 -    int fpopcode = opcode | (a << 3) | (u << 4);
 -    bool pairwise;
 -    TCGv_ptr fpst;
 -    int pass;
 -
 -    switch (fpopcode) {
 -    case 0x10: /* FMAXNMP */
 -    case 0x16: /* FMAXP */
 -    case 0x18: /* FMINNMP */
 -    case 0x1e: /* FMINP */
 -        pairwise = true;
 -        break;
 -    default:
 -    case 0x0: /* FMAXNM */
 -    case 0x1: /* FMLA */
 -    case 0x2: /* FADD */
 -    case 0x3: /* FMULX */
 -    case 0x4: /* FCMEQ */
 -    case 0x6: /* FMAX */
 -    case 0x7: /* FRECPS */
 -    case 0x8: /* FMINNM */
 -    case 0x9: /* FMLS */
 -    case 0xa: /* FSUB */
 -    case 0xe: /* FMIN */
 -    case 0xf: /* FRSQRTS */
 -    case 0x12: /* FADDP */
 -    case 0x13: /* FMUL */
 -    case 0x14: /* FCMGE */
 -    case 0x15: /* FACGE */
 -    case 0x17: /* FDIV */
 -    case 0x1a: /* FABD */
 -    case 0x1c: /* FCMGT */
 -    case 0x1d: /* FACGT */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!dc_isar_feature(aa64_fp16, s)) {
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    fpst = fpstatus_ptr(FPST_FPCR_F16);
 -
 -    if (pairwise) {
 -        int maxpass = is_q ? 8 : 4;
 -        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -        TCGv_i32 tcg_res[8];
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            int passreg = pass < (maxpass / 2) ? rn : rm;
 -            int passelt = (pass << 1) & (maxpass - 1);
 -
 -            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
 -            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
 -            tcg_res[pass] = tcg_temp_new_i32();
 -
 -            switch (fpopcode) {
 -            case 0x10: /* FMAXNMP */
 -                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
 -                                           fpst);
 -                break;
 -            case 0x16: /* FMAXP */
 -                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            case 0x18: /* FMINNMP */
 -                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
 -                                           fpst);
 -                break;
 -            case 0x1e: /* FMINP */
 -                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
 -                break;
 -            default:
 -            case 0x12: /* FADDP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
 -        }
 -    } else {
 -        g_assert_not_reached();
 -    }
 -
 -    clear_vec_high(s, is_q, rd);
 -}
 -
  /* AdvSIMD three same extra
   *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
   * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
      { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
 -    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
      { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
      { 0x00000000, 0x00000000, NULL }
  };
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
  DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
  DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
 +DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
 +DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
 +DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
 +
 +DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
 +DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
 +DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
 +
 +DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
 +DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
 +DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
 +
 +DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
 +DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
 +DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
 +
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
      void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
      {                                                                   \
 --
-.25.1
+.34.1

-[PULL 05/28] target/arm: Move arm_generate_debug_exceptions out of line
+[PULL 36/42] target/arm: Use gvec for neon faddp, fmaxp, fminp
 From: Richard Henderson <richard.henderson@linaro.org>
-Move arm_generate_debug_exceptions and its two subroutines,
-{aa32,aa64}_generate_debug_exceptions into debug_helper.c,
-and the one interface declaration to internals.h.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-6-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h          | 91 -------------------------------------
+ target/arm/helper.h             |  7 -----
- target/arm/internals.h    |  1 +
+ target/arm/tcg/translate-neon.c | 55 ++-------------------------------
- target/arm/debug_helper.c | 94 +++++++++++++++++++++++++++++++++++++++
+ target/arm/tcg/vec_helper.c     | 45 ---------------------------
-files changed, 95 insertions(+), 91 deletions(-)
+files changed, 3 insertions(+), 104 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static inline bool arm_v7m_csselr_razwi(ARMCPU *cpu)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_6(gvec_fcmlas_idx, TCG_CALL_NO_RWG,
-     return (cpu->clidr & R_V7M_CLIDR_CTYPE_ALL_MASK) != 0;
+ DEF_HELPER_FLAGS_6(gvec_fcmlad, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_paddh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pmaxh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pminh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_padds, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pmaxs, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -DEF_HELPER_FLAGS_5(neon_pmins, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 -
  DEF_HELPER_FLAGS_4(gvec_sstoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_sitos, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_ustoh, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-neon.c
 +++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VFMA, gen_helper_gvec_vfma_s, gen_helper_gvec_vfma_h)
  DO_3S_FP_GVEC(VFMS, gen_helper_gvec_vfms_s, gen_helper_gvec_vfms_h)
  DO_3S_FP_GVEC(VRECPS, gen_helper_gvec_recps_nf_s, gen_helper_gvec_recps_nf_h)
  DO_3S_FP_GVEC(VRSQRTS, gen_helper_gvec_rsqrts_nf_s, gen_helper_gvec_rsqrts_nf_h)
 +DO_3S_FP_GVEC(VPADD, gen_helper_gvec_faddp_s, gen_helper_gvec_faddp_h)
 +DO_3S_FP_GVEC(VPMAX, gen_helper_gvec_fmaxp_s, gen_helper_gvec_fmaxp_h)
 +DO_3S_FP_GVEC(VPMIN, gen_helper_gvec_fminp_s, gen_helper_gvec_fminp_h)
  WRAP_FP_GVEC(gen_VMAXNM_fp32_3s, FPST_STD, gen_helper_gvec_fmaxnum_s)
  WRAP_FP_GVEC(gen_VMAXNM_fp16_3s, FPST_STD_F16, gen_helper_gvec_fmaxnum_h)
@@ -XXX,XX +XXX,XX @@ static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
      return do_3same(s, a, gen_VMINNM_fp32_3s);
  }
--/* See AArch64.GenerateDebugExceptionsFrom() in ARM ARM pseudocode */
+-static bool do_3same_fp_pair(DisasContext *s, arg_3same *a,
--static inline bool aa64_generate_debug_exceptions(CPUARMState *env)
+-                             gen_helper_gvec_3_ptr *fn)
 -{
--    int cur_el = arm_current_el(env);
+-    /* FP pairwise operations */
--    int debug_el;
+-    TCGv_ptr fpstatus;
 -
--    if (cur_el == 3) {
+-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 -        return false;
 -    }
 -
--    /* MDCR_EL3.SDD disables debug events from Secure state */
+-    /* UNDEF accesses to D16-D31 if they don't exist. */
--    if (arm_is_secure_below_el3(env)
+-    if (!dc_isar_feature(aa32_simd_r32, s) &&
--        && extract32(env->cp15.mdcr_el3, 16, 1)) {
+-        ((a->vd | a->vn | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
--    /*
+-    if (!vfp_access_check(s)) {
--     * Same EL to same EL debug exceptions need MDSCR_KDE enabled
+-        return true;
 -     * while not masking the (D)ebug bit in DAIF.
 -     */
 -    debug_el = arm_debug_target_el(env);
 -
 -    if (cur_el == debug_el) {
 -        return extract32(env->cp15.mdscr_el1, 13, 1)
 -            && !(env->daif & PSTATE_D);
 -    }
 -
--    /* Otherwise the debug target needs to be a higher EL */
+-    assert(a->q == 0); /* enforced by decode patterns */
--    return debug_el > cur_el;
+-
 -
 -    fpstatus = fpstatus_ptr(a->size == MO_16 ? FPST_STD_F16 : FPST_STD);
 -    tcg_gen_gvec_3_ptr(vfp_reg_offset(1, a->vd),
 -                       vfp_reg_offset(1, a->vn),
 -                       vfp_reg_offset(1, a->vm),
 -                       fpstatus, 8, 8, 0, fn);
 -
 -    return true;
 -}
 -
--static inline bool aa32_generate_debug_exceptions(CPUARMState *env)
+-/*
--{
+- * For all the functions using this macro, size == 1 means fp16,
--    int el = arm_current_el(env);
+- * which is an architecture extension we don't implement yet.
--
+- */
--    if (el == 0 && arm_el_is_aa64(env, 1)) {
+-#define DO_3S_FP_PAIR(INSN,FUNC)                                    \
--        return aa64_generate_debug_exceptions(env);
+-    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
 -    {                                                               \
 -        if (a->size == MO_16) {                                     \
 -            if (!dc_isar_feature(aa32_fp16_arith, s)) {             \
 -                return false;                                       \
 -            }                                                       \
 -            return do_3same_fp_pair(s, a, FUNC##h);                 \
 -        }                                                           \
 -        return do_3same_fp_pair(s, a, FUNC##s);                     \
 -    }
 -
--    if (arm_is_secure(env)) {
+-DO_3S_FP_PAIR(VPADD, gen_helper_neon_padd)
--        int spd;
+-DO_3S_FP_PAIR(VPMAX, gen_helper_neon_pmax)
 -DO_3S_FP_PAIR(VPMIN, gen_helper_neon_pmin)
 -
--        if (el == 0 && (env->cp15.sder & 1)) {
+ static bool do_vector_2sh(DisasContext *s, arg_2reg_shift *a, GVecGen2iFn *fn)
--            /* SDER.SUIDEN means debug exceptions from Secure EL0
+ {
--             * are always enabled. Otherwise they are controlled by
+     /* Handle a 2-reg-shift insn which can be vectorized. */
--             * SDCR.SPD like those from other Secure ELs.
+diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
--             */
+index XXXXXXX..XXXXXXX 100644
--            return true;
+--- a/target/arm/tcg/vec_helper.c
--        }
++++ b/target/arm/tcg/vec_helper.c
--
+@@ -XXX,XX +XXX,XX @@ DO_ABA(gvec_uaba_d, uint64_t)
--        spd = extract32(env->cp15.mdcr_el3, 14, 2);
--        switch (spd) {
+ #undef DO_ABA
--        case 1:
--            /* SPD == 0b01 is reserved, but behaves as 0b00. */
+-#define DO_NEON_PAIRWISE(NAME, OP)                                      \
--        case 0:
+-    void HELPER(NAME##s)(void *vd, void *vn, void *vm,                  \
--            /* For 0b00 we return true if external secure invasive debug
+-                         void *stat, uint32_t oprsz)                    \
--             * is enabled. On real hardware this is controlled by external
+-    {                                                                   \
--             * signals to the core. QEMU always permits debug, and behaves
+-        float_status *fpst = stat;                                      \
--             * as if DBGEN, SPIDEN, NIDEN and SPNIDEN are all tied high.
+-        float32 *d = vd;                                                \
--             */
+-        float32 *n = vn;                                                \
--            return true;
+-        float32 *m = vm;                                                \
--        case 2:
+-        float32 r0, r1;                                                 \
--            return false;
+-                                                                        \
--        case 3:
+-        /* Read all inputs before writing outputs in case vm == vd */   \
--            return true;
+-        r0 = float32_##OP(n[H4(0)], n[H4(1)], fpst);                    \
--        }
+-        r1 = float32_##OP(m[H4(0)], m[H4(1)], fpst);                    \
 -                                                                        \
 -        d[H4(0)] = r0;                                                  \
 -        d[H4(1)] = r1;                                                  \
 -    }                                                                   \
 -                                                                        \
 -    void HELPER(NAME##h)(void *vd, void *vn, void *vm,                  \
 -                         void *stat, uint32_t oprsz)                    \
 -    {                                                                   \
 -        float_status *fpst = stat;                                      \
 -        float16 *d = vd;                                                \
 -        float16 *n = vn;                                                \
 -        float16 *m = vm;                                                \
 -        float16 r0, r1, r2, r3;                                         \
 -                                                                        \
 -        /* Read all inputs before writing outputs in case vm == vd */   \
 -        r0 = float16_##OP(n[H2(0)], n[H2(1)], fpst);                    \
 -        r1 = float16_##OP(n[H2(2)], n[H2(3)], fpst);                    \
 -        r2 = float16_##OP(m[H2(0)], m[H2(1)], fpst);                    \
 -        r3 = float16_##OP(m[H2(2)], m[H2(3)], fpst);                    \
 -                                                                        \
 -        d[H2(0)] = r0;                                                  \
 -        d[H2(1)] = r1;                                                  \
 -        d[H2(2)] = r2;                                                  \
 -        d[H2(3)] = r3;                                                  \
 -    }
 -
--    return el != 2;
+-DO_NEON_PAIRWISE(neon_padd, add)
--}
+-DO_NEON_PAIRWISE(neon_pmax, max)
 -DO_NEON_PAIRWISE(neon_pmin, min)
 -
--/* Return true if debugging exceptions are currently enabled.
+-#undef DO_NEON_PAIRWISE
 - * This corresponds to what in ARM ARM pseudocode would be
 - *    if UsingAArch32() then
 - *        return AArch32.GenerateDebugExceptions()
 - *    else
 - *        return AArch64.GenerateDebugExceptions()
 - * We choose to push the if() down into this function for clarity,
 - * since the pseudocode has it at all callsites except for the one in
 - * CheckSoftwareStep(), where it is elided because both branches would
 - * always return the same value.
 - */
 -static inline bool arm_generate_debug_exceptions(CPUARMState *env)
 -{
 -    if (env->aarch64) {
 -        return aa64_generate_debug_exceptions(env);
 -    } else {
 -        return aa32_generate_debug_exceptions(env);
 -    }
 -}
 -
- static inline bool arm_sctlr_b(CPUARMState *env)
+ #define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
- {
+ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
-     return
+ {                                                                          \
 diff --git a/target/arm/internals.h b/target/arm/internals.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/internals.h
 +++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ bool el_is_in_host(CPUARMState *env, int el);
  void aa32_max_features(ARMCPU *cpu);
  int exception_target_el(CPUARMState *env);
  bool arm_singlestep_active(CPUARMState *env);
 +bool arm_generate_debug_exceptions(CPUARMState *env);
  /* Powers of 2 for sve_vq_map et al. */
  #define SVE_VQ_POW2_MAP                                 \
 diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/debug_helper.c
 +++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@
  #include "exec/helper-proto.h"
 +/* See AArch64.GenerateDebugExceptionsFrom() in ARM ARM pseudocode */
 +static bool aa64_generate_debug_exceptions(CPUARMState *env)
 +{
 +    int cur_el = arm_current_el(env);
 +    int debug_el;
 +
 +    if (cur_el == 3) {
 +        return false;
 +    }
 +
 +    /* MDCR_EL3.SDD disables debug events from Secure state */
 +    if (arm_is_secure_below_el3(env)
 +        && extract32(env->cp15.mdcr_el3, 16, 1)) {
 +        return false;
 +    }
 +
 +    /*
 +     * Same EL to same EL debug exceptions need MDSCR_KDE enabled
 +     * while not masking the (D)ebug bit in DAIF.
 +     */
 +    debug_el = arm_debug_target_el(env);
 +
 +    if (cur_el == debug_el) {
 +        return extract32(env->cp15.mdscr_el1, 13, 1)
 +            && !(env->daif & PSTATE_D);
 +    }
 +
 +    /* Otherwise the debug target needs to be a higher EL */
 +    return debug_el > cur_el;
 +}
 +
 +static bool aa32_generate_debug_exceptions(CPUARMState *env)
 +{
 +    int el = arm_current_el(env);
 +
 +    if (el == 0 && arm_el_is_aa64(env, 1)) {
 +        return aa64_generate_debug_exceptions(env);
 +    }
 +
 +    if (arm_is_secure(env)) {
 +        int spd;
 +
 +        if (el == 0 && (env->cp15.sder & 1)) {
 +            /*
 +             * SDER.SUIDEN means debug exceptions from Secure EL0
 +             * are always enabled. Otherwise they are controlled by
 +             * SDCR.SPD like those from other Secure ELs.
 +             */
 +            return true;
 +        }
 +
 +        spd = extract32(env->cp15.mdcr_el3, 14, 2);
 +        switch (spd) {
 +        case 1:
 +            /* SPD == 0b01 is reserved, but behaves as 0b00. */
 +        case 0:
 +            /*
 +             * For 0b00 we return true if external secure invasive debug
 +             * is enabled. On real hardware this is controlled by external
 +             * signals to the core. QEMU always permits debug, and behaves
 +             * as if DBGEN, SPIDEN, NIDEN and SPNIDEN are all tied high.
 +             */
 +            return true;
 +        case 2:
 +            return false;
 +        case 3:
 +            return true;
 +        }
 +    }
 +
 +    return el != 2;
 +}
 +
 +/*
 + * Return true if debugging exceptions are currently enabled.
 + * This corresponds to what in ARM ARM pseudocode would be
 + *    if UsingAArch32() then
 + *        return AArch32.GenerateDebugExceptions()
 + *    else
 + *        return AArch64.GenerateDebugExceptions()
 + * We choose to push the if() down into this function for clarity,
 + * since the pseudocode has it at all callsites except for the one in
 + * CheckSoftwareStep(), where it is elided because both branches would
 + * always return the same value.
 + */
 +bool arm_generate_debug_exceptions(CPUARMState *env)
 +{
 +    if (env->aarch64) {
 +        return aa64_generate_debug_exceptions(env);
 +    } else {
 +        return aa32_generate_debug_exceptions(env);
 +    }
 +}
 +
  /*
   * Is single-stepping active? (Note that the "is EL_D AArch64?" check
   * implicitly means this always returns false in pre-v8 CPUs.)
 --
-.25.1
+.34.1

-[PULL 15/28] target/arm: Move gen_exception to translate.c
+[PULL 37/42] target/arm: Convert ADDP to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This function is not required by any other translation file.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-16-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.h | 8 --------
+ target/arm/helper.h            |   5 ++
- target/arm/translate.c | 7 +++++++
+ target/arm/tcg/translate.h     |   3 +
-files changed, 7 insertions(+), 8 deletions(-)
+ target/arm/tcg/a64.decode      |   6 ++
  target/arm/tcg/gengvec.c       |  12 ++++
  target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
  target/arm/tcg/vec_helper.c    |  30 ++++++++
 files changed, 77 insertions(+), 107 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/helper.h
-+++ b/target/arm/translate.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ static inline void gen_ss_advance(DisasContext *s)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i
  DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_addp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "tcg/helper-a64.h"
  #include "tcg/helper-sve.h"
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
  void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                     uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
  &qrrrr_e        q rd rn rm ra esz
  @rr_h           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=1
 +@rr_d           ........ ... ..... ...... rn:5 rd:5     &rr_e esz=3
  @rr_sd          ........ ... ..... ...... rn:5 rd:5     &rr_e esz=%esz_sd
  @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
@@ -XXX,XX +XXX,XX @@
  @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
  @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 +@qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
  @qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
                  &qrrx_e esz=1 idx=%hlm
@@ -XXX,XX +XXX,XX @@ FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
  FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
  FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
 +ADDP_s          0101 1110 1111 0001 1011 10 ..... ..... @rr_d
 +
  ### Advanced SIMD three same
  FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
  FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
  FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 +ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/gengvec.c
 +++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      };
      tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
  }
 +
 +void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_addp_b,
 +        gen_helper_gvec_addp_h,
 +        gen_helper_gvec_addp_s,
 +        gen_helper_gvec_addp_d,
 +    };
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  };
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
  TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
  TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
 +static bool trans_ADDP_s(DisasContext *s, arg_rr_e *a)
 +{
 +    if (fp_access_check(s)) {
 +        TCGv_i64 t0 = tcg_temp_new_i64();
 +        TCGv_i64 t1 = tcg_temp_new_i64();
 +
 +        read_vec_element(s, t0, a->rn, 0, MO_64);
 +        read_vec_element(s, t1, a->rn, 1, MO_64);
 +        tcg_gen_add_i64(t0, t0, t1);
 +        write_fp_dreg(s, a->rd, t0);
 +    }
 +    return true;
 +}
 +
  /* Shift a TCGv src by TCGv shift_amount, put result in dst.
   * Note that it is the caller's responsibility to ensure that the
   * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
      }
  }
--static inline void gen_exception(int excp, uint32_t syndrome,
+-/* AdvSIMD scalar pairwise
--                                 uint32_t target_el)
+- *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
 - * +-----+---+-----------+------+-----------+--------+-----+------+------+
 - * | 0 1 | U | 1 1 1 1 0 | size | 1 1 0 0 0 | opcode | 1 0 |  Rn  |  Rd  |
 - * +-----+---+-----------+------+-----------+--------+-----+------+------+
 - */
 -static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
 -{
--    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
+-    int u = extract32(insn, 29, 1);
--                                          tcg_constant_i32(syndrome),
+-    int size = extract32(insn, 22, 2);
--                                          tcg_constant_i32(target_el));
+-    int opcode = extract32(insn, 12, 5);
 -    int rn = extract32(insn, 5, 5);
 -    int rd = extract32(insn, 0, 5);
 -
 -    /* For some ops (the FP ones), size[1] is part of the encoding.
 -     * For ADDP strictly it is not but size[1] is always 1 for valid
 -     * encodings.
 -     */
 -    opcode |= (extract32(size, 1, 1) << 5);
 -
 -    switch (opcode) {
 -    case 0x3b: /* ADDP */
 -        if (u || size != 3) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        if (!fp_access_check(s)) {
 -            return;
 -        }
 -        break;
 -    default:
 -    case 0xc: /* FMAXNMP */
 -    case 0xd: /* FADDP */
 -    case 0xf: /* FMAXP */
 -    case 0x2c: /* FMINNMP */
 -    case 0x2f: /* FMINP */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -
 -    if (size == MO_64) {
 -        TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -        TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -        TCGv_i64 tcg_res = tcg_temp_new_i64();
 -
 -        read_vec_element(s, tcg_op1, rn, 0, MO_64);
 -        read_vec_element(s, tcg_op2, rn, 1, MO_64);
 -
 -        switch (opcode) {
 -        case 0x3b: /* ADDP */
 -            tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
 -            break;
 -        default:
 -        case 0xc: /* FMAXNMP */
 -        case 0xd: /* FADDP */
 -        case 0xf: /* FMAXP */
 -        case 0x2c: /* FMINNMP */
 -        case 0x2f: /* FMINP */
 -            g_assert_not_reached();
 -        }
 -
 -        write_fp_dreg(s, rd, tcg_res);
 -    } else {
 -        g_assert_not_reached();
 -    }
 -}
 -
- /* Generate an architectural singlestep exception */
+ /*
- static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
+  * Common SSHR[RA]/USHR[RA] - Shift right (optional rounding/accumulate)
- {
+  *
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
-index XXXXXXX..XXXXXXX 100644
+      * adjacent elements being operated on to produce an element in the result.
---- a/target/arm/translate.c
+      */
-+++ b/target/arm/translate.c
+     if (size == 3) {
-@@ -XXX,XX +XXX,XX @@ static void gen_exception_internal_insn(DisasContext *s, uint32_t pc, int excp)
+-        TCGv_i64 tcg_res[2];
-     s->base.is_jmp = DISAS_NORETURN;
+-
 -        for (pass = 0; pass < 2; pass++) {
 -            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
 -            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
 -            int passreg = (pass == 0) ? rn : rm;
 -
 -            read_vec_element(s, tcg_op1, passreg, 0, MO_64);
 -            read_vec_element(s, tcg_op2, passreg, 1, MO_64);
 -            tcg_res[pass] = tcg_temp_new_i64();
 -
 -            switch (opcode) {
 -            case 0x17: /* ADDP */
 -                tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
 -                break;
 -            default:
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -        }
 -
 -        for (pass = 0; pass < 2; pass++) {
 -            write_vec_element(s, tcg_res[pass], rd, pass, MO_64);
 -        }
 +        g_assert_not_reached();
      } else {
          int maxpass = is_q ? 4 : 2;
          TCGv_i32 tcg_res[4];
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
              tcg_res[pass] = tcg_temp_new_i32();
              switch (opcode) {
 -            case 0x17: /* ADDP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3] = {
 -                    gen_helper_neon_padd_u8,
 -                    gen_helper_neon_padd_u16,
 -                    tcg_gen_add_i32,
 -                };
 -                genfn = fns[size];
 -                break;
 -            }
              case 0x14: /* SMAXP, UMAXP */
              {
                  static NeonGenTwoOpFn * const fns[3][2] = {
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                  break;
              }
              default:
 +            case 0x17: /* ADDP */
              case 0x58: /* FMAXNMP */
              case 0x5a: /* FADDP */
              case 0x5e: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x17: /* ADDP */
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      default:
          disas_simd_3same_int(s, insn);
          break;
 +    case 0x17: /* ADDP */
 +        unallocated_encoding(s);
 +        break;
      }
  }
-+static void gen_exception(int excp, uint32_t syndrome, uint32_t target_el)
+@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
-+{
+     { 0x5e008400, 0xdf208400, disas_simd_scalar_three_reg_same_extra },
-+    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
+     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
-+                                          tcg_constant_i32(syndrome),
+     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
-+                                          tcg_constant_i32(target_el));
+-    { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
      { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
      { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
      { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
  DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
  DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
 +#undef DO_3OP_PAIR
 +
 +#define DO_3OP_PAIR(NAME, FUNC, TYPE, H) \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
 +{                                                               \
 +    ARMVectorReg scratch;                                       \
 +    intptr_t oprsz = simd_oprsz(desc);                          \
 +    intptr_t half = oprsz / sizeof(TYPE) / 2;                   \
 +    TYPE *d = vd, *n = vn, *m = vm;                             \
 +    if (unlikely(d == m)) {                                     \
 +        m = memcpy(&scratch, m, oprsz);                         \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i)] = FUNC(n[H(i * 2)], n[H(i * 2 + 1)]);           \
 +    }                                                           \
 +    for (intptr_t i = 0; i < half; ++i) {                       \
 +        d[H(i + half)] = FUNC(m[H(i * 2)], m[H(i * 2 + 1)]);    \
 +    }                                                           \
 +    clear_tail(d, oprsz, simd_maxsz(desc));                     \
 +}
 +
- static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
++#define ADD(A, B) (A + B)
-                                     uint32_t syn, TCGv_i32 tcg_el)
++DO_3OP_PAIR(gvec_addp_b, ADD, uint8_t, H1)
- {
++DO_3OP_PAIR(gvec_addp_h, ADD, uint16_t, H2)
 +DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
 +DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
 +#undef  ADD
 +
 +#undef DO_3OP_PAIR
 +
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
      void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
      {                                                                   \
 --
-.25.1
+.34.1

-[PULL 09/28] target/arm: Rename helper_exception_with_syndrome
+[PULL 38/42] target/arm: Use gvec for neon padd
 From: Richard Henderson <richard.henderson@linaro.org>
-Rename to helper_exception_with_syndrome_el, to emphasize
-that the target el is a parameter.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-10-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h    | 2 +-
+ target/arm/helper.h             | 2 --
- target/arm/translate.h | 6 +++---
+ target/arm/tcg/neon_helper.c    | 5 -----
- target/arm/op_helper.c | 6 +++---
+ target/arm/tcg/translate-neon.c | 3 +--
- target/arm/translate.c | 6 +++---
+files changed, 1 insertion(+), 9 deletions(-)
 files changed, 10 insertions(+), 10 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.h
 +++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(usad8, TCG_CALL_NO_RWG_SE, i32, i32, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
- DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
-                    i32, i32, i32, i32)
+ DEF_HELPER_2(neon_add_u8, i32, i32, i32)
- DEF_HELPER_2(exception_internal, noreturn, env, i32)
+ DEF_HELPER_2(neon_add_u16, i32, i32, i32)
--DEF_HELPER_4(exception_with_syndrome, noreturn, env, i32, i32, i32)
+-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
-+DEF_HELPER_4(exception_with_syndrome_el, noreturn, env, i32, i32, i32)
+-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
- DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
+ DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
- DEF_HELPER_2(exception_pc_alignment, noreturn, env, tl)
+ DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
- DEF_HELPER_1(setend, void, env)
+ DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/tcg/neon_helper.c
-+++ b/target/arm/translate.h
++++ b/target/arm/tcg/neon_helper.c
-@@ -XXX,XX +XXX,XX @@ static inline void gen_ss_advance(DisasContext *s)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
- static inline void gen_exception(int excp, uint32_t syndrome,
+     return (a + b) ^ mask;
                                   uint32_t target_el)
  {
 -    gen_helper_exception_with_syndrome(cpu_env, tcg_constant_i32(excp),
 -                                       tcg_constant_i32(syndrome),
 -                                       tcg_constant_i32(target_el));
 +    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
 +                                          tcg_constant_i32(syndrome),
 +                                          tcg_constant_i32(target_el));
  }
- /* Generate an architectural singlestep exception */
+-#define NEON_FN(dest, src1, src2) dest = src1 + src2
-diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
+-NEON_POP(padd_u8, neon_u8, 4)
 -NEON_POP(padd_u16, neon_u16, 2)
 -#undef NEON_FN
 -
  #define NEON_FN(dest, src1, src2) dest = src1 - src2
  NEON_VOP(sub_u8, neon_u8, 4)
  NEON_VOP(sub_u16, neon_u16, 2)
 diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/op_helper.c
+--- a/target/arm/tcg/translate-neon.c
-+++ b/target/arm/op_helper.c
++++ b/target/arm/tcg/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(yield)(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
-  * those EXCP values which are special cases for QEMU to interrupt
+ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
-  * execution and not to be used for exceptions which are passed to
+ DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
-  * the guest (those must all have syndrome information and thus should
+ DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
-- * use exception_with_syndrome).
++DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
-+ * use exception_with_syndrome*).
-  */
+ #define DO_3SAME_CMP(INSN, COND)                                        \
- void HELPER(exception_internal)(CPUARMState *env, uint32_t excp)
+     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
- {
+@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
-@@ -XXX,XX +XXX,XX @@ void HELPER(exception_internal)(CPUARMState *env, uint32_t excp)
+ #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
- }
+ #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
+ #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
- /* Raise an exception with the specified syndrome register value */
+-#define gen_helper_neon_padd_u32  tcg_gen_add_i32
--void HELPER(exception_with_syndrome)(CPUARMState *env, uint32_t excp,
--                                     uint32_t syndrome, uint32_t target_el)
+ DO_3SAME_PAIR(VPMAX_S, pmax_s)
-+void HELPER(exception_with_syndrome_el)(CPUARMState *env, uint32_t excp,
+ DO_3SAME_PAIR(VPMIN_S, pmin_s)
-+                                        uint32_t syndrome, uint32_t target_el)
+ DO_3SAME_PAIR(VPMAX_U, pmax_u)
- {
+ DO_3SAME_PAIR(VPMIN_U, pmin_u)
-     raise_exception(env, excp, syndrome, target_el);
+-DO_3SAME_PAIR(VPADD, padd_u)
- }
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+ #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
-index XXXXXXX..XXXXXXX 100644
+     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_el(DisasContext *s, int excp, uint32_t syn,
  {
      gen_set_condexec(s);
      gen_set_pc_im(s, s->pc_curr);
 -    gen_helper_exception_with_syndrome(cpu_env,
 -                                       tcg_constant_i32(excp),
 -                                       tcg_constant_i32(syn), tcg_el);
 +    gen_helper_exception_with_syndrome_el(cpu_env,
 +                                          tcg_constant_i32(excp),
 +                                          tcg_constant_i32(syn), tcg_el);
      s->base.is_jmp = DISAS_NORETURN;
  }
 --
-.25.1
+.34.1

-[PULL 22/28] target/arm: Move arm_debug_target_el to debug_helper.c
+[PULL 39/42] target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-This function is no longer used outside debug_helper.c.
+These are the last instructions within handle_simd_3same_pair
 so remove it.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-23-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h          | 21 ---------------------
+ target/arm/helper.h            |  16 +++++
- target/arm/debug_helper.c | 21 +++++++++++++++++++++
+ target/arm/tcg/translate.h     |   8 +++
-files changed, 21 insertions(+), 21 deletions(-)
+ target/arm/tcg/a64.decode      |   4 ++
  target/arm/tcg/gengvec.c       |  48 +++++++++++++
  target/arm/tcg/translate-a64.c | 119 +++++----------------------------
  target/arm/tcg/vec_helper.c    |  16 +++++
 files changed, 109 insertions(+), 102 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/helper.h
-+++ b/target/arm/cpu.h
++++ b/target/arm/helper.h
-@@ -XXX,XX +XXX,XX @@ typedef enum ARMASIdx {
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_addp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
-     ARMASIdx_TagS = 3,
+ DEF_HELPER_FLAGS_4(gvec_addp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
- } ARMASIdx;
+ DEF_HELPER_FLAGS_4(gvec_addp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
--/* Return the Exception Level targeted by debug exceptions. */
++DEF_HELPER_FLAGS_4(gvec_smaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
--static inline int arm_debug_target_el(CPUARMState *env)
++DEF_HELPER_FLAGS_4(gvec_smaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_smaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_sminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_sminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_sminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_umaxp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_umaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_umaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_uminp_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "tcg/helper-a64.h"
  #include "tcg/helper-sve.h"
 diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate.h
 +++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
  void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                     uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
 diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/a64.decode
 +++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
  FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
  ADDP_v          0.00 1110 ..1 ..... 10111 1 ..... ..... @qrrr_e
 +SMAXP_v         0.00 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 +SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 +UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 +UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
  ### Advanced SIMD scalar x indexed element
 diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/gengvec.c
 +++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_addp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      };
      tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
  }
 +
 +void gen_gvec_smaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_smaxp_b,
 +        gen_helper_gvec_smaxp_h,
 +        gen_helper_gvec_smaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_sminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_sminp_b,
 +        gen_helper_gvec_sminp_h,
 +        gen_helper_gvec_sminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_umaxp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_umaxp_b,
 +        gen_helper_gvec_umaxp_h,
 +        gen_helper_gvec_umaxp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 +
 +void gen_gvec_uminp(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3 * const fns[4] = {
 +        gen_helper_gvec_uminp_b,
 +        gen_helper_gvec_uminp_h,
 +        gen_helper_gvec_uminp_s,
 +    };
 +    tcg_debug_assert(vece <= MO_32);
 +    tcg_gen_gvec_3_ool(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, 0, fns[vece]);
 +}
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
      return true;
  }
 +static bool do_gvec_fn3_no64(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
 +{
 +    if (a->esz == MO_64) {
 +        return false;
 +    }
 +    if (fp_access_check(s)) {
 +        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
 +    }
 +    return true;
 +}
 +
  static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
  {
      if (!a->q && a->esz == MO_64) {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
 +TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
 +TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 +TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 +TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
  /*
   * Advanced SIMD scalar/vector x indexed element
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
      }
  }
 -/* Pairwise op subgroup of C3.6.16.
 - *
 - * This is called directly for float pairwise
 - * operations where the opcode and size are calculated differently.
 - */
 -static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
 -                                   int size, int rn, int rm, int rd)
 -{
--    bool secure = arm_is_secure(env);
+-    int pass;
--    bool route_to_el2 = false;
+-
--
+-    if (!fp_access_check(s)) {
--    if (arm_is_el2_enabled(env)) {
+-        return;
 -        route_to_el2 = env->cp15.hcr_el2 & HCR_TGE ||
 -                       env->cp15.mdcr_el2 & MDCR_TDE;
 -    }
 -
--    if (route_to_el2) {
+-    /* These operations work on the concatenated rm:rn, with each pair of
--        return 2;
+-     * adjacent elements being operated on to produce an element in the result.
--    } else if (arm_feature(env, ARM_FEATURE_EL3) &&
+-     */
--               !arm_el_is_aa64(env, 3) && secure) {
+-    if (size == 3) {
--        return 3;
+-        g_assert_not_reached();
 -    } else {
--        return 1;
+-        int maxpass = is_q ? 4 : 2;
 -        TCGv_i32 tcg_res[4];
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
 -            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
 -            NeonGenTwoOpFn *genfn = NULL;
 -            int passreg = pass < (maxpass / 2) ? rn : rm;
 -            int passelt = (is_q && (pass & 1)) ? 2 : 0;
 -
 -            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_32);
 -            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_32);
 -            tcg_res[pass] = tcg_temp_new_i32();
 -
 -            switch (opcode) {
 -            case 0x14: /* SMAXP, UMAXP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmax_s8, gen_helper_neon_pmax_u8 },
 -                    { gen_helper_neon_pmax_s16, gen_helper_neon_pmax_u16 },
 -                    { tcg_gen_smax_i32, tcg_gen_umax_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            case 0x15: /* SMINP, UMINP */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_pmin_s8, gen_helper_neon_pmin_u8 },
 -                    { gen_helper_neon_pmin_s16, gen_helper_neon_pmin_u16 },
 -                    { tcg_gen_smin_i32, tcg_gen_umin_i32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
 -            default:
 -            case 0x17: /* ADDP */
 -            case 0x58: /* FMAXNMP */
 -            case 0x5a: /* FADDP */
 -            case 0x5e: /* FMAXP */
 -            case 0x78: /* FMINNMP */
 -            case 0x7e: /* FMINP */
 -                g_assert_not_reached();
 -            }
 -
 -            /* FP ops called directly, otherwise call now */
 -            if (genfn) {
 -                genfn(tcg_res[pass], tcg_op1, tcg_op2);
 -            }
 -        }
 -
 -        for (pass = 0; pass < maxpass; pass++) {
 -            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_32);
 -        }
 -        clear_vec_high(s, is_q, rd);
 -    }
 -}
 -
- static inline bool arm_v7m_csselr_razwi(ARMCPU *cpu)
+ /* Floating point op subgroup of C3.6.16. */
  static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
  {
-     /* If all the CLIDR.Ctypem bits are 0 there are no caches, and
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
+     case 0x3: /* logic ops */
-index XXXXXXX..XXXXXXX 100644
+         disas_simd_3same_logic(s, insn);
---- a/target/arm/debug_helper.c
+         break;
-+++ b/target/arm/debug_helper.c
+-    case 0x14: /* SMAXP, UMAXP */
-@@ -XXX,XX +XXX,XX @@
+-    case 0x15: /* SMINP, UMINP */
- #include "exec/helper-proto.h"
+-    {
+-        /* Pairwise operations */
+-        int is_q = extract32(insn, 30, 1);
-+/* Return the Exception Level targeted by debug exceptions. */
+-        int u = extract32(insn, 29, 1);
-+static int arm_debug_target_el(CPUARMState *env)
+-        int size = extract32(insn, 22, 2);
-+{
+-        int rm = extract32(insn, 16, 5);
-+    bool secure = arm_is_secure(env);
+-        int rn = extract32(insn, 5, 5);
-+    bool route_to_el2 = false;
+-        int rd = extract32(insn, 0, 5);
-+
+-        if (opcode == 0x17) {
-+    if (arm_is_el2_enabled(env)) {
+-            if (u || (size == 3 && !is_q)) {
-+        route_to_el2 = env->cp15.hcr_el2 & HCR_TGE ||
+-                unallocated_encoding(s);
-+                       env->cp15.mdcr_el2 & MDCR_TDE;
+-                return;
-+    }
+-            }
-+
+-        } else {
-+    if (route_to_el2) {
+-            if (size == 3) {
-+        return 2;
+-                unallocated_encoding(s);
-+    } else if (arm_feature(env, ARM_FEATURE_EL3) &&
+-                return;
-+               !arm_el_is_aa64(env, 3) && secure) {
+-            }
-+        return 3;
+-        }
-+    } else {
+-        handle_simd_3same_pair(s, is_q, u, opcode, size, rn, rm, rd);
-+        return 1;
+-        break;
-+    }
+-    }
-+}
+     case 0x18 ... 0x31:
-+
+         /* floating point ops, sz[1] and U are part of opcode */
- /*
+         disas_simd_3same_float(s, insn);
-  * Raise an exception to the debug target el.
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
-  * Modify syndrome to indicate when origin and target EL are the same.
+     default:
          disas_simd_3same_int(s, insn);
          break;
 +    case 0x14: /* SMAXP, UMAXP */
 +    case 0x15: /* SMINP, UMINP */
      case 0x17: /* ADDP */
          unallocated_encoding(s);
          break;
 diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/vec_helper.c
 +++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_addp_s, ADD, uint32_t, H4)
  DO_3OP_PAIR(gvec_addp_d, ADD, uint64_t, )
  #undef  ADD
 +DO_3OP_PAIR(gvec_smaxp_b, MAX, int8_t, H1)
 +DO_3OP_PAIR(gvec_smaxp_h, MAX, int16_t, H2)
 +DO_3OP_PAIR(gvec_smaxp_s, MAX, int32_t, H4)
 +
 +DO_3OP_PAIR(gvec_umaxp_b, MAX, uint8_t, H1)
 +DO_3OP_PAIR(gvec_umaxp_h, MAX, uint16_t, H2)
 +DO_3OP_PAIR(gvec_umaxp_s, MAX, uint32_t, H4)
 +
 +DO_3OP_PAIR(gvec_sminp_b, MIN, int8_t, H1)
 +DO_3OP_PAIR(gvec_sminp_h, MIN, int16_t, H2)
 +DO_3OP_PAIR(gvec_sminp_s, MIN, int32_t, H4)
 +
 +DO_3OP_PAIR(gvec_uminp_b, MIN, uint8_t, H1)
 +DO_3OP_PAIR(gvec_uminp_h, MIN, uint16_t, H2)
 +DO_3OP_PAIR(gvec_uminp_s, MIN, uint32_t, H4)
 +
  #undef DO_3OP_PAIR
  #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
 --
-.25.1
+.34.1

-[PULL 03/28] target/arm: Move exception_target_el out of line
+[PULL 40/42] target/arm: Use gvec for neon pmax, pmin
 From: Richard Henderson <richard.henderson@linaro.org>
-Move the function to op_helper.c, near raise_exception.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-4-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/internals.h | 16 +---------------
+ target/arm/tcg/translate-neon.c | 78 ++-------------------------------
- target/arm/op_helper.c | 15 +++++++++++++++
+file changed, 4 insertions(+), 74 deletions(-)
 files changed, 16 insertions(+), 15 deletions(-)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+--- a/target/arm/tcg/translate-neon.c
-+++ b/target/arm/internals.h
++++ b/target/arm/tcg/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
+@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
- int aa64_va_parameter_tbi(uint64_t tcr, ARMMMUIdx mmu_idx);
+ DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
- int aa64_va_parameter_tbid(uint64_t tcr, ARMMMUIdx mmu_idx);
+ DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
+ DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
--static inline int exception_target_el(CPUARMState *env)
++DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
 +DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
 +DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
 +DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
  #define DO_3SAME_CMP(INSN, COND)                                        \
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
  DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
  DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
 -static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
 -{
--    int target_el = MAX(1, arm_current_el(env));
+-    /* Operations handled pairwise 32 bits at a time */
 -    TCGv_i32 tmp, tmp2, tmp3;
 -
 -    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 -        return false;
 -    }
 -
 -    /* UNDEF accesses to D16-D31 if they don't exist. */
 -    if (!dc_isar_feature(aa32_simd_r32, s) &&
 -        ((a->vd | a->vn | a->vm) & 0x10)) {
 -        return false;
 -    }
 -
 -    if (a->size == 3) {
 -        return false;
 -    }
 -
 -    if (!vfp_access_check(s)) {
 -        return true;
 -    }
 -
 -    assert(a->q == 0); /* enforced by decode patterns */
 -
 -    /*
--     * No such thing as secure EL1 if EL3 is aarch32,
+-     * Note that we have to be careful not to clobber the source operands
--     * so update the target EL to EL3 in this case.
+-     * in the "vm == vd" case by storing the result of the first pass too
 -     * early. Since Q is 0 there are always just two passes, so instead
 -     * of a complicated loop over each pass we just unroll.
 -     */
--    if (arm_is_secure(env) && !arm_el_is_aa64(env, 3) && target_el == 1) {
+-    tmp = tcg_temp_new_i32();
--        target_el = 3;
+-    tmp2 = tcg_temp_new_i32();
 -    tmp3 = tcg_temp_new_i32();
 -
 -    read_neon_element32(tmp, a->vn, 0, MO_32);
 -    read_neon_element32(tmp2, a->vn, 1, MO_32);
 -    fn(tmp, tmp, tmp2);
 -
 -    read_neon_element32(tmp3, a->vm, 0, MO_32);
 -    read_neon_element32(tmp2, a->vm, 1, MO_32);
 -    fn(tmp3, tmp3, tmp2);
 -
 -    write_neon_element32(tmp, a->vd, 0, MO_32);
 -    write_neon_element32(tmp3, a->vd, 1, MO_32);
 -
 -    return true;
 -}
 -
 -#define DO_3SAME_PAIR(INSN, func)                                       \
 -    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
 -    {                                                                   \
 -        static NeonGenTwoOpFn * const fns[] = {                         \
 -            gen_helper_neon_##func##8,                                  \
 -            gen_helper_neon_##func##16,                                 \
 -            gen_helper_neon_##func##32,                                 \
 -        };                                                              \
 -        if (a->size > 2) {                                              \
 -            return false;                                               \
 -        }                                                               \
 -        return do_3same_pair(s, a, fns[a->size]);                       \
 -    }
 -
--    return target_el;
+-/* 32-bit pairwise ops end up the same as the elementwise versions.  */
--}
+-#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
 -#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 -#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 -#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -
- /* Determine if allocation tags are available.  */
+-DO_3SAME_PAIR(VPMAX_S, pmax_s)
- static inline bool allocation_tag_access_enabled(CPUARMState *env, int el,
+-DO_3SAME_PAIR(VPMIN_S, pmin_s)
-                                                  uint64_t sctlr)
+-DO_3SAME_PAIR(VPMAX_U, pmax_u)
-@@ -XXX,XX +XXX,XX @@ void define_cortex_a72_a57_a53_cp_reginfo(ARMCPU *cpu);
+-DO_3SAME_PAIR(VPMIN_U, pmin_u)
- bool el_is_in_host(CPUARMState *env, int el);
+-
+ #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
- void aa32_max_features(ARMCPU *cpu);
+     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
-+int exception_target_el(CPUARMState *env);
+     WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
  /* Powers of 2 for sve_vq_map et al. */
  #define SVE_VQ_POW2_MAP                                 \
 diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/op_helper.c
 +++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@
  #define SIGNBIT (uint32_t)0x80000000
  #define SIGNBIT64 ((uint64_t)1 << 63)
 +int exception_target_el(CPUARMState *env)
 +{
 +    int target_el = MAX(1, arm_current_el(env));
 +
 +    /*
 +     * No such thing as secure EL1 if EL3 is aarch32,
 +     * so update the target EL to EL3 in this case.
 +     */
 +    if (arm_is_secure(env) && !arm_el_is_aa64(env, 3) && target_el == 1) {
 +        target_el = 3;
 +    }
 +
 +    return target_el;
 +}
 +
  void raise_exception(CPUARMState *env, uint32_t excp,
                       uint32_t syndrome, uint32_t target_el)
  {
 --
-.25.1
+.34.1

-[PULL 07/28] target/arm: Move exception_bkpt_insn to debug_helper.c
+[PULL 41/42] target/arm: Convert FMLAL, FMLSL to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-8-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/debug_helper.c | 31 +++++++++++++++++++++++++++++++
+ target/arm/tcg/a64.decode      |  10 +++
- target/arm/op_helper.c    | 29 -----------------------------
+ target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
-files changed, 31 insertions(+), 29 deletions(-)
+files changed, 51 insertions(+), 103 deletions(-)
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/debug_helper.c
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/debug_helper.c
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ void arm_debug_excp_handler(CPUState *cs)
+@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
  FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
  FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 +FMLAL_v         0.00 1110 001 ..... 11101 1 ..... ..... @qrrr_h
 +FMLSL_v         0.00 1110 101 ..... 11101 1 ..... ..... @qrrr_h
 +FMLAL2_v        0.10 1110 001 ..... 11001 1 ..... ..... @qrrr_h
 +FMLSL2_v        0.10 1110 101 ..... 11001 1 ..... ..... @qrrr_h
 +
  FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
  FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
@@ -XXX,XX +XXX,XX @@ FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
  FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
  FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
  FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 +
 +FMLAL_vi        0.00 1111 10 .. .... 0000 . 0 ..... .....   @qrrx_h
 +FMLSL_vi        0.00 1111 10 .. .... 0100 . 0 ..... .....   @qrrx_h
 +FMLAL2_vi       0.10 1111 10 .. .... 1000 . 0 ..... .....   @qrrx_h
 +FMLSL2_vi       0.10 1111 10 .. .... 1100 . 0 ..... .....   @qrrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
  };
  TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
 +static bool do_fmlal(DisasContext *s, arg_qrrr_e *a, bool is_s, bool is_2)
 +{
 +    if (fp_access_check(s)) {
 +        int data = (is_2 << 1) | is_s;
 +        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_a64);
 +    }
 +    return true;
 +}
 +
 +TRANS_FEAT(FMLAL_v, aa64_fhm, do_fmlal, a, false, false)
 +TRANS_FEAT(FMLSL_v, aa64_fhm, do_fmlal, a, true, false)
 +TRANS_FEAT(FMLAL2_v, aa64_fhm, do_fmlal, a, false, true)
 +TRANS_FEAT(FMLSL2_v, aa64_fhm, do_fmlal, a, true, true)
 +
  TRANS(ADDP_v, do_gvec_fn3, a, gen_gvec_addp)
  TRANS(SMAXP_v, do_gvec_fn3_no64, a, gen_gvec_smaxp)
  TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
@@ -XXX,XX +XXX,XX @@ static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
  TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
  TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
 +static bool do_fmlal_idx(DisasContext *s, arg_qrrx_e *a, bool is_s, bool is_2)
 +{
 +    if (fp_access_check(s)) {
 +        int data = (a->idx << 2) | (is_2 << 1) | is_s;
 +        tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, a->rd),
 +                           vec_full_reg_offset(s, a->rn),
 +                           vec_full_reg_offset(s, a->rm), tcg_env,
 +                           a->q ? 16 : 8, vec_full_reg_size(s),
 +                           data, gen_helper_gvec_fmlal_idx_a64);
 +    }
 +    return true;
 +}
 +
 +TRANS_FEAT(FMLAL_vi, aa64_fhm, do_fmlal_idx, a, false, false)
 +TRANS_FEAT(FMLSL_vi, aa64_fhm, do_fmlal_idx, a, true, false)
 +TRANS_FEAT(FMLAL2_vi, aa64_fhm, do_fmlal_idx, a, false, true)
 +TRANS_FEAT(FMLSL2_vi, aa64_fhm, do_fmlal_idx, a, true, true)
 +
  /*
   * Advanced SIMD scalar pairwise
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
      }
  }
-+/*
+-/* Floating point op subgroup of C3.6.16. */
-+ * Raise an EXCP_BKPT with the specified syndrome register value,
+-static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
 + * targeting the correct exception level for debug exceptions.
 + */
 +void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
 +{
 +    int debug_el = arm_debug_target_el(env);
 +    int cur_el = arm_current_el(env);
 +
 +    /* FSR will only be used if the debug target EL is AArch32. */
 +    env->exception.fsr = arm_debug_exception_fsr(env);
 +    /*
 +     * FAR is UNKNOWN: clear vaddress to avoid potentially exposing
 +     * values to the guest that it shouldn't be able to see at its
 +     * exception/security level.
 +     */
 +    env->exception.vaddress = 0;
 +    /*
 +     * Other kinds of architectural debug exception are ignored if
 +     * they target an exception level below the current one (in QEMU
 +     * this is checked by arm_generate_debug_exceptions()). Breakpoint
 +     * instructions are special because they always generate an exception
 +     * to somewhere: if they can't go to the configured debug exception
 +     * level they are taken to the current exception level.
 +     */
 +    if (debug_el < cur_el) {
 +        debug_el = cur_el;
 +    }
 +    raise_exception(env, EXCP_BKPT, syndrome, debug_el);
 +}
 +
  #if !defined(CONFIG_USER_ONLY)
  vaddr arm_adjust_watchpoint_address(CPUState *cs, vaddr addr, int len)
 diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/op_helper.c
 +++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_with_syndrome)(CPUARMState *env, uint32_t excp,
      raise_exception(env, excp, syndrome, target_el);
  }
 -/* Raise an EXCP_BKPT with the specified syndrome register value,
 - * targeting the correct exception level for debug exceptions.
 - */
 -void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
 -{
--    int debug_el = arm_debug_target_el(env);
+-    /* For floating point ops, the U, size[1] and opcode bits
--    int cur_el = arm_current_el(env);
+-     * together indicate the operation. size[0] indicates single
--
+-     * or double.
 -    /* FSR will only be used if the debug target EL is AArch32. */
 -    env->exception.fsr = arm_debug_exception_fsr(env);
 -    /* FAR is UNKNOWN: clear vaddress to avoid potentially exposing
 -     * values to the guest that it shouldn't be able to see at its
 -     * exception/security level.
 -     */
--    env->exception.vaddress = 0;
+-    int fpopcode = extract32(insn, 11, 5)
--    /*
+-        | (extract32(insn, 23, 1) << 5)
--     * Other kinds of architectural debug exception are ignored if
+-        | (extract32(insn, 29, 1) << 6);
--     * they target an exception level below the current one (in QEMU
+-    int is_q = extract32(insn, 30, 1);
--     * this is checked by arm_generate_debug_exceptions()). Breakpoint
+-    int size = extract32(insn, 22, 1);
--     * instructions are special because they always generate an exception
+-    int rm = extract32(insn, 16, 5);
--     * to somewhere: if they can't go to the configured debug exception
+-    int rn = extract32(insn, 5, 5);
--     * level they are taken to the current exception level.
+-    int rd = extract32(insn, 0, 5);
--     */
+-
--    if (debug_el < cur_el) {
+-    if (size == 1 && !is_q) {
--        debug_el = cur_el;
+-        unallocated_encoding(s);
 -        return;
 -    }
--    raise_exception(env, EXCP_BKPT, syndrome, debug_el);
+-
 -    switch (fpopcode) {
 -    case 0x1d: /* FMLAL  */
 -    case 0x3d: /* FMLSL  */
 -    case 0x59: /* FMLAL2 */
 -    case 0x79: /* FMLSL2 */
 -        if (size & 1 || !dc_isar_feature(aa64_fhm, s)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        if (fp_access_check(s)) {
 -            int is_s = extract32(insn, 23, 1);
 -            int is_2 = extract32(insn, 29, 1);
 -            int data = (is_2 << 1) | is_s;
 -            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 -                               vec_full_reg_offset(s, rn),
 -                               vec_full_reg_offset(s, rm), tcg_env,
 -                               is_q ? 16 : 8, vec_full_reg_size(s),
 -                               data, gen_helper_gvec_fmlal_a64);
 -        }
 -        return;
 -
 -    default:
 -    case 0x18: /* FMAXNM */
 -    case 0x19: /* FMLA */
 -    case 0x1a: /* FADD */
 -    case 0x1b: /* FMULX */
 -    case 0x1c: /* FCMEQ */
 -    case 0x1e: /* FMAX */
 -    case 0x1f: /* FRECPS */
 -    case 0x38: /* FMINNM */
 -    case 0x39: /* FMLS */
 -    case 0x3a: /* FSUB */
 -    case 0x3e: /* FMIN */
 -    case 0x3f: /* FRSQRTS */
 -    case 0x58: /* FMAXNMP */
 -    case 0x5a: /* FADDP */
 -    case 0x5b: /* FMUL */
 -    case 0x5c: /* FCMGE */
 -    case 0x5d: /* FACGE */
 -    case 0x5e: /* FMAXP */
 -    case 0x5f: /* FDIV */
 -    case 0x78: /* FMINNMP */
 -    case 0x7a: /* FABD */
 -    case 0x7d: /* FACGT */
 -    case 0x7c: /* FCMGT */
 -    case 0x7e: /* FMINP */
 -        unallocated_encoding(s);
 -        return;
 -    }
 -}
 -
- uint32_t HELPER(cpsr_read)(CPUARMState *env)
+ /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
-     return cpsr_read(env) & ~CPSR_EXEC;
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
      case 0x3: /* logic ops */
          disas_simd_3same_logic(s, insn);
          break;
 -    case 0x18 ... 0x31:
 -        /* floating point ops, sz[1] and U are part of opcode */
 -        disas_simd_3same_float(s, insn);
 -        break;
      default:
          disas_simd_3same_int(s, insn);
          break;
      case 0x14: /* SMAXP, UMAXP */
      case 0x15: /* SMINP, UMINP */
      case 0x17: /* ADDP */
 +    case 0x18 ... 0x31: /* floating point ops */
          unallocated_encoding(s);
          break;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          }
          is_fp = 2;
          break;
 -    case 0x00: /* FMLAL */
 -    case 0x04: /* FMLSL */
 -    case 0x18: /* FMLAL2 */
 -    case 0x1c: /* FMLSL2 */
 -        if (is_scalar || size != MO_32 || !dc_isar_feature(aa64_fhm, s)) {
 -            unallocated_encoding(s);
 -            return;
 -        }
 -        size = MO_16;
 -        /* is_fp, but we pass tcg_env not fp_status.  */
 -        break;
      default:
 +    case 0x00: /* FMLAL */
      case 0x01: /* FMLA */
 +    case 0x04: /* FMLSL */
      case 0x05: /* FMLS */
      case 0x09: /* FMUL */
 +    case 0x18: /* FMLAL2 */
      case 0x19: /* FMULX */
 +    case 0x1c: /* FMLSL2 */
          unallocated_encoding(s);
          return;
      }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
          }
          return;
 -    case 0x00: /* FMLAL */
 -    case 0x04: /* FMLSL */
 -    case 0x18: /* FMLAL2 */
 -    case 0x1c: /* FMLSL2 */
 -        {
 -            int is_s = extract32(opcode, 2, 1);
 -            int is_2 = u;
 -            int data = (index << 2) | (is_2 << 1) | is_s;
 -            tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 -                               vec_full_reg_offset(s, rn),
 -                               vec_full_reg_offset(s, rm), tcg_env,
 -                               is_q ? 16 : 8, vec_full_reg_size(s),
 -                               data, gen_helper_gvec_fmlal_idx_a64);
 -        }
 -        return;
 -
      case 0x08: /* MUL */
          if (!is_long && !is_scalar) {
              static gen_helper_gvec_3 * const fns[3] = {
 --
-.25.1
+.34.1

-[PULL 04/28] target/arm: Move arm_singlestep_active out of line
+[PULL 42/42] target/arm: Convert disas_simd_3same_logic to decodetree
 From: Richard Henderson <richard.henderson@linaro.org>
-Move the function to debug_helper.c, and the
+This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.
 declaration to internals.h.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20220609202901.1177572-5-richard.henderson@linaro.org
+Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/cpu.h          | 10 ----------
+ target/arm/tcg/a64.decode      | 10 +++++
- target/arm/internals.h    |  1 +
+ target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
- target/arm/debug_helper.c | 12 ++++++++++++
+files changed, 29 insertions(+), 49 deletions(-)
 files changed, 13 insertions(+), 10 deletions(-)
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
+diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
+--- a/target/arm/tcg/a64.decode
-+++ b/target/arm/cpu.h
++++ b/target/arm/tcg/a64.decode
-@@ -XXX,XX +XXX,XX @@ static inline bool arm_generate_debug_exceptions(CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@
  @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
  @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 +@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
  @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
  @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
  @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
  UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
  UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 +AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
 +BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
 +ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
 +ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
 +EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
 +BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
 +BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
 +BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
 +
  ### Advanced SIMD scalar x indexed element
  FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tcg/translate-a64.c
 +++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
  TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
  TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
 +TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
 +TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
 +TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
 +TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
 +TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
 +
 +static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
 +{
 +    if (fp_access_check(s)) {
 +        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
 +    }
 +    return true;
 +}
 +
 +TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
 +TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
 +TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
 +
  /*
   * Advanced SIMD scalar/vector x indexed element
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
      }
  }
--/* Is single-stepping active? (Note that the "is EL_D AArch64?" check
+-/* Logic op (opcode == 3) subgroup of C3.6.16. */
-- * implicitly means this always returns false in pre-v8 CPUs.)
+-static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 - */
 -static inline bool arm_singlestep_active(CPUARMState *env)
 -{
--    return extract32(env->cp15.mdscr_el1, 0, 1)
+-    int rd = extract32(insn, 0, 5);
--        && arm_el_is_aa64(env, arm_debug_target_el(env))
+-    int rn = extract32(insn, 5, 5);
--        && arm_generate_debug_exceptions(env);
+-    int rm = extract32(insn, 16, 5);
 -    int size = extract32(insn, 22, 2);
 -    bool is_u = extract32(insn, 29, 1);
 -    bool is_q = extract32(insn, 30, 1);
 -
 -    if (!fp_access_check(s)) {
 -        return;
 -    }
 -
 -    switch (size + 4 * is_u) {
 -    case 0: /* AND */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
 -        return;
 -    case 1: /* BIC */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
 -        return;
 -    case 2: /* ORR */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
 -        return;
 -    case 3: /* ORN */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
 -        return;
 -    case 4: /* EOR */
 -        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
 -        return;
 -
 -    case 5: /* BSL bitwise select */
 -        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 6: /* BIT, bitwise insert if true */
 -        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
 -        return;
 -    case 7: /* BIF, bitwise insert if false */
 -        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
 -        return;
 -
 -    default:
 -        g_assert_not_reached();
 -    }
 -}
 -
- static inline bool arm_sctlr_b(CPUARMState *env)
+ /* Integer op subgroup of C3.6.16. */
  static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
  {
-     return
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
-diff --git a/target/arm/internals.h b/target/arm/internals.h
+     int opcode = extract32(insn, 11, 5);
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
+     switch (opcode) {
-+++ b/target/arm/internals.h
+-    case 0x3: /* logic ops */
-@@ -XXX,XX +XXX,XX @@ bool el_is_in_host(CPUARMState *env, int el);
+-        disas_simd_3same_logic(s, insn);
+-        break;
- void aa32_max_features(ARMCPU *cpu);
+     default:
- int exception_target_el(CPUARMState *env);
+         disas_simd_3same_int(s, insn);
-+bool arm_singlestep_active(CPUARMState *env);
+         break;
++    case 0x3: /* logic ops */
- /* Powers of 2 for sve_vq_map et al. */
+     case 0x14: /* SMAXP, UMAXP */
- #define SVE_VQ_POW2_MAP                                 \
+     case 0x15: /* SMINP, UMINP */
-diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
+     case 0x17: /* ADDP */
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/debug_helper.c
 +++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@
  #include "exec/exec-all.h"
  #include "exec/helper-proto.h"
 +
 +/*
 + * Is single-stepping active? (Note that the "is EL_D AArch64?" check
 + * implicitly means this always returns false in pre-v8 CPUs.)
 + */
 +bool arm_singlestep_active(CPUARMState *env)
 +{
 +    return extract32(env->cp15.mdscr_el1, 0, 1)
 +        && arm_el_is_aa64(env, arm_debug_target_el(env))
 +        && arm_generate_debug_exceptions(env);
 +}
 +
  /* Return true if the linked breakpoint entry lbn passes its checks */
  static bool linked_bp_matches(ARMCPU *cpu, int lbn)
  {
 --
-.25.1
+.34.1

Just flushing my target-arm queue since I won't be working next week :-)

-- PMM

The following changes since commit b3cd3b5a66f0dddfe3d5ba2bef13cd4f5b89cde9:

Merge tag 'pull-riscv-to-apply-20220610' of github.com:alistair23/qemu into staging (2022-06-09 22:08:27 -0700)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20220610

for you to fetch changes up to 90c072e063737e9e8f431489bbd334452f89056e:

semihosting/config: Merge --semihosting-config option groups (2022-06-10 14:32:36 +0100)

----------------------------------------------------------------
 * refactor exception routing code
 * fix SCR_EL3 RAO/RAZ bits
 * gdbstub: Don't use GDB syscalls if no GDB is attached
 * semihosting/config: Merge --semihosting-config option groups
 * tests/qtest: Reduce npcm7xx_sdhci test image size

----------------------------------------------------------------
Hao Wu (1):
      tests/qtest: Reduce npcm7xx_sdhci test image size

Peter Maydell (2):
      gdbstub: Don't use GDB syscalls if no GDB is attached
      semihosting/config: Merge --semihosting-config option groups

Richard Henderson (25):
      target/arm: Mark exception helpers as noreturn
      target/arm: Add coproc parameter to syn_fp_access_trap
      target/arm: Move exception_target_el out of line
      target/arm: Move arm_singlestep_active out of line
      target/arm: Move arm_generate_debug_exceptions out of line
      target/arm: Use is_a64 in arm_generate_debug_exceptions
      target/arm: Move exception_bkpt_insn to debug_helper.c
      target/arm: Move arm_debug_exception_fsr to debug_helper.c
      target/arm: Rename helper_exception_with_syndrome
      target/arm: Introduce gen_exception_insn_el_v
      target/arm: Rename gen_exception_insn to gen_exception_insn_el
      target/arm: Introduce gen_exception_insn
      target/arm: Create helper_exception_swstep
      target/arm: Remove TBFLAG_ANY.DEBUG_TARGET_EL
      target/arm: Move gen_exception to translate.c
      target/arm: Rename gen_exception to gen_exception_el
      target/arm: Introduce gen_exception
      target/arm: Introduce gen_exception_el_v
      target/arm: Introduce helper_exception_with_syndrome
      target/arm: Remove default_exception_el
      target/arm: Create raise_exception_debug
      target/arm: Move arm_debug_target_el to debug_helper.c
      target/arm: Fix Secure PL1 tests in fp_exception_el
      target/arm: Adjust format test in scr_write
      target/arm: SCR_EL3.RW is RAO/WI without AArch32 EL[12]

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(usad8, TCG_CALL_NO_RWG_SE, i32, i32, i32)
 
 DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
                    i32, i32, i32, i32)
-DEF_HELPER_2(exception_internal, void, env, i32)
-DEF_HELPER_4(exception_with_syndrome, void, env, i32, i32, i32)
-DEF_HELPER_2(exception_bkpt_insn, void, env, i32)
+DEF_HELPER_2(exception_internal, noreturn, env, i32)
+DEF_HELPER_4(exception_with_syndrome, noreturn, env, i32, i32, i32)
+DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
 DEF_HELPER_2(exception_pc_alignment, noreturn, env, tl)
 DEF_HELPER_1(setend, void, env)
 DEF_HELPER_2(wfi, void, env, i32)
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

With ARMv8, this field is always RES0.
With ARMv7, targeting EL2 and TA=0, it is always 0xA.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/syndrome.h      |  7 ++++---
 target/arm/translate-a64.c |  3 ++-
 target/arm/translate-vfp.c | 14 ++++++++++++--
 3 files changed, 18 insertions(+), 6 deletions(-)

diff --git a/target/arm/syndrome.h b/target/arm/syndrome.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/syndrome.h
+++ b/target/arm/syndrome.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_cp15_rrt_trap(int cv, int cond, int opc1, int crm,
         | (rt2 << 10) | (rt << 5) | (crm << 1) | isread;
 }
 
-static inline uint32_t syn_fp_access_trap(int cv, int cond, bool is_16bit)
+static inline uint32_t syn_fp_access_trap(int cv, int cond, bool is_16bit,
+                                          int coproc)
 {
-    /* AArch32 FP trap or any AArch64 FP/SIMD trap: TA == 0 coproc == 0xa */
+    /* AArch32 FP trap or any AArch64 FP/SIMD trap: TA == 0 */
     return (EC_ADVSIMDFPACCESSTRAP << ARM_EL_EC_SHIFT)
         | (is_16bit ? 0 : ARM_EL_IL)
-        | (cv << 24) | (cond << 20) | 0xa;
+        | (cv << 24) | (cond << 20) | coproc;
 }
 
 static inline uint32_t syn_simd_access_trap(int cv, int cond, bool is_16bit)
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool fp_access_check(DisasContext *s)
         s->fp_access_checked = true;
 
         gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
+                           syn_fp_access_trap(1, 0xe, false, 0),
+                           s->fp_excp_el);
         return false;
     }
     s->fp_access_checked = true;
diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_update_fp_context(DisasContext *s)
 static bool vfp_access_check_a(DisasContext *s, bool ignore_vfp_enabled)
 {
     if (s->fp_excp_el) {
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_fp_access_trap(1, 0xe, false), s->fp_excp_el);
+        /*
+         * The full syndrome is only used for HSR when HCPTR traps:
+         * For v8, when TA==0, coproc is RES0.
+         * For v7, any use of a Floating-point instruction or access
+         * to a Floating-point Extension register that is trapped to
+         * Hyp mode because of a trap configured in the HCPTR sets
+         * this field to 0xA.
+         */
+        int coproc = arm_dc_feature(s, ARM_FEATURE_V8) ? 0 : 0xa;
+        uint32_t syn = syn_fp_access_trap(1, 0xe, false, coproc);
+
+        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn, s->fp_excp_el);
         return false;
     }
 
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Move the function to op_helper.c, near raise_exception.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h | 16 +---------------
 target/arm/op_helper.c | 15 +++++++++++++++
 2 files changed, 16 insertions(+), 15 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ ARMVAParameters aa64_va_parameters(CPUARMState *env, uint64_t va,
 int aa64_va_parameter_tbi(uint64_t tcr, ARMMMUIdx mmu_idx);
 int aa64_va_parameter_tbid(uint64_t tcr, ARMMMUIdx mmu_idx);
 
-static inline int exception_target_el(CPUARMState *env)
-{
-    int target_el = MAX(1, arm_current_el(env));
-
-    /*
-     * No such thing as secure EL1 if EL3 is aarch32,
-     * so update the target EL to EL3 in this case.
-     */
-    if (arm_is_secure(env) && !arm_el_is_aa64(env, 3) && target_el == 1) {
-        target_el = 3;
-    }
-
-    return target_el;
-}
-
 /* Determine if allocation tags are available.  */
 static inline bool allocation_tag_access_enabled(CPUARMState *env, int el,
                                                  uint64_t sctlr)
@@ -XXX,XX +XXX,XX @@ void define_cortex_a72_a57_a53_cp_reginfo(ARMCPU *cpu);
 bool el_is_in_host(CPUARMState *env, int el);
 
 void aa32_max_features(ARMCPU *cpu);
+int exception_target_el(CPUARMState *env);
 
 /* Powers of 2 for sve_vq_map et al. */
 #define SVE_VQ_POW2_MAP                                 \
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@
 #define SIGNBIT (uint32_t)0x80000000
 #define SIGNBIT64 ((uint64_t)1 << 63)
 
+int exception_target_el(CPUARMState *env)
+{
+    int target_el = MAX(1, arm_current_el(env));
+
+    /*
+     * No such thing as secure EL1 if EL3 is aarch32,
+     * so update the target EL to EL3 in this case.
+     */
+    if (arm_is_secure(env) && !arm_el_is_aa64(env, 3) && target_el == 1) {
+        target_el = 3;
+    }
+
+    return target_el;
+}
+
 void raise_exception(CPUARMState *env, uint32_t excp,
                      uint32_t syndrome, uint32_t target_el)
 {
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Move the function to debug_helper.c, and the
declaration to internals.h.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h          | 10 ----------
 target/arm/internals.h    |  1 +
 target/arm/debug_helper.c | 12 ++++++++++++
 3 files changed, 13 insertions(+), 10 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool arm_generate_debug_exceptions(CPUARMState *env)
     }
 }
 
-/* Is single-stepping active? (Note that the "is EL_D AArch64?" check
- * implicitly means this always returns false in pre-v8 CPUs.)
- */
-static inline bool arm_singlestep_active(CPUARMState *env)
-{
-    return extract32(env->cp15.mdscr_el1, 0, 1)
-        && arm_el_is_aa64(env, arm_debug_target_el(env))
-        && arm_generate_debug_exceptions(env);
-}
-
 static inline bool arm_sctlr_b(CPUARMState *env)
 {
     return
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ bool el_is_in_host(CPUARMState *env, int el);
 
 void aa32_max_features(ARMCPU *cpu);
 int exception_target_el(CPUARMState *env);
+bool arm_singlestep_active(CPUARMState *env);
 
 /* Powers of 2 for sve_vq_map et al. */
 #define SVE_VQ_POW2_MAP                                 \
diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/exec-all.h"
 #include "exec/helper-proto.h"
 
+
+/*
+ * Is single-stepping active? (Note that the "is EL_D AArch64?" check
+ * implicitly means this always returns false in pre-v8 CPUs.)
+ */
+bool arm_singlestep_active(CPUARMState *env)
+{
+    return extract32(env->cp15.mdscr_el1, 0, 1)
+        && arm_el_is_aa64(env, arm_debug_target_el(env))
+        && arm_generate_debug_exceptions(env);
+}
+
 /* Return true if the linked breakpoint entry lbn passes its checks */
 static bool linked_bp_matches(ARMCPU *cpu, int lbn)
 {
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Move arm_generate_debug_exceptions and its two subroutines,
{aa32,aa64}_generate_debug_exceptions into debug_helper.c,
and the one interface declaration to internals.h.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h          | 91 -------------------------------------
 target/arm/internals.h    |  1 +
 target/arm/debug_helper.c | 94 +++++++++++++++++++++++++++++++++++++++
 3 files changed, 95 insertions(+), 91 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool arm_v7m_csselr_razwi(ARMCPU *cpu)
     return (cpu->clidr & R_V7M_CLIDR_CTYPE_ALL_MASK) != 0;
 }
 
-/* See AArch64.GenerateDebugExceptionsFrom() in ARM ARM pseudocode */
-static inline bool aa64_generate_debug_exceptions(CPUARMState *env)
-{
-    int cur_el = arm_current_el(env);
-    int debug_el;
-
-    if (cur_el == 3) {
-        return false;
-    }
-
-    /* MDCR_EL3.SDD disables debug events from Secure state */
-    if (arm_is_secure_below_el3(env)
-        && extract32(env->cp15.mdcr_el3, 16, 1)) {
-        return false;
-    }
-
-    /*
-     * Same EL to same EL debug exceptions need MDSCR_KDE enabled
-     * while not masking the (D)ebug bit in DAIF.
-     */
-    debug_el = arm_debug_target_el(env);
-
-    if (cur_el == debug_el) {
-        return extract32(env->cp15.mdscr_el1, 13, 1)
-            && !(env->daif & PSTATE_D);
-    }
-
-    /* Otherwise the debug target needs to be a higher EL */
-    return debug_el > cur_el;
-}
-
-static inline bool aa32_generate_debug_exceptions(CPUARMState *env)
-{
-    int el = arm_current_el(env);
-
-    if (el == 0 && arm_el_is_aa64(env, 1)) {
-        return aa64_generate_debug_exceptions(env);
-    }
-
-    if (arm_is_secure(env)) {
-        int spd;
-
-        if (el == 0 && (env->cp15.sder & 1)) {
-            /* SDER.SUIDEN means debug exceptions from Secure EL0
-             * are always enabled. Otherwise they are controlled by
-             * SDCR.SPD like those from other Secure ELs.
-             */
-            return true;
-        }
-
-        spd = extract32(env->cp15.mdcr_el3, 14, 2);
-        switch (spd) {
-        case 1:
-            /* SPD == 0b01 is reserved, but behaves as 0b00. */
-        case 0:
-            /* For 0b00 we return true if external secure invasive debug
-             * is enabled. On real hardware this is controlled by external
-             * signals to the core. QEMU always permits debug, and behaves
-             * as if DBGEN, SPIDEN, NIDEN and SPNIDEN are all tied high.
-             */
-            return true;
-        case 2:
-            return false;
-        case 3:
-            return true;
-        }
-    }
-
-    return el != 2;
-}
-
-/* Return true if debugging exceptions are currently enabled.
- * This corresponds to what in ARM ARM pseudocode would be
- *    if UsingAArch32() then
- *        return AArch32.GenerateDebugExceptions()
- *    else
- *        return AArch64.GenerateDebugExceptions()
- * We choose to push the if() down into this function for clarity,
- * since the pseudocode has it at all callsites except for the one in
- * CheckSoftwareStep(), where it is elided because both branches would
- * always return the same value.
- */
-static inline bool arm_generate_debug_exceptions(CPUARMState *env)
-{
-    if (env->aarch64) {
-        return aa64_generate_debug_exceptions(env);
-    } else {
-        return aa32_generate_debug_exceptions(env);
-    }
-}
-
 static inline bool arm_sctlr_b(CPUARMState *env)
 {
     return
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ bool el_is_in_host(CPUARMState *env, int el);
 void aa32_max_features(ARMCPU *cpu);
 int exception_target_el(CPUARMState *env);
 bool arm_singlestep_active(CPUARMState *env);
+bool arm_generate_debug_exceptions(CPUARMState *env);
 
 /* Powers of 2 for sve_vq_map et al. */
 #define SVE_VQ_POW2_MAP                                 \
diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 
 
+/* See AArch64.GenerateDebugExceptionsFrom() in ARM ARM pseudocode */
+static bool aa64_generate_debug_exceptions(CPUARMState *env)
+{
+    int cur_el = arm_current_el(env);
+    int debug_el;
+
+    if (cur_el == 3) {
+        return false;
+    }
+
+    /* MDCR_EL3.SDD disables debug events from Secure state */
+    if (arm_is_secure_below_el3(env)
+        && extract32(env->cp15.mdcr_el3, 16, 1)) {
+        return false;
+    }
+
+    /*
+     * Same EL to same EL debug exceptions need MDSCR_KDE enabled
+     * while not masking the (D)ebug bit in DAIF.
+     */
+    debug_el = arm_debug_target_el(env);
+
+    if (cur_el == debug_el) {
+        return extract32(env->cp15.mdscr_el1, 13, 1)
+            && !(env->daif & PSTATE_D);
+    }
+
+    /* Otherwise the debug target needs to be a higher EL */
+    return debug_el > cur_el;
+}
+
+static bool aa32_generate_debug_exceptions(CPUARMState *env)
+{
+    int el = arm_current_el(env);
+
+    if (el == 0 && arm_el_is_aa64(env, 1)) {
+        return aa64_generate_debug_exceptions(env);
+    }
+
+    if (arm_is_secure(env)) {
+        int spd;
+
+        if (el == 0 && (env->cp15.sder & 1)) {
+            /*
+             * SDER.SUIDEN means debug exceptions from Secure EL0
+             * are always enabled. Otherwise they are controlled by
+             * SDCR.SPD like those from other Secure ELs.
+             */
+            return true;
+        }
+
+        spd = extract32(env->cp15.mdcr_el3, 14, 2);
+        switch (spd) {
+        case 1:
+            /* SPD == 0b01 is reserved, but behaves as 0b00. */
+        case 0:
+            /*
+             * For 0b00 we return true if external secure invasive debug
+             * is enabled. On real hardware this is controlled by external
+             * signals to the core. QEMU always permits debug, and behaves
+             * as if DBGEN, SPIDEN, NIDEN and SPNIDEN are all tied high.
+             */
+            return true;
+        case 2:
+            return false;
+        case 3:
+            return true;
+        }
+    }
+
+    return el != 2;
+}
+
+/*
+ * Return true if debugging exceptions are currently enabled.
+ * This corresponds to what in ARM ARM pseudocode would be
+ *    if UsingAArch32() then
+ *        return AArch32.GenerateDebugExceptions()
+ *    else
+ *        return AArch64.GenerateDebugExceptions()
+ * We choose to push the if() down into this function for clarity,
+ * since the pseudocode has it at all callsites except for the one in
+ * CheckSoftwareStep(), where it is elided because both branches would
+ * always return the same value.
+ */
+bool arm_generate_debug_exceptions(CPUARMState *env)
+{
+    if (env->aarch64) {
+        return aa64_generate_debug_exceptions(env);
+    } else {
+        return aa32_generate_debug_exceptions(env);
+    }
+}
+
 /*
  * Is single-stepping active? (Note that the "is EL_D AArch64?" check
  * implicitly means this always returns false in pre-v8 CPUs.)
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/debug_helper.c | 31 +++++++++++++++++++++++++++++++
 target/arm/op_helper.c    | 29 -----------------------------
 2 files changed, 31 insertions(+), 29 deletions(-)

diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@ void arm_debug_excp_handler(CPUState *cs)
     }
 }
 
+/*
+ * Raise an EXCP_BKPT with the specified syndrome register value,
+ * targeting the correct exception level for debug exceptions.
+ */
+void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
+{
+    int debug_el = arm_debug_target_el(env);
+    int cur_el = arm_current_el(env);
+
+    /* FSR will only be used if the debug target EL is AArch32. */
+    env->exception.fsr = arm_debug_exception_fsr(env);
+    /*
+     * FAR is UNKNOWN: clear vaddress to avoid potentially exposing
+     * values to the guest that it shouldn't be able to see at its
+     * exception/security level.
+     */
+    env->exception.vaddress = 0;
+    /*
+     * Other kinds of architectural debug exception are ignored if
+     * they target an exception level below the current one (in QEMU
+     * this is checked by arm_generate_debug_exceptions()). Breakpoint
+     * instructions are special because they always generate an exception
+     * to somewhere: if they can't go to the configured debug exception
+     * level they are taken to the current exception level.
+     */
+    if (debug_el < cur_el) {
+        debug_el = cur_el;
+    }
+    raise_exception(env, EXCP_BKPT, syndrome, debug_el);
+}
+
 #if !defined(CONFIG_USER_ONLY)
 
 vaddr arm_adjust_watchpoint_address(CPUState *cs, vaddr addr, int len)
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_with_syndrome)(CPUARMState *env, uint32_t excp,
     raise_exception(env, excp, syndrome, target_el);
 }
 
-/* Raise an EXCP_BKPT with the specified syndrome register value,
- * targeting the correct exception level for debug exceptions.
- */
-void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
-{
-    int debug_el = arm_debug_target_el(env);
-    int cur_el = arm_current_el(env);
-
-    /* FSR will only be used if the debug target EL is AArch32. */
-    env->exception.fsr = arm_debug_exception_fsr(env);
-    /* FAR is UNKNOWN: clear vaddress to avoid potentially exposing
-     * values to the guest that it shouldn't be able to see at its
-     * exception/security level.
-     */
-    env->exception.vaddress = 0;
-    /*
-     * Other kinds of architectural debug exception are ignored if
-     * they target an exception level below the current one (in QEMU
-     * this is checked by arm_generate_debug_exceptions()). Breakpoint
-     * instructions are special because they always generate an exception
-     * to somewhere: if they can't go to the configured debug exception
-     * level they are taken to the current exception level.
-     */
-    if (debug_el < cur_el) {
-        debug_el = cur_el;
-    }
-    raise_exception(env, EXCP_BKPT, syndrome, debug_el);
-}
-
 uint32_t HELPER(cpsr_read)(CPUARMState *env)
 {
     return cpsr_read(env) & ~CPSR_EXEC;
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

This function now now only used in debug_helper.c, so there is
no reason to have a declaration in a header.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/internals.h    | 25 -------------------------
 target/arm/debug_helper.c | 26 ++++++++++++++++++++++++++
 2 files changed, 26 insertions(+), 25 deletions(-)

diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline TCR *regime_tcr(CPUARMState *env, ARMMMUIdx mmu_idx)
     return &env->cp15.tcr_el[regime_el(env, mmu_idx)];
 }
 
-/* Return the FSR value for a debug exception (watchpoint, hardware
- * breakpoint or BKPT insn) targeting the specified exception level.
- */
-static inline uint32_t arm_debug_exception_fsr(CPUARMState *env)
-{
-    ARMMMUFaultInfo fi = { .type = ARMFault_Debug };
-    int target_el = arm_debug_target_el(env);
-    bool using_lpae = false;
-
-    if (target_el == 2 || arm_el_is_aa64(env, target_el)) {
-        using_lpae = true;
-    } else {
-        if (arm_feature(env, ARM_FEATURE_LPAE) &&
-            (env->cp15.tcr_el[target_el].raw_tcr & TTBCR_EAE)) {
-            using_lpae = true;
-        }
-    }
-
-    if (using_lpae) {
-        return arm_fi_to_lfsc(&fi);
-    } else {
-        return arm_fi_to_sfsc(&fi);
-    }
-}
-
 /**
  * arm_num_brps: Return number of implemented breakpoints.
  * Note that the ID register BRPS field is "number of bps - 1",
diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@ bool arm_debug_check_watchpoint(CPUState *cs, CPUWatchpoint *wp)
     return check_watchpoints(cpu);
 }
 
+/*
+ * Return the FSR value for a debug exception (watchpoint, hardware
+ * breakpoint or BKPT insn) targeting the specified exception level.
+ */
+static uint32_t arm_debug_exception_fsr(CPUARMState *env)
+{
+    ARMMMUFaultInfo fi = { .type = ARMFault_Debug };
+    int target_el = arm_debug_target_el(env);
+    bool using_lpae = false;
+
+    if (target_el == 2 || arm_el_is_aa64(env, target_el)) {
+        using_lpae = true;
+    } else {
+        if (arm_feature(env, ARM_FEATURE_LPAE) &&
+            (env->cp15.tcr_el[target_el].raw_tcr & TTBCR_EAE)) {
+            using_lpae = true;
+        }
+    }
+
+    if (using_lpae) {
+        return arm_fi_to_lfsc(&fi);
+    } else {
+        return arm_fi_to_sfsc(&fi);
+    }
+}
+
 void arm_debug_excp_handler(CPUState *cs)
 {
     /*
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Rename to helper_exception_with_syndrome_el, to emphasize
that the target el is a parameter.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h    | 2 +-
 target/arm/translate.h | 6 +++---
 target/arm/op_helper.c | 6 +++---
 target/arm/translate.c | 6 +++---
 4 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(usad8, TCG_CALL_NO_RWG_SE, i32, i32, i32)
 DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
                    i32, i32, i32, i32)
 DEF_HELPER_2(exception_internal, noreturn, env, i32)
-DEF_HELPER_4(exception_with_syndrome, noreturn, env, i32, i32, i32)
+DEF_HELPER_4(exception_with_syndrome_el, noreturn, env, i32, i32, i32)
 DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
 DEF_HELPER_2(exception_pc_alignment, noreturn, env, tl)
 DEF_HELPER_1(setend, void, env)
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_ss_advance(DisasContext *s)
 static inline void gen_exception(int excp, uint32_t syndrome,
                                  uint32_t target_el)
 {
-    gen_helper_exception_with_syndrome(cpu_env, tcg_constant_i32(excp),
-                                       tcg_constant_i32(syndrome),
-                                       tcg_constant_i32(target_el));
+    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
+                                          tcg_constant_i32(syndrome),
+                                          tcg_constant_i32(target_el));
 }
 
 /* Generate an architectural singlestep exception */
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(yield)(CPUARMState *env)
  * those EXCP values which are special cases for QEMU to interrupt
  * execution and not to be used for exceptions which are passed to
  * the guest (those must all have syndrome information and thus should
- * use exception_with_syndrome).
+ * use exception_with_syndrome*).
  */
 void HELPER(exception_internal)(CPUARMState *env, uint32_t excp)
 {
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_internal)(CPUARMState *env, uint32_t excp)
 }
 
 /* Raise an exception with the specified syndrome register value */
-void HELPER(exception_with_syndrome)(CPUARMState *env, uint32_t excp,
-                                     uint32_t syndrome, uint32_t target_el)
+void HELPER(exception_with_syndrome_el)(CPUARMState *env, uint32_t excp,
+                                        uint32_t syndrome, uint32_t target_el)
 {
     raise_exception(env, excp, syndrome, target_el);
 }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_el(DisasContext *s, int excp, uint32_t syn,
 {
     gen_set_condexec(s);
     gen_set_pc_im(s, s->pc_curr);
-    gen_helper_exception_with_syndrome(cpu_env,
-                                       tcg_constant_i32(excp),
-                                       tcg_constant_i32(syn), tcg_el);
+    gen_helper_exception_with_syndrome_el(cpu_env,
+                                          tcg_constant_i32(excp),
+                                          tcg_constant_i32(syn), tcg_el);
     s->base.is_jmp = DISAS_NORETURN;
 }
 
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Create a function below gen_exception_insn that takes
the target_el as a TCGv_i32, replacing gen_exception_el.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 27 ++++++++++++---------------
 1 file changed, 12 insertions(+), 15 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_internal_insn(DisasContext *s, uint32_t pc, int excp)
     s->base.is_jmp = DISAS_NORETURN;
 }
 
-void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
-                        uint32_t syn, uint32_t target_el)
+static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
+                                    uint32_t syn, TCGv_i32 tcg_el)
 {
     if (s->aarch64) {
         gen_a64_set_pc_im(pc);
@@ -XXX,XX +XXX,XX @@ void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
         gen_set_condexec(s);
         gen_set_pc_im(s, pc);
     }
-    gen_exception(excp, syn, target_el);
+    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
+                                          tcg_constant_i32(syn), tcg_el);
     s->base.is_jmp = DISAS_NORETURN;
 }
 
+void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
+                        uint32_t syn, uint32_t target_el)
+{
+    gen_exception_insn_el_v(s, pc, excp, syn, tcg_constant_i32(target_el));
+}
+
 static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
 {
     gen_set_condexec(s);
@@ -XXX,XX +XXX,XX @@ void unallocated_encoding(DisasContext *s)
                        default_exception_el(s));
 }
 
-static void gen_exception_el(DisasContext *s, int excp, uint32_t syn,
-                             TCGv_i32 tcg_el)
-{
-    gen_set_condexec(s);
-    gen_set_pc_im(s, s->pc_curr);
-    gen_helper_exception_with_syndrome_el(cpu_env,
-                                          tcg_constant_i32(excp),
-                                          tcg_constant_i32(syn), tcg_el);
-    s->base.is_jmp = DISAS_NORETURN;
-}
-
 /* Force a TB lookup after an instruction that changes the CPU state.  */
 void gen_lookup_tb(DisasContext *s)
 {
@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
                 tcg_el = tcg_constant_i32(3);
             }
 
-            gen_exception_el(s, EXCP_UDEF, syn_uncategorized(), tcg_el);
+            gen_exception_insn_el_v(s, s->pc_curr, EXCP_UDEF,
+                                    syn_uncategorized(), tcg_el);
             tcg_temp_free_i32(tcg_el);
             return false;
         }
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h        |  4 ++--
 target/arm/translate-a64.c    | 36 ++++++++++++++++----------------
 target/arm/translate-m-nocp.c | 16 +++++++-------
 target/arm/translate-mve.c    |  4 ++--
 target/arm/translate-vfp.c    |  6 +++---
 target/arm/translate.c        | 39 ++++++++++++++++++-----------------
 6 files changed, 53 insertions(+), 52 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void arm_jump_cc(DisasCompare *cmp, TCGLabel *label);
 void arm_gen_test_cc(int cc, TCGLabel *label);
 MemOp pow2_align(unsigned i);
 void unallocated_encoding(DisasContext *s);
-void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
-                        uint32_t syn, uint32_t target_el);
+void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
+                           uint32_t syn, uint32_t target_el);
 
 /* Return state of Alternate Half-precision flag, caller frees result */
 static inline TCGv_i32 get_ahp_flag(void)
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool fp_access_check(DisasContext *s)
         assert(!s->fp_access_checked);
         s->fp_access_checked = true;
 
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_fp_access_trap(1, 0xe, false, 0),
-                           s->fp_excp_el);
+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+                              syn_fp_access_trap(1, 0xe, false, 0),
+                              s->fp_excp_el);
         return false;
     }
     s->fp_access_checked = true;
@@ -XXX,XX +XXX,XX @@ bool sve_access_check(DisasContext *s)
         assert(!s->sve_access_checked);
         s->sve_access_checked = true;
 
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_sve_access_trap(), s->sve_excp_el);
+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+                              syn_sve_access_trap(), s->sve_excp_el);
         return false;
     }
     s->sve_access_checked = true;
@@ -XXX,XX +XXX,XX @@ static void gen_sysreg_undef(DisasContext *s, bool isread,
     } else {
         syndrome = syn_uncategorized();
     }
-    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syndrome,
-                       default_exception_el(s));
+    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syndrome,
+                          default_exception_el(s));
 }
 
 /* MRS - move from system register
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
         switch (op2_ll) {
         case 1:                                                     /* SVC */
             gen_ss_advance(s);
-            gen_exception_insn(s, s->base.pc_next, EXCP_SWI,
-                               syn_aa64_svc(imm16), default_exception_el(s));
+            gen_exception_insn_el(s, s->base.pc_next, EXCP_SWI,
+                                  syn_aa64_svc(imm16), default_exception_el(s));
             break;
         case 2:                                                     /* HVC */
             if (s->current_el == 0) {
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
             gen_a64_set_pc_im(s->pc_curr);
             gen_helper_pre_hvc(cpu_env);
             gen_ss_advance(s);
-            gen_exception_insn(s, s->base.pc_next, EXCP_HVC,
-                               syn_aa64_hvc(imm16), 2);
+            gen_exception_insn_el(s, s->base.pc_next, EXCP_HVC,
+                                  syn_aa64_hvc(imm16), 2);
             break;
         case 3:                                                     /* SMC */
             if (s->current_el == 0) {
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
             gen_a64_set_pc_im(s->pc_curr);
             gen_helper_pre_smc(cpu_env, tcg_constant_i32(syn_aa64_smc(imm16)));
             gen_ss_advance(s);
-            gen_exception_insn(s, s->base.pc_next, EXCP_SMC,
-                               syn_aa64_smc(imm16), 3);
+            gen_exception_insn_el(s, s->base.pc_next, EXCP_SMC,
+                                  syn_aa64_smc(imm16), 3);
             break;
         default:
             unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
          * Illegal execution state. This has priority over BTI
          * exceptions, but comes after instruction abort exceptions.
          */
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_illegalstate(), default_exception_el(s));
+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+                              syn_illegalstate(), default_exception_el(s));
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
             if (s->btype != 0
                 && s->guarded_page
                 && !btype_destination_ok(insn, s->bt, s->btype)) {
-                gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                                   syn_btitrap(s->btype),
-                                   default_exception_el(s));
+                gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+                                      syn_btitrap(s->btype),
+                                      default_exception_el(s));
                 return;
             }
         } else {
diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-m-nocp.c
+++ b/target/arm/translate-m-nocp.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VSCCLRM(DisasContext *s, arg_VSCCLRM *a)
     tcg_gen_brcondi_i32(TCG_COND_EQ, sfpa, 0, s->condlabel);
 
     if (s->fp_excp_el != 0) {
-        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                           syn_uncategorized(), s->fp_excp_el);
+        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
+                              syn_uncategorized(), s->fp_excp_el);
         return true;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_write(DisasContext *s, int regno,
         if (!vfp_access_check_m(s, true)) {
             /*
              * This was only a conditional exception, so override
-             * gen_exception_insn()'s default to DISAS_NORETURN
+             * gen_exception_insn_el()'s default to DISAS_NORETURN
              */
             s->base.is_jmp = DISAS_NEXT;
             break;
@@ -XXX,XX +XXX,XX @@ static bool gen_M_fp_sysreg_read(DisasContext *s, int regno,
         if (!vfp_access_check_m(s, true)) {
             /*
              * This was only a conditional exception, so override
-             * gen_exception_insn()'s default to DISAS_NORETURN
+             * gen_exception_insn_el()'s default to DISAS_NORETURN
              */
             s->base.is_jmp = DISAS_NEXT;
             break;
@@ -XXX,XX +XXX,XX @@ static bool trans_NOCP(DisasContext *s, arg_nocp *a)
     }
 
     if (a->cp != 10) {
-        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                           syn_uncategorized(), default_exception_el(s));
+        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
+                              syn_uncategorized(), default_exception_el(s));
         return true;
     }
 
     if (s->fp_excp_el != 0) {
-        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                           syn_uncategorized(), s->fp_excp_el);
+        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
+                              syn_uncategorized(), s->fp_excp_el);
         return true;
     }
 
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ bool mve_eci_check(DisasContext *s)
         return true;
     default:
         /* Reserved value: INVSTATE UsageFault */
-        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                           default_exception_el(s));
+        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+                              default_exception_el(s));
         return false;
     }
 }
diff --git a/target/arm/translate-vfp.c b/target/arm/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-vfp.c
+++ b/target/arm/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static bool vfp_access_check_a(DisasContext *s, bool ignore_vfp_enabled)
         int coproc = arm_dc_feature(s, ARM_FEATURE_V8) ? 0 : 0xa;
         uint32_t syn = syn_fp_access_trap(1, 0xe, false, coproc);
 
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn, s->fp_excp_el);
+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syn, s->fp_excp_el);
         return false;
     }
 
@@ -XXX,XX +XXX,XX @@ bool vfp_access_check_m(DisasContext *s, bool skip_context_update)
          * the encoding space handled by the patterns in m-nocp.decode,
          * and for them we may need to raise NOCP here.
          */
-        gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                           syn_uncategorized(), s->fp_excp_el);
+        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
+                              syn_uncategorized(), s->fp_excp_el);
         return false;
     }
 
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
     s->base.is_jmp = DISAS_NORETURN;
 }
 
-void gen_exception_insn(DisasContext *s, uint64_t pc, int excp,
-                        uint32_t syn, uint32_t target_el)
+void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
+                           uint32_t syn, uint32_t target_el)
 {
     gen_exception_insn_el_v(s, pc, excp, syn, tcg_constant_i32(target_el));
 }
@@ -XXX,XX +XXX,XX @@ static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
 void unallocated_encoding(DisasContext *s)
 {
     /* Unallocated and reserved encodings are uncategorized */
-    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(),
-                       default_exception_el(s));
+    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(),
+                          default_exception_el(s));
 }
 
 /* Force a TB lookup after an instruction that changes the CPU state.  */
@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
 
 undef:
     /* If we get here then some access check did not pass */
-    gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                       syn_uncategorized(), exc_target);
+    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+                          syn_uncategorized(), exc_target);
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_srs(DisasContext *s,
      * For the UNPREDICTABLE cases we choose to UNDEF.
      */
     if (s->current_el == 1 && !s->ns && mode == ARM_CPU_MODE_MON) {
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(), 3);
+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+                              syn_uncategorized(), 3);
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_WLS(DisasContext *s, arg_WLS *a)
          * Do the check-and-raise-exception by hand.
          */
         if (s->fp_excp_el) {
-            gen_exception_insn(s, s->pc_curr, EXCP_NOCP,
-                               syn_uncategorized(), s->fp_excp_el);
+            gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
+                                  syn_uncategorized(), s->fp_excp_el);
             return true;
         }
     }
@@ -XXX,XX +XXX,XX @@ static bool trans_LE(DisasContext *s, arg_LE *a)
         tmp = load_cpu_field(v7m.ltpsize);
         tcg_gen_brcondi_i32(TCG_COND_EQ, tmp, 4, skipexc);
         tcg_temp_free_i32(tmp);
-        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                           default_exception_el(s));
+        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+                              default_exception_el(s));
         gen_set_label(skipexc);
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
      * UsageFault exception.
      */
     if (arm_dc_feature(s, ARM_FEATURE_M)) {
-        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                           default_exception_el(s));
+        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+                              default_exception_el(s));
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
          * Illegal execution state. This has priority over BTI
          * exceptions, but comes after instruction abort exceptions.
          */
-        gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
-                           syn_illegalstate(), default_exception_el(s));
+        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
+                              syn_illegalstate(), default_exception_el(s));
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
          * Illegal execution state. This has priority over BTI
          * exceptions, but comes after instruction abort exceptions.
          */
-        gen_exception_insn(dc, dc->pc_curr, EXCP_UDEF,
-                           syn_illegalstate(), default_exception_el(dc));
+        gen_exception_insn_el(dc, dc->pc_curr, EXCP_UDEF,
+                              syn_illegalstate(), default_exception_el(dc));
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
          */
         tcg_remove_ops_after(dc->insn_eci_rewind);
         dc->condjmp = 0;
-        gen_exception_insn(dc, dc->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                           default_exception_el(dc));
+        gen_exception_insn_el(dc, dc->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
+                              default_exception_el(dc));
     }
 
     arm_post_translate_insn(dc);
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Create a new wrapper function that passes the default
exception target to gen_exception_insn_el.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h        |  1 +
 target/arm/translate-a64.c    | 15 ++++++---------
 target/arm/translate-m-nocp.c |  3 +--
 target/arm/translate-mve.c    |  3 +--
 target/arm/translate.c        | 29 +++++++++++++----------------
 5 files changed, 22 insertions(+), 29 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ MemOp pow2_align(unsigned i);
 void unallocated_encoding(DisasContext *s);
 void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
                            uint32_t syn, uint32_t target_el);
+void gen_exception_insn(DisasContext *s, uint64_t pc, int excp, uint32_t syn);
 
 /* Return state of Alternate Half-precision flag, caller frees result */
 static inline TCGv_i32 get_ahp_flag(void)
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_sysreg_undef(DisasContext *s, bool isread,
     } else {
         syndrome = syn_uncategorized();
     }
-    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syndrome,
-                          default_exception_el(s));
+    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syndrome);
 }
 
 /* MRS - move from system register
@@ -XXX,XX +XXX,XX @@ static void disas_exc(DisasContext *s, uint32_t insn)
         switch (op2_ll) {
         case 1:                                                     /* SVC */
             gen_ss_advance(s);
-            gen_exception_insn_el(s, s->base.pc_next, EXCP_SWI,
-                                  syn_aa64_svc(imm16), default_exception_el(s));
+            gen_exception_insn(s, s->base.pc_next, EXCP_SWI,
+                               syn_aa64_svc(imm16));
             break;
         case 2:                                                     /* HVC */
             if (s->current_el == 0) {
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
          * Illegal execution state. This has priority over BTI
          * exceptions, but comes after instruction abort exceptions.
          */
-        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
-                              syn_illegalstate(), default_exception_el(s));
+        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_illegalstate());
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
             if (s->btype != 0
                 && s->guarded_page
                 && !btype_destination_ok(insn, s->bt, s->btype)) {
-                gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
-                                      syn_btitrap(s->btype),
-                                      default_exception_el(s));
+                gen_exception_insn(s, s->pc_curr, EXCP_UDEF,
+                                   syn_btitrap(s->btype));
                 return;
             }
         } else {
diff --git a/target/arm/translate-m-nocp.c b/target/arm/translate-m-nocp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-m-nocp.c
+++ b/target/arm/translate-m-nocp.c
@@ -XXX,XX +XXX,XX @@ static bool trans_NOCP(DisasContext *s, arg_nocp *a)
     }
 
     if (a->cp != 10) {
-        gen_exception_insn_el(s, s->pc_curr, EXCP_NOCP,
-                              syn_uncategorized(), default_exception_el(s));
+        gen_exception_insn(s, s->pc_curr, EXCP_NOCP, syn_uncategorized());
         return true;
     }
 
diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-mve.c
+++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ bool mve_eci_check(DisasContext *s)
         return true;
     default:
         /* Reserved value: INVSTATE UsageFault */
-        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                              default_exception_el(s));
+        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized());
         return false;
     }
 }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
     gen_exception_insn_el_v(s, pc, excp, syn, tcg_constant_i32(target_el));
 }
 
+void gen_exception_insn(DisasContext *s, uint64_t pc, int excp, uint32_t syn)
+{
+    gen_exception_insn_el(s, pc, excp, syn, default_exception_el(s));
+}
+
 static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
 {
     gen_set_condexec(s);
@@ -XXX,XX +XXX,XX @@ static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
 void unallocated_encoding(DisasContext *s)
 {
     /* Unallocated and reserved encodings are uncategorized */
-    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF, syn_uncategorized(),
-                          default_exception_el(s));
+    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized());
 }
 
 /* Force a TB lookup after an instruction that changes the CPU state.  */
@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
      * an exception and return false. Otherwise it will return true,
      * and set *tgtmode and *regno appropriately.
      */
-    int exc_target = default_exception_el(s);
-
     /* These instructions are present only in ARMv8, or in ARMv7 with the
      * Virtualization Extensions.
      */
@@ -XXX,XX +XXX,XX @@ static bool msr_banked_access_decode(DisasContext *s, int r, int sysm, int rn,
 
 undef:
     /* If we get here then some access check did not pass */
-    gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
-                          syn_uncategorized(), exc_target);
+    gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_uncategorized());
     return false;
 }
 
@@ -XXX,XX +XXX,XX @@ static bool trans_LE(DisasContext *s, arg_LE *a)
         tmp = load_cpu_field(v7m.ltpsize);
         tcg_gen_brcondi_i32(TCG_COND_EQ, tmp, 4, skipexc);
         tcg_temp_free_i32(tmp);
-        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                              default_exception_el(s));
+        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized());
         gen_set_label(skipexc);
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
      * UsageFault exception.
      */
     if (arm_dc_feature(s, ARM_FEATURE_M)) {
-        gen_exception_insn_el(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                              default_exception_el(s));
+        gen_exception_insn(s, s->pc_curr, EXCP_INVSTATE, syn_uncategorized());
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_arm_insn(DisasContext *s, unsigned int insn)
          * Illegal execution state. This has priority over BTI
          * exceptions, but comes after instruction abort exceptions.
          */
-        gen_exception_insn_el(s, s->pc_curr, EXCP_UDEF,
-                              syn_illegalstate(), default_exception_el(s));
+        gen_exception_insn(s, s->pc_curr, EXCP_UDEF, syn_illegalstate());
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
          * Illegal execution state. This has priority over BTI
          * exceptions, but comes after instruction abort exceptions.
          */
-        gen_exception_insn_el(dc, dc->pc_curr, EXCP_UDEF,
-                              syn_illegalstate(), default_exception_el(dc));
+        gen_exception_insn(dc, dc->pc_curr, EXCP_UDEF, syn_illegalstate());
         return;
     }
 
@@ -XXX,XX +XXX,XX @@ static void thumb_tr_translate_insn(DisasContextBase *dcbase, CPUState *cpu)
          */
         tcg_remove_ops_after(dc->insn_eci_rewind);
         dc->condjmp = 0;
-        gen_exception_insn_el(dc, dc->pc_curr, EXCP_INVSTATE, syn_uncategorized(),
-                              default_exception_el(dc));
+        gen_exception_insn(dc, dc->pc_curr, EXCP_INVSTATE,
+                           syn_uncategorized());
     }
 
     arm_post_translate_insn(dc);
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Move the computation from gen_swstep_exception into a helper.

This fixes a bug when:
  - MDSCR_EL1.KDE == 1 to enable debug exceptions within EL_D itself
  - we singlestep an ERET from EL_D to some lower EL

Previously we were computing 'same el' based on the EL which
executed the ERET instruction, whereas it ought to be computed
based on the EL to which ERET returned.  This happens naturally
with the new helper, which runs after EL has been changed.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h       |  1 +
 target/arm/translate.h    | 12 +++---------
 target/arm/debug_helper.c | 16 ++++++++++++++++
 3 files changed, 20 insertions(+), 9 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
 DEF_HELPER_2(exception_internal, noreturn, env, i32)
 DEF_HELPER_4(exception_with_syndrome_el, noreturn, env, i32, i32, i32)
 DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
+DEF_HELPER_2(exception_swstep, noreturn, env, i32)
 DEF_HELPER_2(exception_pc_alignment, noreturn, env, tl)
 DEF_HELPER_1(setend, void, env)
 DEF_HELPER_2(wfi, void, env, i32)
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_exception(int excp, uint32_t syndrome,
 /* Generate an architectural singlestep exception */
 static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
 {
-    bool same_el = (s->debug_target_el == s->current_el);
-
-    /*
-     * If singlestep is targeting a lower EL than the current one,
-     * then s->ss_active must be false and we can never get here.
-     */
-    assert(s->debug_target_el >= s->current_el);
-
-    gen_exception(EXCP_UDEF, syn_swstep(same_el, isv, ex), s->debug_target_el);
+    /* Fill in the same_el field of the syndrome in the helper. */
+    uint32_t syn = syn_swstep(false, isv, ex);
+    gen_helper_exception_swstep(cpu_env, tcg_constant_i32(syn));
 }
 
 /*
diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
     raise_exception(env, EXCP_BKPT, syndrome, debug_el);
 }
 
+void HELPER(exception_swstep)(CPUARMState *env, uint32_t syndrome)
+{
+    int debug_el = arm_debug_target_el(env);
+    int cur_el = arm_current_el(env);
+
+    /*
+     * If singlestep is targeting a lower EL than the current one, then
+     * DisasContext.ss_active must be false and we can never get here.
+     */
+    assert(debug_el >= cur_el);
+    if (debug_el == cur_el) {
+        syndrome |= 1 << ARM_EL_EC_SHIFT;
+    }
+    raise_exception(env, EXCP_UDEF, syndrome, debug_el);
+}
+
 #if !defined(CONFIG_USER_ONLY)
 
 vaddr arm_adjust_watchpoint_address(CPUState *cs, vaddr addr, int len)
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

We no longer need this value during translation,
as it is now handled within the helpers.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h           |  6 ++----
 target/arm/translate.h     |  2 --
 target/arm/helper.c        | 12 ++----------
 target/arm/translate-a64.c |  1 -
 target/arm/translate.c     |  1 -
 5 files changed, 4 insertions(+), 18 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ FIELD(TBFLAG_ANY, BE_DATA, 3, 1)
 FIELD(TBFLAG_ANY, MMUIDX, 4, 4)
 /* Target EL if we take a floating-point-disabled exception */
 FIELD(TBFLAG_ANY, FPEXC_EL, 8, 2)
-/* For A-profile only, target EL for debug exceptions.  */
-FIELD(TBFLAG_ANY, DEBUG_TARGET_EL, 10, 2)
 /* Memory operations require alignment: SCTLR_ELx.A or CCR.UNALIGN_TRP */
-FIELD(TBFLAG_ANY, ALIGN_MEM, 12, 1)
-FIELD(TBFLAG_ANY, PSTATE__IL, 13, 1)
+FIELD(TBFLAG_ANY, ALIGN_MEM, 10, 1)
+FIELD(TBFLAG_ANY, PSTATE__IL, 11, 1)
 
 /*
  * Bit usage when in AArch32 state, both A- and M-profile.
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
      */
     uint32_t svc_imm;
     int current_el;
-    /* Debug target exception level for single-step exceptions */
-    int debug_target_el;
     GHashTable *cp_regs;
     uint64_t features; /* CPU features bits */
     bool aarch64;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_m32(CPUARMState *env, int fp_el,
     return rebuild_hflags_common_32(env, fp_el, mmu_idx, flags);
 }
 
-static CPUARMTBFlags rebuild_hflags_aprofile(CPUARMState *env)
-{
-    CPUARMTBFlags flags = {};
-
-    DP_TBFLAG_ANY(flags, DEBUG_TARGET_EL, arm_debug_target_el(env));
-    return flags;
-}
-
 static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
                                         ARMMMUIdx mmu_idx)
 {
-    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
+    CPUARMTBFlags flags = {};
     int el = arm_current_el(env);
 
     if (arm_sctlr(env, el) & SCTLR_A) {
@@ -XXX,XX +XXX,XX @@ static CPUARMTBFlags rebuild_hflags_a32(CPUARMState *env, int fp_el,
 static CPUARMTBFlags rebuild_hflags_a64(CPUARMState *env, int el, int fp_el,
                                         ARMMMUIdx mmu_idx)
 {
-    CPUARMTBFlags flags = rebuild_hflags_aprofile(env);
+    CPUARMTBFlags flags = {};
     ARMMMUIdx stage1 = stage_1_mmu_idx(mmu_idx);
     uint64_t tcr = regime_tcr(env, mmu_idx)->raw_tcr;
     uint64_t sctlr;
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
     dc->ss_active = EX_TBFLAG_ANY(tb_flags, SS_ACTIVE);
     dc->pstate_ss = EX_TBFLAG_ANY(tb_flags, PSTATE__SS);
     dc->is_ldex = false;
-    dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
 
     /* Bound the number of insns to execute to those left on the page.  */
     bound = -(dc->base.pc_first | TARGET_PAGE_MASK) / 4;
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
         dc->v7m_lspact = EX_TBFLAG_M32(tb_flags, LSPACT);
         dc->mve_no_pred = EX_TBFLAG_M32(tb_flags, MVE_NO_PRED);
     } else {
-        dc->debug_target_el = EX_TBFLAG_ANY(tb_flags, DEBUG_TARGET_EL);
         dc->sctlr_b = EX_TBFLAG_A32(tb_flags, SCTLR__B);
         dc->hstr_active = EX_TBFLAG_A32(tb_flags, HSTR_ACTIVE);
         dc->ns = EX_TBFLAG_A32(tb_flags, NS);
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

This function is not required by any other translation file.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h | 8 --------
 target/arm/translate.c | 7 +++++++
 2 files changed, 7 insertions(+), 8 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_ss_advance(DisasContext *s)
     }
 }
 
-static inline void gen_exception(int excp, uint32_t syndrome,
-                                 uint32_t target_el)
-{
-    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
-                                          tcg_constant_i32(syndrome),
-                                          tcg_constant_i32(target_el));
-}
-
 /* Generate an architectural singlestep exception */
 static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
 {
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_internal_insn(DisasContext *s, uint32_t pc, int excp)
     s->base.is_jmp = DISAS_NORETURN;
 }
 
+static void gen_exception(int excp, uint32_t syndrome, uint32_t target_el)
+{
+    gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
+                                          tcg_constant_i32(syndrome),
+                                          tcg_constant_i32(target_el));
+}
+
 static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
                                     uint32_t syn, TCGv_i32 tcg_el)
 {
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_internal_insn(DisasContext *s, uint32_t pc, int excp)
     s->base.is_jmp = DISAS_NORETURN;
 }
 
-static void gen_exception(int excp, uint32_t syndrome, uint32_t target_el)
+static void gen_exception_el(int excp, uint32_t syndrome, uint32_t target_el)
 {
     gen_helper_exception_with_syndrome_el(cpu_env, tcg_constant_i32(excp),
                                           tcg_constant_i32(syndrome),
@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
         switch (dc->base.is_jmp) {
         case DISAS_SWI:
             gen_ss_advance(dc);
-            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
-                          default_exception_el(dc));
+            gen_exception_el(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
+                             default_exception_el(dc));
             break;
         case DISAS_HVC:
             gen_ss_advance(dc);
-            gen_exception(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
+            gen_exception_el(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
             break;
         case DISAS_SMC:
             gen_ss_advance(dc);
-            gen_exception(EXCP_SMC, syn_aa32_smc(), 3);
+            gen_exception_el(EXCP_SMC, syn_aa32_smc(), 3);
             break;
         case DISAS_NEXT:
         case DISAS_TOO_MANY:
@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
             gen_helper_yield(cpu_env);
             break;
         case DISAS_SWI:
-            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
-                          default_exception_el(dc));
+            gen_exception_el(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb),
+                             default_exception_el(dc));
             break;
         case DISAS_HVC:
-            gen_exception(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
+            gen_exception_el(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
             break;
         case DISAS_SMC:
-            gen_exception(EXCP_SMC, syn_aa32_smc(), 3);
+            gen_exception_el(EXCP_SMC, syn_aa32_smc(), 3);
             break;
         }
     }
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Create a new wrapper function that passes the default
exception target to gen_exception_el.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 11 +++++++----
 1 file changed, 7 insertions(+), 4 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Split out a common helper function for gen_exception_el
and gen_exception_insn_el_v.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-19-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

With the helper we can use exception_target_el at runtime,
instead of default_exception_el at translate time.
While we're at it, remove the DisasContext parameter from
gen_exception, as it is no longer used.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h    |  1 +
 target/arm/op_helper.c | 10 ++++++++++
 target/arm/translate.c | 18 +++++++++++++-----
 3 files changed, 24 insertions(+), 5 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(usad8, TCG_CALL_NO_RWG_SE, i32, i32, i32)
 DEF_HELPER_FLAGS_3(sel_flags, TCG_CALL_NO_RWG_SE,
                    i32, i32, i32, i32)
 DEF_HELPER_2(exception_internal, noreturn, env, i32)
+DEF_HELPER_3(exception_with_syndrome, noreturn, env, i32, i32)
 DEF_HELPER_4(exception_with_syndrome_el, noreturn, env, i32, i32, i32)
 DEF_HELPER_2(exception_bkpt_insn, noreturn, env, i32)
 DEF_HELPER_2(exception_swstep, noreturn, env, i32)
diff --git a/target/arm/op_helper.c b/target/arm/op_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/op_helper.c
+++ b/target/arm/op_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_with_syndrome_el)(CPUARMState *env, uint32_t excp,
     raise_exception(env, excp, syndrome, target_el);
 }
 
+/*
+ * Raise an exception with the specified syndrome register value
+ * to the default target el.
+ */
+void HELPER(exception_with_syndrome)(CPUARMState *env, uint32_t excp,
+                                     uint32_t syndrome)
+{
+    raise_exception(env, excp, syndrome, exception_target_el(env));
+}
+
 uint32_t HELPER(cpsr_read)(CPUARMState *env)
 {
     return cpsr_read(env) & ~CPSR_EXEC;
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_el(int excp, uint32_t syndrome, uint32_t target_el)
     gen_exception_el_v(excp, syndrome, tcg_constant_i32(target_el));
 }
 
-static void gen_exception(DisasContext *s, int excp, uint32_t syndrome)
+static void gen_exception(int excp, uint32_t syndrome)
 {
-    gen_exception_el(excp, syndrome, default_exception_el(s));
+    gen_helper_exception_with_syndrome(cpu_env, tcg_constant_i32(excp),
+                                       tcg_constant_i32(syndrome));
 }
 
 static void gen_exception_insn_el_v(DisasContext *s, uint64_t pc, int excp,
@@ -XXX,XX +XXX,XX @@ void gen_exception_insn_el(DisasContext *s, uint64_t pc, int excp,
 
 void gen_exception_insn(DisasContext *s, uint64_t pc, int excp, uint32_t syn)
 {
-    gen_exception_insn_el(s, pc, excp, syn, default_exception_el(s));
+    if (s->aarch64) {
+        gen_a64_set_pc_im(pc);
+    } else {
+        gen_set_condexec(s);
+        gen_set_pc_im(s, pc);
+    }
+    gen_exception(excp, syn);
+    s->base.is_jmp = DISAS_NORETURN;
 }
 
 static void gen_exception_bkpt_insn(DisasContext *s, uint32_t syn)
@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
         switch (dc->base.is_jmp) {
         case DISAS_SWI:
             gen_ss_advance(dc);
-            gen_exception(dc, EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
+            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
             break;
         case DISAS_HVC:
             gen_ss_advance(dc);
@@ -XXX,XX +XXX,XX @@ static void arm_tr_tb_stop(DisasContextBase *dcbase, CPUState *cpu)
             gen_helper_yield(cpu_env);
             break;
         case DISAS_SWI:
-            gen_exception(dc, EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
+            gen_exception(EXCP_SWI, syn_aa32_svc(dc->svc_imm, dc->thumb));
             break;
         case DISAS_HVC:
             gen_exception_el(EXCP_HVC, syn_aa32_hvc(dc->svc_imm), 2);
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

This function is no longer used.  At the same time, remove
DisasContext.secure_routed_to_el3, as it in turn becomes unused.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     | 16 ----------------
 target/arm/translate-a64.c |  5 -----
 target/arm/translate.c     |  5 -----
 3 files changed, 26 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ typedef struct DisasContext {
     int fp_excp_el; /* FP exception EL or 0 if enabled */
     int sve_excp_el; /* SVE exception EL or 0 if enabled */
     int vl;          /* current vector length in bytes */
-    /* Flag indicating that exceptions from secure mode are routed to EL3. */
-    bool secure_routed_to_el3;
     bool vfp_enabled; /* FP enabled via FPSCR.EN */
     int vec_len;
     int vec_stride;
@@ -XXX,XX +XXX,XX @@ static inline int get_mem_index(DisasContext *s)
     return arm_to_core_mmu_idx(s->mmu_idx);
 }
 
-/* Function used to determine the target exception EL when otherwise not known
- * or default.
- */
-static inline int default_exception_el(DisasContext *s)
-{
-    /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
-     * there is no secure EL1, so we route exceptions to EL3.  Otherwise,
-     * exceptions can only be routed to ELs above 1, so we target the higher of
-     * 1 or the current EL.
-     */
-    return (s->mmu_idx == ARMMMUIdx_SE10_0 && s->secure_routed_to_el3)
-            ? 3 : MAX(1, s->current_el);
-}
-
 static inline void disas_set_insn_syndrome(DisasContext *s, uint32_t syn)
 {
     /* We don't need to save all of the syndrome so we mask and shift
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void aarch64_tr_init_disas_context(DisasContextBase *dcbase,
     dc->condjmp = 0;
 
     dc->aarch64 = true;
-    /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
-     * there is no secure EL1, so we route exceptions to EL3.
-     */
-    dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
-                               !arm_el_is_aa64(env, 3);
     dc->thumb = false;
     dc->sctlr_b = 0;
     dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void arm_tr_init_disas_context(DisasContextBase *dcbase, CPUState *cs)
     dc->condjmp = 0;
 
     dc->aarch64 = false;
-    /* If we are coming from secure EL0 in a system with a 32-bit EL3, then
-     * there is no secure EL1, so we route exceptions to EL3.
-     */
-    dc->secure_routed_to_el3 = arm_feature(env, ARM_FEATURE_EL3) &&
-                               !arm_el_is_aa64(env, 3);
     dc->thumb = EX_TBFLAG_AM32(tb_flags, THUMB);
     dc->be_data = EX_TBFLAG_ANY(tb_flags, BE_DATA) ? MO_BE : MO_LE;
     condexec = EX_TBFLAG_AM32(tb_flags, CONDEXEC);
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Handle the debug vs current el exception test in one place.
Leave EXCP_BKPT alone, since that treats debug < current differently.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/debug_helper.c | 44 +++++++++++++++++++++------------------
 1 file changed, 24 insertions(+), 20 deletions(-)

diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 
 
+/*
+ * Raise an exception to the debug target el.
+ * Modify syndrome to indicate when origin and target EL are the same.
+ */
+G_NORETURN static void
+raise_exception_debug(CPUARMState *env, uint32_t excp, uint32_t syndrome)
+{
+    int debug_el = arm_debug_target_el(env);
+    int cur_el = arm_current_el(env);
+
+    /*
+     * If singlestep is targeting a lower EL than the current one, then
+     * DisasContext.ss_active must be false and we can never get here.
+     * Similarly for watchpoint and breakpoint matches.
+     */
+    assert(debug_el >= cur_el);
+    syndrome |= (debug_el == cur_el) << ARM_EL_EC_SHIFT;
+    raise_exception(env, excp, syndrome, debug_el);
+}
+
 /* See AArch64.GenerateDebugExceptionsFrom() in ARM ARM pseudocode */
 static bool aa64_generate_debug_exceptions(CPUARMState *env)
 {
@@ -XXX,XX +XXX,XX @@ void arm_debug_excp_handler(CPUState *cs)
     if (wp_hit) {
         if (wp_hit->flags & BP_CPU) {
             bool wnr = (wp_hit->flags & BP_WATCHPOINT_HIT_WRITE) != 0;
-            bool same_el = arm_debug_target_el(env) == arm_current_el(env);
 
             cs->watchpoint_hit = NULL;
 
             env->exception.fsr = arm_debug_exception_fsr(env);
             env->exception.vaddress = wp_hit->hitaddr;
-            raise_exception(env, EXCP_DATA_ABORT,
-                    syn_watchpoint(same_el, 0, wnr),
-                    arm_debug_target_el(env));
+            raise_exception_debug(env, EXCP_DATA_ABORT,
+                                  syn_watchpoint(0, 0, wnr));
         }
     } else {
         uint64_t pc = is_a64(env) ? env->pc : env->regs[15];
-        bool same_el = (arm_debug_target_el(env) == arm_current_el(env));
 
         /*
          * (1) GDB breakpoints should be handled first.
@@ -XXX,XX +XXX,XX @@ void arm_debug_excp_handler(CPUState *cs)
          * exception/security level.
          */
         env->exception.vaddress = 0;
-        raise_exception(env, EXCP_PREFETCH_ABORT,
-                        syn_breakpoint(same_el),
-                        arm_debug_target_el(env));
+        raise_exception_debug(env, EXCP_PREFETCH_ABORT, syn_breakpoint(0));
     }
 }
 
@@ -XXX,XX +XXX,XX @@ void HELPER(exception_bkpt_insn)(CPUARMState *env, uint32_t syndrome)
 
 void HELPER(exception_swstep)(CPUARMState *env, uint32_t syndrome)
 {
-    int debug_el = arm_debug_target_el(env);
-    int cur_el = arm_current_el(env);
-
-    /*
-     * If singlestep is targeting a lower EL than the current one, then
-     * DisasContext.ss_active must be false and we can never get here.
-     */
-    assert(debug_el >= cur_el);
-    if (debug_el == cur_el) {
-        syndrome |= 1 << ARM_EL_EC_SHIFT;
-    }
-    raise_exception(env, EXCP_UDEF, syndrome, debug_el);
+    raise_exception_debug(env, EXCP_UDEF, syndrome);
 }
 
 #if !defined(CONFIG_USER_ONLY)
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

This function is no longer used outside debug_helper.c.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h          | 21 ---------------------
 target/arm/debug_helper.c | 21 +++++++++++++++++++++
 2 files changed, 21 insertions(+), 21 deletions(-)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ typedef enum ARMASIdx {
     ARMASIdx_TagS = 3,
 } ARMASIdx;
 
-/* Return the Exception Level targeted by debug exceptions. */
-static inline int arm_debug_target_el(CPUARMState *env)
-{
-    bool secure = arm_is_secure(env);
-    bool route_to_el2 = false;
-
-    if (arm_is_el2_enabled(env)) {
-        route_to_el2 = env->cp15.hcr_el2 & HCR_TGE ||
-                       env->cp15.mdcr_el2 & MDCR_TDE;
-    }
-
-    if (route_to_el2) {
-        return 2;
-    } else if (arm_feature(env, ARM_FEATURE_EL3) &&
-               !arm_el_is_aa64(env, 3) && secure) {
-        return 3;
-    } else {
-        return 1;
-    }
-}
-
 static inline bool arm_v7m_csselr_razwi(ARMCPU *cpu)
 {
     /* If all the CLIDR.Ctypem bits are 0 there are no caches, and
diff --git a/target/arm/debug_helper.c b/target/arm/debug_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/debug_helper.c
+++ b/target/arm/debug_helper.c
@@ -XXX,XX +XXX,XX @@
 #include "exec/helper-proto.h"
 
 
+/* Return the Exception Level targeted by debug exceptions. */
+static int arm_debug_target_el(CPUARMState *env)
+{
+    bool secure = arm_is_secure(env);
+    bool route_to_el2 = false;
+
+    if (arm_is_el2_enabled(env)) {
+        route_to_el2 = env->cp15.hcr_el2 & HCR_TGE ||
+                       env->cp15.mdcr_el2 & MDCR_TDE;
+    }
+
+    if (route_to_el2) {
+        return 2;
+    } else if (arm_feature(env, ARM_FEATURE_EL3) &&
+               !arm_el_is_aa64(env, 3) && secure) {
+        return 3;
+    } else {
+        return 1;
+    }
+}
+
 /*
  * Raise an exception to the debug target el.
  * Modify syndrome to indicate when origin and target EL are the same.
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

We were using arm_is_secure and is_a64, which are
tests against the current EL, as opposed to
arm_el_is_aa64 and arm_is_secure_below_el3, which
can be applied to a different EL than current.
Consolidate the two tests.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609202901.1177572-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 23 +++++++++--------------
 1 file changed, 9 insertions(+), 14 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
         int fpen = FIELD_EX64(env->cp15.cpacr_el1, CPACR_EL1, FPEN);
 
         switch (fpen) {
+        case 1:
+            if (cur_el != 0) {
+                break;
+            }
+            /* fall through */
         case 0:
         case 2:
-            if (cur_el == 0 || cur_el == 1) {
-                /* Trap to PL1, which might be EL1 or EL3 */
-                if (arm_is_secure(env) && !arm_el_is_aa64(env, 3)) {
-                    return 3;
-                }
-                return 1;
-            }
-            if (cur_el == 3 && !is_a64(env)) {
-                /* Secure PL1 running at EL3 */
+            /* Trap from Secure PL0 or PL1 to Secure PL1. */
+            if (!arm_el_is_aa64(env, 3)
+                && (cur_el == 3 || arm_is_secure_below_el3(env))) {
                 return 3;
             }
-            break;
-        case 1:
-            if (cur_el == 0) {
+            if (cur_el <= 1) {
                 return 1;
             }
             break;
-        case 3:
-            break;
         }
     }
 
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Because reset always initializes the AA64 version, SCR_EL3,
test the mode of EL3 instead of the type of the cpreg.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609214657.1217913-2-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 14 ++++++++------
 1 file changed, 8 insertions(+), 6 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void scr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
     uint32_t valid_mask = 0x3fff;
     ARMCPU *cpu = env_archcpu(env);
 
-    if (ri->state == ARM_CP_STATE_AA64) {
-        if (arm_feature(env, ARM_FEATURE_AARCH64) &&
-            !cpu_isar_feature(aa64_aa32_el1, cpu)) {
-                value |= SCR_FW | SCR_AW;   /* these two bits are RES1.  */
-        }
-        valid_mask &= ~SCR_NET;
+    /*
+     * Because SCR_EL3 is the "real" cpreg and SCR is the alias, reset always
+     * passes the reginfo for SCR_EL3, which has type ARM_CP_STATE_AA64.
+     * Instead, choose the format based on the mode of EL3.
+     */
+    if (arm_el_is_aa64(env, 3)) {
+        value |= SCR_FW | SCR_AW;      /* RES1 */
+        valid_mask &= ~SCR_NET;        /* RES0 */
 
         if (cpu_isar_feature(aa64_ras, cpu)) {
             valid_mask |= SCR_TERR;
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Since DDI0487F.a, the RW bit is RAO/WI.  When specifically
targeting such a cpu, e.g. cortex-a76, it is legitimate to
ignore the bit within the secure monitor.

Resolves: https://gitlab.com/qemu-project/qemu/-/issues/1062
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220609214657.1217913-3-richard.henderson@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/cpu.h    | 5 +++++
 target/arm/helper.c | 4 ++++
 2 files changed, 9 insertions(+)

diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@ static inline bool isar_feature_aa64_aa32_el1(const ARMISARegisters *id)
     return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, EL1) >= 2;
 }
 
+static inline bool isar_feature_aa64_aa32_el2(const ARMISARegisters *id)
+{
+    return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, EL2) >= 2;
+}
+
 static inline bool isar_feature_aa64_ras(const ARMISARegisters *id)
 {
     return FIELD_EX64(id->id_aa64pfr0, ID_AA64PFR0, RAS) != 0;
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static void scr_write(CPUARMState *env, const ARMCPRegInfo *ri, uint64_t value)
         value |= SCR_FW | SCR_AW;      /* RES1 */
         valid_mask &= ~SCR_NET;        /* RES0 */
 
+        if (!cpu_isar_feature(aa64_aa32_el1, cpu) &&
+            !cpu_isar_feature(aa64_aa32_el2, cpu)) {
+            value |= SCR_RW;           /* RAO/WI */
+        }
         if (cpu_isar_feature(aa64_ras, cpu)) {
             valid_mask |= SCR_TERR;
         }
-- 
2.25.1

In two places in gdbstub.c we look at gdbserver_state.init to decide
whether we're going to do a semihosting syscall via the gdb remote
protocol:
 * when setting up, if the user didn't explicitly select either
   native semihosting or gdb semihosting, we autoselect, with the
   intended behaviour "use gdb if gdb is connected"
 * when the semihosting layer attempts to do a syscall via gdb, we
   silently ignore it if the gdbstub wasn't actually set up

However, if the user's commandline sets up the gdbstub but tells QEMU
to start rather than waiting for a GDB to connect (eg using '-s' but
not '-S'), then we will have gdbserver_state.init true but no actual
connection; an attempt to use gdb syscalls will then crash because we
try to use gdbserver_state.c_cpu when it hasn't been set up:

#0  0x00007ffff6803ba8 in qemu_cpu_kick (cpu=0x0) at ../../softmmu/cpus.c:457
#1  0x00007ffff6c03913 in gdb_do_syscallv (cb=0x7ffff6c19944 <common_semi_cb>,
    fmt=0x7ffff7573b7e "", va=0x7ffff56294c0) at ../../gdbstub.c:2946
#2  0x00007ffff6c19c3a in common_semi_gdb_syscall (cs=0x7ffff83fe060,
    cb=0x7ffff6c19944 <common_semi_cb>, fmt=0x7ffff7573b75 "isatty,%x")
    at ../../semihosting/arm-compat-semi.c:494
#3  0x00007ffff6c1a064 in gdb_isattyfn (cs=0x7ffff83fe060, gf=0x7ffff86a3690)
    at ../../semihosting/arm-compat-semi.c:636
#4  0x00007ffff6c1b20f in do_common_semihosting (cs=0x7ffff83fe060)
    at ../../semihosting/arm-compat-semi.c:967
#5  0x00007ffff693a037 in handle_semihosting (cs=0x7ffff83fe060)
    at ../../target/arm/helper.c:10316

You can probably also get into this state via some odd
corner cases involving connecting a GDB and then telling it
to detach from all the vCPUs.

Abstract out the test into a new gdb_attached() function
which returns true only if there's actually a GDB connected
to the debug stub and attached to at least one vCPU.

Reported-by: Liviu Ionescu <ilg@livius.net>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc@lmichel.fr>
Message-id: 20220526190053.521505-2-peter.maydell@linaro.org
---
 gdbstub.c | 14 +++++++++++---
 1 file changed, 11 insertions(+), 3 deletions(-)

diff --git a/gdbstub.c b/gdbstub.c
index XXXXXXX..XXXXXXX 100644
--- a/gdbstub.c
+++ b/gdbstub.c
@@ -XXX,XX +XXX,XX @@ static int get_char(void)
 }
 #endif
 
+/*
+ * Return true if there is a GDB currently connected to the stub
+ * and attached to a CPU
+ */
+static bool gdb_attached(void)
+{
+    return gdbserver_state.init && gdbserver_state.c_cpu;
+}
+
 static enum {
     GDB_SYS_UNKNOWN,
     GDB_SYS_ENABLED,
@@ -XXX,XX +XXX,XX @@ int use_gdb_syscalls(void)
     /* -semihosting-config target=auto */
     /* On the first call check if gdb is connected and remember. */
     if (gdb_syscall_mode == GDB_SYS_UNKNOWN) {
-        gdb_syscall_mode = gdbserver_state.init ?
-            GDB_SYS_ENABLED : GDB_SYS_DISABLED;
+        gdb_syscall_mode = gdb_attached() ? GDB_SYS_ENABLED : GDB_SYS_DISABLED;
     }
     return gdb_syscall_mode == GDB_SYS_ENABLED;
 }
@@ -XXX,XX +XXX,XX @@ void gdb_do_syscallv(gdb_syscall_complete_cb cb, const char *fmt, va_list va)
     target_ulong addr;
     uint64_t i64;
 
-    if (!gdbserver_state.init) {
+    if (!gdb_attached()) {
         return;
     }
 
-- 
2.25.1

Currently we mishandle the --semihosting-config option if the
user specifies it on the command line more than once. For
example with:
 --semihosting-config target=gdb --semihosting-config arg=foo,arg=bar

the function qemu_semihosting_config_options() is called twice, once
for each argument.  But that function expects to be called only once,
and it always unconditionally sets the semihosting.enabled,
semihost_chardev and semihosting.target variables.  This means that
if any of those options were set anywhere except the last
--semihosting-config option on the command line, those settings are
ignored.  In the example above, 'target=gdb' in the first option is
overridden by an implied default 'target=auto' in the second.

The QemuOptsList machinery has a flag for handling this kind of
"option group is setting global state": by setting
 .merge_lists = true;
we make the machinery merge all the --semihosting-config arguments
the user passes into a single set of options and call our
qemu_semihosting_config_options() just once.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Luc Michel <luc@lmichel.fr>
Message-id: 20220526190053.521505-3-peter.maydell@linaro.org
---
 semihosting/config.c | 1 +
 1 file changed, 1 insertion(+)

diff --git a/semihosting/config.c b/semihosting/config.c
index XXXXXXX..XXXXXXX 100644
--- a/semihosting/config.c
+++ b/semihosting/config.c
@@ -XXX,XX +XXX,XX @@
 
 QemuOptsList qemu_semihosting_config_opts = {
     .name = "semihosting-config",
+    .merge_lists = true,
     .implied_opt_name = "enable",
     .head = QTAILQ_HEAD_INITIALIZER(qemu_semihosting_config_opts.head),
     .desc = {
-- 
2.25.1

Hi; most of this is the first half of the A64 simd decodetree
conversion; the rest is a mix of fixes from the last couple of weeks.

v2 uses patches from the v2 decodetree series to avoid a few
regressions in some A32 insns.

(Richard: I'm still planning to review the second half of the
v2 decodetree series; I just wanted to get the respin of this
pullreq out today...)

thanks
-- PMM

The following changes since commit ad10b4badc1dd5b28305f9b9f1168cf0aa3ae946:

Merge tag 'pull-error-2024-05-27' of https://repo.or.cz/qemu/armbru into staging (2024-05-27 06:40:42 -0700)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20240528

for you to fetch changes up to f240df3c31b40e4cf1af1f156a88efc1a1df406c:

target/arm: Convert disas_simd_3same_logic to decodetree (2024-05-28 14:29:01 +0100)

----------------------------------------------------------------
target-arm queue:
 * xlnx_dpdma: fix descriptor endianness bug
 * hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers
 * hw/arm/npcm7xx: remove setting of mp-affinity
 * hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size
 * hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>
 * hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()
 * hw: arm: Remove use of tabs in some source files
 * docs/system: Remove ADC from raspi documentation
 * target/arm: Start of the conversion of A64 SIMD to decodetree

----------------------------------------------------------------
Alexandra Diupina (1):
      xlnx_dpdma: fix descriptor endianness bug

Andrey Shumilin (1):
      hw/intc/arm_gic: Fix handling of NS view of GICC_APR<n>

Dorjoy Chowdhury (1):
      hw/arm/npcm7xx: remove setting of mp-affinity

Inès Varhol (1):
      hw/char: Correct STM32L4x5 usart register CR2 field ADD_0 size

Philippe Mathieu-Daudé (1):
      hw/input/tsc2005: Fix -Wchar-subscripts warning in tsc2005_txrx()

Rayhan Faizel (1):
      docs/system: Remove ADC from raspi documentation

Richard Henderson (34):
      target/arm: Use PLD, PLDW, PLI not NOP for t32
      target/arm: Zero-extend writeback for fp16 FCVTZS (scalar, integer)
      target/arm: Fix decode of FMOV (hp) vs MOVI
      target/arm: Verify sz=0 for Advanced SIMD scalar pairwise (fp16)
      target/arm: Split out gengvec.c
      target/arm: Split out gengvec64.c
      target/arm: Convert Cryptographic AES to decodetree
      target/arm: Convert Cryptographic 3-register SHA to decodetree
      target/arm: Convert Cryptographic 2-register SHA to decodetree
      target/arm: Convert Cryptographic 3-register SHA512 to decodetree
      target/arm: Convert Cryptographic 2-register SHA512 to decodetree
      target/arm: Convert Cryptographic 4-register to decodetree
      target/arm: Convert Cryptographic 3-register, imm2 to decodetree
      target/arm: Convert XAR to decodetree
      target/arm: Convert Advanced SIMD copy to decodetree
      target/arm: Convert FMULX to decodetree
      target/arm: Convert FADD, FSUB, FDIV, FMUL to decodetree
      target/arm: Convert FMAX, FMIN, FMAXNM, FMINNM to decodetree
      target/arm: Introduce vfp_load_reg16
      target/arm: Expand vfp neg and abs inline
      target/arm: Convert FNMUL to decodetree
      target/arm: Convert FMLA, FMLS to decodetree
      target/arm: Convert FCMEQ, FCMGE, FCMGT, FACGE, FACGT to decodetree
      target/arm: Convert FABD to decodetree
      target/arm: Convert FRECPS, FRSQRTS to decodetree
      target/arm: Convert FADDP to decodetree
      target/arm: Convert FMAXP, FMINP, FMAXNMP, FMINNMP to decodetree
      target/arm: Use gvec for neon faddp, fmaxp, fminp
      target/arm: Convert ADDP to decodetree
      target/arm: Use gvec for neon padd
      target/arm: Convert SMAXP, SMINP, UMAXP, UMINP to decodetree
      target/arm: Use gvec for neon pmax, pmin
      target/arm: Convert FMLAL, FMLSL to decodetree
      target/arm: Convert disas_simd_3same_logic to decodetree

Tanmay Patil (1):
      hw: arm: Remove use of tabs in some source files

Zenghui Yu (1):
      hvf: arm: Fix encodings for ID_AA64PFR1_EL1 and debug System registers

From: Alexandra Diupina <adiupina@astralinux.ru>

Add xlnx_dpdma_read_descriptor() and
xlnx_dpdma_write_descriptor() functions.
xlnx_dpdma_read_descriptor() combines reading a
descriptor from desc_addr by calling dma_memory_read()
and swapping the desc fields from guest memory order
to host memory order. xlnx_dpdma_write_descriptor()
performs similar actions when writing a descriptor.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Fixes: d3c6369a96 ("introduce xlnx-dpdma")
Signed-off-by: Alexandra Diupina <adiupina@astralinux.ru>
[PMM: tweaked indent, dropped behaviour change for write-failure case]
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/dma/xlnx_dpdma.c | 68 ++++++++++++++++++++++++++++++++++++++++++---
 1 file changed, 64 insertions(+), 4 deletions(-)

diff --git a/hw/dma/xlnx_dpdma.c b/hw/dma/xlnx_dpdma.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/dma/xlnx_dpdma.c
+++ b/hw/dma/xlnx_dpdma.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_dpdma_register_types(void)
     type_register_static(&xlnx_dpdma_info);
 }
 
+static MemTxResult xlnx_dpdma_read_descriptor(XlnxDPDMAState *s,
+                                              uint64_t desc_addr,
+                                              DPDMADescriptor *desc)
+{
+    MemTxResult res = dma_memory_read(&address_space_memory, desc_addr,
+                                      &desc, sizeof(DPDMADescriptor),
+                                      MEMTXATTRS_UNSPECIFIED);
+    if (res) {
+        return res;
+    }
+
+    /* Convert from LE into host endianness.  */
+    desc->control = le32_to_cpu(desc->control);
+    desc->descriptor_id = le32_to_cpu(desc->descriptor_id);
+    desc->xfer_size = le32_to_cpu(desc->xfer_size);
+    desc->line_size_stride = le32_to_cpu(desc->line_size_stride);
+    desc->timestamp_lsb = le32_to_cpu(desc->timestamp_lsb);
+    desc->timestamp_msb = le32_to_cpu(desc->timestamp_msb);
+    desc->address_extension = le32_to_cpu(desc->address_extension);
+    desc->next_descriptor = le32_to_cpu(desc->next_descriptor);
+    desc->source_address = le32_to_cpu(desc->source_address);
+    desc->address_extension_23 = le32_to_cpu(desc->address_extension_23);
+    desc->address_extension_45 = le32_to_cpu(desc->address_extension_45);
+    desc->source_address2 = le32_to_cpu(desc->source_address2);
+    desc->source_address3 = le32_to_cpu(desc->source_address3);
+    desc->source_address4 = le32_to_cpu(desc->source_address4);
+    desc->source_address5 = le32_to_cpu(desc->source_address5);
+    desc->crc = le32_to_cpu(desc->crc);
+
+    return res;
+}
+
+static MemTxResult xlnx_dpdma_write_descriptor(uint64_t desc_addr,
+                                               DPDMADescriptor *desc)
+{
+    DPDMADescriptor tmp_desc = *desc;
+
+    /* Convert from host endianness into LE.  */
+    tmp_desc.control = cpu_to_le32(tmp_desc.control);
+    tmp_desc.descriptor_id = cpu_to_le32(tmp_desc.descriptor_id);
+    tmp_desc.xfer_size = cpu_to_le32(tmp_desc.xfer_size);
+    tmp_desc.line_size_stride = cpu_to_le32(tmp_desc.line_size_stride);
+    tmp_desc.timestamp_lsb = cpu_to_le32(tmp_desc.timestamp_lsb);
+    tmp_desc.timestamp_msb = cpu_to_le32(tmp_desc.timestamp_msb);
+    tmp_desc.address_extension = cpu_to_le32(tmp_desc.address_extension);
+    tmp_desc.next_descriptor = cpu_to_le32(tmp_desc.next_descriptor);
+    tmp_desc.source_address = cpu_to_le32(tmp_desc.source_address);
+    tmp_desc.address_extension_23 = cpu_to_le32(tmp_desc.address_extension_23);
+    tmp_desc.address_extension_45 = cpu_to_le32(tmp_desc.address_extension_45);
+    tmp_desc.source_address2 = cpu_to_le32(tmp_desc.source_address2);
+    tmp_desc.source_address3 = cpu_to_le32(tmp_desc.source_address3);
+    tmp_desc.source_address4 = cpu_to_le32(tmp_desc.source_address4);
+    tmp_desc.source_address5 = cpu_to_le32(tmp_desc.source_address5);
+    tmp_desc.crc = cpu_to_le32(tmp_desc.crc);
+
+    return dma_memory_write(&address_space_memory, desc_addr, &tmp_desc,
+                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+}
+
 size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
                                     bool one_desc)
 {
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             desc_addr = xlnx_dpdma_descriptor_next_address(s, channel);
         }
 
-        if (dma_memory_read(&address_space_memory, desc_addr, &desc,
-                            sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED)) {
+        if (xlnx_dpdma_read_descriptor(s, desc_addr, &desc)) {
             s->registers[DPDMA_EISR] |= ((1 << 1) << channel);
             xlnx_dpdma_update_irq(s);
             s->operation_finished[channel] = true;
@@ -XXX,XX +XXX,XX @@ size_t xlnx_dpdma_start_operation(XlnxDPDMAState *s, uint8_t channel,
             /* The descriptor need to be updated when it's completed. */
             DPRINTF("update the descriptor with the done flag set.\n");
             xlnx_dpdma_desc_set_done(&desc);
-            dma_memory_write(&address_space_memory, desc_addr, &desc,
-                             sizeof(DPDMADescriptor), MEMTXATTRS_UNSPECIFIED);
+            if (xlnx_dpdma_write_descriptor(desc_addr, &desc)) {
+                DPRINTF("Can't write the descriptor.\n");
+                /* TODO: check hardware behaviour for memory write failure */
+            }
         }
 
         if (xlnx_dpdma_desc_completion_interrupt(&desc)) {
-- 
2.34.1

From: Zenghui Yu <zenghui.yu@linux.dev>

We wrongly encoded ID_AA64PFR1_EL1 using {3,0,0,4,2} in hvf_sreg_match[] so
we fail to get the expected ARMCPRegInfo from cp_regs hash table with the
wrong key.

Fix it with the correct encoding {3,0,0,4,1}. With that fixed, the Linux
guest can properly detect FEAT_SSBS2 on my M1 HW.

All DBG{B,W}{V,C}R_EL1 registers are also wrongly encoded with op0 == 14.
It happens to work because HVF_SYSREG(CRn, CRm, 14, op1, op2) equals to
HVF_SYSREG(CRn, CRm, 2, op1, op2), by definition. But we shouldn't rely on
it.

Cc: qemu-stable@nongnu.org
Fixes: a1477da3ddeb ("hvf: Add Apple Silicon support")
Signed-off-by: Zenghui Yu <zenghui.yu@linux.dev>
Reviewed-by: Alexander Graf <agraf@csgraf.de>
Message-id: 20240503153453.54389-1-zenghui.yu@linux.dev
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/hvf/hvf.c | 130 +++++++++++++++++++++----------------------
 1 file changed, 65 insertions(+), 65 deletions(-)

diff --git a/target/arm/hvf/hvf.c b/target/arm/hvf/hvf.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/hvf/hvf.c
+++ b/target/arm/hvf/hvf.c
@@ -XXX,XX +XXX,XX @@ struct hvf_sreg_match {
 };
 
 static struct hvf_sreg_match hvf_sreg_match[] = {
-    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR0_EL1, HVF_SYSREG(0, 0, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR0_EL1, HVF_SYSREG(0, 0, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR1_EL1, HVF_SYSREG(0, 1, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR1_EL1, HVF_SYSREG(0, 1, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR2_EL1, HVF_SYSREG(0, 2, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR2_EL1, HVF_SYSREG(0, 2, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR3_EL1, HVF_SYSREG(0, 3, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR3_EL1, HVF_SYSREG(0, 3, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR4_EL1, HVF_SYSREG(0, 4, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR4_EL1, HVF_SYSREG(0, 4, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR5_EL1, HVF_SYSREG(0, 5, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR5_EL1, HVF_SYSREG(0, 5, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR6_EL1, HVF_SYSREG(0, 6, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR6_EL1, HVF_SYSREG(0, 6, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR7_EL1, HVF_SYSREG(0, 7, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR7_EL1, HVF_SYSREG(0, 7, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR8_EL1, HVF_SYSREG(0, 8, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR8_EL1, HVF_SYSREG(0, 8, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR9_EL1, HVF_SYSREG(0, 9, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR9_EL1, HVF_SYSREG(0, 9, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR10_EL1, HVF_SYSREG(0, 10, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR10_EL1, HVF_SYSREG(0, 10, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR11_EL1, HVF_SYSREG(0, 11, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR11_EL1, HVF_SYSREG(0, 11, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR12_EL1, HVF_SYSREG(0, 12, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR12_EL1, HVF_SYSREG(0, 12, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR13_EL1, HVF_SYSREG(0, 13, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR13_EL1, HVF_SYSREG(0, 13, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR14_EL1, HVF_SYSREG(0, 14, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR14_EL1, HVF_SYSREG(0, 14, 2, 0, 7) },
 
-    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 4) },
-    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 5) },
-    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 14, 0, 6) },
-    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 14, 0, 7) },
+    { HV_SYS_REG_DBGBVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 4) },
+    { HV_SYS_REG_DBGBCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 5) },
+    { HV_SYS_REG_DBGWVR15_EL1, HVF_SYSREG(0, 15, 2, 0, 6) },
+    { HV_SYS_REG_DBGWCR15_EL1, HVF_SYSREG(0, 15, 2, 0, 7) },
 
 #ifdef SYNC_NO_RAW_REGS
     /*
@@ -XXX,XX +XXX,XX @@ static struct hvf_sreg_match hvf_sreg_match[] = {
     { HV_SYS_REG_MPIDR_EL1, HVF_SYSREG(0, 0, 3, 0, 5) },
     { HV_SYS_REG_ID_AA64PFR0_EL1, HVF_SYSREG(0, 4, 3, 0, 0) },
 #endif
-    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 2) },
+    { HV_SYS_REG_ID_AA64PFR1_EL1, HVF_SYSREG(0, 4, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64DFR0_EL1, HVF_SYSREG(0, 5, 3, 0, 0) },
     { HV_SYS_REG_ID_AA64DFR1_EL1, HVF_SYSREG(0, 5, 3, 0, 1) },
     { HV_SYS_REG_ID_AA64ISAR0_EL1, HVF_SYSREG(0, 6, 3, 0, 0) },
-- 
2.34.1

From: Dorjoy Chowdhury <dorjoychy111@gmail.com>

The value of the mp-affinity property being set in npcm7xx_realize is
always the same as the default value it would have when arm_cpu_realizefn
is called if the property is not set here. So there is no need to set
the property value in npcm7xx_realize function.

Signed-off-by: Dorjoy Chowdhury <dorjoychy111@gmail.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240504141733.14813-1-dorjoychy111@gmail.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/npcm7xx.c | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ static void npcm7xx_realize(DeviceState *dev, Error **errp)
 
     /* CPUs */
     for (i = 0; i < nc->num_cpus; i++) {
-        object_property_set_int(OBJECT(&s->cpu[i]), "mp-affinity",
-                                arm_build_mp_affinity(i, NPCM7XX_MAX_NUM_CPUS),
-                                &error_abort);
         object_property_set_int(OBJECT(&s->cpu[i]), "reset-cbar",
                                 NPCM7XX_GIC_CPU_IF_ADDR, &error_abort);
         object_property_set_bool(OBJECT(&s->cpu[i]), "reset-hivecs", true,
-- 
2.34.1

From: Inès Varhol <ines.varhol@telecom-paris.fr>

Signed-off-by: Arnaud Minier <arnaud.minier@telecom-paris.fr>
Signed-off-by: Inès Varhol <ines.varhol@telecom-paris.fr>
Message-id: 20240505141613.387508-1-ines.varhol@telecom-paris.fr
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/char/stm32l4x5_usart.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hw/char/stm32l4x5_usart.c b/hw/char/stm32l4x5_usart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/stm32l4x5_usart.c
+++ b/hw/char/stm32l4x5_usart.c
@@ -XXX,XX +XXX,XX @@ REG32(CR1, 0x00)
     FIELD(CR1, UE, 0, 1)     /* USART enable */
 REG32(CR2, 0x04)
     FIELD(CR2, ADD_1, 28, 4)    /* ADD[7:4] */
-    FIELD(CR2, ADD_0, 24, 1)    /* ADD[3:0] */
+    FIELD(CR2, ADD_0, 24, 4)    /* ADD[3:0] */
     FIELD(CR2, RTOEN, 23, 1)    /* Receiver timeout enable */
     FIELD(CR2, ABRMOD, 21, 2)   /* Auto baud rate mode */
     FIELD(CR2, ABREN, 20, 1)    /* Auto baud rate enable */
-- 
2.34.1

From: Andrey Shumilin <shum.sdl@nppct.ru>

In gic_cpu_read() and gic_cpu_write(), we delegate the handling of
reading and writing the Non-Secure view of the GICC_APR<n> registers
to functions gic_apr_ns_view() and gic_apr_write_ns_view().
Unfortunately we got the order of the arguments wrong, swapping the
CPU number and the register number (which the compiler doesn't catch
because they're both integers).

Most guests probably didn't notice this bug because directly
accessing the APR registers is typically something only done by
firmware when it is doing state save for going into a sleep mode.

Correct the mismatched call arguments.

Found by Linux Verification Center (linuxtesting.org) with SVACE.

Cc: qemu-stable@nongnu.org
Fixes: 51fd06e0ee ("hw/intc/arm_gic: Fix handling of GICC_APR<n>, GICC_NSAPR<n> registers")
Signed-off-by: Andrey Shumilin <shum.sdl@nppct.ru>
[PMM: Rewrote commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Reviewed-by: Alex Bennée<alex.bennee@linaro.org>
---
 hw/intc/arm_gic.c | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/hw/intc/arm_gic.c b/hw/intc/arm_gic.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gic.c
+++ b/hw/intc/arm_gic.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_read(GICState *s, int cpu, int offset,
             *data = s->h_apr[gic_get_vcpu_real_id(cpu)];
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            *data = gic_apr_ns_view(s, regno, cpu);
+            *data = gic_apr_ns_view(s, cpu, regno);
         } else {
             *data = s->apr[regno][cpu];
         }
@@ -XXX,XX +XXX,XX @@ static MemTxResult gic_cpu_write(GICState *s, int cpu, int offset,
             s->h_apr[gic_get_vcpu_real_id(cpu)] = value;
         } else if (gic_cpu_ns_access(s, cpu, attrs)) {
             /* NS view of GICC_APR<n> is the top half of GIC_NSAPR<n> */
-            gic_apr_write_ns_view(s, regno, cpu, value);
+            gic_apr_write_ns_view(s, cpu, regno, value);
         } else {
             s->apr[regno][cpu] = value;
         }
-- 
2.34.1

From: Philippe Mathieu-Daudé <philmd@linaro.org>

Check the function index is in range and use an unsigned
variable to avoid the following warning with GCC 13.2.0:

[666/5358] Compiling C object libcommon.fa.p/hw_input_tsc2005.c.o
  hw/input/tsc2005.c: In function 'tsc2005_timer_tick':
  hw/input/tsc2005.c:416:26: warning: array subscript has type 'char' [-Wchar-subscripts]
    416 |     s->dav |= mode_regs[s->function];
        |                         ~^~~~~~~~~~

Signed-off-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Message-id: 20240508143513.44996-1-philmd@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: fixed missing ')']
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/input/tsc2005.c | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@ uint32_t tsc2005_txrx(void *opaque, uint32_t value, int len)
 static void tsc2005_timer_tick(void *opaque)
 {
     TSC2005State *s = opaque;
+    unsigned int function = s->function;
+
+    assert(function < ARRAY_SIZE(mode_regs));
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
         return;
 
     s->busy = false;
-    s->dav |= mode_regs[s->function];
+    s->dav |= mode_regs[function];
     s->function = -1;
     tsc2005_pin_update(s);
 }
-- 
2.34.1

From: Tanmay Patil <tanmaynpatil105@gmail.com>

Some of the source files for older devices use hardcoded tabs
instead of our current coding standard's required spaces.
Fix these in the following files:
	- hw/arm/boot.c
	- hw/char/omap_uart.c
	- hw/gpio/zaurus.c
	- hw/input/tsc2005.c

This commit is mostly whitespace-only changes; it also
adds curly-braces to some 'if' statements.

This addresses part of https://gitlab.com/qemu-project/qemu/-/issues/373
but some other files remain to be handled.

Signed-off-by: Tanmay Patil <tanmaynpatil105@gmail.com>
Message-id: 20240508081502.88375-1-tanmaynpatil105@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
[PMM: tweaked commit message]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/boot.c       |   8 +--
 hw/char/omap_uart.c |  49 +++++++++--------
 hw/gpio/zaurus.c    |  59 ++++++++++----------
 hw/input/tsc2005.c  | 130 ++++++++++++++++++++++++--------------------
 4 files changed, 130 insertions(+), 116 deletions(-)

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void set_kernel_args_old(const struct arm_boot_info *info,
     WRITE_WORD(p, info->ram_size / 4096);
     /* ramdisk_size */
     WRITE_WORD(p, 0);
-#define FLAG_READONLY	1
-#define FLAG_RDLOAD	4
-#define FLAG_RDPROMPT	8
+#define FLAG_READONLY 1
+#define FLAG_RDLOAD   4
+#define FLAG_RDPROMPT 8
     /* flags */
     WRITE_WORD(p, FLAG_READONLY | FLAG_RDLOAD | FLAG_RDPROMPT);
     /* rootdev */
-    WRITE_WORD(p, (31 << 8) | 0);	/* /dev/mtdblock0 */
+    WRITE_WORD(p, (31 << 8) | 0); /* /dev/mtdblock0 */
     /* video_num_cols */
     WRITE_WORD(p, 0);
     /* video_num_rows */
diff --git a/hw/char/omap_uart.c b/hw/char/omap_uart.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/char/omap_uart.c
+++ b/hw/char/omap_uart.c
@@ -XXX,XX +XXX,XX @@ struct omap_uart_s *omap_uart_init(hwaddr base,
     s->fclk = fclk;
     s->irq = irq;
     s->serial = serial_mm_init(get_system_memory(), base, 2, irq,
-                               omap_clk_getrate(fclk)/16,
+                               omap_clk_getrate(fclk) / 16,
                                chr ?: qemu_chr_new(label, "null", NULL),
                                DEVICE_NATIVE_ENDIAN);
     return s;
@@ -XXX,XX +XXX,XX @@ static uint64_t omap_uart_read(void *opaque, hwaddr addr, unsigned size)
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         return s->mdr[0];
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         return s->mdr[1];
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         return s->scr;
-    case 0x44:	/* SSR */
+    case 0x44:  /* SSR */
         return 0x0;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         return s->eblr;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         return s->clksel;
-    case 0x50:	/* MVR */
+    case 0x50:  /* MVR */
         return 0x30;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         return s->syscontrol;
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x58:  /* SYSS (OMAP2) */
         return 1;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         return s->wkup;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         return s->cfps;
     }
 
@@ -XXX,XX +XXX,XX @@ static void omap_uart_write(void *opaque, hwaddr addr,
     }
 
     switch (addr) {
-    case 0x20:	/* MDR1 */
+    case 0x20:  /* MDR1 */
         s->mdr[0] = value & 0x7f;
         break;
-    case 0x24:	/* MDR2 */
+    case 0x24:  /* MDR2 */
         s->mdr[1] = value & 0xff;
         break;
-    case 0x40:	/* SCR */
+    case 0x40:  /* SCR */
         s->scr = value & 0xff;
         break;
-    case 0x48:	/* EBLR (OMAP2) */
+    case 0x48:  /* EBLR (OMAP2) */
         s->eblr = value & 0xff;
         break;
-    case 0x4C:	/* OSC_12M_SEL (OMAP1) */
+    case 0x4C:  /* OSC_12M_SEL (OMAP1) */
         s->clksel = value & 1;
         break;
-    case 0x44:	/* SSR */
-    case 0x50:	/* MVR */
-    case 0x58:	/* SYSS (OMAP2) */
+    case 0x44:  /* SSR */
+    case 0x50:  /* MVR */
+    case 0x58:  /* SYSS (OMAP2) */
         OMAP_RO_REG(addr);
         break;
-    case 0x54:	/* SYSC (OMAP2) */
+    case 0x54:  /* SYSC (OMAP2) */
         s->syscontrol = value & 0x1d;
-        if (value & 2)
+        if (value & 2) {
             omap_uart_reset(s);
+        }
         break;
-    case 0x5c:	/* WER (OMAP2) */
+    case 0x5c:  /* WER (OMAP2) */
         s->wkup = value & 0x7f;
         break;
-    case 0x60:	/* CFPS (OMAP2) */
+    case 0x60:  /* CFPS (OMAP2) */
         s->cfps = value & 0xff;
         break;
     default:
diff --git a/hw/gpio/zaurus.c b/hw/gpio/zaurus.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/gpio/zaurus.c
+++ b/hw/gpio/zaurus.c
@@ -XXX,XX +XXX,XX @@ struct ScoopInfo {
     uint16_t isr;
 };
 
-#define SCOOP_MCR	0x00
-#define SCOOP_CDR	0x04
-#define SCOOP_CSR	0x08
-#define SCOOP_CPR	0x0c
-#define SCOOP_CCR	0x10
-#define SCOOP_IRR_IRM	0x14
-#define SCOOP_IMR	0x18
-#define SCOOP_ISR	0x1c
-#define SCOOP_GPCR	0x20
-#define SCOOP_GPWR	0x24
-#define SCOOP_GPRR	0x28
+#define SCOOP_MCR       0x00
+#define SCOOP_CDR       0x04
+#define SCOOP_CSR       0x08
+#define SCOOP_CPR       0x0c
+#define SCOOP_CCR       0x10
+#define SCOOP_IRR_IRM   0x14
+#define SCOOP_IMR       0x18
+#define SCOOP_ISR       0x1c
+#define SCOOP_GPCR      0x20
+#define SCOOP_GPWR      0x24
+#define SCOOP_GPRR      0x28
 
-static inline void scoop_gpio_handler_update(ScoopInfo *s) {
+static inline void scoop_gpio_handler_update(ScoopInfo *s)
+{
     uint32_t level, diff;
     int bit;
     level = s->gpio_level & s->gpio_dir;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         break;
     case SCOOP_CPR:
         s->power = value;
-        if (value & 0x80)
+        if (value & 0x80) {
             s->power |= 0x8040;
+        }
         break;
     case SCOOP_CCR:
         s->ccr = value;
@@ -XXX,XX +XXX,XX @@ static void scoop_write(void *opaque, hwaddr addr,
         scoop_gpio_handler_update(s);
         break;
     case SCOOP_GPWR:
-    case SCOOP_GPRR:	/* GPRR is probably R/O in real HW */
+    case SCOOP_GPRR:    /* GPRR is probably R/O in real HW */
         s->gpio_level = value & s->gpio_dir;
         scoop_gpio_handler_update(s);
         break;
@@ -XXX,XX +XXX,XX @@ static void scoop_gpio_set(void *opaque, int line, int level)
 {
     ScoopInfo *s = (ScoopInfo *) opaque;
 
-    if (level)
+    if (level) {
         s->gpio_level |= (1 << line);
-    else
+    } else {
         s->gpio_level &= ~(1 << line);
+    }
 }
 
 static void scoop_init(Object *obj)
@@ -XXX,XX +XXX,XX @@ static int scoop_post_load(void *opaque, int version_id)
     return 0;
 }
 
-static bool is_version_0 (void *opaque, int version_id)
+static bool is_version_0(void *opaque, int version_id)
 {
     return version_id == 0;
 }
@@ -XXX,XX +XXX,XX @@ type_init(scoop_register_types)
 
 /* Write the bootloader parameters memory area.  */
 
-#define MAGIC_CHG(a, b, c, d)	((d << 24) | (c << 16) | (b << 8) | a)
+#define MAGIC_CHG(a, b, c, d)   ((d << 24) | (c << 16) | (b << 8) | a)
 
 static struct QEMU_PACKED sl_param_info {
     uint32_t comadj_keyword;
@@ -XXX,XX +XXX,XX @@ static struct QEMU_PACKED sl_param_info {
     uint32_t phad_keyword;
     int32_t phadadj;
 } zaurus_bootparam = {
-    .comadj_keyword	= MAGIC_CHG('C', 'M', 'A', 'D'),
-    .comadj		= 125,
-    .uuid_keyword	= MAGIC_CHG('U', 'U', 'I', 'D'),
-    .uuid		= { -1 },
-    .touch_keyword	= MAGIC_CHG('T', 'U', 'C', 'H'),
-    .touch_xp		= -1,
-    .adadj_keyword	= MAGIC_CHG('B', 'V', 'A', 'D'),
-    .adadj		= -1,
-    .phad_keyword	= MAGIC_CHG('P', 'H', 'A', 'D'),
-    .phadadj		= 0x01,
+    .comadj_keyword     = MAGIC_CHG('C', 'M', 'A', 'D'),
+    .comadj             = 125,
+    .uuid_keyword       = MAGIC_CHG('U', 'U', 'I', 'D'),
+    .uuid               = { -1 },
+    .touch_keyword      = MAGIC_CHG('T', 'U', 'C', 'H'),
+    .touch_xp           = -1,
+    .adadj_keyword      = MAGIC_CHG('B', 'V', 'A', 'D'),
+    .adadj              = -1,
+    .phad_keyword       = MAGIC_CHG('P', 'H', 'A', 'D'),
+    .phadadj            = 0x01,
 };
 
 void sl_bootparam_write(hwaddr ptr)
diff --git a/hw/input/tsc2005.c b/hw/input/tsc2005.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/input/tsc2005.c
+++ b/hw/input/tsc2005.c
@@ -XXX,XX +XXX,XX @@
 #include "migration/vmstate.h"
 #include "trace.h"
 
-#define TSC_CUT_RESOLUTION(value, p)	((value) >> (16 - (p ? 12 : 10)))
+#define TSC_CUT_RESOLUTION(value, p)  ((value) >> (16 - (p ? 12 : 10)))
 
 typedef struct {
-    qemu_irq pint;	/* Combination of the nPENIRQ and DAV signals */
+    qemu_irq pint;  /* Combination of the nPENIRQ and DAV signals */
     QEMUTimer *timer;
     uint16_t model;
 
@@ -XXX,XX +XXX,XX @@ typedef struct {
 } TSC2005State;
 
 enum {
-    TSC_MODE_XYZ_SCAN	= 0x0,
+    TSC_MODE_XYZ_SCAN = 0x0,
     TSC_MODE_XY_SCAN,
     TSC_MODE_X,
     TSC_MODE_Y,
@@ -XXX,XX +XXX,XX @@ enum {
 };
 
 static const uint16_t mode_regs[16] = {
-    0xf000,	/* X, Y, Z scan */
-    0xc000,	/* X, Y scan */
-    0x8000,	/* X */
-    0x4000,	/* Y */
-    0x3000,	/* Z */
-    0x0800,	/* AUX */
-    0x0400,	/* TEMP1 */
-    0x0200,	/* TEMP2 */
-    0x0800,	/* AUX scan */
-    0x0040,	/* X test */
-    0x0020,	/* Y test */
-    0x0080,	/* Short-circuit test */
-    0x0000,	/* Reserved */
-    0x0000,	/* X+, X- drivers */
-    0x0000,	/* Y+, Y- drivers */
-    0x0000,	/* Y+, X- drivers */
+    0xf000, /* X, Y, Z scan */
+    0xc000, /* X, Y scan */
+    0x8000, /* X */
+    0x4000, /* Y */
+    0x3000, /* Z */
+    0x0800, /* AUX */
+    0x0400, /* TEMP1 */
+    0x0200, /* TEMP2 */
+    0x0800, /* AUX scan */
+    0x0040, /* X test */
+    0x0020, /* Y test */
+    0x0080, /* Short-circuit test */
+    0x0000, /* Reserved */
+    0x0000, /* X+, X- drivers */
+    0x0000, /* Y+, Y- drivers */
+    0x0000, /* Y+, X- drivers */
 };
 
-#define X_TRANSFORM(s)			\
+#define X_TRANSFORM(s)      \
     ((s->y * s->tr[0] - s->x * s->tr[1]) / s->tr[2] + s->tr[3])
-#define Y_TRANSFORM(s)			\
+#define Y_TRANSFORM(s)      \
     ((s->y * s->tr[4] - s->x * s->tr[5]) / s->tr[6] + s->tr[7])
-#define Z1_TRANSFORM(s)			\
+#define Z1_TRANSFORM(s)     \
     ((400 - ((s)->x >> 7) + ((s)->pressure << 10)) << 4)
-#define Z2_TRANSFORM(s)			\
+#define Z2_TRANSFORM(s)     \
     ((4000 + ((s)->y >> 7) - ((s)->pressure << 10)) << 4)
 
-#define AUX_VAL				(700 << 4)	/* +/- 3 at 12-bit */
-#define TEMP1_VAL			(1264 << 4)	/* +/- 5 at 12-bit */
-#define TEMP2_VAL			(1531 << 4)	/* +/- 5 at 12-bit */
+#define AUX_VAL       (700 << 4)  /* +/- 3 at 12-bit */
+#define TEMP1_VAL     (1264 << 4) /* +/- 5 at 12-bit */
+#define TEMP2_VAL     (1531 << 4) /* +/- 5 at 12-bit */
 
 static uint16_t tsc2005_read(TSC2005State *s, int reg)
 {
     uint16_t ret;
 
     switch (reg) {
-    case 0x0:	/* X */
+    case 0x0: /* X */
         s->dav &= ~mode_regs[TSC_MODE_X];
         return TSC_CUT_RESOLUTION(X_TRANSFORM(s), s->precision) +
                 (s->noise & 3);
-    case 0x1:	/* Y */
+    case 0x1: /* Y */
         s->dav &= ~mode_regs[TSC_MODE_Y];
-        s->noise ++;
+        s->noise++;
         return TSC_CUT_RESOLUTION(Y_TRANSFORM(s), s->precision) ^
                 (s->noise & 3);
-    case 0x2:	/* Z1 */
+    case 0x2: /* Z1 */
         s->dav &= 0xdfff;
         return TSC_CUT_RESOLUTION(Z1_TRANSFORM(s), s->precision) -
                 (s->noise & 3);
-    case 0x3:	/* Z2 */
+    case 0x3: /* Z2 */
         s->dav &= 0xefff;
         return TSC_CUT_RESOLUTION(Z2_TRANSFORM(s), s->precision) |
                 (s->noise & 3);
 
-    case 0x4:	/* AUX */
+    case 0x4: /* AUX */
         s->dav &= ~mode_regs[TSC_MODE_AUX];
         return TSC_CUT_RESOLUTION(AUX_VAL, s->precision);
 
-    case 0x5:	/* TEMP1 */
+    case 0x5: /* TEMP1 */
         s->dav &= ~mode_regs[TSC_MODE_TEMP1];
         return TSC_CUT_RESOLUTION(TEMP1_VAL, s->precision) -
                 (s->noise & 5);
-    case 0x6:	/* TEMP2 */
+    case 0x6: /* TEMP2 */
         s->dav &= 0xdfff;
         s->dav &= ~mode_regs[TSC_MODE_TEMP2];
         return TSC_CUT_RESOLUTION(TEMP2_VAL, s->precision) ^
                 (s->noise & 3);
 
-    case 0x7:	/* Status */
+    case 0x7: /* Status */
         ret = s->dav | (s->reset << 7) | (s->pdst << 2) | 0x0;
         s->dav &= ~(mode_regs[TSC_MODE_X_TEST] | mode_regs[TSC_MODE_Y_TEST] |
                         mode_regs[TSC_MODE_TS_TEST]);
         s->reset = true;
         return ret;
 
-    case 0x8:   /* AUX high threshold */
+    case 0x8: /* AUX high threshold */
         return s->aux_thr[1];
-    case 0x9:   /* AUX low threshold */
+    case 0x9: /* AUX low threshold */
         return s->aux_thr[0];
 
-    case 0xa:   /* TEMP high threshold */
+    case 0xa: /* TEMP high threshold */
         return s->temp_thr[1];
-    case 0xb:   /* TEMP low threshold */
+    case 0xb: /* TEMP low threshold */
         return s->temp_thr[0];
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         return (s->pressure << 15) | ((!s->busy) << 14) |
-                (s->nextprecision << 13) | s->timing[0]; 
-    case 0xd:	/* CFR1 */
+                (s->nextprecision << 13) | s->timing[0];
+    case 0xd: /* CFR1 */
         return s->timing[1];
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         return (s->pin_func << 14) | s->filter;
 
-    case 0xf:	/* Function select status */
+    case 0xf: /* Function select status */
         return s->function >= 0 ? 1 << s->function : 0;
     }
 
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
         s->temp_thr[0] = data;
         break;
 
-    case 0xc:	/* CFR0 */
+    case 0xc: /* CFR0 */
         s->host_mode = (data >> 15) != 0;
         if (s->enabled != !(data & 0x4000)) {
             s->enabled = !(data & 0x4000);
             trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-            if (s->busy && !s->enabled)
+            if (s->busy && !s->enabled) {
                 timer_del(s->timer);
+            }
             s->busy = s->busy && s->enabled;
         }
         s->nextprecision = (data >> 13) & 1;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_write(TSC2005State *s, int reg, uint16_t data)
                           "tsc2005_write: illegal conversion clock setting\n");
         }
         break;
-    case 0xd:	/* CFR1 */
+    case 0xd: /* CFR1 */
         s->timing[1] = data & 0xf07;
         break;
-    case 0xe:	/* CFR2 */
+    case 0xe: /* CFR2 */
         s->pin_func = (data >> 14) & 3;
         s->filter = data & 0x3fff;
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     switch (s->nextfunction) {
     case TSC_MODE_XYZ_SCAN:
     case TSC_MODE_XY_SCAN:
-        if (!s->host_mode && s->dav)
+        if (!s->host_mode && s->dav) {
             s->enabled = false;
-        if (!s->pressure)
+        }
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX_SCAN:
         break;
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X:
     case TSC_MODE_Y:
     case TSC_MODE_Z:
-        if (!s->pressure)
+        if (!s->pressure) {
             return;
+        }
         /* Fall through */
     case TSC_MODE_AUX:
     case TSC_MODE_TEMP1:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
     case TSC_MODE_X_TEST:
     case TSC_MODE_Y_TEST:
     case TSC_MODE_TS_TEST:
-        if (s->dav)
+        if (s->dav) {
             s->enabled = false;
+        }
         break;
 
     case TSC_MODE_RESERVED:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_pin_update(TSC2005State *s)
         return;
     }
 
-    if (!s->enabled || s->busy)
+    if (!s->enabled || s->busy) {
         return;
+    }
 
     s->busy = true;
     s->precision = s->nextprecision;
     s->function = s->nextfunction;
-    s->pdst = !s->pnd0;	/* Synchronised on internal clock */
+    s->pdst = !s->pnd0; /* Synchronised on internal clock */
     expires = qemu_clock_get_ns(QEMU_CLOCK_VIRTUAL) +
         (NANOSECONDS_PER_SECOND >> 7);
     timer_mod(s->timer, expires);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
     TSC2005State *s = opaque;
     uint32_t ret = 0;
 
-    switch (s->state ++) {
+    switch (s->state++) {
     case 0:
         if (value & 0x80) {
             /* Command */
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
                 if (s->enabled != !(value & 1)) {
                     s->enabled = !(value & 1);
                     trace_tsc2005_sense(s->enabled ? "enabled" : "disabled");
-                    if (s->busy && !s->enabled)
+                    if (s->busy && !s->enabled) {
                         timer_del(s->timer);
+                    }
                     s->busy = s->busy && s->enabled;
                 }
                 tsc2005_pin_update(s);
@@ -XXX,XX +XXX,XX @@ static uint8_t tsc2005_txrx_word(void *opaque, uint8_t value)
         break;
 
     case 1:
-        if (s->command)
+        if (s->command) {
             ret = (s->data >> 8) & 0xff;
-        else
+        } else {
             s->data |= value << 8;
+        }
         break;
 
     case 2:
@@ -XXX,XX +XXX,XX @@ static void tsc2005_timer_tick(void *opaque)
 
     /* Timer ticked -- a set of conversions has been finished.  */
 
-    if (!s->busy)
+    if (!s->busy) {
         return;
+    }
 
     s->busy = false;
     s->dav |= mode_regs[function];
@@ -XXX,XX +XXX,XX @@ static void tsc2005_touchscreen_event(void *opaque,
      * signaling TS events immediately, but for now we simulate
      * the first conversion delay for sake of correctness.
      */
-    if (p != s->pressure)
+    if (p != s->pressure) {
         tsc2005_pin_update(s);
+    }
 }
 
 static int tsc2005_post_load(void *opaque, int version_id)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This fixes a bug in that neither PLI nor PLDW are present in ARMv6T2,
but are introduced with ARMv7 and ARMv7MP respectively.
For clarity, do not use NOP for PLD.

Note that there is no PLDW (literal). Architecturally in the
T1 encoding of "PLD (literal)" bit 5 is "(0)", which means
that it should be zero and if it is not then the behaviour
is CONSTRAINED UNPREDICTABLE (might UNDEF, NOP, or ignore the
value of the bit).

In our implementation we have patterns for both:

+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)

and so we effectively ignore the value of bit 5.  (This is a
permitted option for this CONSTRAINED UNPREDICTABLE.) This isn't a
behaviour change in this commit, since we previously had NOP lines
for both those patterns.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-3-richard.henderson@linaro.org
[PMM: adjusted commit message to note that PLD (lit) T1 bit 5
being 1 is an UNPREDICTABLE case.]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/t32.decode  | 25 ++++++++++++-------------
 target/arm/tcg/translate.c |  4 ++--
 2 files changed, 14 insertions(+), 15 deletions(-)

diff --git a/target/arm/tcg/t32.decode b/target/arm/tcg/t32.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/t32.decode
+++ b/target/arm/tcg/t32.decode
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
 # Note that Load, unsigned (literal) overlaps all other load encodings.
 {
   {
-    NOP          1111 1000 -001 1111 1111 ------------        # PLD
+    PLD          1111 1000 -001 1111 1111 ------------        # (literal)
     LDRB_ri      1111 1000 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1001 ---- 1111 ------------        # PLD
+    PLD          1111 1000 1001 ---- 1111 ------------        # (immediate T1)
     LDRB_ri      1111 1000 1001 .... .... ............        @ldst_ri_pos
   }
   LDRB_ri        1111 1000 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0001 ---- 1111 1100 --------       # PLD
+    PLD          1111 1000 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRB_ri      1111 1000 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRBT_ri       1111 1000 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0001 ---- 1111 000000 -- ----      # PLD
+    PLD          1111 1000 0001 ---- 1111 000000 -- ----      # (register)
     LDRB_rr      1111 1000 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
 {
   {
-    NOP          1111 1000 -011 1111 1111 ------------        # PLD
+    PLD          1111 1000 -011 1111 1111 ------------        # (literal)
     LDRH_ri      1111 1000 .011 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1000 1011 ---- 1111 ------------        # PLDW
+    PLDW         1111 1000 1011 ---- 1111 ------------        # (immediate T1)
     LDRH_ri      1111 1000 1011 .... .... ............        @ldst_ri_pos
   }
   LDRH_ri        1111 1000 0011 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1000 0011 ---- 1111 1100 --------       # PLDW
+    PLDW         1111 1000 0011 ---- 1111 1100 --------       # (immediate T2)
     LDRH_ri      1111 1000 0011 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRHT_ri       1111 1000 0011 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1000 0011 ---- 1111 000000 -- ----      # PLDW
+    PLDW         1111 1000 0011 ---- 1111 000000 -- ----      # (register)
     LDRH_rr      1111 1000 0011 .... .... 000000 .. ....      @ldst_rr
   }
 }
@@ -XXX,XX +XXX,XX @@ STR_ri           1111 1000 1100 .... .... ............        @ldst_ri_pos
   LDRT_ri        1111 1000 0101 .... .... 1110 ........       @ldst_ri_unp
   LDR_rr         1111 1000 0101 .... .... 000000 .. ....      @ldst_rr
 }
-# NOPs here are PLI.
 {
   {
-    NOP          1111 1001 -001 1111 1111 ------------
+    PLI          1111 1001 -001 1111 1111 ------------        # (literal T3)
     LDRSB_ri     1111 1001 .001 1111 .... ............        @ldst_ri_lit
   }
   {
-    NOP          1111 1001 1001 ---- 1111 ------------
+    PLI          1111 1001 1001 ---- 1111 ------------        # (immediate T1)
     LDRSB_ri     1111 1001 1001 .... .... ............        @ldst_ri_pos
   }
   LDRSB_ri       1111 1001 0001 .... .... 1..1 ........       @ldst_ri_idx
   {
-    NOP          1111 1001 0001 ---- 1111 1100 --------
+    PLI          1111 1001 0001 ---- 1111 1100 --------       # (immediate T2)
     LDRSB_ri     1111 1001 0001 .... .... 1100 ........       @ldst_ri_neg
   }
   LDRSBT_ri      1111 1001 0001 .... .... 1110 ........       @ldst_ri_unp
   {
-    NOP          1111 1001 0001 ---- 1111 000000 -- ----
+    PLI          1111 1001 0001 ---- 1111 000000 -- ----      # (register)
     LDRSB_rr     1111 1001 0001 .... .... 000000 .. ....      @ldst_rr
   }
 }
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static bool trans_PLD(DisasContext *s, arg_PLD *a)
     return ENABLE_ARCH_5TE;
 }
 
-static bool trans_PLDW(DisasContext *s, arg_PLD *a)
+static bool trans_PLDW(DisasContext *s, arg_PLDW *a)
 {
     return arm_dc_feature(s, ARM_FEATURE_V7MP);
 }
 
-static bool trans_PLI(DisasContext *s, arg_PLD *a)
+static bool trans_PLI(DisasContext *s, arg_PLI *a)
 {
     return ENABLE_ARCH_7;
 }
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Fixes RISU mismatch for "fcvtzs h31, h0, #14".

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_simd_shift_fpint_conv(DisasContext *s, bool is_scalar,
             read_vec_element_i32(s, tcg_op, rn, pass, size);
             fn(tcg_op, tcg_op, tcg_shift, tcg_fpstatus);
             if (is_scalar) {
+                if (size == MO_16 && !is_u) {
+                    tcg_gen_ext16u_i32(tcg_op, tcg_op);
+                }
                 write_fp_sreg(s, rd, tcg_op);
             } else {
                 write_vec_element_i32(s, tcg_op, rd, pass, size);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

The decode of FMOV (vector, immediate, half-precision) vs
invalid cases of MOVI are incorrect.

Fixes RISU mismatch for invalid insn 0x2f01fd31.

Fixes: 70b4e6a4457 ("arm/translate-a64: add FP16 FMOV to simd_mod_imm")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 24 ++++++++++++++----------
 1 file changed, 14 insertions(+), 10 deletions(-)

diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     bool is_q = extract32(insn, 30, 1);
     uint64_t imm = 0;
 
-    if (o2 != 0 || ((cmode == 0xf) && is_neg && !is_q)) {
-        /* Check for FMOV (vector, immediate) - half-precision */
-        if (!(dc_isar_feature(aa64_fp16, s) && o2 && cmode == 0xf)) {
+    if (o2) {
+        if (cmode != 0xf || is_neg) {
             unallocated_encoding(s);
             return;
         }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (cmode == 15 && o2 && !is_neg) {
         /* FMOV (vector, immediate) - half-precision */
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = vfp_expand_imm(MO_16, abcdefgh);
         /* now duplicate across the lanes */
         imm = dup_const(MO_16, imm);
     } else {
+        if (cmode == 0xf && is_neg && !is_q) {
+            unallocated_encoding(s);
+            return;
+        }
         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
     }
 
+    if (!fp_access_check(s)) {
+        return;
+    }
+
     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
         /* MOVI or MVNI, with MVNI negation handled above.  */
         tcg_gen_gvec_dup_imm(MO_64, vec_full_reg_offset(s, rd), is_q ? 16 : 8,
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

All of these insns have "if sz == '1' then UNDEFINED" in their pseudocode.
Fixes a RISU miscompare for invalid insn 0x5ef0c87a.

Fixes: 5c36d89567c ("arm/translate-a64: add all FP16 ops in simd_scalar_pairwise")
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.c | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate.h |    5 +
 target/arm/tcg/gengvec.c   | 1612 ++++++++++++++++++++++++++++++++++++
 target/arm/tcg/translate.c | 1588 -----------------------------------
 target/arm/tcg/meson.build |    1 +
 4 files changed, 1618 insertions(+), 1588 deletions(-)
 create mode 100644 target/arm/tcg/gengvec.c

diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh);
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh);
+
 void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
diff --git a/target/arm/tcg/gengvec.c b/target/arm/tcg/gengvec.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  ARM generic vector expansion
+ *
+ *  Copyright (c) 2003 Fabrice Bellard
+ *  Copyright (c) 2005-2007 CodeSourcery
+ *  Copyright (c) 2007 OpenedHand, Ltd.
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+
+
+static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+                            uint32_t opr_sz, uint32_t max_sz,
+                            gen_helper_gvec_3_ptr *fn)
+{
+    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
+                       opr_sz, max_sz, 0, fn);
+}
+
+void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static gen_helper_gvec_3_ptr * const fns[2] = {
+        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
+    };
+    tcg_debug_assert(vece >= 1 && vece <= 2);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+}
+
+#define GEN_CMP0(NAME, COND)                              \
+    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
+              uint32_t opr_sz, uint32_t max_sz)           \
+    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
+
+GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
+GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
+GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
+GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
+GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
+
+#undef GEN_CMP0
+
+static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_sar16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_sari_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_sari_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_sari_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ssra8_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_ssra16_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ssra32_i32,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ssra64_i64,
+          .fniv = gen_ssra_vec,
+          .fno = gen_helper_gvec_ssra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.
+     */
+    shift = MIN(shift, (8 << vece) - 1);
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr8i_i64(a, a, shift);
+    tcg_gen_vec_add8_i64(d, d, a);
+}
+
+static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_vec_shr16i_i64(a, a, shift);
+    tcg_gen_vec_add16_i64(d, d, a);
+}
+
+static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    tcg_gen_shri_vec(vece, a, a, sh);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_usra8_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8, },
+        { .fni8 = gen_usra16_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16, },
+        { .fni4 = gen_usra32_i32,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32, },
+        { .fni8 = gen_usra64_i64,
+          .fniv = gen_usra_vec,
+          .fno = gen_helper_gvec_usra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64, },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Unsigned results in all zeros as input to accumulate: nop.
+     */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+/*
+ * Shift one less than the requested amount, and the low bit is
+ * the rounding bit.  For the 8 and 16-bit operations, because we
+ * mask the low bit, we can perform a normal integer shift instead
+ * of a vector shift.
+ */
+static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_sar8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_sar16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
+    if (sh == 32) {
+        tcg_gen_movi_i32(d, 0);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_sari_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+ void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_sari_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, sh - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_sari_vec(vece, d, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srshr8_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_srshr16_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_srshr32_i32,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_srshr64_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Signed results in all sign bits.  With rounding, this produces
+         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+         * I.e. always zero.
+         */
+        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr8_i64(t, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr16_i64(t, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    gen_srshr32_i32(t, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr64_i64(t, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    gen_srshr_vec(vece, t, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srsra8_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_srsra16_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_srsra32_i32,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_srsra64_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.  With rounding, this produces
+     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+     * I.e. always zero.  With accumulation, this leaves D unchanged.
+     */
+    if (shift == (8 << vece)) {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_shr8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_shr16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t;
+
+    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
+    if (sh == 32) {
+        tcg_gen_extract_i32(d, a, sh - 1, 1);
+        return;
+    }
+    t = tcg_temp_new_i32();
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_shri_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+}
+
+void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_shri_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, shift - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_shri_vec(vece, d, a, shift);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_urshr8_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_urshr16_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_urshr32_i32,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_urshr64_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Unsigned results in zero.  With rounding, this produces a
+         * copy of the most significant bit.
+         */
+        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 8) {
+        tcg_gen_vec_shr8i_i64(t, a, 7);
+    } else {
+        gen_urshr8_i64(t, a, sh);
+    }
+    tcg_gen_vec_add8_i64(d, d, t);
+}
+
+static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 16) {
+        tcg_gen_vec_shr16i_i64(t, a, 15);
+    } else {
+        gen_urshr16_i64(t, a, sh);
+    }
+    tcg_gen_vec_add16_i64(d, d, t);
+}
+
+static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    if (sh == 32) {
+        tcg_gen_shri_i32(t, a, 31);
+    } else {
+        gen_urshr32_i32(t, a, sh);
+    }
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 64) {
+        tcg_gen_shri_i64(t, a, 63);
+    } else {
+        gen_urshr64_i64(t, a, sh);
+    }
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    if (sh == (8 << vece)) {
+        tcg_gen_shri_vec(vece, t, a, sh - 1);
+    } else {
+        gen_urshr_vec(vece, t, a, sh);
+    }
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ursra8_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_ursra16_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_ursra32_i32,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_ursra64_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
+static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_shri_i32(a, a, shift);
+    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
+}
+
+static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_shri_i64(a, a, shift);
+    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
+}
+
+static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
+    tcg_gen_shri_vec(vece, t, a, sh);
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shr8_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shr16_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shr32_ins_i32,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shr64_ins_i64,
+          .fniv = gen_shr_ins_vec,
+          .fno = gen_helper_gvec_sri_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize]. */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /* Shift of esize leaves destination unchanged. */
+    if (shift < (8 << vece)) {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    } else {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    }
+}
+
+static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_8, 0xff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    uint64_t mask = dup_const(MO_16, 0xffff << shift);
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shli_i64(t, a, shift);
+    tcg_gen_andi_i64(t, t, mask);
+    tcg_gen_andi_i64(d, d, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
+{
+    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
+}
+
+static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+{
+    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
+}
+
+static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec m = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shli_vec(vece, t, a, sh);
+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
+    tcg_gen_and_vec(vece, d, d, m);
+    tcg_gen_or_vec(vece, d, d, t);
+}
+
+void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
+    const GVecGen2i ops[4] = {
+        { .fni8 = gen_shl8_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_b,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_shl16_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_h,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_shl32_ins_i32,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_s,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_shl64_ins_i64,
+          .fniv = gen_shl_ins_vec,
+          .fno = gen_helper_gvec_sli_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [0..esize-1]. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift < (8 << vece));
+
+    if (shift == 0) {
+        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_add_u8(d, d, a);
+}
+
+static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u8(a, a, b);
+    gen_helper_neon_sub_u8(d, d, a);
+}
+
+static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_add_u16(d, d, a);
+}
+
+static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    gen_helper_neon_mul_u16(a, a, b);
+    gen_helper_neon_sub_u16(d, d, a);
+}
+
+static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_add_i32(d, d, a);
+}
+
+static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_mul_i32(a, a, b);
+    tcg_gen_sub_i32(d, d, a);
+}
+
+static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_add_i64(d, d, a);
+}
+
+static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_mul_i64(a, a, b);
+    tcg_gen_sub_i64(d, d, a);
+}
+
+static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_add_vec(vece, d, d, a);
+}
+
+static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_mul_vec(vece, a, a, b);
+    tcg_gen_sub_vec(vece, d, d, a);
+}
+
+/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
+ * these tables are shared with AArch64 which does support them.
+ */
+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mla8_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mla16_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mla32_i32,
+          .fniv = gen_mla_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mla64_i64,
+          .fniv = gen_mla_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_mls8_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_mls16_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_mls32_i32,
+          .fniv = gen_mls_vec,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_mls64_i64,
+          .fniv = gen_mls_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .load_dest = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+/* CMTST : test is "if (X & Y != 0)". */
+static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    tcg_gen_and_i32(d, a, b);
+    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
+}
+
+void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    tcg_gen_and_i64(d, a, b);
+    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
+}
+
+static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    tcg_gen_and_vec(vece, d, a, b);
+    tcg_gen_dupi_vec(vece, a, 0);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+}
+
+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_helper_neon_tst_u8,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_helper_neon_tst_u16,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_cmtst_i32,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_cmtst_i64,
+          .fniv = gen_cmtst_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(32);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_shr_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(64);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_shr_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
+}
+
+static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec msk, max;
+
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        msk = tcg_temp_new_vec_matching(dst);
+        tcg_gen_dupi_vec(vece, msk, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, msk);
+        tcg_gen_and_vec(vece, rsh, rsh, msk);
+    }
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_shrv_vec(vece, rval, src, rsh);
+
+    max = tcg_temp_new_vec_matching(dst);
+    tcg_gen_dupi_vec(vece, max, 8 << vece);
+
+    /*
+     * The choice of LT (signed) and GEU (unsigned) are biased toward
+     * the instructions of the x86_64 host.  For MO_8, the whole byte
+     * is significant so we must use an unsigned compare; otherwise we
+     * have already masked to a byte and so a signed compare works.
+     * Other tcg hosts have a full set of comparisons and do not care.
+     */
+    if (vece == MO_8) {
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
+        tcg_gen_andc_vec(vece, lval, lval, lsh);
+        tcg_gen_andc_vec(vece, rval, rval, rsh);
+    } else {
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
+        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
+        tcg_gen_and_vec(vece, lval, lval, lsh);
+        tcg_gen_and_vec(vece, rval, rval, rsh);
+    }
+    tcg_gen_or_vec(vece, dst, lval, rval);
+}
+
+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_shlv_vec,
+        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ushl_i32,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ushl_i64,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
+{
+    TCGv_i32 lval = tcg_temp_new_i32();
+    TCGv_i32 rval = tcg_temp_new_i32();
+    TCGv_i32 lsh = tcg_temp_new_i32();
+    TCGv_i32 rsh = tcg_temp_new_i32();
+    TCGv_i32 zero = tcg_constant_i32(0);
+    TCGv_i32 max = tcg_constant_i32(31);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i32(lsh, shift);
+    tcg_gen_neg_i32(rsh, lsh);
+    tcg_gen_shl_i32(lval, src, lsh);
+    tcg_gen_umin_i32(rsh, rsh, max);
+    tcg_gen_sar_i32(rval, src, rsh);
+    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
+{
+    TCGv_i64 lval = tcg_temp_new_i64();
+    TCGv_i64 rval = tcg_temp_new_i64();
+    TCGv_i64 lsh = tcg_temp_new_i64();
+    TCGv_i64 rsh = tcg_temp_new_i64();
+    TCGv_i64 zero = tcg_constant_i64(0);
+    TCGv_i64 max = tcg_constant_i64(63);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_ext8s_i64(lsh, shift);
+    tcg_gen_neg_i64(rsh, lsh);
+    tcg_gen_shl_i64(lval, src, lsh);
+    tcg_gen_umin_i64(rsh, rsh, max);
+    tcg_gen_sar_i64(rval, src, rsh);
+    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
+    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
+}
+
+static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
+                         TCGv_vec src, TCGv_vec shift)
+{
+    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
+    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
+    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
+
+    /*
+     * Rely on the TCG guarantee that out of range shifts produce
+     * unspecified results, not undefined behaviour (i.e. no trap).
+     * Discard out-of-range results after the fact.
+     */
+    tcg_gen_neg_vec(vece, rsh, shift);
+    if (vece == MO_8) {
+        tcg_gen_mov_vec(lsh, shift);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0xff);
+        tcg_gen_and_vec(vece, lsh, shift, tmp);
+        tcg_gen_and_vec(vece, rsh, rsh, tmp);
+    }
+
+    /* Bound rsh so out of bound right shift gets -1.  */
+    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
+    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
+    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
+
+    tcg_gen_shlv_vec(vece, lval, src, lsh);
+    tcg_gen_sarv_vec(vece, rval, src, rsh);
+
+    /* Select in-bound left shift.  */
+    tcg_gen_andc_vec(vece, lval, lval, tmp);
+
+    /* Select between left and right shift.  */
+    if (vece == MO_8) {
+        tcg_gen_dupi_vec(vece, tmp, 0);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
+    } else {
+        tcg_gen_dupi_vec(vece, tmp, 0x80);
+        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
+    }
+}
+
+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
+        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sshl_i32,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sshl_i64,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_usadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_b,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_h,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_s,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_d,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_add_vec(vece, x, a, b);
+    tcg_gen_ssadd_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_ussub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+                          TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec x = tcg_temp_new_vec_matching(t);
+    tcg_gen_sub_vec(vece, x, a, b);
+    tcg_gen_sssub_vec(vece, t, a, b);
+    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
+    tcg_gen_or_vec(vece, sat, sat, x);
+}
+
+void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
+}
+
+static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_smin_vec(vece, t, a, b);
+    tcg_gen_smax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sabd_i32,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sabd_i64,
+          .fniv = gen_sabd_vec,
+          .fno = gen_helper_gvec_sabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_sub_i32(t, a, b);
+    tcg_gen_sub_i32(d, b, a);
+    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_sub_i64(t, a, b);
+    tcg_gen_sub_i64(d, b, a);
+    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
+}
+
+static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_umin_vec(vece, t, a, b);
+    tcg_gen_umax_vec(vece, d, a, b);
+    tcg_gen_sub_vec(vece, d, d, t);
+}
+
+void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_uabd_i32,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_uabd_i64,
+          .fniv = gen_uabd_vec,
+          .fno = gen_helper_gvec_uabd_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_sabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_sabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_sabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_saba_i32,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_saba_i64,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_uabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+}
+
+static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_uabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+}
+
+static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_uabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+}
+
+void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_uaba_i32,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_uaba_i64,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
diff --git a/target/arm/tcg/translate.c b/target/arm/tcg/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.c
+++ b/target/arm/tcg/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_exception_return(DisasContext *s, TCGv_i32 pc)
     gen_rfe(s, pc, load_cpu_field(spsr));
 }
 
-static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
-                            uint32_t opr_sz, uint32_t max_sz,
-                            gen_helper_gvec_3_ptr *fn)
-{
-    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
-
-    tcg_gen_addi_ptr(qc_ptr, tcg_env, offsetof(CPUARMState, vfp.qc));
-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
-                       opr_sz, max_sz, 0, fn);
-}
-
-void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static gen_helper_gvec_3_ptr * const fns[2] = {
-        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
-    };
-    tcg_debug_assert(vece >= 1 && vece <= 2);
-    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
-}
-
-#define GEN_CMP0(NAME, COND)                              \
-    void NAME(unsigned vece, uint32_t d, uint32_t m,      \
-              uint32_t opr_sz, uint32_t max_sz)           \
-    { tcg_gen_gvec_cmpi(COND, vece, d, m, 0, opr_sz, max_sz); }
-
-GEN_CMP0(gen_gvec_ceq0, TCG_COND_EQ)
-GEN_CMP0(gen_gvec_cle0, TCG_COND_LE)
-GEN_CMP0(gen_gvec_cge0, TCG_COND_GE)
-GEN_CMP0(gen_gvec_clt0, TCG_COND_LT)
-GEN_CMP0(gen_gvec_cgt0, TCG_COND_GT)
-
-#undef GEN_CMP0
-
-static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_ssra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_sar16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_ssra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_sari_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_ssra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_sari_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_sari_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ssra8_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_ssra16_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ssra32_i32,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ssra64_i64,
-          .fniv = gen_ssra_vec,
-          .fno = gen_helper_gvec_ssra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.
-     */
-    shift = MIN(shift, (8 << vece) - 1);
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr8i_i64(a, a, shift);
-    tcg_gen_vec_add8_i64(d, d, a);
-}
-
-static void gen_usra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_vec_shr16i_i64(a, a, shift);
-    tcg_gen_vec_add16_i64(d, d, a);
-}
-
-static void gen_usra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_usra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    tcg_gen_shri_vec(vece, a, a, sh);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_usra8_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8, },
-        { .fni8 = gen_usra16_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16, },
-        { .fni4 = gen_usra32_i32,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32, },
-        { .fni8 = gen_usra64_i64,
-          .fniv = gen_usra_vec,
-          .fno = gen_helper_gvec_usra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64, },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Unsigned results in all zeros as input to accumulate: nop.
-     */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-/*
- * Shift one less than the requested amount, and the low bit is
- * the rounding bit.  For the 8 and 16-bit operations, because we
- * mask the low bit, we can perform a normal integer shift instead
- * of a vector shift.
- */
-static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_sar8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_sar16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
-    if (sh == 32) {
-        tcg_gen_movi_i32(d, 0);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_sari_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_sari_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, sh - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_sari_vec(vece, d, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srshr8_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_srshr16_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_srshr32_i32,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_srshr64_i64,
-          .fniv = gen_srshr_vec,
-          .fno = gen_helper_gvec_srshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Signed results in all sign bits.  With rounding, this produces
-         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-         * I.e. always zero.
-         */
-        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr8_i64(t, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr16_i64(t, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    gen_srshr32_i32(t, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    gen_srshr64_i64(t, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    gen_srshr_vec(vece, t, a, sh);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_srsra8_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_srsra16_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_srsra32_i32,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_srsra64_i64,
-          .fniv = gen_srsra_vec,
-          .fno = gen_helper_gvec_srsra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /*
-     * Shifts larger than the element size are architecturally valid.
-     * Signed results in all sign bits.  With rounding, this produces
-     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
-     * I.e. always zero.  With accumulation, this leaves D unchanged.
-     */
-    if (shift == (8 << vece)) {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
-    tcg_gen_vec_shr8i_i64(d, a, sh);
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, sh - 1);
-    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
-    tcg_gen_vec_shr16i_i64(d, a, sh);
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t;
-
-    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
-    if (sh == 32) {
-        tcg_gen_extract_i32(d, a, sh - 1, 1);
-        return;
-    }
-    t = tcg_temp_new_i32();
-    tcg_gen_extract_i32(t, a, sh - 1, 1);
-    tcg_gen_shri_i32(d, a, sh);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_extract_i64(t, a, sh - 1, 1);
-    tcg_gen_shri_i64(d, a, sh);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec ones = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shri_vec(vece, t, a, shift - 1);
-    tcg_gen_dupi_vec(vece, ones, 1);
-    tcg_gen_and_vec(vece, t, t, ones);
-    tcg_gen_shri_vec(vece, d, a, shift);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_urshr8_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_urshr16_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_urshr32_i32,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_urshr64_i64,
-          .fniv = gen_urshr_vec,
-          .fno = gen_helper_gvec_urshr_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    if (shift == (8 << vece)) {
-        /*
-         * Shifts larger than the element size are architecturally valid.
-         * Unsigned results in zero.  With rounding, this produces a
-         * copy of the most significant bit.
-         */
-        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 8) {
-        tcg_gen_vec_shr8i_i64(t, a, 7);
-    } else {
-        gen_urshr8_i64(t, a, sh);
-    }
-    tcg_gen_vec_add8_i64(d, d, t);
-}
-
-static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 16) {
-        tcg_gen_vec_shr16i_i64(t, a, 15);
-    } else {
-        gen_urshr16_i64(t, a, sh);
-    }
-    tcg_gen_vec_add16_i64(d, d, t);
-}
-
-static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    if (sh == 32) {
-        tcg_gen_shri_i32(t, a, 31);
-    } else {
-        gen_urshr32_i32(t, a, sh);
-    }
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    if (sh == 64) {
-        tcg_gen_shri_i64(t, a, 63);
-    } else {
-        gen_urshr64_i64(t, a, sh);
-    }
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    if (sh == (8 << vece)) {
-        tcg_gen_shri_vec(vece, t, a, sh - 1);
-    } else {
-        gen_urshr_vec(vece, t, a, sh);
-    }
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_shri_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen2i ops[4] = {
-        { .fni8 = gen_ursra8_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fni8 = gen_ursra16_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_ursra32_i32,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_ursra64_i64,
-          .fniv = gen_ursra_vec,
-          .fno = gen_helper_gvec_ursra_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize] */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-}
-
-static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff >> shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shri_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shr32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_shri_i32(a, a, shift);
-    tcg_gen_deposit_i32(d, d, a, 0, 32 - shift);
-}
-
-static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_shri_i64(a, a, shift);
-    tcg_gen_deposit_i64(d, d, a, 0, 64 - shift);
-}
-
-static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
-    tcg_gen_shri_vec(vece, t, a, sh);
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shr8_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shr16_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shr32_ins_i32,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shr64_ins_i64,
-          .fniv = gen_shr_ins_vec,
-          .fno = gen_helper_gvec_sri_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [1..esize]. */
-    tcg_debug_assert(shift > 0);
-    tcg_debug_assert(shift <= (8 << vece));
-
-    /* Shift of esize leaves destination unchanged. */
-    if (shift < (8 << vece)) {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    } else {
-        /* Nop, but we do need to clear the tail. */
-        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
-    }
-}
-
-static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_8, 0xff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl16_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    uint64_t mask = dup_const(MO_16, 0xffff << shift);
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_shli_i64(t, a, shift);
-    tcg_gen_andi_i64(t, t, mask);
-    tcg_gen_andi_i64(d, d, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_shl32_ins_i32(TCGv_i32 d, TCGv_i32 a, int32_t shift)
-{
-    tcg_gen_deposit_i32(d, d, a, shift, 32 - shift);
-}
-
-static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
-{
-    tcg_gen_deposit_i64(d, d, a, shift, 64 - shift);
-}
-
-static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    TCGv_vec m = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_shli_vec(vece, t, a, sh);
-    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
-    tcg_gen_and_vec(vece, d, d, m);
-    tcg_gen_or_vec(vece, d, d, t);
-}
-
-void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
-    const GVecGen2i ops[4] = {
-        { .fni8 = gen_shl8_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_b,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni8 = gen_shl16_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_h,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_shl32_ins_i32,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_s,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_shl64_ins_i64,
-          .fniv = gen_shl_ins_vec,
-          .fno = gen_helper_gvec_sli_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-
-    /* tszimm encoding produces immediates in the range [0..esize-1]. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift < (8 << vece));
-
-    if (shift == 0) {
-        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
-    }
-}
-
-static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_add_u8(d, d, a);
-}
-
-static void gen_mls8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u8(a, a, b);
-    gen_helper_neon_sub_u8(d, d, a);
-}
-
-static void gen_mla16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_add_u16(d, d, a);
-}
-
-static void gen_mls16_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    gen_helper_neon_mul_u16(a, a, b);
-    gen_helper_neon_sub_u16(d, d, a);
-}
-
-static void gen_mla32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_add_i32(d, d, a);
-}
-
-static void gen_mls32_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_mul_i32(a, a, b);
-    tcg_gen_sub_i32(d, d, a);
-}
-
-static void gen_mla64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_add_i64(d, d, a);
-}
-
-static void gen_mls64_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_mul_i64(a, a, b);
-    tcg_gen_sub_i64(d, d, a);
-}
-
-static void gen_mla_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_add_vec(vece, d, d, a);
-}
-
-static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_mul_vec(vece, a, a, b);
-    tcg_gen_sub_vec(vece, d, d, a);
-}
-
-/* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
- * these tables are shared with AArch64 which does support them.
- */
-void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mla8_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mla16_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mla32_i32,
-          .fniv = gen_mla_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mla64_i64,
-          .fniv = gen_mla_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_mls8_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_mls16_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_mls32_i32,
-          .fniv = gen_mls_vec,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_mls64_i64,
-          .fniv = gen_mls_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .load_dest = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-/* CMTST : test is "if (X & Y != 0)". */
-static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    tcg_gen_and_i32(d, a, b);
-    tcg_gen_negsetcond_i32(TCG_COND_NE, d, d, tcg_constant_i32(0));
-}
-
-void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    tcg_gen_and_i64(d, a, b);
-    tcg_gen_negsetcond_i64(TCG_COND_NE, d, d, tcg_constant_i64(0));
-}
-
-static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    tcg_gen_and_vec(vece, d, a, b);
-    tcg_gen_dupi_vec(vece, a, 0);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
-}
-
-void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
-    static const GVecGen3 ops[4] = {
-        { .fni4 = gen_helper_neon_tst_u8,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fni4 = gen_helper_neon_tst_u16,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_cmtst_i32,
-          .fniv = gen_cmtst_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_cmtst_i64,
-          .fniv = gen_cmtst_vec,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(32);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_shr_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-void gen_ushl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(64);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_shr_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LTU, dst, rsh, max, rval, dst);
-}
-
-static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec msk, max;
-
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        msk = tcg_temp_new_vec_matching(dst);
-        tcg_gen_dupi_vec(vece, msk, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, msk);
-        tcg_gen_and_vec(vece, rsh, rsh, msk);
-    }
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_shrv_vec(vece, rval, src, rsh);
-
-    max = tcg_temp_new_vec_matching(dst);
-    tcg_gen_dupi_vec(vece, max, 8 << vece);
-
-    /*
-     * The choice of LT (signed) and GEU (unsigned) are biased toward
-     * the instructions of the x86_64 host.  For MO_8, the whole byte
-     * is significant so we must use an unsigned compare; otherwise we
-     * have already masked to a byte and so a signed compare works.
-     * Other tcg hosts have a full set of comparisons and do not care.
-     */
-    if (vece == MO_8) {
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_GEU, vece, rsh, rsh, max);
-        tcg_gen_andc_vec(vece, lval, lval, lsh);
-        tcg_gen_andc_vec(vece, rval, rval, rsh);
-    } else {
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, lsh, lsh, max);
-        tcg_gen_cmp_vec(TCG_COND_LT, vece, rsh, rsh, max);
-        tcg_gen_and_vec(vece, lval, lval, lsh);
-        tcg_gen_and_vec(vece, rval, rval, rsh);
-    }
-    tcg_gen_or_vec(vece, dst, lval, rval);
-}
-
-void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_shlv_vec,
-        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_ushl_vec,
-          .fno = gen_helper_gvec_ushl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_ushl_i32,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_ushl_i64,
-          .fniv = gen_ushl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
-{
-    TCGv_i32 lval = tcg_temp_new_i32();
-    TCGv_i32 rval = tcg_temp_new_i32();
-    TCGv_i32 lsh = tcg_temp_new_i32();
-    TCGv_i32 rsh = tcg_temp_new_i32();
-    TCGv_i32 zero = tcg_constant_i32(0);
-    TCGv_i32 max = tcg_constant_i32(31);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i32(lsh, shift);
-    tcg_gen_neg_i32(rsh, lsh);
-    tcg_gen_shl_i32(lval, src, lsh);
-    tcg_gen_umin_i32(rsh, rsh, max);
-    tcg_gen_sar_i32(rval, src, rsh);
-    tcg_gen_movcond_i32(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i32(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-void gen_sshl_i64(TCGv_i64 dst, TCGv_i64 src, TCGv_i64 shift)
-{
-    TCGv_i64 lval = tcg_temp_new_i64();
-    TCGv_i64 rval = tcg_temp_new_i64();
-    TCGv_i64 lsh = tcg_temp_new_i64();
-    TCGv_i64 rsh = tcg_temp_new_i64();
-    TCGv_i64 zero = tcg_constant_i64(0);
-    TCGv_i64 max = tcg_constant_i64(63);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_ext8s_i64(lsh, shift);
-    tcg_gen_neg_i64(rsh, lsh);
-    tcg_gen_shl_i64(lval, src, lsh);
-    tcg_gen_umin_i64(rsh, rsh, max);
-    tcg_gen_sar_i64(rval, src, rsh);
-    tcg_gen_movcond_i64(TCG_COND_LEU, lval, lsh, max, lval, zero);
-    tcg_gen_movcond_i64(TCG_COND_LT, dst, lsh, zero, rval, lval);
-}
-
-static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-                         TCGv_vec src, TCGv_vec shift)
-{
-    TCGv_vec lval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rval = tcg_temp_new_vec_matching(dst);
-    TCGv_vec lsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec rsh = tcg_temp_new_vec_matching(dst);
-    TCGv_vec tmp = tcg_temp_new_vec_matching(dst);
-
-    /*
-     * Rely on the TCG guarantee that out of range shifts produce
-     * unspecified results, not undefined behaviour (i.e. no trap).
-     * Discard out-of-range results after the fact.
-     */
-    tcg_gen_neg_vec(vece, rsh, shift);
-    if (vece == MO_8) {
-        tcg_gen_mov_vec(lsh, shift);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0xff);
-        tcg_gen_and_vec(vece, lsh, shift, tmp);
-        tcg_gen_and_vec(vece, rsh, rsh, tmp);
-    }
-
-    /* Bound rsh so out of bound right shift gets -1.  */
-    tcg_gen_dupi_vec(vece, tmp, (8 << vece) - 1);
-    tcg_gen_umin_vec(vece, rsh, rsh, tmp);
-    tcg_gen_cmp_vec(TCG_COND_GT, vece, tmp, lsh, tmp);
-
-    tcg_gen_shlv_vec(vece, lval, src, lsh);
-    tcg_gen_sarv_vec(vece, rval, src, rsh);
-
-    /* Select in-bound left shift.  */
-    tcg_gen_andc_vec(vece, lval, lval, tmp);
-
-    /* Select between left and right shift.  */
-    if (vece == MO_8) {
-        tcg_gen_dupi_vec(vece, tmp, 0);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, rval, lval);
-    } else {
-        tcg_gen_dupi_vec(vece, tmp, 0x80);
-        tcg_gen_cmpsel_vec(TCG_COND_LT, vece, dst, lsh, tmp, lval, rval);
-    }
-}
-
-void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
-        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sshl_vec,
-          .fno = gen_helper_gvec_sshl_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sshl_i32,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sshl_i64,
-          .fniv = gen_sshl_vec,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_usadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_b,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_h,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_s,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fniv = gen_uqadd_vec,
-          .fno = gen_helper_gvec_uqadd_d,
-          .write_aofs = true,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_add_vec(vece, x, a, b);
-    tcg_gen_ssadd_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqadd_vec,
-          .fno = gen_helper_gvec_sqadd_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_ussub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_uqsub_vec,
-          .fno = gen_helper_gvec_uqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                          TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec x = tcg_temp_new_vec_matching(t);
-    tcg_gen_sub_vec(vece, x, a, b);
-    tcg_gen_sssub_vec(vece, t, a, b);
-    tcg_gen_cmp_vec(TCG_COND_NE, vece, x, x, t);
-    tcg_gen_or_vec(vece, sat, sat, x);
-}
-
-void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-    };
-    static const GVecGen4 ops[4] = {
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_b,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_8 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_h,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_16 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_s,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_32 },
-        { .fniv = gen_sqsub_vec,
-          .fno = gen_helper_gvec_sqsub_d,
-          .opt_opc = vecop_list,
-          .write_aofs = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
-                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
-}
-
-static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_smin_vec(vece, t, a, b);
-    tcg_gen_smax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_sabd_i32,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_sabd_i64,
-          .fniv = gen_sabd_vec,
-          .fno = gen_helper_gvec_sabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-
-    tcg_gen_sub_i32(t, a, b);
-    tcg_gen_sub_i32(d, b, a);
-    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-
-    tcg_gen_sub_i64(t, a, b);
-    tcg_gen_sub_i64(d, b, a);
-    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
-}
-
-static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-
-    tcg_gen_umin_vec(vece, t, a, b);
-    tcg_gen_umax_vec(vece, d, a, b);
-    tcg_gen_sub_vec(vece, d, d, t);
-}
-
-void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_b,
-          .opt_opc = vecop_list,
-          .vece = MO_8 },
-        { .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_h,
-          .opt_opc = vecop_list,
-          .vece = MO_16 },
-        { .fni4 = gen_uabd_i32,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_s,
-          .opt_opc = vecop_list,
-          .vece = MO_32 },
-        { .fni8 = gen_uabd_i64,
-          .fniv = gen_uabd_vec,
-          .fno = gen_helper_gvec_uabd_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_sabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_sabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_sabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_saba_i32,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_saba_i64,
-          .fniv = gen_saba_vec,
-          .fno = gen_helper_gvec_saba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
-static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
-{
-    TCGv_i32 t = tcg_temp_new_i32();
-    gen_uabd_i32(t, a, b);
-    tcg_gen_add_i32(d, d, t);
-}
-
-static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    gen_uabd_i64(t, a, b);
-    tcg_gen_add_i64(d, d, t);
-}
-
-static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-{
-    TCGv_vec t = tcg_temp_new_vec_matching(d);
-    gen_uabd_vec(vece, t, a, b);
-    tcg_gen_add_vec(vece, d, d, t);
-}
-
-void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = {
-        INDEX_op_sub_vec, INDEX_op_add_vec,
-        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
-    };
-    static const GVecGen3 ops[4] = {
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_b,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_8 },
-        { .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_h,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_16 },
-        { .fni4 = gen_uaba_i32,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_s,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_32 },
-        { .fni8 = gen_uaba_i64,
-          .fniv = gen_uaba_vec,
-          .fno = gen_helper_gvec_uaba_d,
-          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-          .opt_opc = vecop_list,
-          .load_dest = true,
-          .vece = MO_64 },
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-}
-
 static bool aa32_cpreg_encoding_in_impdef_space(uint8_t crn, uint8_t crm)
 {
     static const uint16_t mask[3] = {
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(when: 'TARGET_AARCH64', if_true: gen_a64)
 
 arm_ss.add(files(
   'cpu32.c',
+  'gengvec.c',
   'translate.c',
   'translate-m-nocp.c',
   'translate-mve.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Split some routines out of translate-a64.c and translate-sve.c
that are used by both.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <philmd@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-a64.h |   4 +
 target/arm/tcg/gengvec64.c     | 190 +++++++++++++++++++++++++++++++++
 target/arm/tcg/translate-a64.c |  26 -----
 target/arm/tcg/translate-sve.c | 145 +------------------------
 target/arm/tcg/meson.build     |   1 +
 5 files changed, 197 insertions(+), 169 deletions(-)
 create mode 100644 target/arm/tcg/gengvec64.c

diff --git a/target/arm/tcg/translate-a64.h b/target/arm/tcg/translate-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.h
+++ b/target/arm/tcg/translate-a64.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                   uint32_t rm_ofs, int64_t shift,
                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz);
 
 void gen_sve_ldr(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
 void gen_sve_str(DisasContext *s, TCGv_ptr, int vofs, int len, int rn, int imm);
diff --git a/target/arm/tcg/gengvec64.c b/target/arm/tcg/gengvec64.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/target/arm/tcg/gengvec64.c
@@ -XXX,XX +XXX,XX @@
+/*
+ *  AArch64 generic vector expansion
+ *
+ *  Copyright (c) 2013 Alexander Graf <agraf@suse.de>
+ *
+ * This library is free software; you can redistribute it and/or
+ * modify it under the terms of the GNU Lesser General Public
+ * License as published by the Free Software Foundation; either
+ * version 2.1 of the License, or (at your option) any later version.
+ *
+ * This library is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
+ * Lesser General Public License for more details.
+ *
+ * You should have received a copy of the GNU Lesser General Public
+ * License along with this library; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "translate.h"
+#include "translate-a64.h"
+
+
+static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
+{
+    tcg_gen_rotli_i64(d, m, 1);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
+{
+    tcg_gen_rotli_vec(vece, d, m, 1);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3 op = {
+        .fni8 = gen_rax1_i64,
+        .fniv = gen_rax1_vec,
+        .opt_opc = vecop_list,
+        .fno = gen_helper_crypto_rax1,
+        .vece = MO_64,
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
+}
+
+static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_8, 0xff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 8 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
+
+    tcg_gen_xor_i64(t, n, m);
+    tcg_gen_shri_i64(d, t, sh);
+    tcg_gen_shli_i64(t, t, 16 - sh);
+    tcg_gen_andi_i64(d, d, mask);
+    tcg_gen_andi_i64(t, t, ~mask);
+    tcg_gen_or_i64(d, d, t);
+}
+
+static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
+{
+    tcg_gen_xor_i32(d, n, m);
+    tcg_gen_rotri_i32(d, d, sh);
+}
+
+static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_rotri_i64(d, d, sh);
+}
+
+static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                        TCGv_vec m, int64_t sh)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_rotri_vec(vece, d, d, sh);
+}
+
+void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                  uint32_t rm_ofs, int64_t shift,
+                  uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
+    static const GVecGen3i ops[4] = {
+        { .fni8 = gen_xar8_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_b,
+          .opt_opc = vecop,
+          .vece = MO_8 },
+        { .fni8 = gen_xar16_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_h,
+          .opt_opc = vecop,
+          .vece = MO_16 },
+        { .fni4 = gen_xar_i32,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_sve2_xar_s,
+          .opt_opc = vecop,
+          .vece = MO_32 },
+        { .fni8 = gen_xar_i64,
+          .fniv = gen_xar_vec,
+          .fno = gen_helper_gvec_xar_d,
+          .opt_opc = vecop,
+          .vece = MO_64 }
+    };
+    int esize = 8 << vece;
+
+    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
+    tcg_debug_assert(shift >= 0);
+    tcg_debug_assert(shift <= esize);
+    shift &= esize - 1;
+
+    if (shift == 0) {
+        /* xar with no rotate devolves to xor. */
+        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
+                        shift, &ops[vece]);
+    }
+}
+
+static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_xor_i64(d, n, m);
+    tcg_gen_xor_i64(d, d, k);
+}
+
+static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_xor_vec(vece, d, n, m);
+    tcg_gen_xor_vec(vece, d, d, k);
+}
+
+void gen_gvec_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_eor3_i64,
+        .fniv = gen_eor3_vec,
+        .fno = gen_helper_sve2_eor3,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
+static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
+{
+    tcg_gen_andc_i64(d, m, k);
+    tcg_gen_xor_i64(d, d, n);
+}
+
+static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
+                         TCGv_vec m, TCGv_vec k)
+{
+    tcg_gen_andc_vec(vece, d, m, k);
+    tcg_gen_xor_vec(vece, d, d, n);
+}
+
+void gen_gvec_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
+                   uint32_t a, uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen4 op = {
+        .fni8 = gen_bcax_i64,
+        .fniv = gen_bcax_vec,
+        .fno = gen_helper_sve2_bcax,
+        .vece = MO_64,
+        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+    };
+    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
+}
+
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_crypto_two_reg_sha(DisasContext *s, uint32_t insn)
     gen_gvec_op2_ool(s, true, rd, rn, 0, genfn);
 }
 
-static void gen_rax1_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)
-{
-    tcg_gen_rotli_i64(d, m, 1);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_rax1_vec(unsigned vece, TCGv_vec d, TCGv_vec n, TCGv_vec m)
-{
-    tcg_gen_rotli_vec(vece, d, m, 1);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-void gen_gvec_rax1(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop_list[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3 op = {
-        .fni8 = gen_rax1_i64,
-        .fniv = gen_rax1_vec,
-        .opt_opc = vecop_list,
-        .fno = gen_helper_crypto_rax1,
-        .vece = MO_64,
-    };
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &op);
-}
-
 /* Crypto three-reg SHA512
  *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
  * +-----------------------+------+---+---+-----+--------+------+------+
diff --git a/target/arm/tcg/translate-sve.c b/target/arm/tcg/translate-sve.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-sve.c
+++ b/target/arm/tcg/translate-sve.c
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(ORR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_or, a)
 TRANS_FEAT(EOR_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_xor, a)
 TRANS_FEAT(BIC_zzz, aa64_sve, gen_gvec_fn_arg_zzz, tcg_gen_gvec_andc, a)
 
-static void gen_xar8_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_8, 0xff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 8 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar16_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    TCGv_i64 t = tcg_temp_new_i64();
-    uint64_t mask = dup_const(MO_16, 0xffff >> sh);
-
-    tcg_gen_xor_i64(t, n, m);
-    tcg_gen_shri_i64(d, t, sh);
-    tcg_gen_shli_i64(t, t, 16 - sh);
-    tcg_gen_andi_i64(d, d, mask);
-    tcg_gen_andi_i64(t, t, ~mask);
-    tcg_gen_or_i64(d, d, t);
-}
-
-static void gen_xar_i32(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m, int32_t sh)
-{
-    tcg_gen_xor_i32(d, n, m);
-    tcg_gen_rotri_i32(d, d, sh);
-}
-
-static void gen_xar_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, int64_t sh)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_rotri_i64(d, d, sh);
-}
-
-static void gen_xar_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                        TCGv_vec m, int64_t sh)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_rotri_vec(vece, d, d, sh);
-}
-
-void gen_gvec_xar(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                  uint32_t rm_ofs, int64_t shift,
-                  uint32_t opr_sz, uint32_t max_sz)
-{
-    static const TCGOpcode vecop[] = { INDEX_op_rotli_vec, 0 };
-    static const GVecGen3i ops[4] = {
-        { .fni8 = gen_xar8_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_b,
-          .opt_opc = vecop,
-          .vece = MO_8 },
-        { .fni8 = gen_xar16_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_h,
-          .opt_opc = vecop,
-          .vece = MO_16 },
-        { .fni4 = gen_xar_i32,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_sve2_xar_s,
-          .opt_opc = vecop,
-          .vece = MO_32 },
-        { .fni8 = gen_xar_i64,
-          .fniv = gen_xar_vec,
-          .fno = gen_helper_gvec_xar_d,
-          .opt_opc = vecop,
-          .vece = MO_64 }
-    };
-    int esize = 8 << vece;
-
-    /* The SVE2 range is 1 .. esize; the AdvSIMD range is 0 .. esize-1. */
-    tcg_debug_assert(shift >= 0);
-    tcg_debug_assert(shift <= esize);
-    shift &= esize - 1;
-
-    if (shift == 0) {
-        /* xar with no rotate devolves to xor. */
-        tcg_gen_gvec_xor(vece, rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz);
-    } else {
-        tcg_gen_gvec_3i(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz,
-                        shift, &ops[vece]);
-    }
-}
-
 static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
 {
     if (a->esz < 0 || !dc_isar_feature(aa64_sve2, s)) {
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_rrri_esz *a)
     return true;
 }
 
-static void gen_eor3_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_xor_i64(d, n, m);
-    tcg_gen_xor_i64(d, d, k);
-}
-
-static void gen_eor3_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_xor_vec(vece, d, n, m);
-    tcg_gen_xor_vec(vece, d, d, k);
-}
-
-static void gen_eor3(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_eor3_i64,
-        .fniv = gen_eor3_vec,
-        .fno = gen_helper_sve2_eor3,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_eor3, a)
-
-static void gen_bcax_i64(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m, TCGv_i64 k)
-{
-    tcg_gen_andc_i64(d, m, k);
-    tcg_gen_xor_i64(d, d, n);
-}
-
-static void gen_bcax_vec(unsigned vece, TCGv_vec d, TCGv_vec n,
-                         TCGv_vec m, TCGv_vec k)
-{
-    tcg_gen_andc_vec(vece, d, m, k);
-    tcg_gen_xor_vec(vece, d, d, n);
-}
-
-static void gen_bcax(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
-                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
-{
-    static const GVecGen4 op = {
-        .fni8 = gen_bcax_i64,
-        .fniv = gen_bcax_vec,
-        .fno = gen_helper_sve2_bcax,
-        .vece = MO_64,
-        .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-    };
-    tcg_gen_gvec_4(d, n, m, a, oprsz, maxsz, &op);
-}
-
-TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_bcax, a)
+TRANS_FEAT(EOR3, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_eor3, a)
+TRANS_FEAT(BCAX, aa64_sve2, gen_gvec_fn_arg_zzzz, gen_gvec_bcax, a)
 
 static void gen_bsl(unsigned vece, uint32_t d, uint32_t n, uint32_t m,
                     uint32_t a, uint32_t oprsz, uint32_t maxsz)
diff --git a/target/arm/tcg/meson.build b/target/arm/tcg/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/meson.build
+++ b/target/arm/tcg/meson.build
@@ -XXX,XX +XXX,XX @@ arm_ss.add(files(
 
 arm_ss.add(when: 'TARGET_AARCH64', if_true: files(
   'cpu64.c',
+  'gengvec64.c',
   'translate-a64.c',
   'translate-sve.c',
   'translate-sme.c',
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 21 +++++++--
 target/arm/tcg/translate-a64.c | 86 +++++++++++++++-------------------
 2 files changed, 54 insertions(+), 53 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 # This file is processed by scripts/decodetree.py
 #
 
-&r               rn
-&ri              rd imm
-&rri_sf          rd rn imm sf
-&i               imm
+%rd             0:5
 
+&r              rn
+&ri             rd imm
+&rri_sf         rd rn imm sf
+&i              imm
+&qrr_e          q rd rn esz
+&qrrr_e         q rd rn rm esz
+
+@rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
+@r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ CPYFE           00 011 0 01100 ..... .... 01 ..... ..... @cpy
 CPYP            00 011 1 01000 ..... .... 01 ..... ..... @cpy
 CPYM            00 011 1 01010 ..... .... 01 ..... ..... @cpy
 CPYE            00 011 1 01100 ..... .... 01 ..... ..... @cpy
+
+### Cryptographic AES
+
+AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
+AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
+AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
+AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ bool sme_enabled_check_with_svcr(DisasContext *s, unsigned req)
     return true;
 }
 
+/*
+ * Expanders for AdvSIMD translation functions.
+ */
+
+static bool do_gvec_op2_ool(DisasContext *s, arg_qrr_e *a, int data,
+                            gen_helper_gvec_2 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op2_ool(s, a->q, a->rd, a->rn, data, fn);
+    }
+    return true;
+}
+
+static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
+                            gen_helper_gvec_3 *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_ool(s, a->q, a->rd, a->rn, a->rm, data, fn);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
     return true;
 }
 
+/*
+ * Cryptographic AES
+ */
+
+TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
+TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
+TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
+TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto AES
- *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
- * +-----------------+------+-----------+--------+-----+------+------+
- * | 0 1 0 0 1 1 1 0 | size | 1 0 1 0 0 | opcode | 1 0 |  Rn  |  Rd  |
- * +-----------------+------+-----------+--------+-----+------+------+
- */
-static void disas_crypto_aes(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_2 *genfn2 = NULL;
-    gen_helper_gvec_3 *genfn3 = NULL;
-
-    if (!dc_isar_feature(aa64_aes, s) || size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0x4: /* AESE */
-        genfn3 = gen_helper_crypto_aese;
-        break;
-    case 0x6: /* AESMC */
-        genfn2 = gen_helper_crypto_aesmc;
-        break;
-    case 0x5: /* AESD */
-        genfn3 = gen_helper_crypto_aesd;
-        break;
-    case 0x7: /* AESIMC */
-        genfn2 = gen_helper_crypto_aesimc;
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    if (genfn2) {
-        gen_gvec_op2_ool(s, true, rd, rn, 0, genfn2);
-    } else {
-        gen_gvec_op3_ool(s, true, rd, rd, rn, 0, genfn3);
-    }
-}
-
 /* Crypto three-reg SHA
  *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
  * +-----------------+------+---+------+---+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x4e280800, 0xff3e0c00, disas_crypto_aes },
     { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 +++++
 target/arm/tcg/translate-a64.c | 78 +++++-----------------------------
 2 files changed, 21 insertions(+), 68 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
+@rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ AESE            01001110 00 10100 00100 10 ..... .....  @r2r_q1e0
 AESD            01001110 00 10100 00101 10 ..... .....  @r2r_q1e0
 AESMC           01001110 00 10100 00110 10 ..... .....  @rr_q1e0
 AESIMC          01001110 00 10100 00111 10 ..... .....  @rr_q1e0
+
+### Cryptographic three-register SHA
+
+SHA1C           0101 1110 000 ..... 000000 ..... .....  @rrr_q1e0
+SHA1P           0101 1110 000 ..... 000100 ..... .....  @rrr_q1e0
+SHA1M           0101 1110 000 ..... 001000 ..... .....  @rrr_q1e0
+SHA1SU0         0101 1110 000 ..... 001100 ..... .....  @rrr_q1e0
+SHA256H         0101 1110 000 ..... 010000 ..... .....  @rrr_q1e0
+SHA256H2        0101 1110 000 ..... 010100 ..... .....  @rrr_q1e0
+SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES
+ * Cryptographic AES, SHA
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(AESD, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aesd)
 TRANS_FEAT(AESMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesmc)
 TRANS_FEAT(AESIMC, aa64_aes, do_gvec_op2_ool, a, 0, gen_helper_crypto_aesimc)
 
+TRANS_FEAT(SHA1C, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1c)
+TRANS_FEAT(SHA1P, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1p)
+TRANS_FEAT(SHA1M, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1m)
+TRANS_FEAT(SHA1SU0, aa64_sha1, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha1su0)
+
+TRANS_FEAT(SHA256H, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h)
+TRANS_FEAT(SHA256H2, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256h2)
+TRANS_FEAT(SHA256SU1, aa64_sha256, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha256su1)
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA
- *  31             24 23  22  21 20  16  15 14    12 11 10 9    5 4    0
- * +-----------------+------+---+------+---+--------+-----+------+------+
- * | 0 1 0 1 1 1 1 0 | size | 0 |  Rm  | 0 | opcode | 0 0 |  Rn  |  Rd  |
- * +-----------------+------+---+------+---+--------+-----+------+------+
- */
-static void disas_crypto_three_reg_sha(DisasContext *s, uint32_t insn)
-{
-    int size = extract32(insn, 22, 2);
-    int opcode = extract32(insn, 12, 3);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    gen_helper_gvec_3 *genfn;
-    bool feature;
-
-    if (size != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    switch (opcode) {
-    case 0: /* SHA1C */
-        genfn = gen_helper_crypto_sha1c;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 1: /* SHA1P */
-        genfn = gen_helper_crypto_sha1p;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 2: /* SHA1M */
-        genfn = gen_helper_crypto_sha1m;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 3: /* SHA1SU0 */
-        genfn = gen_helper_crypto_sha1su0;
-        feature = dc_isar_feature(aa64_sha1, s);
-        break;
-    case 4: /* SHA256H */
-        genfn = gen_helper_crypto_sha256h;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 5: /* SHA256H2 */
-        genfn = gen_helper_crypto_sha256h2;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    case 6: /* SHA256SU1 */
-        genfn = gen_helper_crypto_sha256su1;
-        feature = dc_isar_feature(aa64_sha256, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-    gen_gvec_op3_ool(s, true, rd, rn, rm, 0, genfn);
-}
-
 /* Crypto two-reg SHA
  *  31             24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----------------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x5e000000, 0xff208c00, disas_crypto_three_reg_sha },
     { 0x5e280800, 0xff3e0c00, disas_crypto_two_reg_sha },
     { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 54 +++-------------------------------
 2 files changed, 10 insertions(+), 50 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 11 ++++
 target/arm/tcg/translate-a64.c | 97 ++++++++--------------------------
 2 files changed, 32 insertions(+), 76 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
+@rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SHA256SU1       0101 1110 000 ..... 011000 ..... .....  @rrr_q1e0
 SHA1H           0101 1110 0010 1000 0000 10 ..... ..... @rr_q1e0
 SHA1SU1         0101 1110 0010 1000 0001 10 ..... ..... @rr_q1e0
 SHA256SU0       0101 1110 0010 1000 0010 10 ..... ..... @rr_q1e0
+
+### Cryptographic three-register SHA512
+
+SHA512H         1100 1110 011 ..... 100000 ..... .....  @rrr_q1e0
+SHA512H2        1100 1110 011 ..... 100001 ..... .....  @rrr_q1e0
+SHA512SU1       1100 1110 011 ..... 100010 ..... .....  @rrr_q1e0
+RAX1            1100 1110 011 ..... 100011 ..... .....  @rrr_q1e3
+SM3PARTW1       1100 1110 011 ..... 110000 ..... .....  @rrr_q1e0
+SM3PARTW2       1100 1110 011 ..... 110001 ..... .....  @rrr_q1e0
+SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_op3_ool(DisasContext *s, arg_qrrr_e *a, int data,
     return true;
 }
 
+static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn3(s, a->q, a->rd, a->rn, a->rm, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ static bool trans_EXTR(DisasContext *s, arg_extract *a)
 }
 
 /*
- * Cryptographic AES, SHA
+ * Cryptographic AES, SHA, SHA512
  */
 
 TRANS_FEAT(AESE, aa64_aes, do_gvec_op3_ool, a, 0, gen_helper_crypto_aese)
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SHA1H, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1h)
 TRANS_FEAT(SHA1SU1, aa64_sha1, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha1su1)
 TRANS_FEAT(SHA256SU0, aa64_sha256, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha256su0)
 
+TRANS_FEAT(SHA512H, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h)
+TRANS_FEAT(SHA512H2, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512h2)
+TRANS_FEAT(SHA512SU1, aa64_sha512, do_gvec_op3_ool, a, 0, gen_helper_crypto_sha512su1)
+TRANS_FEAT(RAX1, aa64_sha3, do_gvec_fn3, a, gen_gvec_rax1)
+TRANS_FEAT(SM3PARTW1, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw1)
+TRANS_FEAT(SM3PARTW2, aa64_sm3, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm3partw2)
+TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto three-reg SHA512
- *  31                   21 20  16 15  14  13 12  11  10  9    5 4    0
- * +-----------------------+------+---+---+-----+--------+------+------+
- * | 1 1 0 0 1 1 1 0 0 1 1 |  Rm  | 1 | O | 0 0 | opcode |  Rn  |  Rd  |
- * +-----------------------+------+---+---+-----+--------+------+------+
- */
-static void disas_crypto_three_reg_sha512(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 10, 2);
-    int o =  extract32(insn, 14, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-    gen_helper_gvec_3 *oolfn = NULL;
-    GVecGen3Fn *gvecfn = NULL;
-
-    if (o == 0) {
-        switch (opcode) {
-        case 0: /* SHA512H */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h;
-            break;
-        case 1: /* SHA512H2 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512h2;
-            break;
-        case 2: /* SHA512SU1 */
-            feature = dc_isar_feature(aa64_sha512, s);
-            oolfn = gen_helper_crypto_sha512su1;
-            break;
-        case 3: /* RAX1 */
-            feature = dc_isar_feature(aa64_sha3, s);
-            gvecfn = gen_gvec_rax1;
-            break;
-        default:
-            g_assert_not_reached();
-        }
-    } else {
-        switch (opcode) {
-        case 0: /* SM3PARTW1 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw1;
-            break;
-        case 1: /* SM3PARTW2 */
-            feature = dc_isar_feature(aa64_sm3, s);
-            oolfn = gen_helper_crypto_sm3partw2;
-            break;
-        case 2: /* SM4EKEY */
-            feature = dc_isar_feature(aa64_sm4, s);
-            oolfn = gen_helper_crypto_sm4ekey;
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (oolfn) {
-        gen_gvec_op3_ool(s, true, rd, rn, rm, 0, oolfn);
-    } else {
-        gen_gvec_fn3(s, true, rd, rn, rm, gvecfn, MO_64);
-    }
-}
-
 /* Crypto two-reg SHA512
  *  31                                     12  11  10  9    5 4    0
  * +-----------------------------------------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce608000, 0xffe0b000, disas_crypto_three_reg_sha512 },
     { 0xcec08000, 0xfffff000, disas_crypto_two_reg_sha512 },
     { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  5 ++++
 target/arm/tcg/translate-a64.c | 50 ++--------------------------------
 2 files changed, 8 insertions(+), 47 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   8 ++
 target/arm/tcg/translate-a64.c | 132 +++++++++++----------------------
 2 files changed, 51 insertions(+), 89 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 &i              imm
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrrr_e        q rd rn rm ra esz
 
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
+@rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
 ### Data Processing - Immediate
 
@@ -XXX,XX +XXX,XX @@ SM4EKEY         1100 1110 011 ..... 110010 ..... .....  @rrr_q1e0
 
 SHA512SU0       1100 1110 110 00000 100000 ..... .....  @rr_q1e0
 SM4E            1100 1110 110 00000 100001 ..... .....  @r2r_q1e0
+
+### Cryptographic four-register
+
+EOR3            1100 1110 000 ..... 0 ..... ..... ..... @rrrr_q1e3
+BCAX            1100 1110 001 ..... 0 ..... ..... ..... @rrrr_q1e3
+SM3SS1          1100 1110 010 ..... 0 ..... ..... ..... @rrrr_q1e3
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_gvec_fn3(DisasContext *s, arg_qrrr_e *a, GVecGen3Fn *fn)
     return true;
 }
 
+static bool do_gvec_fn4(DisasContext *s, arg_qrrrr_e *a, GVecGen4Fn *fn)
+{
+    if (!a->q && a->esz == MO_64) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, a->q, a->rd, a->rn, a->rm, a->ra, fn, a->esz);
+    }
+    return true;
+}
+
 /*
  * This utility function is for doing register extension with an
  * optional shift. You will likely want to pass a temporary for the
@@ -XXX,XX +XXX,XX @@ TRANS_FEAT(SM4EKEY, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4ekey)
 TRANS_FEAT(SHA512SU0, aa64_sha512, do_gvec_op2_ool, a, 0, gen_helper_crypto_sha512su0)
 TRANS_FEAT(SM4E, aa64_sm4, do_gvec_op3_ool, a, 0, gen_helper_crypto_sm4e)
 
+TRANS_FEAT(EOR3, aa64_sha3, do_gvec_fn4, a, gen_gvec_eor3)
+TRANS_FEAT(BCAX, aa64_sha3, do_gvec_fn4, a, gen_gvec_bcax)
+
+static bool trans_SM3SS1(DisasContext *s, arg_SM3SS1 *a)
+{
+    if (!dc_isar_feature(aa64_sm3, s)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
+        TCGv_i32 tcg_op3 = tcg_temp_new_i32();
+        TCGv_i32 tcg_res = tcg_temp_new_i32();
+        unsigned vsz, dofs;
+
+        read_vec_element_i32(s, tcg_op1, a->rn, 3, MO_32);
+        read_vec_element_i32(s, tcg_op2, a->rm, 3, MO_32);
+        read_vec_element_i32(s, tcg_op3, a->ra, 3, MO_32);
+
+        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
+        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
+        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
+
+        /* Clear the whole register first, then store bits [127:96]. */
+        vsz = vec_full_reg_size(s);
+        dofs = vec_full_reg_offset(s, a->rd);
+        tcg_gen_gvec_dup_imm(MO_64, dofs, vsz, vsz, 0);
+        write_vec_element_i32(s, tcg_res, a->rd, 3, MO_32);
+    }
+    return true;
+}
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Crypto four-register
- *  31               23 22 21 20  16 15  14  10 9    5 4    0
- * +-------------------+-----+------+---+------+------+------+
- * | 1 1 0 0 1 1 1 0 0 | Op0 |  Rm  | 0 |  Ra  |  Rn  |  Rd  |
- * +-------------------+-----+------+---+------+------+------+
- */
-static void disas_crypto_four_reg(DisasContext *s, uint32_t insn)
-{
-    int op0 = extract32(insn, 21, 2);
-    int rm = extract32(insn, 16, 5);
-    int ra = extract32(insn, 10, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    bool feature;
-
-    switch (op0) {
-    case 0: /* EOR3 */
-    case 1: /* BCAX */
-        feature = dc_isar_feature(aa64_sha3, s);
-        break;
-    case 2: /* SM3SS1 */
-        feature = dc_isar_feature(aa64_sm3, s);
-        break;
-    default:
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!feature) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    if (op0 < 2) {
-        TCGv_i64 tcg_op1, tcg_op2, tcg_op3, tcg_res[2];
-        int pass;
-
-        tcg_op1 = tcg_temp_new_i64();
-        tcg_op2 = tcg_temp_new_i64();
-        tcg_op3 = tcg_temp_new_i64();
-        tcg_res[0] = tcg_temp_new_i64();
-        tcg_res[1] = tcg_temp_new_i64();
-
-        for (pass = 0; pass < 2; pass++) {
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-            read_vec_element(s, tcg_op3, ra, pass, MO_64);
-
-            if (op0 == 0) {
-                /* EOR3 */
-                tcg_gen_xor_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            } else {
-                /* BCAX */
-                tcg_gen_andc_i64(tcg_res[pass], tcg_op2, tcg_op3);
-            }
-            tcg_gen_xor_i64(tcg_res[pass], tcg_res[pass], tcg_op1);
-        }
-        write_vec_element(s, tcg_res[0], rd, 0, MO_64);
-        write_vec_element(s, tcg_res[1], rd, 1, MO_64);
-    } else {
-        TCGv_i32 tcg_op1, tcg_op2, tcg_op3, tcg_res, tcg_zero;
-
-        tcg_op1 = tcg_temp_new_i32();
-        tcg_op2 = tcg_temp_new_i32();
-        tcg_op3 = tcg_temp_new_i32();
-        tcg_res = tcg_temp_new_i32();
-        tcg_zero = tcg_constant_i32(0);
-
-        read_vec_element_i32(s, tcg_op1, rn, 3, MO_32);
-        read_vec_element_i32(s, tcg_op2, rm, 3, MO_32);
-        read_vec_element_i32(s, tcg_op3, ra, 3, MO_32);
-
-        tcg_gen_rotri_i32(tcg_res, tcg_op1, 20);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op2);
-        tcg_gen_add_i32(tcg_res, tcg_res, tcg_op3);
-        tcg_gen_rotri_i32(tcg_res, tcg_res, 25);
-
-        write_vec_element_i32(s, tcg_zero, rd, 0, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 1, MO_32);
-        write_vec_element_i32(s, tcg_zero, rd, 2, MO_32);
-        write_vec_element_i32(s, tcg_res, rd, 3, MO_32);
-    }
-}
-
 /* Crypto XAR
  *  31                   21 20  16 15    10 9    5 4    0
  * +-----------------------+------+--------+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0xce000000, 0xff808000, disas_crypto_four_reg },
     { 0xce800000, 0xffe00000, disas_crypto_xar },
     { 0xce408000, 0xffe0c000, disas_crypto_three_reg_imm2 },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 ++++++++
 target/arm/tcg/translate-a64.c | 43 ++++++++++------------------------
 2 files changed, 22 insertions(+), 31 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  4 ++++
 target/arm/tcg/translate-a64.c | 43 +++++++++++-----------------------
 2 files changed, 18 insertions(+), 29 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-18-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  13 +
 target/arm/tcg/translate-a64.c | 426 +++++++++++----------------------
 2 files changed, 152 insertions(+), 287 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ SM3TT2B         11001110 010 ..... 10 .. 11 ..... ..... @crypto3i
 ### Cryptographic XAR
 
 XAR             1100 1110 100 rm:5 imm:6 rn:5 rd:5
+
+### Advanced SIMD scalar copy
+
+DUP_element_s   0101 1110 000 imm:5 0 0000 1 rn:5 rd:5
+
+### Advanced SIMD copy
+
+DUP_element_v   0 q:1 00 1110 000 imm:5 0 0000 1 rn:5 rd:5
+DUP_general     0 q:1 00 1110 000 imm:5 0 0001 1 rn:5 rd:5
+INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
+SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
+UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
+INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_XAR(DisasContext *s, arg_XAR *a)
     return true;
 }
 
+/*
+ * Advanced SIMD copy
+ */
+
+static bool decode_esz_idx(int imm, MemOp *pesz, unsigned *pidx)
+{
+    unsigned esz = ctz32(imm);
+    if (esz <= MO_64) {
+        *pesz = esz;
+        *pidx = imm >> (esz + 1);
+        return true;
+    }
+    return false;
+}
+
+static bool trans_DUP_element_s(DisasContext *s, arg_DUP_element_s *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        /*
+         * This instruction just extracts the specified element and
+         * zero-extends it into the bottom of the destination register.
+         */
+        TCGv_i64 tmp = tcg_temp_new_i64();
+        read_vec_element(s, tmp, a->rn, idx, esz);
+        write_fp_dreg(s, a->rd, tmp);
+    }
+    return true;
+}
+
+static bool trans_DUP_element_v(DisasContext *s, arg_DUP_element_v *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_mem(esz, vec_full_reg_offset(s, a->rd),
+                             vec_reg_offset(s, a->rn, idx, esz),
+                             a->q ? 16 : 8, vec_full_reg_size(s));
+    }
+    return true;
+}
+
+static bool trans_DUP_general(DisasContext *s, arg_DUP_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (esz == MO_64 && !a->q) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        tcg_gen_gvec_dup_i64(esz, vec_full_reg_offset(s, a->rd),
+                             a->q ? 16 : 8, vec_full_reg_size(s),
+                             cpu_reg(s, a->rn));
+    }
+    return true;
+}
+
+static bool do_smov_umov(DisasContext *s, arg_SMOV *a, MemOp is_signed)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (is_signed) {
+        if (esz == MO_64 || (esz == MO_32 && !a->q)) {
+            return false;
+        }
+    } else {
+        if (esz == MO_64 ? !a->q : a->q) {
+            return false;
+        }
+    }
+    if (fp_access_check(s)) {
+        TCGv_i64 tcg_rd = cpu_reg(s, a->rd);
+        read_vec_element(s, tcg_rd, a->rn, idx, esz | is_signed);
+        if (is_signed && !a->q) {
+            tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
+        }
+    }
+    return true;
+}
+
+TRANS(SMOV, do_smov_umov, a, MO_SIGN)
+TRANS(UMOV, do_smov_umov, a, 0)
+
+static bool trans_INS_general(DisasContext *s, arg_INS_general *a)
+{
+    MemOp esz;
+    unsigned idx;
+
+    if (!decode_esz_idx(a->imm, &esz, &idx)) {
+        return false;
+    }
+    if (fp_access_check(s)) {
+        write_vec_element(s, cpu_reg(s, a->rn), a->rd, idx, esz);
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
+static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
+{
+    MemOp esz;
+    unsigned didx, sidx;
+
+    if (!decode_esz_idx(a->di, &esz, &didx)) {
+        return false;
+    }
+    sidx = a->si >> esz;
+    if (fp_access_check(s)) {
+        TCGv_i64 tmp = tcg_temp_new_i64();
+
+        read_vec_element(s, tmp, a->rn, sidx, esz);
+        write_vec_element(s, tmp, a->rd, didx, esz);
+
+        /* INS is considered a 128-bit write for SVE. */
+        clear_vec_high(s, true, a->rd);
+    }
+    return true;
+}
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void disas_simd_across_lanes(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_res);
 }
 
-/* DUP (Element, Vector)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupe(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-
-    if (size > 3 || (size == 3 && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-    tcg_gen_gvec_dup_mem(size, vec_full_reg_offset(s, rd),
-                         vec_reg_offset(s, rn, index, size),
-                         is_q ? 16 : 8, vec_full_reg_size(s));
-}
-
-/* DUP (element, scalar)
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 1 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 0 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- */
-static void handle_simd_dupes(DisasContext *s, int rd, int rn,
-                              int imm5)
-{
-    int size = ctz32(imm5);
-    int index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    index = imm5 >> (size + 1);
-
-    /* This instruction just extracts the specified element and
-     * zero-extends it into the bottom of the destination register.
-     */
-    tmp = tcg_temp_new_i64();
-    read_vec_element(s, tmp, rn, index, size);
-    write_fp_dreg(s, rd, tmp);
-}
-
-/* DUP (General)
- *
- *  31  30   29              21 20    16 15        10  9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 0 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_dupg(DisasContext *s, int is_q, int rd, int rn,
-                             int imm5)
-{
-    int size = ctz32(imm5);
-    uint32_t dofs, oprsz, maxsz;
-
-    if (size > 3 || ((size == 3) && !is_q)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dofs = vec_full_reg_offset(s, rd);
-    oprsz = is_q ? 16 : 8;
-    maxsz = vec_full_reg_size(s);
-
-    tcg_gen_gvec_dup_i64(size, dofs, oprsz, maxsz, cpu_reg(s, rn));
-}
-
-/* INS (Element)
- *
- *  31                   21 20    16 15  14    11  10 9    5 4    0
- * +-----------------------+--------+------------+---+------+------+
- * | 0 1 1 0 1 1 1 0 0 0 0 |  imm5  | 0 |  imm4  | 1 |  Rn  |  Rd  |
- * +-----------------------+--------+------------+---+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_inse(DisasContext *s, int rd, int rn,
-                             int imm4, int imm5)
-{
-    int size = ctz32(imm5);
-    int src_index, dst_index;
-    TCGv_i64 tmp;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    dst_index = extract32(imm5, 1+size, 5);
-    src_index = extract32(imm4, size, 4);
-
-    tmp = tcg_temp_new_i64();
-
-    read_vec_element(s, tmp, rn, src_index, size);
-    write_vec_element(s, tmp, rd, dst_index, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-
-/* INS (General)
- *
- *  31                   21 20    16 15        10  9    5 4    0
- * +-----------------------+--------+-------------+------+------+
- * | 0 1 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 0 1 1 1 |  Rn  |  Rd  |
- * +-----------------------+--------+-------------+------+------+
- *
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- * index: encoded in imm5<4:size+1>
- */
-static void handle_simd_insg(DisasContext *s, int rd, int rn, int imm5)
-{
-    int size = ctz32(imm5);
-    int idx;
-
-    if (size > 3) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    idx = extract32(imm5, 1 + size, 4 - size);
-    write_vec_element(s, cpu_reg(s, rn), rd, idx, size);
-
-    /* INS is considered a 128-bit write for SVE. */
-    clear_vec_high(s, true, rd);
-}
-
-/*
- * UMOV (General)
- * SMOV (General)
- *
- *  31  30   29              21 20    16 15    12   10 9    5 4    0
- * +---+---+-------------------+--------+-------------+------+------+
- * | 0 | Q | 0 0 1 1 1 0 0 0 0 |  imm5  | 0 0 1 U 1 1 |  Rn  |  Rd  |
- * +---+---+-------------------+--------+-------------+------+------+
- *
- * U: unsigned when set
- * size: encoded in imm5 (see ARM ARM LowestSetBit())
- */
-static void handle_simd_umov_smov(DisasContext *s, int is_q, int is_signed,
-                                  int rn, int rd, int imm5)
-{
-    int size = ctz32(imm5);
-    int element;
-    TCGv_i64 tcg_rd;
-
-    /* Check for UnallocatedEncodings */
-    if (is_signed) {
-        if (size > 2 || (size == 2 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    } else {
-        if (size > 3
-            || (size < 3 && is_q)
-            || (size == 3 && !is_q)) {
-            unallocated_encoding(s);
-            return;
-        }
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    element = extract32(imm5, 1+size, 4);
-
-    tcg_rd = cpu_reg(s, rd);
-    read_vec_element(s, tcg_rd, rn, element, size | (is_signed ? MO_SIGN : 0));
-    if (is_signed && !is_q) {
-        tcg_gen_ext32u_i64(tcg_rd, tcg_rd);
-    }
-}
-
-/* AdvSIMD copy
- *   31  30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +---+---+----+-----------------+------+---+------+---+------+------+
- * | 0 | Q | op | 0 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +---+---+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int op = extract32(insn, 29, 1);
-    int is_q = extract32(insn, 30, 1);
-    int imm5 = extract32(insn, 16, 5);
-
-    if (op) {
-        if (is_q) {
-            /* INS (element) */
-            handle_simd_inse(s, rd, rn, imm4, imm5);
-        } else {
-            unallocated_encoding(s);
-        }
-    } else {
-        switch (imm4) {
-        case 0:
-            /* DUP (element - vector) */
-            handle_simd_dupe(s, is_q, rd, rn, imm5);
-            break;
-        case 1:
-            /* DUP (general) */
-            handle_simd_dupg(s, is_q, rd, rn, imm5);
-            break;
-        case 3:
-            if (is_q) {
-                /* INS (general) */
-                handle_simd_insg(s, rd, rn, imm5);
-            } else {
-                unallocated_encoding(s);
-            }
-            break;
-        case 5:
-        case 7:
-            /* UMOV/SMOV (is_q indicates 32/64; imm4 indicates signedness) */
-            handle_simd_umov_smov(s, is_q, (imm4 == 5), rn, rd, imm5);
-            break;
-        default:
-            unallocated_encoding(s);
-            break;
-        }
-    }
-}
-
 /* AdvSIMD modified immediate
  *  31  30   29  28                 19 18 16 15   12  11  10  9     5 4    0
  * +---+---+----+---------------------+-----+-------+----+---+-------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
     }
 }
 
-/* AdvSIMD scalar copy
- *  31 30  29  28             21 20  16 15  14  11 10  9    5 4    0
- * +-----+----+-----------------+------+---+------+---+------+------+
- * | 0 1 | op | 1 1 1 1 0 0 0 0 | imm5 | 0 | imm4 | 1 |  Rn  |  Rd  |
- * +-----+----+-----------------+------+---+------+---+------+------+
- */
-static void disas_simd_scalar_copy(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int imm4 = extract32(insn, 11, 4);
-    int imm5 = extract32(insn, 16, 5);
-    int op = extract32(insn, 29, 1);
-
-    if (op != 0 || imm4 != 0) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    /* DUP (element, scalar) */
-    handle_simd_dupes(s, rd, rn, imm5);
-}
-
 /* AdvSIMD scalar pairwise
  *  31 30  29 28       24 23  22 21       17 16    12 11 10 9    5 4    0
  * +-----+---+-----------+------+-----------+--------+-----+------+------+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x0e200000, 0x9f200c00, disas_simd_three_reg_diff },
     { 0x0e200800, 0x9f3e0c00, disas_simd_two_reg_misc },
     { 0x0e300800, 0x9f3e0c00, disas_simd_across_lanes },
-    { 0x0e000400, 0x9fe08400, disas_simd_copy },
     { 0x0f000000, 0x9f000400, disas_simd_indexed }, /* vector indexed */
     /* simd_mod_imm decode is a subset of simd_shift_imm, so must precede it */
     { 0x0f000400, 0x9ff80400, disas_simd_mod_imm },
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e200000, 0xdf200c00, disas_simd_scalar_three_reg_diff },
     { 0x5e200800, 0xdf3e0c00, disas_simd_scalar_two_reg_misc },
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
-    { 0x5e000400, 0xdfe08400, disas_simd_scalar_copy },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Convert all forms (scalar, vector, scalar indexed, vector indexed),
which allows us to remove switch table entries elsewhere.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-19-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   8 ++
 target/arm/tcg/a64.decode      |  45 +++++++
 target/arm/tcg/translate-a64.c | 221 +++++++++++++++++++++++++++------
 target/arm/tcg/vec_helper.c    |  39 +++---
 4 files changed, 259 insertions(+), 54 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpye, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmulx_idx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 #
 
 %rd             0:5
+%esz_sd         22:1 !function=plus_2
+%hl             11:1 21:1
+%hlm            11:1 20:2
 
 &r              rn
 &ri             rd imm
 &rri_sf         rd rn imm sf
 &i              imm
+&rrr_e          rd rn rm esz
+&rrx_e          rd rn rm idx esz
 &qrr_e          q rd rn esz
 &qrrr_e         q rd rn rm esz
+&qrrx_e         q rd rn rm idx esz
 &qrrrr_e        q rd rn rm ra esz
 
+@rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
+@rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+
+@rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
+@rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
+@rrx_d          ........ .. . rm:5  .... idx:1 . rn:5 rd:5  &rrx_e esz=3
+
 @rr_q1e0        ........ ........ ...... rn:5 rd:5      &qrr_e q=1 esz=0
 @r2r_q1e0       ........ ........ ...... rm:5 rd:5      &qrrr_e rn=%rd q=1 esz=0
 @rrr_q1e0       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=0
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
+@qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
+
+@qrrx_h         . q:1 .. .... .. .. rm:4 .... . . rn:5 rd:5 \
+                &qrrx_e esz=1 idx=%hlm
+@qrrx_s         . q:1 .. .... .. . rm:5  .... . . rn:5 rd:5 \
+                &qrrx_e esz=2 idx=%hl
+@qrrx_d         . q:1 .. .... .. . rm:5  .... idx:1 . rn:5 rd:5 \
+                &qrrx_e esz=3
+
 ### Data Processing - Immediate
 
 # PC-rel addressing
@@ -XXX,XX +XXX,XX @@ INS_general     0 1   00 1110 000 imm:5 0 0011 1 rn:5 rd:5
 SMOV            0 q:1 00 1110 000 imm:5 0 0101 1 rn:5 rd:5
 UMOV            0 q:1 00 1110 000 imm:5 0 0111 1 rn:5 rd:5
 INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
+
+### Advanced SIMD scalar three same
+
+FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
+FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
+
+### Advanced SIMD three same
+
+FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
+### Advanced SIMD scalar x indexed element
+
+FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
+### Advanced SIMD vector x indexed element
+
+FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool trans_INS_element(DisasContext *s, arg_INS_element *a)
     return true;
 }
 
+/*
+ * Advanced SIMD three same
+ */
+
+typedef struct FPScalar {
+    void (*gen_h)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_s)(TCGv_i32, TCGv_i32, TCGv_i32, TCGv_ptr);
+    void (*gen_d)(TCGv_i64, TCGv_i64, TCGv_i64, TCGv_ptr);
+} FPScalar;
+
+static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rm);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rm);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rm);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        return false;
+    }
+    return true;
+}
+
+static const FPScalar f_scalar_fmulx = {
+    gen_helper_advsimd_mulxh,
+    gen_helper_vfp_mulxs,
+    gen_helper_vfp_mulxd,
+};
+TRANS(FMULX_s, do_fp3_scalar, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
+                          gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        return false;
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, 0, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
+    gen_helper_gvec_fmulx_h,
+    gen_helper_gvec_fmulx_s,
+    gen_helper_gvec_fmulx_d,
+};
+TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
+
+/*
+ * Advanced SIMD scalar/vector x indexed element
+ */
+
+static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t1 = tcg_temp_new_i64();
+
+            read_vec_element(s, t1, a->rm, a->idx, MO_64);
+            f->gen_d(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_32);
+            f->gen_s(t0, t0, t1, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t1 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t1, a->rm, a->idx, MO_16);
+            f->gen_h(t0, t0, t1, fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
+
+static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
+                              gen_helper_gvec_3_ptr * const fns[3])
+{
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op3_fpst(s, a->q, a->rd, a->rn, a->rm,
+                          esz == MO_16, a->idx, fns[esz - 1]);
+    }
+    return true;
+}
+
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
+    gen_helper_gvec_fmulx_idx_h,
+    gen_helper_gvec_fmulx_idx_s,
+    gen_helper_gvec_fmulx_idx_d,
+};
+TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
+
+
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
  * shift amount is in range (ie 0..31 or 0..63) and provide the ARM
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1a: /* FADD */
                 gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1b: /* FMULX */
-                gen_helper_vfp_mulxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1b: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         /* Floating point: U, size[1] and opcode indicate operation */
         int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
         switch (fpopcode) {
-        case 0x1b: /* FMULX */
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
         case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         case 0x7a: /* FABD */
             break;
         default:
+        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
     case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     case 0x1d: /* FACGT */
         break;
     default:
+    case 0x03: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x03: /* FMULX */
-        gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x04: /* FCMEQ (reg) */
         gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
         gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     default:
+    case 0x03: /* FMULX */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1b: /* FMULX */
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1b: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
-    case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x3: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x2: /* FADD */
                 gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3: /* FMULX */
-                gen_helper_advsimd_mulxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x3: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
     case 0x09: /* FMUL */
-    case 0x19: /* FMULX */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             case 0x09: /* FMUL */
                 gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
                 break;
-            case 0x19: /* FMULX */
-                gen_helper_vfp_mulxd(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x19: /* FMULX */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulxh(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mulx2h(tcg_res, tcg_op,
-                                                  tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_mulxs(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
+DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
+DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
 
 DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 DO_3OP(gvec_recps_s, helper_recpsf_f32, float32)
@@ -XXX,XX +XXX,XX @@ DO_MLA_IDX(gvec_mls_idx_d, uint64_t, -, H8)
 
 #undef DO_MLA_IDX
 
-#define DO_FMUL_IDX(NAME, ADD, TYPE, H)                                    \
+#define DO_FMUL_IDX(NAME, ADD, MUL, TYPE, H)                               \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
     intptr_t i, j, oprsz = simd_oprsz(desc);                               \
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
     for (i = 0; i < oprsz / sizeof(TYPE); i += segment) {                  \
         TYPE mm = m[H(i + idx)];                                           \
         for (j = 0; j < segment; j++) {                                    \
-            d[i + j] = TYPE##_##ADD(d[i + j],                              \
-                                    TYPE##_mul(n[i + j], mm, stat), stat); \
+            d[i + j] = ADD(d[i + j], MUL(n[i + j], mm, stat), stat);       \
         }                                                                  \
     }                                                                      \
     clear_tail(d, oprsz, simd_maxsz(desc));                                \
 }
 
-#define float16_nop(N, M, S) (M)
-#define float32_nop(N, M, S) (M)
-#define float64_nop(N, M, S) (M)
+#define nop(N, M, S) (M)
 
-DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16, H2)
-DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32, H4)
-DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64, H8)
+DO_FMUL_IDX(gvec_fmul_idx_h, nop, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmul_idx_s, nop, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmul_idx_d, nop, float64_mul, float64, H8)
+
+#ifdef TARGET_AARCH64
+
+DO_FMUL_IDX(gvec_fmulx_idx_h, nop, helper_advsimd_mulxh, float16, H2)
+DO_FMUL_IDX(gvec_fmulx_idx_s, nop, helper_vfp_mulxs, float32, H4)
+DO_FMUL_IDX(gvec_fmulx_idx_d, nop, helper_vfp_mulxd, float64, H8)
+
+#endif
+
+#undef nop
 
 /*
  * Non-fused multiply-accumulate operations, for Neon. NB that unlike
  * the fused ops below they assume accumulate both from and into Vd.
  */
-DO_FMUL_IDX(gvec_fmla_nf_idx_h, add, float16, H2)
-DO_FMUL_IDX(gvec_fmla_nf_idx_s, add, float32, H4)
-DO_FMUL_IDX(gvec_fmls_nf_idx_h, sub, float16, H2)
-DO_FMUL_IDX(gvec_fmls_nf_idx_s, sub, float32, H4)
+DO_FMUL_IDX(gvec_fmla_nf_idx_h, float16_add, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmla_nf_idx_s, float32_add, float32_mul, float32, H4)
+DO_FMUL_IDX(gvec_fmls_nf_idx_h, float16_sub, float16_mul, float16, H2)
+DO_FMUL_IDX(gvec_fmls_nf_idx_s, float32_sub, float32_mul, float32, H4)
 
-#undef float16_nop
-#undef float32_nop
-#undef float64_nop
 #undef DO_FMUL_IDX
 
 #define DO_FMLA_IDX(NAME, TYPE, H)                                         \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-20-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/helper-a64.h    |   4 +
 target/arm/tcg/translate.h     |   5 +
 target/arm/tcg/a64.decode      |  27 +++++
 target/arm/tcg/translate-a64.c | 205 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 5 files changed, 143 insertions(+), 102 deletions(-)

diff --git a/target/arm/tcg/helper-a64.h b/target/arm/tcg/helper-a64.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/helper-a64.h
+++ b/target/arm/tcg/helper-a64.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_4(cpyfp, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfm, void, env, i32, i32, i32)
 DEF_HELPER_4(cpyfe, void, env, i32, i32, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fdiv_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fdiv_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 DEF_HELPER_FLAGS_5(gvec_fmulx_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmulx_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline int shl_12(DisasContext *s, int x)
     return x << 12;
 }
 
+static inline int xor_2(DisasContext *s, int x)
+{
+    return x ^ 2;
+}
+
 static inline int neon_3same_fp_size(DisasContext *s, int x)
 {
     /* Convert 0==fp32, 1==fp16 into a MO_* value */
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 
 %rd             0:5
 %esz_sd         22:1 !function=plus_2
+%esz_hsd        22:2 !function=xor_2
 %hl             11:1 21:1
 %hlm            11:1 20:2
 
@@ -XXX,XX +XXX,XX @@
 
 @rrr_h          ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=1
 @rrr_sd         ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_sd
+@rrr_hsd        ........ ... rm:5 ...... rn:5 rd:5      &rrr_e esz=%esz_hsd
 
 @rrx_h          ........ .. .. rm:4 .... . . rn:5 rd:5  &rrx_e esz=1 idx=%hlm
 @rrx_s          ........ .. . rm:5  .... . . rn:5 rd:5  &rrx_e esz=2 idx=%hl
@@ -XXX,XX +XXX,XX @@ INS_element     0 1   10 1110 000 di:5  0 si:4 1 rn:5 rd:5
 
 ### Advanced SIMD scalar three same
 
+FADD_s          0001 1110 ..1 ..... 0010 10 ..... ..... @rrr_hsd
+FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
+FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
+FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
 ### Advanced SIMD three same
 
+FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
+FADD_v          0.00 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FSUB_v          0.00 1110 110 ..... 00010 1 ..... ..... @qrrr_h
+FSUB_v          0.00 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
+
+FDIV_v          0.10 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
+FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
 ### Advanced SIMD scalar x indexed element
 
+FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
+FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
+FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
 ### Advanced SIMD vector x indexed element
 
+FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
+FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
+FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar(DisasContext *s, arg_rrr_e *a, const FPScalar *f)
     return true;
 }
 
+static const FPScalar f_scalar_fadd = {
+    gen_helper_vfp_addh,
+    gen_helper_vfp_adds,
+    gen_helper_vfp_addd,
+};
+TRANS(FADD_s, do_fp3_scalar, a, &f_scalar_fadd)
+
+static const FPScalar f_scalar_fsub = {
+    gen_helper_vfp_subh,
+    gen_helper_vfp_subs,
+    gen_helper_vfp_subd,
+};
+TRANS(FSUB_s, do_fp3_scalar, a, &f_scalar_fsub)
+
+static const FPScalar f_scalar_fdiv = {
+    gen_helper_vfp_divh,
+    gen_helper_vfp_divs,
+    gen_helper_vfp_divd,
+};
+TRANS(FDIV_s, do_fp3_scalar, a, &f_scalar_fdiv)
+
+static const FPScalar f_scalar_fmul = {
+    gen_helper_vfp_mulh,
+    gen_helper_vfp_muls,
+    gen_helper_vfp_muld,
+};
+TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_fadd[3] = {
+    gen_helper_gvec_fadd_h,
+    gen_helper_gvec_fadd_s,
+    gen_helper_gvec_fadd_d,
+};
+TRANS(FADD_v, do_fp3_vector, a, f_vector_fadd)
+
+static gen_helper_gvec_3_ptr * const f_vector_fsub[3] = {
+    gen_helper_gvec_fsub_h,
+    gen_helper_gvec_fsub_s,
+    gen_helper_gvec_fsub_d,
+};
+TRANS(FSUB_v, do_fp3_vector, a, f_vector_fsub)
+
+static gen_helper_gvec_3_ptr * const f_vector_fdiv[3] = {
+    gen_helper_gvec_fdiv_h,
+    gen_helper_gvec_fdiv_s,
+    gen_helper_gvec_fdiv_d,
+};
+TRANS(FDIV_v, do_fp3_vector, a, f_vector_fdiv)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
+    gen_helper_gvec_fmul_h,
+    gen_helper_gvec_fmul_s,
+    gen_helper_gvec_fmul_d,
+};
+TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
     return true;
 }
 
+TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
     return true;
 }
 
+static gen_helper_gvec_3_ptr * const f_vector_idx_fmul[3] = {
+    gen_helper_gvec_fmul_idx_h,
+    gen_helper_gvec_fmul_idx_s,
+    gen_helper_gvec_fmul_idx_d,
+};
+TRANS(FMUL_vi, do_fp3_vector_idx, a, f_vector_idx_fmul)
+
 static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
     gen_helper_gvec_fmulx_idx_h,
     gen_helper_gvec_fmulx_idx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_sreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
         break;
+    default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
+        g_assert_not_reached();
     }
 
     write_fp_dreg(s, rd, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x0: /* FMUL */
-        gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1: /* FDIV */
-        gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x2: /* FADD */
-        gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x3: /* FSUB */
-        gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x4: /* FMAX */
         gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
         break;
     default:
+    case 0x0: /* FMUL */
+    case 0x1: /* FDIV */
+    case 0x2: /* FADD */
+    case 0x3: /* FSUB */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x18: /* FMAXNM */
                 gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_addd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_absd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x1a: /* FADD */
-                gen_helper_vfp_adds(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x38: /* FMINNM */
                 gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x3a: /* FSUB */
-                gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3e: /* FMIN */
                 gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5b: /* FMUL */
-                gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x5c: /* FCMGE */
                 gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x5d: /* FACGE */
                 gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5f: /* FDIV */
-                gen_helper_vfp_divs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_helper_vfp_abss(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x3a: /* FSUB */
+            case 0x5b: /* FMUL */
+            case 0x5f: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
     case 0x18: /* FMAXNM */
-    case 0x1a: /* FADD */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
-    case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
-    case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
-    case 0x5f: /* FDIV */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x3a: /* FSUB */
+    case 0x5b: /* FMUL */
+    case 0x5f: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     switch (fpopcode) {
     case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
-    case 0x2: /* FADD */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
-    case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
     case 0x1a: /* FABD */
     case 0x1c: /* FCMGT */
     case 0x1d: /* FACGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0xa: /* FSUB */
+    case 0x13: /* FMUL */
+    case 0x17: /* FDIV */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0x2: /* FADD */
-                gen_helper_advsimd_addh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xa: /* FSUB */
-                gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xe: /* FMIN */
                 gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x13: /* FMUL */
-                gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x14: /* FCMGE */
                 gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x15: /* FACGE */
                 gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x17: /* FDIV */
-                gen_helper_advsimd_divh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0xa: /* FSUB */
+            case 0x13: /* FMUL */
+            case 0x17: /* FDIV */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         break;
     case 0x01: /* FMLA */
     case 0x05: /* FMLS */
-    case 0x09: /* FMUL */
         is_fp = 1;
         break;
     case 0x1d: /* SQRDMLAH */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
                 gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
                 break;
-            case 0x09: /* FMUL */
-                gen_helper_vfp_muld(tcg_res, tcg_op, tcg_idx, fpst);
-                break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                     g_assert_not_reached();
                 }
                 break;
-            case 0x09: /* FMUL */
-                switch (size) {
-                case 1:
-                    if (is_scalar) {
-                        gen_helper_advsimd_mulh(tcg_res, tcg_op,
-                                                tcg_idx, fpst);
-                    } else {
-                        gen_helper_advsimd_mul2h(tcg_res, tcg_op,
-                                                 tcg_idx, fpst);
-                    }
-                    break;
-                case 2:
-                    gen_helper_vfp_muls(tcg_res, tcg_op, tcg_idx, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
             }
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_rsqrts_nf_h, float16_rsqrts_nf, float16)
 DO_3OP(gvec_rsqrts_nf_s, float32_rsqrts_nf, float32)
 
 #ifdef TARGET_AARCH64
+DO_3OP(gvec_fdiv_h, float16_div, float16)
+DO_3OP(gvec_fdiv_s, float32_div, float32)
+DO_3OP(gvec_fdiv_d, float64_div, float64)
+
 DO_3OP(gvec_fmulx_h, helper_advsimd_mulxh, float16)
 DO_3OP(gvec_fmulx_s, helper_vfp_mulxs, float32)
 DO_3OP(gvec_fmulx_d, helper_vfp_mulxd, float64)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-21-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   4 +
 target/arm/tcg/a64.decode      |  17 ++++
 target/arm/tcg/translate-a64.c | 168 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |   4 +
 4 files changed, 113 insertions(+), 80 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmax_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmin_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmin_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmin_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmaxnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fminnum_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fminnum_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnum_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_recps_nf_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_recps_nf_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FSUB_s          0001 1110 ..1 ..... 0011 10 ..... ..... @rrr_hsd
 FDIV_s          0001 1110 ..1 ..... 0001 10 ..... ..... @rrr_hsd
 FMUL_s          0001 1110 ..1 ..... 0000 10 ..... ..... @rrr_hsd
 
+FMAX_s          0001 1110 ..1 ..... 0100 10 ..... ..... @rrr_hsd
+FMIN_s          0001 1110 ..1 ..... 0101 10 ..... ..... @rrr_hsd
+FMAXNM_s        0001 1110 ..1 ..... 0110 10 ..... ..... @rrr_hsd
+FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
+
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
@@ -XXX,XX +XXX,XX @@ FDIV_v          0.10 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
 FMUL_v          0.10 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMUL_v          0.10 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMAX_v          0.00 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAX_v          0.00 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMIN_v          0.00 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMIN_v          0.00 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNM_v        0.00 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNM_v        0.00 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNM_v        0.00 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fmul = {
 };
 TRANS(FMUL_s, do_fp3_scalar, a, &f_scalar_fmul)
 
+static const FPScalar f_scalar_fmax = {
+    gen_helper_advsimd_maxh,
+    gen_helper_vfp_maxs,
+    gen_helper_vfp_maxd,
+};
+TRANS(FMAX_s, do_fp3_scalar, a, &f_scalar_fmax)
+
+static const FPScalar f_scalar_fmin = {
+    gen_helper_advsimd_minh,
+    gen_helper_vfp_mins,
+    gen_helper_vfp_mind,
+};
+TRANS(FMIN_s, do_fp3_scalar, a, &f_scalar_fmin)
+
+static const FPScalar f_scalar_fmaxnm = {
+    gen_helper_advsimd_maxnumh,
+    gen_helper_vfp_maxnums,
+    gen_helper_vfp_maxnumd,
+};
+TRANS(FMAXNM_s, do_fp3_scalar, a, &f_scalar_fmaxnm)
+
+static const FPScalar f_scalar_fminnm = {
+    gen_helper_advsimd_minnumh,
+    gen_helper_vfp_minnums,
+    gen_helper_vfp_minnumd,
+};
+TRANS(FMINNM_s, do_fp3_scalar, a, &f_scalar_fminnm)
+
 static const FPScalar f_scalar_fmulx = {
     gen_helper_advsimd_mulxh,
     gen_helper_vfp_mulxs,
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmul[3] = {
 };
 TRANS(FMUL_v, do_fp3_vector, a, f_vector_fmul)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmax[3] = {
+    gen_helper_gvec_fmax_h,
+    gen_helper_gvec_fmax_s,
+    gen_helper_gvec_fmax_d,
+};
+TRANS(FMAX_v, do_fp3_vector, a, f_vector_fmax)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmin[3] = {
+    gen_helper_gvec_fmin_h,
+    gen_helper_gvec_fmin_s,
+    gen_helper_gvec_fmin_d,
+};
+TRANS(FMIN_v, do_fp3_vector, a, f_vector_fmin)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnm[3] = {
+    gen_helper_gvec_fmaxnum_h,
+    gen_helper_gvec_fmaxnum_s,
+    gen_helper_gvec_fmaxnum_d,
+};
+TRANS(FMAXNM_v, do_fp3_vector, a, f_vector_fmaxnm)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnm[3] = {
+    gen_helper_gvec_fminnum_h,
+    gen_helper_gvec_fminnum_s,
+    gen_helper_gvec_fminnum_d,
+};
+TRANS(FMINNM_v, do_fp3_vector, a, f_vector_fminnm)
+
 static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
     gen_helper_gvec_fmulx_h,
     gen_helper_gvec_fmulx_s,
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     tcg_op2 = read_fp_sreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negs(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     tcg_op2 = read_fp_dreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
         gen_helper_vfp_negd(tcg_res, tcg_res);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     tcg_op2 = read_fp_hreg(s, rm);
 
     switch (opcode) {
-    case 0x4: /* FMAX */
-        gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x5: /* FMIN */
-        gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x6: /* FMAXNM */
-        gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x7: /* FMINNM */
-        gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     case 0x1: /* FDIV */
     case 0x2: /* FADD */
     case 0x3: /* FSUB */
+    case 0x4: /* FMAX */
+    case 0x5: /* FMIN */
+    case 0x6: /* FMAXNM */
+    case 0x7: /* FMINNM */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
                                        tcg_res, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x1e: /* FMAX */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x18: /* FMAXNM */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x38: /* FMINNM */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3e: /* FMIN */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x18: /* FMAXNM */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1e: /* FMAX */
+            case 0x38: /* FMINNM */
             case 0x3a: /* FSUB */
+            case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
             case 0x5f: /* FDIV */
                 g_assert_not_reached();
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x7d: /* FACGT */
     case 0x19: /* FMLA */
     case 0x39: /* FMLS */
-    case 0x18: /* FMAXNM */
     case 0x1c: /* FCMEQ */
-    case 0x1e: /* FMAX */
-    case 0x38: /* FMINNM */
-    case 0x3e: /* FMIN */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
     case 0x7c: /* FCMGT */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
 
     default:
+    case 0x18: /* FMAXNM */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1e: /* FMAX */
+    case 0x38: /* FMINNM */
     case 0x3a: /* FSUB */
+    case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
     case 0x5f: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x0: /* FMAXNM */
     case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
     case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
-    case 0xe: /* FMIN */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         pairwise = true;
         break;
     default:
+    case 0x0: /* FMAXNM */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x6: /* FMAX */
+    case 0x8: /* FMINNM */
     case 0xa: /* FSUB */
+    case 0xe: /* FMIN */
     case 0x13: /* FMUL */
     case 0x17: /* FDIV */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x0: /* FMAXNM */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x6: /* FMAX */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x8: /* FMINNM */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x9: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
                 tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
                                            fpst);
                 break;
-            case 0xe: /* FMIN */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             default:
+            case 0x0: /* FMAXNM */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x6: /* FMAX */
+            case 0x8: /* FMINNM */
             case 0xa: /* FSUB */
+            case 0xe: /* FMIN */
             case 0x13: /* FMUL */
             case 0x17: /* FDIV */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_facgt_s, float32_acgt, float32)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
+DO_3OP(gvec_fmax_d, float64_max, float64)
 
 DO_3OP(gvec_fmin_h, float16_min, float16)
 DO_3OP(gvec_fmin_s, float32_min, float32)
+DO_3OP(gvec_fmin_d, float64_min, float64)
 
 DO_3OP(gvec_fmaxnum_h, float16_maxnum, float16)
 DO_3OP(gvec_fmaxnum_s, float32_maxnum, float32)
+DO_3OP(gvec_fmaxnum_d, float64_maxnum, float64)
 
 DO_3OP(gvec_fminnum_h, float16_minnum, float16)
 DO_3OP(gvec_fminnum_s, float32_minnum, float32)
+DO_3OP(gvec_fminnum_d, float64_minnum, float64)
 
 DO_3OP(gvec_recps_nf_h, float16_recps_nf, float16)
 DO_3OP(gvec_recps_nf_s, float32_recps_nf, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Load and zero-extend float16 into a TCGv_i32 before
all scalar operations.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20240524232121.284515-22-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-vfp.c | 39 +++++++++++++++++++---------------
 1 file changed, 22 insertions(+), 17 deletions(-)

diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static inline void vfp_store_reg32(TCGv_i32 var, int reg)
     tcg_gen_st_i32(var, tcg_env, vfp_reg_offset(false, reg));
 }
 
+static inline void vfp_load_reg16(TCGv_i32 var, int reg)
+{
+    tcg_gen_ld16u_i32(var, tcg_env,
+                      vfp_reg_offset(false, reg) + HOST_BIG_ENDIAN * 2);
+}
+
 /*
  * The imm8 encodes the sign bit, enough bits to represent an exponent in
  * the range 01....1xx to 10....0xx, and the most significant 4 bits of
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_half(DisasContext *s, arg_VMOV_single *a)
     if (a->l) {
         /* VFP to general purpose register */
         tmp = tcg_temp_new_i32();
-        vfp_load_reg32(tmp, a->vn);
-        tcg_gen_andi_i32(tmp, tmp, 0xffff);
+        vfp_load_reg16(tmp, a->vn);
         store_reg(s, a->rt, tmp);
     } else {
         /* general purpose register to VFP */
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_3op_hp(DisasContext *s, VFPGen3OpSPFn *fn,
     fd = tcg_temp_new_i32();
     fpst = fpstatus_ptr(FPST_FPCR_F16);
 
-    vfp_load_reg32(f0, vn);
-    vfp_load_reg32(f1, vm);
+    vfp_load_reg16(f0, vn);
+    vfp_load_reg16(f1, vm);
 
     if (reads_vd) {
-        vfp_load_reg32(fd, vd);
+        vfp_load_reg16(fd, vd);
     }
     fn(fd, f0, f1, fpst);
     vfp_store_reg32(fd, vd);
@@ -XXX,XX +XXX,XX @@ static bool do_vfp_2op_hp(DisasContext *s, VFPGen2OpSPFn *fn, int vd, int vm)
     }
 
     f0 = tcg_temp_new_i32();
-    vfp_load_reg32(f0, vm);
+    vfp_load_reg16(f0, vm);
     fn(f0, f0);
     vfp_store_reg32(f0, vd);
 
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vm = tcg_temp_new_i32();
     vd = tcg_temp_new_i32();
 
-    vfp_load_reg32(vn, a->vn);
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vn, a->vn);
+    vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
         gen_helper_vfp_negh(vn, vn);
     }
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
         gen_helper_vfp_negh(vd, vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCMP_hp(DisasContext *s, arg_VCMP_sp *a)
     vd = tcg_temp_new_i32();
     vm = tcg_temp_new_i32();
 
-    vfp_load_reg32(vd, a->vd);
+    vfp_load_reg16(vd, a->vd);
     if (a->z) {
         tcg_gen_movi_i32(vm, 0);
     } else {
-        vfp_load_reg32(vm, a->vm);
+        vfp_load_reg16(vm, a->vm);
     }
 
     if (a->e) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTR_hp(DisasContext *s, arg_VRINTR_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTZ_hp(DisasContext *s, arg_VRINTZ_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     tcg_rmode = gen_set_rmode(FPROUNDING_ZERO, fpst);
     gen_helper_rinth(tmp, tmp, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VRINTX_hp(DisasContext *s, arg_VRINTX_sp *a)
     }
 
     tmp = tcg_temp_new_i32();
-    vfp_load_reg32(tmp, a->vm);
+    vfp_load_reg16(tmp, a->vm);
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_rinth_exact(tmp, tmp, fpst);
     vfp_store_reg32(tmp, a->vd);
@@ -XXX,XX +XXX,XX @@ static bool trans_VCVT_hp_int(DisasContext *s, arg_VCVT_sp_int *a)
 
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     vm = tcg_temp_new_i32();
-    vfp_load_reg32(vm, a->vm);
+    vfp_load_reg16(vm, a->vm);
 
     if (a->s) {
         if (a->rz) {
@@ -XXX,XX +XXX,XX @@ static bool trans_VINS(DisasContext *s, arg_VINS *a)
     /* Insert low half of Vm into high half of Vd */
     rm = tcg_temp_new_i32();
     rd = tcg_temp_new_i32();
-    vfp_load_reg32(rm, a->vm);
-    vfp_load_reg32(rd, a->vd);
+    vfp_load_reg16(rm, a->vm);
+    vfp_load_reg16(rd, a->vd);
     tcg_gen_deposit_i32(rd, rd, rm, 16, 16);
     vfp_store_reg32(rd, a->vd);
     return true;
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-23-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  6 ----
 target/arm/tcg/translate.h     | 30 +++++++++++++++++++
 target/arm/tcg/translate-a64.c | 44 +++++++++++++--------------
 target/arm/tcg/translate-vfp.c | 54 +++++++++++++++++-----------------
 target/arm/vfp_helper.c        | 30 -------------------
 5 files changed, 79 insertions(+), 85 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(vfp_maxnumd, f64, f64, f64, ptr)
 DEF_HELPER_3(vfp_minnumh, f16, f16, f16, ptr)
 DEF_HELPER_3(vfp_minnums, f32, f32, f32, ptr)
 DEF_HELPER_3(vfp_minnumd, f64, f64, f64, ptr)
-DEF_HELPER_1(vfp_negh, f16, f16)
-DEF_HELPER_1(vfp_negs, f32, f32)
-DEF_HELPER_1(vfp_negd, f64, f64)
-DEF_HELPER_1(vfp_absh, f16, f16)
-DEF_HELPER_1(vfp_abss, f32, f32)
-DEF_HELPER_1(vfp_absd, f64, f64)
 DEF_HELPER_2(vfp_sqrth, f16, f16, env)
 DEF_HELPER_2(vfp_sqrts, f32, f32, env)
 DEF_HELPER_2(vfp_sqrtd, f64, f64, env)
diff --git a/target/arm/tcg/translate.h b/target/arm/tcg/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate.h
+++ b/target/arm/tcg/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
  */
 uint64_t vfp_expand_imm(int size, uint8_t imm8);
 
+static inline void gen_vfp_absh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT16_MAX);
+}
+
+static inline void gen_vfp_abss(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_andi_i32(d, s, INT32_MAX);
+}
+
+static inline void gen_vfp_absd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_andi_i64(d, s, INT64_MAX);
+}
+
+static inline void gen_vfp_negh(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 15);
+}
+
+static inline void gen_vfp_negs(TCGv_i32 d, TCGv_i32 s)
+{
+    tcg_gen_xori_i32(d, s, 1u << 31);
+}
+
+static inline void gen_vfp_negd(TCGv_i64 d, TCGv_i64 s)
+{
+    tcg_gen_xori_i64(d, s, 1ull << 63);
+}
+
 /* Vector operations shared between ARM and AArch64.  */
 void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    uint32_t opr_sz, uint32_t max_sz);
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_half(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         break;
     case 0x1: /* FABS */
-        tcg_gen_andi_i32(tcg_res, tcg_op, 0x7fff);
+        gen_vfp_absh(tcg_res, tcg_op);
         break;
     case 0x2: /* FNEG */
-        tcg_gen_xori_i32(tcg_res, tcg_op, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_op);
         break;
     case 0x3: /* FSQRT */
         fpst = fpstatus_ptr(FPST_FPCR_F16);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_single(DisasContext *s, int opcode, int rd, int rn)
         tcg_gen_mov_i32(tcg_res, tcg_op);
         goto done;
     case 0x1: /* FABS */
-        gen_helper_vfp_abss(tcg_res, tcg_op);
+        gen_vfp_abss(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negs(tcg_res, tcg_op);
+        gen_vfp_negs(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_1src_double(DisasContext *s, int opcode, int rd, int rn)
 
     switch (opcode) {
     case 0x1: /* FABS */
-        gen_helper_vfp_absd(tcg_res, tcg_op);
+        gen_vfp_absd(tcg_res, tcg_op);
         goto done;
     case 0x2: /* FNEG */
-        gen_helper_vfp_negd(tcg_res, tcg_op);
+        gen_vfp_negd(tcg_res, tcg_op);
         goto done;
     case 0x3: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_single(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muls(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negs(tcg_res, tcg_res);
+        gen_vfp_negs(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_double(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_vfp_muld(tcg_res, tcg_op1, tcg_op2, fpst);
-        gen_helper_vfp_negd(tcg_res, tcg_res);
+        gen_vfp_negd(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_2src_half(DisasContext *s, int opcode,
     switch (opcode) {
     case 0x8: /* FNMUL */
         gen_helper_advsimd_mulh(tcg_res, tcg_op1, tcg_op2, fpst);
-        tcg_gen_xori_i32(tcg_res, tcg_res, 0x8000);
+        gen_vfp_negh(tcg_res, tcg_res);
         break;
     default:
     case 0x0: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_single(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negs(tcg_op3, tcg_op3);
+        gen_vfp_negs(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negs(tcg_op1, tcg_op1);
+        gen_vfp_negs(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_fp_3src_double(DisasContext *s, bool o0, bool o1,
      * flipped if it is a negated-input.
      */
     if (o1 == true) {
-        gen_helper_vfp_negd(tcg_op3, tcg_op3);
+        gen_vfp_negd(tcg_op3, tcg_op3);
     }
 
     if (o0 != o1) {
-        gen_helper_vfp_negd(tcg_op1, tcg_op1);
+        gen_vfp_negd(tcg_op1, tcg_op1);
     }
 
     gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2, tcg_op3, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op1, tcg_op1);
+                gen_vfp_negd(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_absd(tcg_res, tcg_res);
+                gen_vfp_absd(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             switch (fpopcode) {
             case 0x39: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negs(tcg_op1, tcg_op1);
+                gen_vfp_negs(tcg_op1, tcg_op1);
                 /* fall through */
             case 0x19: /* FMLA */
                 read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
-                gen_helper_vfp_abss(tcg_res, tcg_res);
+                gen_vfp_abss(tcg_res, tcg_res);
                 break;
             case 0x7c: /* FCMGT */
                 gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_64(DisasContext *s, int opcode, bool u,
         }
         break;
     case 0x2f: /* FABS */
-        gen_helper_vfp_absd(tcg_rd, tcg_rn);
+        gen_vfp_absd(tcg_rd, tcg_rn);
         break;
     case 0x6f: /* FNEG */
-        gen_helper_vfp_negd(tcg_rd, tcg_rn);
+        gen_vfp_negd(tcg_rd, tcg_rn);
         break;
     case 0x7f: /* FSQRT */
         gen_helper_vfp_sqrtd(tcg_rd, tcg_rn, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                     }
                     break;
                 case 0x2f: /* FABS */
-                    gen_helper_vfp_abss(tcg_res, tcg_op);
+                    gen_vfp_abss(tcg_res, tcg_op);
                     break;
                 case 0x6f: /* FNEG */
-                    gen_helper_vfp_negs(tcg_res, tcg_op);
+                    gen_vfp_negs(tcg_res, tcg_op);
                     break;
                 case 0x7f: /* FSQRT */
                     gen_helper_vfp_sqrts(tcg_res, tcg_op, tcg_env);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
             switch (16 * u + opcode) {
             case 0x05: /* FMLS */
                 /* As usual for ARM, separate negation for fused multiply-add */
-                gen_helper_vfp_negd(tcg_op, tcg_op);
+                gen_vfp_negd(tcg_op, tcg_op);
                 /* fall through */
             case 0x01: /* FMLA */
                 read_vec_element(s, tcg_res, rd, pass, MO_64);
diff --git a/target/arm/tcg/translate-vfp.c b/target/arm/tcg/translate-vfp.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-vfp.c
+++ b/target/arm/tcg/translate-vfp.c
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
+    gen_vfp_negh(tmp, tmp);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
+    gen_vfp_negs(tmp, tmp);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
+    gen_vfp_negd(tmp, tmp);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLS_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_mulh(tmp, vn, vm, fpst);
-    gen_helper_vfp_negh(tmp, tmp);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(tmp, tmp);
+    gen_vfp_negh(vd, vd);
     gen_helper_vfp_addh(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
     TCGv_i32 tmp = tcg_temp_new_i32();
 
     gen_helper_vfp_muls(tmp, vn, vm, fpst);
-    gen_helper_vfp_negs(tmp, tmp);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(tmp, tmp);
+    gen_vfp_negs(vd, vd);
     gen_helper_vfp_adds(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMLA_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
     TCGv_i64 tmp = tcg_temp_new_i64();
 
     gen_helper_vfp_muld(tmp, vn, vm, fpst);
-    gen_helper_vfp_negd(tmp, tmp);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(tmp, tmp);
+    gen_vfp_negd(vd, vd);
     gen_helper_vfp_addd(vd, vd, tmp, fpst);
 }
 
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_hp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_mulh(vd, vn, vm, fpst);
-    gen_helper_vfp_negh(vd, vd);
+    gen_vfp_negh(vd, vd);
 }
 
 static bool trans_VNMUL_hp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_sp(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muls(vd, vn, vm, fpst);
-    gen_helper_vfp_negs(vd, vd);
+    gen_vfp_negs(vd, vd);
 }
 
 static bool trans_VNMUL_sp(DisasContext *s, arg_VNMUL_sp *a)
@@ -XXX,XX +XXX,XX @@ static void gen_VNMUL_dp(TCGv_i64 vd, TCGv_i64 vn, TCGv_i64 vm, TCGv_ptr fpst)
 {
     /* VNMUL: -(fn * fm) */
     gen_helper_vfp_muld(vd, vn, vm, fpst);
-    gen_helper_vfp_negd(vd, vd);
+    gen_vfp_negd(vd, vd);
 }
 
 static bool trans_VNMUL_dp(DisasContext *s, arg_VNMUL_dp *a)
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_hp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg16(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negh(vn, vn);
+        gen_vfp_negh(vn, vn);
     }
     vfp_load_reg16(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negh(vd, vd);
+        gen_vfp_negh(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR_F16);
     gen_helper_vfp_muladdh(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_sp(DisasContext *s, arg_VFMA_sp *a, bool neg_n, bool neg_d)
     vfp_load_reg32(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negs(vn, vn);
+        gen_vfp_negs(vn, vn);
     }
     vfp_load_reg32(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negs(vd, vd);
+        gen_vfp_negs(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladds(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool do_vfm_dp(DisasContext *s, arg_VFMA_dp *a, bool neg_n, bool neg_d)
     vfp_load_reg64(vm, a->vm);
     if (neg_n) {
         /* VFNMS, VFMS */
-        gen_helper_vfp_negd(vn, vn);
+        gen_vfp_negd(vn, vn);
     }
     vfp_load_reg64(vd, a->vd);
     if (neg_d) {
         /* VFNMA, VFNMS */
-        gen_helper_vfp_negd(vd, vd);
+        gen_vfp_negd(vd, vd);
     }
     fpst = fpstatus_ptr(FPST_FPCR);
     gen_helper_vfp_muladdd(vd, vn, vm, vd, fpst);
@@ -XXX,XX +XXX,XX @@ static bool trans_VMOV_imm_dp(DisasContext *s, arg_VMOV_imm_dp *a)
 DO_VFP_VMOV(VMOV_reg, sp, tcg_gen_mov_i32)
 DO_VFP_VMOV(VMOV_reg, dp, tcg_gen_mov_i64)
 
-DO_VFP_2OP(VABS, hp, gen_helper_vfp_absh, aa32_fp16_arith)
-DO_VFP_2OP(VABS, sp, gen_helper_vfp_abss, aa32_fpsp_v2)
-DO_VFP_2OP(VABS, dp, gen_helper_vfp_absd, aa32_fpdp_v2)
+DO_VFP_2OP(VABS, hp, gen_vfp_absh, aa32_fp16_arith)
+DO_VFP_2OP(VABS, sp, gen_vfp_abss, aa32_fpsp_v2)
+DO_VFP_2OP(VABS, dp, gen_vfp_absd, aa32_fpdp_v2)
 
-DO_VFP_2OP(VNEG, hp, gen_helper_vfp_negh, aa32_fp16_arith)
-DO_VFP_2OP(VNEG, sp, gen_helper_vfp_negs, aa32_fpsp_v2)
-DO_VFP_2OP(VNEG, dp, gen_helper_vfp_negd, aa32_fpdp_v2)
+DO_VFP_2OP(VNEG, hp, gen_vfp_negh, aa32_fp16_arith)
+DO_VFP_2OP(VNEG, sp, gen_vfp_negs, aa32_fpsp_v2)
+DO_VFP_2OP(VNEG, dp, gen_vfp_negd, aa32_fpdp_v2)
 
 static void gen_VSQRT_hp(TCGv_i32 vd, TCGv_i32 vm)
 {
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ VFP_BINOP(minnum)
 VFP_BINOP(maxnum)
 #undef VFP_BINOP
 
-dh_ctype_f16 VFP_HELPER(neg, h)(dh_ctype_f16 a)
-{
-    return float16_chs(a);
-}
-
-float32 VFP_HELPER(neg, s)(float32 a)
-{
-    return float32_chs(a);
-}
-
-float64 VFP_HELPER(neg, d)(float64 a)
-{
-    return float64_chs(a);
-}
-
-dh_ctype_f16 VFP_HELPER(abs, h)(dh_ctype_f16 a)
-{
-    return float16_abs(a);
-}
-
-float32 VFP_HELPER(abs, s)(float32 a)
-{
-    return float32_abs(a);
-}
-
-float64 VFP_HELPER(abs, d)(float64 a)
-{
-    return float64_abs(a);
-}
-
 dh_ctype_f16 VFP_HELPER(sqrt, h)(dh_ctype_f16 a, CPUARMState *env)
 {
     return float16_sqrt(a, &env->vfp.fp_status_f16);
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

This is the last instruction within disas_fp_2src,
so remove that and its subroutines.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-24-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |   1 +
 target/arm/tcg/translate-a64.c | 177 +++++----------------------------
 2 files changed, 27 insertions(+), 151 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-25-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   2 +
 target/arm/tcg/a64.decode      |  22 +++
 target/arm/tcg/translate-a64.c | 241 +++++++++++++++++----------------
 target/arm/tcg/vec_helper.c    |  14 ++
 4 files changed, 163 insertions(+), 116 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmls_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfma_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfma_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfma_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_vfms_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_vfms_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_vfms_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                    void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_v        0.00 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
 FMULX_v         0.00 1110 010 ..... 00011 1 ..... ..... @qrrr_h
 FMULX_v         0.00 1110 0.1 ..... 11011 1 ..... ..... @qrrr_sd
 
+FMLA_v          0.00 1110 010 ..... 00001 1 ..... ..... @qrrr_h
+FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
+
+FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
+FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMUL_si         0101 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMUL_si         0101 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
 
+FMLA_si         0101 1111 00 .. .... 0001 . 0 ..... .....   @rrx_h
+FMLA_si         0101 1111 10 .. .... 0001 . 0 ..... .....   @rrx_s
+FMLA_si         0101 1111 11 0. .... 0001 . 0 ..... .....   @rrx_d
+
+FMLS_si         0101 1111 00 .. .... 0101 . 0 ..... .....   @rrx_h
+FMLS_si         0101 1111 10 .. .... 0101 . 0 ..... .....   @rrx_s
+FMLS_si         0101 1111 11 0. .... 0101 . 0 ..... .....   @rrx_d
+
 FMULX_si        0111 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
 FMULX_si        0111 1111 10 . ..... 1001 . 0 ..... .....   @rrx_s
 FMULX_si        0111 1111 11 0 ..... 1001 . 0 ..... .....   @rrx_d
@@ -XXX,XX +XXX,XX @@ FMUL_vi         0.00 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMUL_vi         0.00 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMUL_vi         0.00 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
 
+FMLA_vi         0.00 1111 00 .. .... 0001 . 0 ..... .....   @qrrx_h
+FMLA_vi         0.00 1111 10 . ..... 0001 . 0 ..... .....   @qrrx_s
+FMLA_vi         0.00 1111 11 0 ..... 0001 . 0 ..... .....   @qrrx_d
+
+FMLS_vi         0.00 1111 00 .. .... 0101 . 0 ..... .....   @qrrx_h
+FMLS_vi         0.00 1111 10 . ..... 0101 . 0 ..... .....   @qrrx_s
+FMLS_vi         0.00 1111 11 0 ..... 0101 . 0 ..... .....   @qrrx_d
+
 FMULX_vi        0.10 1111 00 .. .... 1001 . 0 ..... .....   @qrrx_h
 FMULX_vi        0.10 1111 10 . ..... 1001 . 0 ..... .....   @qrrx_s
 FMULX_vi        0.10 1111 11 0 ..... 1001 . 0 ..... .....   @qrrx_d
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmulx[3] = {
 };
 TRANS(FMULX_v, do_fp3_vector, a, f_vector_fmulx)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmla[3] = {
+    gen_helper_gvec_vfma_h,
+    gen_helper_gvec_vfma_s,
+    gen_helper_gvec_vfma_d,
+};
+TRANS(FMLA_v, do_fp3_vector, a, f_vector_fmla)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
+    gen_helper_gvec_vfms_h,
+    gen_helper_gvec_vfms_s,
+    gen_helper_gvec_vfms_d,
+};
+TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_idx(DisasContext *s, arg_rrx_e *a, const FPScalar *f)
 TRANS(FMUL_si, do_fp3_scalar_idx, a, &f_scalar_fmul)
 TRANS(FMULX_si, do_fp3_scalar_idx, a, &f_scalar_fmulx)
 
+static bool do_fmla_scalar_idx(DisasContext *s, arg_rrx_e *a, bool neg)
+{
+    switch (a->esz) {
+    case MO_64:
+        if (fp_access_check(s)) {
+            TCGv_i64 t0 = read_fp_dreg(s, a->rd);
+            TCGv_i64 t1 = read_fp_dreg(s, a->rn);
+            TCGv_i64 t2 = tcg_temp_new_i64();
+
+            read_vec_element(s, t2, a->rm, a->idx, MO_64);
+            if (neg) {
+                gen_vfp_negd(t1, t1);
+            }
+            gen_helper_vfp_muladdd(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_dreg(s, a->rd, t0);
+        }
+        break;
+    case MO_32:
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_sreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_sreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_32);
+            if (neg) {
+                gen_vfp_negs(t1, t1);
+            }
+            gen_helper_vfp_muladds(t0, t1, t2, t0, fpstatus_ptr(FPST_FPCR));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        if (fp_access_check(s)) {
+            TCGv_i32 t0 = read_fp_hreg(s, a->rd);
+            TCGv_i32 t1 = read_fp_hreg(s, a->rn);
+            TCGv_i32 t2 = tcg_temp_new_i32();
+
+            read_vec_element_i32(s, t2, a->rm, a->idx, MO_16);
+            if (neg) {
+                gen_vfp_negh(t1, t1);
+            }
+            gen_helper_advsimd_muladdh(t0, t1, t2, t0,
+                                       fpstatus_ptr(FPST_FPCR_F16));
+            write_fp_sreg(s, a->rd, t0);
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    return true;
+}
+
+TRANS(FMLA_si, do_fmla_scalar_idx, a, false)
+TRANS(FMLS_si, do_fmla_scalar_idx, a, true)
+
 static bool do_fp3_vector_idx(DisasContext *s, arg_qrrx_e *a,
                               gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_idx_fmulx[3] = {
 };
 TRANS(FMULX_vi, do_fp3_vector_idx, a, f_vector_idx_fmulx)
 
+static bool do_fmla_vector_idx(DisasContext *s, arg_qrrx_e *a, bool neg)
+{
+    static gen_helper_gvec_4_ptr * const fns[3] = {
+        gen_helper_gvec_fmla_idx_h,
+        gen_helper_gvec_fmla_idx_s,
+        gen_helper_gvec_fmla_idx_d,
+    };
+    MemOp esz = a->esz;
+
+    switch (esz) {
+    case MO_64:
+        if (!a->q) {
+            return false;
+        }
+        break;
+    case MO_32:
+        break;
+    case MO_16:
+        if (!dc_isar_feature(aa64_fp16, s)) {
+            return false;
+        }
+        break;
+    default:
+        g_assert_not_reached();
+    }
+    if (fp_access_check(s)) {
+        gen_gvec_op4_fpst(s, a->q, a->rd, a->rn, a->rm, a->rd,
+                          esz == MO_16, (a->idx << 1) | neg,
+                          fns[esz - 1]);
+    }
+    return true;
+}
+
+TRANS(FMLA_vi, do_fmla_vector_idx, a, false)
+TRANS(FMLS_vi, do_fmla_vector_idx, a, true)
+
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x39: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negs(tcg_op1, tcg_op1);
-                /* fall through */
-            case 0x19: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-                gen_helper_vfp_muladds(tcg_res, tcg_op1, tcg_op2,
-                                       tcg_res, fpst);
-                break;
             case 0x1c: /* FCMEQ */
                 gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
                 break;
             default:
             case 0x18: /* FMAXNM */
+            case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
+            case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3f: /* FRSQRTS */
     case 0x5d: /* FACGE */
     case 0x7d: /* FACGT */
-    case 0x19: /* FMLA */
-    case 0x39: /* FMLS */
     case 0x1c: /* FCMEQ */
     case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
 
     default:
     case 0x18: /* FMAXNM */
+    case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
+    case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x1: /* FMLA */
     case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
-    case 0x9: /* FMLS */
     case 0xf: /* FRSQRTS */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
         break;
     default:
     case 0x0: /* FMAXNM */
+    case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
+    case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x1: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0x4: /* FCMEQ */
                 gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x9: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                tcg_gen_xori_i32(tcg_op1, tcg_op1, 0x8000);
-                read_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-                gen_helper_advsimd_muladdh(tcg_res, tcg_op1, tcg_op2, tcg_res,
-                                           fpst);
-                break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
                 break;
             default:
             case 0x0: /* FMAXNM */
+            case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
+            case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     case 0x0c: /* SQDMULH */
     case 0x0d: /* SQRDMULH */
         break;
-    case 0x01: /* FMLA */
-    case 0x05: /* FMLS */
-        is_fp = 1;
-        break;
     case 0x1d: /* SQRDMLAH */
     case 0x1f: /* SQRDMLSH */
         if (!dc_isar_feature(aa64_rdm, s)) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
         /* is_fp, but we pass tcg_env not fp_status.  */
         break;
     default:
+    case 0x01: /* FMLA */
+    case 0x05: /* FMLS */
     case 0x09: /* FMUL */
     case 0x19: /* FMULX */
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
 
     switch (is_fp) {
     case 1: /* normal fp */
-        /* convert insn encoded size to MemOp size */
-        switch (size) {
-        case 0: /* half-precision */
-            size = MO_16;
-            is_fp16 = true;
-            break;
-        case MO_32: /* single precision */
-        case MO_64: /* double precision */
-            break;
-        default:
-            unallocated_encoding(s);
-            return;
-        }
-        break;
+        unallocated_encoding(s); /* in decodetree */
+        return;
 
     case 2: /* complex fp */
         /* Each indexable element is a complex pair.  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
     }
 
     if (size == 3) {
-        TCGv_i64 tcg_idx = tcg_temp_new_i64();
-        int pass;
-
-        assert(is_fp && is_q && !is_long);
-
-        read_vec_element(s, tcg_idx, rm, index, MO_64);
-
-        for (pass = 0; pass < (is_scalar ? 1 : 2); pass++) {
-            TCGv_i64 tcg_op = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op, rn, pass, MO_64);
-
-            switch (16 * u + opcode) {
-            case 0x05: /* FMLS */
-                /* As usual for ARM, separate negation for fused multiply-add */
-                gen_vfp_negd(tcg_op, tcg_op);
-                /* fall through */
-            case 0x01: /* FMLA */
-                read_vec_element(s, tcg_res, rd, pass, MO_64);
-                gen_helper_vfp_muladdd(tcg_res, tcg_op, tcg_idx, tcg_res, fpst);
-                break;
-            default:
-            case 0x09: /* FMUL */
-            case 0x19: /* FMULX */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        }
-
-        clear_vec_high(s, !is_scalar, rd);
+        g_assert_not_reached();
     } else if (!is_long) {
         /* 32 bit floating point, or 16 or 32 bit integer.
          * For the 16 bit scalar case we use the usual Neon helpers and
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 genfn(tcg_res, tcg_op, tcg_res);
                 break;
             }
-            case 0x05: /* FMLS */
-            case 0x01: /* FMLA */
-                read_vec_element_i32(s, tcg_res, rd, pass,
-                                     is_scalar ? size : MO_32);
-                switch (size) {
-                case 1:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for fused
-                         * multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80008000);
-                    }
-                    if (is_scalar) {
-                        gen_helper_advsimd_muladdh(tcg_res, tcg_op, tcg_idx,
-                                                   tcg_res, fpst);
-                    } else {
-                        gen_helper_advsimd_muladd2h(tcg_res, tcg_op, tcg_idx,
-                                                    tcg_res, fpst);
-                    }
-                    break;
-                case 2:
-                    if (opcode == 0x5) {
-                        /* As usual for ARM, separate negation for
-                         * fused multiply-add */
-                        tcg_gen_xori_i32(tcg_op, tcg_op, 0x80000000);
-                    }
-                    gen_helper_vfp_muladds(tcg_res, tcg_op, tcg_idx,
-                                           tcg_res, fpst);
-                    break;
-                default:
-                    g_assert_not_reached();
-                }
-                break;
             case 0x0c: /* SQDMULH */
                 if (size == 1) {
                     gen_helper_neon_qdmulh_s16(tcg_res, tcg_env,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_indexed(DisasContext *s, uint32_t insn)
                 }
                 break;
             default:
+            case 0x01: /* FMLA */
+            case 0x05: /* FMLS */
             case 0x09: /* FMUL */
             case 0x19: /* FMULX */
                 g_assert_not_reached();
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float32 float32_muladd_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(op1, op2, dest, 0, stat);
 }
 
+static float64 float64_muladd_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(op1, op2, dest, 0, stat);
+}
+
 static float16 float16_mulsub_f(float16 dest, float16 op1, float16 op2,
                                  float_status *stat)
 {
@@ -XXX,XX +XXX,XX @@ static float32 float32_mulsub_f(float32 dest, float32 op1, float32 op2,
     return float32_muladd(float32_chs(op1), op2, dest, 0, stat);
 }
 
+static float64 float64_mulsub_f(float64 dest, float64 op1, float64 op2,
+                                 float_status *stat)
+{
+    return float64_muladd(float64_chs(op1), op2, dest, 0, stat);
+}
+
 #define DO_MULADD(NAME, FUNC, TYPE)                                     \
 void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
 {                                                                          \
@@ -XXX,XX +XXX,XX @@ DO_MULADD(gvec_fmls_s, float32_mulsub_nf, float32)
 
 DO_MULADD(gvec_vfma_h, float16_muladd_f, float16)
 DO_MULADD(gvec_vfma_s, float32_muladd_f, float32)
+DO_MULADD(gvec_vfma_d, float64_muladd_f, float64)
 
 DO_MULADD(gvec_vfms_h, float16_mulsub_f, float16)
 DO_MULADD(gvec_vfms_s, float32_mulsub_f, float32)
+DO_MULADD(gvec_vfms_d, float64_mulsub_f, float64)
 
 /* For the indexed ops, SVE applies the index per 128-bit vector segment.
  * For AdvSIMD, there is of course only one such vector segment.
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-26-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 +
 target/arm/tcg/a64.decode      |  30 ++++++
 target/arm/tcg/translate-a64.c | 188 +++++++++++++++++++--------------
 target/arm/tcg/vec_helper.c    |  30 ++++++
 4 files changed, 174 insertions(+), 79 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fceq_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fceq_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fceq_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fcgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fcgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fcgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facge_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facge_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facge_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_facgt_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_facgt_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_facgt_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
 DEF_HELPER_FLAGS_5(gvec_fmax_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_fmax_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FMINNM_s        0001 1110 ..1 ..... 0111 10 ..... ..... @rrr_hsd
 FMULX_s         0101 1110 010 ..... 00011 1 ..... ..... @rrr_h
 FMULX_s         0101 1110 0.1 ..... 11011 1 ..... ..... @rrr_sd
 
+FCMEQ_s         0101 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMEQ_s         0101 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGE_s         0111 1110 010 ..... 00100 1 ..... ..... @rrr_h
+FCMGE_s         0111 1110 0.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FCMGT_s         0111 1110 110 ..... 00100 1 ..... ..... @rrr_h
+FCMGT_s         0111 1110 1.1 ..... 11100 1 ..... ..... @rrr_sd
+
+FACGE_s         0111 1110 010 ..... 00101 1 ..... ..... @rrr_h
+FACGE_s         0111 1110 0.1 ..... 11101 1 ..... ..... @rrr_sd
+
+FACGT_s         0111 1110 110 ..... 00101 1 ..... ..... @rrr_h
+FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FMLA_v          0.00 1110 0.1 ..... 11001 1 ..... ..... @qrrr_sd
 FMLS_v          0.00 1110 110 ..... 00001 1 ..... ..... @qrrr_h
 FMLS_v          0.00 1110 1.1 ..... 11001 1 ..... ..... @qrrr_sd
 
+FCMEQ_v         0.00 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMEQ_v         0.00 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGE_v         0.10 1110 010 ..... 00100 1 ..... ..... @qrrr_h
+FCMGE_v         0.10 1110 0.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FCMGT_v         0.10 1110 110 ..... 00100 1 ..... ..... @qrrr_h
+FCMGT_v         0.10 1110 1.1 ..... 11100 1 ..... ..... @qrrr_sd
+
+FACGE_v         0.10 1110 010 ..... 00101 1 ..... ..... @qrrr_h
+FACGE_v         0.10 1110 0.1 ..... 11101 1 ..... ..... @qrrr_sd
+
+FACGT_v         0.10 1110 110 ..... 00101 1 ..... ..... @qrrr_h
+FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fnmul = {
 };
 TRANS(FNMUL_s, do_fp3_scalar, a, &f_scalar_fnmul)
 
+static const FPScalar f_scalar_fcmeq = {
+    gen_helper_advsimd_ceq_f16,
+    gen_helper_neon_ceq_f32,
+    gen_helper_neon_ceq_f64,
+};
+TRANS(FCMEQ_s, do_fp3_scalar, a, &f_scalar_fcmeq)
+
+static const FPScalar f_scalar_fcmge = {
+    gen_helper_advsimd_cge_f16,
+    gen_helper_neon_cge_f32,
+    gen_helper_neon_cge_f64,
+};
+TRANS(FCMGE_s, do_fp3_scalar, a, &f_scalar_fcmge)
+
+static const FPScalar f_scalar_fcmgt = {
+    gen_helper_advsimd_cgt_f16,
+    gen_helper_neon_cgt_f32,
+    gen_helper_neon_cgt_f64,
+};
+TRANS(FCMGT_s, do_fp3_scalar, a, &f_scalar_fcmgt)
+
+static const FPScalar f_scalar_facge = {
+    gen_helper_advsimd_acge_f16,
+    gen_helper_neon_acge_f32,
+    gen_helper_neon_acge_f64,
+};
+TRANS(FACGE_s, do_fp3_scalar, a, &f_scalar_facge)
+
+static const FPScalar f_scalar_facgt = {
+    gen_helper_advsimd_acgt_f16,
+    gen_helper_neon_acgt_f32,
+    gen_helper_neon_acgt_f64,
+};
+TRANS(FACGT_s, do_fp3_scalar, a, &f_scalar_facgt)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fmls[3] = {
 };
 TRANS(FMLS_v, do_fp3_vector, a, f_vector_fmls)
 
+static gen_helper_gvec_3_ptr * const f_vector_fcmeq[3] = {
+    gen_helper_gvec_fceq_h,
+    gen_helper_gvec_fceq_s,
+    gen_helper_gvec_fceq_d,
+};
+TRANS(FCMEQ_v, do_fp3_vector, a, f_vector_fcmeq)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmge[3] = {
+    gen_helper_gvec_fcge_h,
+    gen_helper_gvec_fcge_s,
+    gen_helper_gvec_fcge_d,
+};
+TRANS(FCMGE_v, do_fp3_vector, a, f_vector_fcmge)
+
+static gen_helper_gvec_3_ptr * const f_vector_fcmgt[3] = {
+    gen_helper_gvec_fcgt_h,
+    gen_helper_gvec_fcgt_s,
+    gen_helper_gvec_fcgt_d,
+};
+TRANS(FCMGT_v, do_fp3_vector, a, f_vector_fcmgt)
+
+static gen_helper_gvec_3_ptr * const f_vector_facge[3] = {
+    gen_helper_gvec_facge_h,
+    gen_helper_gvec_facge_s,
+    gen_helper_gvec_facge_d,
+};
+TRANS(FACGE_v, do_fp3_vector, a, f_vector_facge)
+
+static gen_helper_gvec_3_ptr * const f_vector_facgt[3] = {
+    gen_helper_gvec_facgt_h,
+    gen_helper_gvec_facgt_s,
+    gen_helper_gvec_facgt_d,
+};
+TRANS(FACGT_v, do_fp3_vector, a, f_vector_facgt)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element(s, tcg_op2, rm, pass, MO_64);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subd(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_absd(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void handle_3same_float(DisasContext *s, int size, int elements,
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
 
             switch (fpopcode) {
-            case 0x1c: /* FCMEQ */
-                gen_helper_neon_ceq_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1f: /* FRECPS */
                 gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0x3f: /* FRSQRTS */
                 gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x5c: /* FCMGE */
-                gen_helper_neon_cge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5d: /* FACGE */
-                gen_helper_neon_acge_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7a: /* FABD */
                 gen_helper_vfp_subs(tcg_res, tcg_op1, tcg_op2, fpst);
                 gen_vfp_abss(tcg_res, tcg_res);
                 break;
-            case 0x7c: /* FCMGT */
-                gen_helper_neon_cgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7d: /* FACGT */
-                gen_helper_neon_acgt_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x18: /* FMAXNM */
             case 0x19: /* FMLA */
             case 0x1a: /* FADD */
             case 0x1b: /* FMULX */
+            case 0x1c: /* FCMEQ */
             case 0x1e: /* FMAX */
             case 0x38: /* FMINNM */
             case 0x39: /* FMLS */
             case 0x3a: /* FSUB */
             case 0x3e: /* FMIN */
             case 0x5b: /* FMUL */
+            case 0x5c: /* FCMGE */
+            case 0x5d: /* FACGE */
             case 0x5f: /* FDIV */
+            case 0x7c: /* FCMGT */
+            case 0x7d: /* FACGT */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
         switch (fpopcode) {
         case 0x1f: /* FRECPS */
         case 0x3f: /* FRSQRTS */
+        case 0x7a: /* FABD */
+            break;
+        default:
+        case 0x1b: /* FMULX */
         case 0x5d: /* FACGE */
         case 0x7d: /* FACGT */
         case 0x1c: /* FCMEQ */
         case 0x5c: /* FCMGE */
         case 0x7c: /* FCMGT */
-        case 0x7a: /* FABD */
-            break;
-        default:
-        case 0x1b: /* FMULX */
             unallocated_encoding(s);
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     TCGv_i32 tcg_res;
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
     case 0x07: /* FRECPS */
     case 0x0f: /* FRSQRTS */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
         break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
     tcg_res = tcg_temp_new_i32();
 
     switch (fpopcode) {
-    case 0x04: /* FCMEQ (reg) */
-        gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x07: /* FRECPS */
         gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
     case 0x0f: /* FRSQRTS */
         gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
         break;
-    case 0x14: /* FCMGE (reg) */
-        gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x15: /* FACGE */
-        gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     case 0x1a: /* FABD */
         gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
         tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
         break;
-    case 0x1c: /* FCMGT (reg) */
-        gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x1d: /* FACGT */
-        gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
     default:
     case 0x03: /* FMULX */
+    case 0x04: /* FCMEQ (reg) */
+    case 0x14: /* FCMGE (reg) */
+    case 0x15: /* FACGE */
+    case 0x1c: /* FCMGT (reg) */
+    case 0x1d: /* FACGT */
         g_assert_not_reached();
     }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         return;
     case 0x1f: /* FRECPS */
     case 0x3f: /* FRSQRTS */
-    case 0x5d: /* FACGE */
-    case 0x7d: /* FACGT */
-    case 0x1c: /* FCMEQ */
-    case 0x5c: /* FCMGE */
     case 0x7a: /* FABD */
-    case 0x7c: /* FCMGT */
         if (!fp_access_check(s)) {
             return;
         }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x19: /* FMLA */
     case 0x1a: /* FADD */
     case 0x1b: /* FMULX */
+    case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x5b: /* FMUL */
+    case 0x5c: /* FCMGE */
+    case 0x5d: /* FACGE */
     case 0x5f: /* FDIV */
+    case 0x7d: /* FACGT */
+    case 0x7c: /* FCMGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     int pass;
 
     switch (fpopcode) {
-    case 0x4: /* FCMEQ */
     case 0x7: /* FRECPS */
     case 0xf: /* FRSQRTS */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
     case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
         pairwise = false;
         break;
     case 0x10: /* FMAXNMP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x1: /* FMLA */
     case 0x2: /* FADD */
     case 0x3: /* FMULX */
+    case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
     case 0x13: /* FMUL */
+    case 0x14: /* FCMGE */
+    case 0x15: /* FACGE */
     case 0x17: /* FDIV */
+    case 0x1c: /* FCMGT */
+    case 0x1d: /* FACGT */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
 
             switch (fpopcode) {
-            case 0x4: /* FCMEQ */
-                gen_helper_advsimd_ceq_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x7: /* FRECPS */
                 gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
             case 0xf: /* FRSQRTS */
                 gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
                 break;
-            case 0x14: /* FCMGE */
-                gen_helper_advsimd_cge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x15: /* FACGE */
-                gen_helper_advsimd_acge_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             case 0x1a: /* FABD */
                 gen_helper_advsimd_subh(tcg_res, tcg_op1, tcg_op2, fpst);
                 tcg_gen_andi_i32(tcg_res, tcg_res, 0x7fff);
                 break;
-            case 0x1c: /* FCMGT */
-                gen_helper_advsimd_cgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x1d: /* FACGT */
-                gen_helper_advsimd_acgt_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
             default:
             case 0x0: /* FMAXNM */
             case 0x1: /* FMLA */
             case 0x2: /* FADD */
             case 0x3: /* FMULX */
+            case 0x4: /* FCMEQ */
             case 0x6: /* FMAX */
             case 0x8: /* FMINNM */
             case 0x9: /* FMLS */
             case 0xa: /* FSUB */
             case 0xe: /* FMIN */
             case 0x13: /* FMUL */
+            case 0x14: /* FCMGE */
+            case 0x15: /* FACGE */
             case 0x17: /* FDIV */
+            case 0x1c: /* FCMGT */
+            case 0x1d: /* FACGT */
                 g_assert_not_reached();
             }
 
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_ceq(float32 op1, float32 op2, float_status *stat)
     return -float32_eq_quiet(op1, op2, stat);
 }
 
+static uint64_t float64_ceq(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_eq_quiet(op1, op2, stat);
+}
+
 static uint16_t float16_cge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(op2, op1, stat);
 }
 
+static uint64_t float64_cge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(op2, op1, stat);
+}
+
 static uint16_t float16_cgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(op2, op1, stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_cgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(op2, op1, stat);
 }
 
+static uint64_t float64_cgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(op2, op1, stat);
+}
+
 static uint16_t float16_acge(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_le(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acge(float32 op1, float32 op2, float_status *stat)
     return -float32_le(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acge(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_le(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static uint16_t float16_acgt(float16 op1, float16 op2, float_status *stat)
 {
     return -float16_lt(float16_abs(op2), float16_abs(op1), stat);
@@ -XXX,XX +XXX,XX @@ static uint32_t float32_acgt(float32 op1, float32 op2, float_status *stat)
     return -float32_lt(float32_abs(op2), float32_abs(op1), stat);
 }
 
+static uint64_t float64_acgt(float64 op1, float64 op2, float_status *stat)
+{
+    return -float64_lt(float64_abs(op2), float64_abs(op1), stat);
+}
+
 static int16_t vfp_tosszh(float16 x, void *fpstp)
 {
     float_status *fpst = fpstp;
@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_fabd_s, float32_abd, float32)
 
 DO_3OP(gvec_fceq_h, float16_ceq, float16)
 DO_3OP(gvec_fceq_s, float32_ceq, float32)
+DO_3OP(gvec_fceq_d, float64_ceq, float64)
 
 DO_3OP(gvec_fcge_h, float16_cge, float16)
 DO_3OP(gvec_fcge_s, float32_cge, float32)
+DO_3OP(gvec_fcge_d, float64_cge, float64)
 
 DO_3OP(gvec_fcgt_h, float16_cgt, float16)
 DO_3OP(gvec_fcgt_s, float32_cgt, float32)
+DO_3OP(gvec_fcgt_d, float64_cgt, float64)
 
 DO_3OP(gvec_facge_h, float16_acge, float16)
 DO_3OP(gvec_facge_s, float32_acge, float32)
+DO_3OP(gvec_facge_d, float64_acge, float64)
 
 DO_3OP(gvec_facgt_h, float16_acgt, float16)
 DO_3OP(gvec_facgt_s, float32_acgt, float32)
+DO_3OP(gvec_facgt_d, float64_acgt, float64)
 
 DO_3OP(gvec_fmax_h, float16_max, float16)
 DO_3OP(gvec_fmax_s, float32_max, float32)
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-27-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  1 +
 target/arm/tcg/a64.decode      |  6 ++++
 target/arm/tcg/translate-a64.c | 60 ++++++++++++++++++++++------------
 target/arm/tcg/vec_helper.c    |  6 ++++
 4 files changed, 53 insertions(+), 20 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_3same_float
and disas_simd_scalar_three_reg_same_fp16 so remove them.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-28-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  12 ++
 target/arm/tcg/translate-a64.c | 293 ++++-----------------------------
 2 files changed, 46 insertions(+), 259 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FACGT_s         0111 1110 1.1 ..... 11101 1 ..... ..... @rrr_sd
 FABD_s          0111 1110 110 ..... 00010 1 ..... ..... @rrr_h
 FABD_s          0111 1110 1.1 ..... 11010 1 ..... ..... @rrr_sd
 
+FRECPS_s        0101 1110 010 ..... 00111 1 ..... ..... @rrr_h
+FRECPS_s        0101 1110 0.1 ..... 11111 1 ..... ..... @rrr_sd
+
+FRSQRTS_s       0101 1110 110 ..... 00111 1 ..... ..... @rrr_h
+FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FACGT_v         0.10 1110 1.1 ..... 11101 1 ..... ..... @qrrr_sd
 FABD_v          0.10 1110 110 ..... 00010 1 ..... ..... @qrrr_h
 FABD_v          0.10 1110 1.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FRECPS_v        0.00 1110 010 ..... 00111 1 ..... ..... @qrrr_h
+FRECPS_v        0.00 1110 0.1 ..... 11111 1 ..... ..... @qrrr_sd
+
+FRSQRTS_v       0.00 1110 110 ..... 00111 1 ..... ..... @qrrr_h
+FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static const FPScalar f_scalar_fabd = {
 };
 TRANS(FABD_s, do_fp3_scalar, a, &f_scalar_fabd)
 
+static const FPScalar f_scalar_frecps = {
+    gen_helper_recpsf_f16,
+    gen_helper_recpsf_f32,
+    gen_helper_recpsf_f64,
+};
+TRANS(FRECPS_s, do_fp3_scalar, a, &f_scalar_frecps)
+
+static const FPScalar f_scalar_frsqrts = {
+    gen_helper_rsqrtsf_f16,
+    gen_helper_rsqrtsf_f32,
+    gen_helper_rsqrtsf_f64,
+};
+TRANS(FRSQRTS_s, do_fp3_scalar, a, &f_scalar_frsqrts)
+
 static bool do_fp3_vector(DisasContext *s, arg_qrrr_e *a,
                           gen_helper_gvec_3_ptr * const fns[3])
 {
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_fabd[3] = {
 };
 TRANS(FABD_v, do_fp3_vector, a, f_vector_fabd)
 
+static gen_helper_gvec_3_ptr * const f_vector_frecps[3] = {
+    gen_helper_gvec_recps_h,
+    gen_helper_gvec_recps_s,
+    gen_helper_gvec_recps_d,
+};
+TRANS(FRECPS_v, do_fp3_vector, a, f_vector_frecps)
+
+static gen_helper_gvec_3_ptr * const f_vector_frsqrts[3] = {
+    gen_helper_gvec_rsqrts_h,
+    gen_helper_gvec_rsqrts_s,
+    gen_helper_gvec_rsqrts_d,
+};
+TRANS(FRSQRTS_v, do_fp3_vector, a, f_vector_frsqrts)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void handle_3same_64(DisasContext *s, int opcode, bool u,
     }
 }
 
-/* Handle the 3-same-operands float operations; shared by the scalar
- * and vector encodings. The caller must filter out any encodings
- * not allocated for the encoding it is dealing with.
- */
-static void handle_3same_float(DisasContext *s, int size, int elements,
-                               int fpopcode, int rd, int rn, int rm)
-{
-    int pass;
-    TCGv_ptr fpst = fpstatus_ptr(FPST_FPCR);
-
-    for (pass = 0; pass < elements; pass++) {
-        if (size) {
-            /* Double */
-            TCGv_i64 tcg_op1 = tcg_temp_new_i64();
-            TCGv_i64 tcg_op2 = tcg_temp_new_i64();
-            TCGv_i64 tcg_res = tcg_temp_new_i64();
-
-            read_vec_element(s, tcg_op1, rn, pass, MO_64);
-            read_vec_element(s, tcg_op2, rm, pass, MO_64);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f64(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element(s, tcg_res, rd, pass, MO_64);
-        } else {
-            /* Single */
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_32);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_32);
-
-            switch (fpopcode) {
-            case 0x1f: /* FRECPS */
-                gen_helper_recpsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x3f: /* FRSQRTS */
-                gen_helper_rsqrtsf_f32(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x18: /* FMAXNM */
-            case 0x19: /* FMLA */
-            case 0x1a: /* FADD */
-            case 0x1b: /* FMULX */
-            case 0x1c: /* FCMEQ */
-            case 0x1e: /* FMAX */
-            case 0x38: /* FMINNM */
-            case 0x39: /* FMLS */
-            case 0x3a: /* FSUB */
-            case 0x3e: /* FMIN */
-            case 0x5b: /* FMUL */
-            case 0x5c: /* FCMGE */
-            case 0x5d: /* FACGE */
-            case 0x5f: /* FDIV */
-            case 0x7a: /* FABD */
-            case 0x7c: /* FCMGT */
-            case 0x7d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            if (elements == 1) {
-                /* scalar single so clear high part */
-                TCGv_i64 tcg_tmp = tcg_temp_new_i64();
-
-                tcg_gen_extu_i32_i64(tcg_tmp, tcg_res);
-                write_vec_element(s, tcg_tmp, rd, pass, MO_64);
-            } else {
-                write_vec_element_i32(s, tcg_res, rd, pass, MO_32);
-            }
-        }
-    }
-
-    clear_vec_high(s, elements * (size ? 8 : 4) > 8, rd);
-}
-
 /* AdvSIMD scalar three same
  *  31 30  29 28       24 23  22  21 20  16 15    11  10 9    5 4    0
  * +-----+---+-----------+------+---+------+--------+---+------+------+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     bool u = extract32(insn, 29, 1);
     TCGv_i64 tcg_rd;
 
-    if (opcode >= 0x18) {
-        /* Floating point: U, size[1] and opcode indicate operation */
-        int fpopcode = opcode | (extract32(size, 1, 1) << 5) | (u << 6);
-        switch (fpopcode) {
-        case 0x1f: /* FRECPS */
-        case 0x3f: /* FRSQRTS */
-            break;
-        default:
-        case 0x1b: /* FMULX */
-        case 0x5d: /* FACGE */
-        case 0x7d: /* FACGT */
-        case 0x1c: /* FCMEQ */
-        case 0x5c: /* FCMGE */
-        case 0x7a: /* FABD */
-        case 0x7c: /* FCMGT */
-            unallocated_encoding(s);
-            return;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        handle_3same_float(s, extract32(size, 0, 1), 1, fpopcode, rd, rn, rm);
-        return;
-    }
-
     switch (opcode) {
     case 0x1: /* SQADD, UQADD */
     case 0x5: /* SQSUB, UQSUB */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_three_reg_same(DisasContext *s, uint32_t insn)
     write_fp_dreg(s, rd, tcg_rd);
 }
 
-/* AdvSIMD scalar three same FP16
- *  31 30  29 28       24 23  22 21 20  16 15 14 13    11 10  9  5 4  0
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * | 0 1 | U | 1 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 | Rn | Rd |
- * +-----+---+-----------+---+-----+------+-----+--------+---+----+----+
- * v: 0101 1110 0100 0000 0000 0100 0000 0000 => 5e400400
- * m: 1101 1111 0110 0000 1100 0100 0000 0000 => df60c400
- */
-static void disas_simd_scalar_three_reg_same_fp16(DisasContext *s,
-                                                  uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int opcode = extract32(insn, 11, 3);
-    int rm = extract32(insn, 16, 5);
-    bool u = extract32(insn, 29, 1);
-    bool a = extract32(insn, 23, 1);
-    int fpopcode = opcode | (a << 3) |  (u << 4);
-    TCGv_ptr fpst;
-    TCGv_i32 tcg_op1;
-    TCGv_i32 tcg_op2;
-    TCGv_i32 tcg_res;
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-    case 0x0f: /* FRSQRTS */
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    tcg_op1 = read_fp_hreg(s, rn);
-    tcg_op2 = read_fp_hreg(s, rm);
-    tcg_res = tcg_temp_new_i32();
-
-    switch (fpopcode) {
-    case 0x07: /* FRECPS */
-        gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    case 0x0f: /* FRSQRTS */
-        gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-        break;
-    default:
-    case 0x03: /* FMULX */
-    case 0x04: /* FCMEQ (reg) */
-    case 0x14: /* FCMGE (reg) */
-    case 0x15: /* FACGE */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT (reg) */
-    case 0x1d: /* FACGT */
-        g_assert_not_reached();
-    }
-
-    write_fp_sreg(s, rd, tcg_res);
-}
-
 /* AdvSIMD scalar three same extra
  *  31 30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +-----+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 
 /* Pairwise op subgroup of C3.6.16.
  *
- * This is called directly or via the handle_3same_float for float pairwise
+ * This is called directly for float pairwise
  * operations where the opcode and size are calculated differently.
  */
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
 
-    int datasize = is_q ? 128 : 64;
-    int esize = 32 << size;
-    int elements = datasize / esize;
-
     if (size == 1 && !is_q) {
         unallocated_encoding(s);
         return;
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
         handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
                                rn, rm, rd);
         return;
-    case 0x1f: /* FRECPS */
-    case 0x3f: /* FRSQRTS */
-        if (!fp_access_check(s)) {
-            return;
-        }
-        handle_3same_float(s, size, elements, fpopcode, rd, rn, rm);
-        return;
 
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x1b: /* FMULX */
     case 0x1c: /* FCMEQ */
     case 0x1e: /* FMAX */
+    case 0x1f: /* FRECPS */
     case 0x38: /* FMINNM */
     case 0x39: /* FMLS */
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
+    case 0x3f: /* FRSQRTS */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
      * together indicate the operation.
      */
     int fpopcode = opcode | (a << 3) | (u << 4);
-    int datasize = is_q ? 128 : 64;
-    int elements = datasize / 16;
     bool pairwise;
     TCGv_ptr fpst;
     int pass;
 
     switch (fpopcode) {
-    case 0x7: /* FRECPS */
-    case 0xf: /* FRSQRTS */
-        pairwise = false;
-        break;
     case 0x10: /* FMAXNMP */
     case 0x12: /* FADDP */
     case 0x16: /* FMAXP */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
     case 0x3: /* FMULX */
     case 0x4: /* FCMEQ */
     case 0x6: /* FMAX */
+    case 0x7: /* FRECPS */
     case 0x8: /* FMINNM */
     case 0x9: /* FMLS */
     case 0xa: /* FSUB */
     case 0xe: /* FMIN */
+    case 0xf: /* FRSQRTS */
     case 0x13: /* FMUL */
     case 0x14: /* FCMGE */
     case 0x15: /* FACGE */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
             write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
         }
     } else {
-        for (pass = 0; pass < elements; pass++) {
-            TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-            TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-            TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-            read_vec_element_i32(s, tcg_op1, rn, pass, MO_16);
-            read_vec_element_i32(s, tcg_op2, rm, pass, MO_16);
-
-            switch (fpopcode) {
-            case 0x7: /* FRECPS */
-                gen_helper_recpsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FRSQRTS */
-                gen_helper_rsqrtsf_f16(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x0: /* FMAXNM */
-            case 0x1: /* FMLA */
-            case 0x2: /* FADD */
-            case 0x3: /* FMULX */
-            case 0x4: /* FCMEQ */
-            case 0x6: /* FMAX */
-            case 0x8: /* FMINNM */
-            case 0x9: /* FMLS */
-            case 0xa: /* FSUB */
-            case 0xe: /* FMIN */
-            case 0x13: /* FMUL */
-            case 0x14: /* FCMGE */
-            case 0x15: /* FACGE */
-            case 0x17: /* FDIV */
-            case 0x1a: /* FABD */
-            case 0x1c: /* FCMGT */
-            case 0x1d: /* FACGT */
-                g_assert_not_reached();
-            }
-
-            write_vec_element_i32(s, tcg_res, rd, pass, MO_16);
-        }
+        g_assert_not_reached();
     }
 
     clear_vec_high(s, is_q, rd);
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
     { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
-    { 0x5e400400, 0xdf60c400, disas_simd_scalar_three_reg_same_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
 
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-29-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  4 ++
 target/arm/tcg/a64.decode      | 12 +++++
 target/arm/tcg/translate-a64.c | 87 ++++++++++++++++++++++++++--------
 target/arm/tcg/vec_helper.c    | 23 +++++++++
 4 files changed, 105 insertions(+), 21 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within disas_simd_three_reg_same_fp16,
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-30-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 ++
 target/arm/tcg/a64.decode      |  24 +++
 target/arm/tcg/translate-a64.c | 296 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  16 ++
 4 files changed, 107 insertions(+), 245 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_faddp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_5(gvec_faddp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_5(gvec_fmaxp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminp_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminp_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fmaxnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_5(gvec_fminnump_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_5(gvec_fminnump_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
+
 #ifdef TARGET_AARCH64
 #include "tcg/helper-a64.h"
 #include "tcg/helper-sve.h"
diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@ FRSQRTS_s       0101 1110 1.1 ..... 11111 1 ..... ..... @rrr_sd
 FADDP_s         0101 1110 0011 0000 1101 10 ..... ..... @rr_h
 FADDP_s         0111 1110 0.11 0000 1101 10 ..... ..... @rr_sd
 
+FMAXP_s         0101 1110 0011 0000 1111 10 ..... ..... @rr_h
+FMAXP_s         0111 1110 0.11 0000 1111 10 ..... ..... @rr_sd
+
+FMINP_s         0101 1110 1011 0000 1111 10 ..... ..... @rr_h
+FMINP_s         0111 1110 1.11 0000 1111 10 ..... ..... @rr_sd
+
+FMAXNMP_s       0101 1110 0011 0000 1100 10 ..... ..... @rr_h
+FMAXNMP_s       0111 1110 0.11 0000 1100 10 ..... ..... @rr_sd
+
+FMINNMP_s       0101 1110 1011 0000 1100 10 ..... ..... @rr_h
+FMINNMP_s       0111 1110 1.11 0000 1100 10 ..... ..... @rr_sd
+
 ### Advanced SIMD three same
 
 FADD_v          0.00 1110 010 ..... 00010 1 ..... ..... @qrrr_h
@@ -XXX,XX +XXX,XX @@ FRSQRTS_v       0.00 1110 1.1 ..... 11111 1 ..... ..... @qrrr_sd
 FADDP_v         0.10 1110 010 ..... 00010 1 ..... ..... @qrrr_h
 FADDP_v         0.10 1110 0.1 ..... 11010 1 ..... ..... @qrrr_sd
 
+FMAXP_v         0.10 1110 010 ..... 00110 1 ..... ..... @qrrr_h
+FMAXP_v         0.10 1110 0.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMINP_v         0.10 1110 110 ..... 00110 1 ..... ..... @qrrr_h
+FMINP_v         0.10 1110 1.1 ..... 11110 1 ..... ..... @qrrr_sd
+
+FMAXNMP_v       0.10 1110 010 ..... 00000 1 ..... ..... @qrrr_h
+FMAXNMP_v       0.10 1110 0.1 ..... 11000 1 ..... ..... @qrrr_sd
+
+FMINNMP_v       0.10 1110 110 ..... 00000 1 ..... ..... @qrrr_h
+FMINNMP_v       0.10 1110 1.1 ..... 11000 1 ..... ..... @qrrr_sd
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static gen_helper_gvec_3_ptr * const f_vector_faddp[3] = {
 };
 TRANS(FADDP_v, do_fp3_vector, a, f_vector_faddp)
 
+static gen_helper_gvec_3_ptr * const f_vector_fmaxp[3] = {
+    gen_helper_gvec_fmaxp_h,
+    gen_helper_gvec_fmaxp_s,
+    gen_helper_gvec_fmaxp_d,
+};
+TRANS(FMAXP_v, do_fp3_vector, a, f_vector_fmaxp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminp[3] = {
+    gen_helper_gvec_fminp_h,
+    gen_helper_gvec_fminp_s,
+    gen_helper_gvec_fminp_d,
+};
+TRANS(FMINP_v, do_fp3_vector, a, f_vector_fminp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fmaxnmp[3] = {
+    gen_helper_gvec_fmaxnump_h,
+    gen_helper_gvec_fmaxnump_s,
+    gen_helper_gvec_fmaxnump_d,
+};
+TRANS(FMAXNMP_v, do_fp3_vector, a, f_vector_fmaxnmp)
+
+static gen_helper_gvec_3_ptr * const f_vector_fminnmp[3] = {
+    gen_helper_gvec_fminnump_h,
+    gen_helper_gvec_fminnump_s,
+    gen_helper_gvec_fminnump_d,
+};
+TRANS(FMINNMP_v, do_fp3_vector, a, f_vector_fminnmp)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static bool do_fp3_scalar_pair(DisasContext *s, arg_rr_e *a, const FPScalar *f)
 }
 
 TRANS(FADDP_s, do_fp3_scalar_pair, a, &f_scalar_fadd)
+TRANS(FMAXP_s, do_fp3_scalar_pair, a, &f_scalar_fmax)
+TRANS(FMINP_s, do_fp3_scalar_pair, a, &f_scalar_fmin)
+TRANS(FMAXNMP_s, do_fp3_scalar_pair, a, &f_scalar_fmaxnm)
+TRANS(FMINNMP_s, do_fp3_scalar_pair, a, &f_scalar_fminnm)
 
 /* Shift a TCGv src by TCGv shift_amount, put result in dst.
  * Note that it is the caller's responsibility to ensure that the
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 12, 5);
     int rn = extract32(insn, 5, 5);
     int rd = extract32(insn, 0, 5);
-    TCGv_ptr fpst;
 
     /* For some ops (the FP ones), size[1] is part of the encoding.
      * For ADDP strictly it is not but size[1] is always 1 for valid
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         if (!fp_access_check(s)) {
             return;
         }
-
-        fpst = NULL;
         break;
+    default:
     case 0xc: /* FMAXNMP */
+    case 0xd: /* FADDP */
     case 0xf: /* FMAXP */
     case 0x2c: /* FMINNMP */
     case 0x2f: /* FMINP */
-        /* FP op, size[0] is 32 or 64 bit*/
-        if (!u) {
-            if ((size & 1) || !dc_isar_feature(aa64_fp16, s)) {
-                unallocated_encoding(s);
-                return;
-            } else {
-                size = MO_16;
-            }
-        } else {
-            size = extract32(size, 0, 1) ? MO_64 : MO_32;
-        }
-
-        if (!fp_access_check(s)) {
-            return;
-        }
-
-        fpst = fpstatus_ptr(size == MO_16 ? FPST_FPCR_F16 : FPST_FPCR);
-        break;
-    default:
-    case 0xd: /* FADDP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_scalar_pairwise(DisasContext *s, uint32_t insn)
         case 0x3b: /* ADDP */
             tcg_gen_add_i64(tcg_res, tcg_op1, tcg_op2);
             break;
-        case 0xc: /* FMAXNMP */
-            gen_helper_vfp_maxnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0xf: /* FMAXP */
-            gen_helper_vfp_maxd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2c: /* FMINNMP */
-            gen_helper_vfp_minnumd(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
-        case 0x2f: /* FMINP */
-            gen_helper_vfp_mind(tcg_res, tcg_op1, tcg_op2, fpst);
-            break;
         default:
+        case 0xc: /* FMAXNMP */
         case 0xd: /* FADDP */
+        case 0xf: /* FMAXP */
+        case 0x2c: /* FMINNMP */
+        case 0x2f: /* FMINP */
             g_assert_not_reached();
         }
 
         write_fp_dreg(s, rd, tcg_res);
     } else {
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res = tcg_temp_new_i32();
-
-        read_vec_element_i32(s, tcg_op1, rn, 0, size);
-        read_vec_element_i32(s, tcg_op2, rn, 1, size);
-
-        if (size == MO_16) {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        } else {
-            switch (opcode) {
-            case 0xc: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0xf: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2c: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x2f: /* FMINP */
-                gen_helper_vfp_mins(tcg_res, tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0xd: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        write_fp_sreg(s, rd, tcg_res);
+        g_assert_not_reached();
     }
 }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
 static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                                    int size, int rn, int rm, int rd)
 {
-    TCGv_ptr fpst;
     int pass;
 
-    /* Floating point operations need fpst */
-    if (opcode >= 0x58) {
-        fpst = fpstatus_ptr(FPST_FPCR);
-    } else {
-        fpst = NULL;
-    }
-
     if (!fp_access_check(s)) {
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
             case 0x17: /* ADDP */
                 tcg_gen_add_i64(tcg_res[pass], tcg_op1, tcg_op2);
                 break;
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnumd(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mind(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
         }
@@ -XXX,XX +XXX,XX @@ static void handle_simd_3same_pair(DisasContext *s, int is_q, int u, int opcode,
                 genfn = fns[size][u];
                 break;
             }
-            /* The FP operations are all on single floats (32 bit) */
-            case 0x58: /* FMAXNMP */
-                gen_helper_vfp_maxnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x5e: /* FMAXP */
-                gen_helper_vfp_maxs(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x78: /* FMINNMP */
-                gen_helper_vfp_minnums(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x7e: /* FMINP */
-                gen_helper_vfp_mins(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
             default:
+            case 0x58: /* FMAXNMP */
             case 0x5a: /* FADDP */
+            case 0x5e: /* FMAXP */
+            case 0x78: /* FMINNMP */
+            case 0x7e: /* FMINP */
                 g_assert_not_reached();
             }
 
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     }
 
     switch (fpopcode) {
-    case 0x58: /* FMAXNMP */
-    case 0x5e: /* FMAXP */
-    case 0x78: /* FMINNMP */
-    case 0x7e: /* FMINP */
-        if (size && !is_q) {
-            unallocated_encoding(s);
-            return;
-        }
-        handle_simd_3same_pair(s, is_q, 0, fpopcode, size ? MO_64 : MO_32,
-                               rn, rm, rd);
-        return;
-
     case 0x1d: /* FMLAL  */
     case 0x3d: /* FMLSL  */
     case 0x59: /* FMLAL2 */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_float(DisasContext *s, uint32_t insn)
     case 0x3a: /* FSUB */
     case 0x3e: /* FMIN */
     case 0x3f: /* FRSQRTS */
+    case 0x58: /* FMAXNMP */
     case 0x5a: /* FADDP */
     case 0x5b: /* FMUL */
     case 0x5c: /* FCMGE */
     case 0x5d: /* FACGE */
+    case 0x5e: /* FMAXP */
     case 0x5f: /* FDIV */
+    case 0x78: /* FMINNMP */
     case 0x7a: /* FABD */
     case 0x7d: /* FACGT */
     case 0x7c: /* FCMGT */
+    case 0x7e: /* FMINP */
         unallocated_encoding(s);
         return;
     }
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     }
 }
 
-/*
- * Advanced SIMD three same (ARMv8.2 FP16 variants)
- *
- *  31  30  29  28       24 23  22 21 20  16 15 14 13    11 10  9    5 4    0
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- * | 0 | Q | U | 0 1 1 1 0 | a | 1 0 |  Rm  | 0 0 | opcode | 1 |  Rn  |  Rd  |
- * +---+---+---+-----------+---------+------+-----+--------+---+------+------+
- *
- * This includes FMULX, FCMEQ (register), FRECPS, FRSQRTS, FCMGE
- * (register), FACGE, FABD, FCMGT (register) and FACGT.
- *
- */
-static void disas_simd_three_reg_same_fp16(DisasContext *s, uint32_t insn)
-{
-    int opcode = extract32(insn, 11, 3);
-    int u = extract32(insn, 29, 1);
-    int a = extract32(insn, 23, 1);
-    int is_q = extract32(insn, 30, 1);
-    int rm = extract32(insn, 16, 5);
-    int rn = extract32(insn, 5, 5);
-    int rd = extract32(insn, 0, 5);
-    /*
-     * For these floating point ops, the U, a and opcode bits
-     * together indicate the operation.
-     */
-    int fpopcode = opcode | (a << 3) | (u << 4);
-    bool pairwise;
-    TCGv_ptr fpst;
-    int pass;
-
-    switch (fpopcode) {
-    case 0x10: /* FMAXNMP */
-    case 0x16: /* FMAXP */
-    case 0x18: /* FMINNMP */
-    case 0x1e: /* FMINP */
-        pairwise = true;
-        break;
-    default:
-    case 0x0: /* FMAXNM */
-    case 0x1: /* FMLA */
-    case 0x2: /* FADD */
-    case 0x3: /* FMULX */
-    case 0x4: /* FCMEQ */
-    case 0x6: /* FMAX */
-    case 0x7: /* FRECPS */
-    case 0x8: /* FMINNM */
-    case 0x9: /* FMLS */
-    case 0xa: /* FSUB */
-    case 0xe: /* FMIN */
-    case 0xf: /* FRSQRTS */
-    case 0x12: /* FADDP */
-    case 0x13: /* FMUL */
-    case 0x14: /* FCMGE */
-    case 0x15: /* FACGE */
-    case 0x17: /* FDIV */
-    case 0x1a: /* FABD */
-    case 0x1c: /* FCMGT */
-    case 0x1d: /* FACGT */
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!dc_isar_feature(aa64_fp16, s)) {
-        unallocated_encoding(s);
-        return;
-    }
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    fpst = fpstatus_ptr(FPST_FPCR_F16);
-
-    if (pairwise) {
-        int maxpass = is_q ? 8 : 4;
-        TCGv_i32 tcg_op1 = tcg_temp_new_i32();
-        TCGv_i32 tcg_op2 = tcg_temp_new_i32();
-        TCGv_i32 tcg_res[8];
-
-        for (pass = 0; pass < maxpass; pass++) {
-            int passreg = pass < (maxpass / 2) ? rn : rm;
-            int passelt = (pass << 1) & (maxpass - 1);
-
-            read_vec_element_i32(s, tcg_op1, passreg, passelt, MO_16);
-            read_vec_element_i32(s, tcg_op2, passreg, passelt + 1, MO_16);
-            tcg_res[pass] = tcg_temp_new_i32();
-
-            switch (fpopcode) {
-            case 0x10: /* FMAXNMP */
-                gen_helper_advsimd_maxnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x16: /* FMAXP */
-                gen_helper_advsimd_maxh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            case 0x18: /* FMINNMP */
-                gen_helper_advsimd_minnumh(tcg_res[pass], tcg_op1, tcg_op2,
-                                           fpst);
-                break;
-            case 0x1e: /* FMINP */
-                gen_helper_advsimd_minh(tcg_res[pass], tcg_op1, tcg_op2, fpst);
-                break;
-            default:
-            case 0x12: /* FADDP */
-                g_assert_not_reached();
-            }
-        }
-
-        for (pass = 0; pass < maxpass; pass++) {
-            write_vec_element_i32(s, tcg_res[pass], rd, pass, MO_16);
-        }
-    } else {
-        g_assert_not_reached();
-    }
-
-    clear_vec_high(s, is_q, rd);
-}
-
 /* AdvSIMD three same extra
  *  31   30  29 28       24 23  22  21 20  16  15 14    11  10 9  5 4  0
  * +---+---+---+-----------+------+---+------+---+--------+---+----+----+
@@ -XXX,XX +XXX,XX @@ static const AArch64DecodeTable data_proc_simd[] = {
     { 0x5e300800, 0xdf3e0c00, disas_simd_scalar_pairwise },
     { 0x5f000000, 0xdf000400, disas_simd_indexed }, /* scalar indexed */
     { 0x5f000400, 0xdf800400, disas_simd_scalar_shift_imm },
-    { 0x0e400400, 0x9f60c400, disas_simd_three_reg_same_fp16 },
     { 0x0e780800, 0x8f7e0c00, disas_simd_two_reg_misc_fp16 },
     { 0x00000000, 0x00000000, NULL }
 };
diff --git a/target/arm/tcg/vec_helper.c b/target/arm/tcg/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/vec_helper.c
+++ b/target/arm/tcg/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_3OP_PAIR(gvec_faddp_h, float16_add, float16, H2)
 DO_3OP_PAIR(gvec_faddp_s, float32_add, float32, H4)
 DO_3OP_PAIR(gvec_faddp_d, float64_add, float64, )
 
+DO_3OP_PAIR(gvec_fmaxp_h, float16_max, float16, H2)
+DO_3OP_PAIR(gvec_fmaxp_s, float32_max, float32, H4)
+DO_3OP_PAIR(gvec_fmaxp_d, float64_max, float64, )
+
+DO_3OP_PAIR(gvec_fminp_h, float16_min, float16, H2)
+DO_3OP_PAIR(gvec_fminp_s, float32_min, float32, H4)
+DO_3OP_PAIR(gvec_fminp_d, float64_min, float64, )
+
+DO_3OP_PAIR(gvec_fmaxnump_h, float16_maxnum, float16, H2)
+DO_3OP_PAIR(gvec_fmaxnump_s, float32_maxnum, float32, H4)
+DO_3OP_PAIR(gvec_fmaxnump_d, float64_maxnum, float64, )
+
+DO_3OP_PAIR(gvec_fminnump_h, float16_minnum, float16, H2)
+DO_3OP_PAIR(gvec_fminnump_s, float32_minnum, float32, H4)
+DO_3OP_PAIR(gvec_fminnump_d, float64_minnum, float64, )
+
 #define DO_VCVT_FIXED(NAME, FUNC, TYPE)                                 \
     void HELPER(NAME)(void *vd, void *vn, void *stat, uint32_t desc)    \
     {                                                                   \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-31-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             |  7 -----
 target/arm/tcg/translate-neon.c | 55 ++-------------------------------
 target/arm/tcg/vec_helper.c     | 45 ---------------------------
 3 files changed, 3 insertions(+), 104 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-32-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |   5 ++
 target/arm/tcg/translate.h     |   3 +
 target/arm/tcg/a64.decode      |   6 ++
 target/arm/tcg/gengvec.c       |  12 ++++
 target/arm/tcg/translate-a64.c | 128 ++++++---------------------------
 target/arm/tcg/vec_helper.c    |  30 ++++++++
 6 files changed, 77 insertions(+), 107 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-33-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h             | 2 --
 target/arm/tcg/neon_helper.c    | 5 -----
 target/arm/tcg/translate-neon.c | 3 +--
 3 files changed, 1 insertion(+), 9 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_3(neon_qrshl_s64, i64, env, i64, i64)
 
 DEF_HELPER_2(neon_add_u8, i32, i32, i32)
 DEF_HELPER_2(neon_add_u16, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u8, i32, i32, i32)
-DEF_HELPER_2(neon_padd_u16, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u8, i32, i32, i32)
 DEF_HELPER_2(neon_sub_u16, i32, i32, i32)
 DEF_HELPER_2(neon_mul_u8, i32, i32, i32)
diff --git a/target/arm/tcg/neon_helper.c b/target/arm/tcg/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/neon_helper.c
+++ b/target/arm/tcg/neon_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(neon_add_u16)(uint32_t a, uint32_t b)
     return (a + b) ^ mask;
 }
 
-#define NEON_FN(dest, src1, src2) dest = src1 + src2
-NEON_POP(padd_u8, neon_u8, 4)
-NEON_POP(padd_u16, neon_u16, 2)
-#undef NEON_FN
-
 #define NEON_FN(dest, src1, src2) dest = src1 - src2
 NEON_VOP(sub_u8, neon_u8, 4)
 NEON_VOP(sub_u16, neon_u16, 2)
diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
 DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
+DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
 #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-#define gen_helper_neon_padd_u32  tcg_gen_add_i32
 
 DO_3SAME_PAIR(VPMAX_S, pmax_s)
 DO_3SAME_PAIR(VPMIN_S, pmin_s)
 DO_3SAME_PAIR(VPMAX_U, pmax_u)
 DO_3SAME_PAIR(VPMIN_U, pmin_u)
-DO_3SAME_PAIR(VPADD, padd_u)
 
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

These are the last instructions within handle_simd_3same_pair
so remove it.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-34-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h            |  16 +++++
 target/arm/tcg/translate.h     |   8 +++
 target/arm/tcg/a64.decode      |   4 ++
 target/arm/tcg/gengvec.c       |  48 +++++++++++++
 target/arm/tcg/translate-a64.c | 119 +++++----------------------------
 target/arm/tcg/vec_helper.c    |  16 +++++
 6 files changed, 109 insertions(+), 102 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-35-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/translate-neon.c | 78 ++-------------------------------
 1 file changed, 4 insertions(+), 74 deletions(-)

diff --git a/target/arm/tcg/translate-neon.c b/target/arm/tcg/translate-neon.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-neon.c
+++ b/target/arm/tcg/translate-neon.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
 DO_3SAME_NO_SZ_3(VPADD, gen_gvec_addp)
+DO_3SAME_NO_SZ_3(VPMAX_S, gen_gvec_smaxp)
+DO_3SAME_NO_SZ_3(VPMIN_S, gen_gvec_sminp)
+DO_3SAME_NO_SZ_3(VPMAX_U, gen_gvec_umaxp)
+DO_3SAME_NO_SZ_3(VPMIN_U, gen_gvec_uminp)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_U, qshl_u)
 DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
 DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
 
-static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
-{
-    /* Operations handled pairwise 32 bits at a time */
-    TCGv_i32 tmp, tmp2, tmp3;
-
-    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
-        return false;
-    }
-
-    /* UNDEF accesses to D16-D31 if they don't exist. */
-    if (!dc_isar_feature(aa32_simd_r32, s) &&
-        ((a->vd | a->vn | a->vm) & 0x10)) {
-        return false;
-    }
-
-    if (a->size == 3) {
-        return false;
-    }
-
-    if (!vfp_access_check(s)) {
-        return true;
-    }
-
-    assert(a->q == 0); /* enforced by decode patterns */
-
-    /*
-     * Note that we have to be careful not to clobber the source operands
-     * in the "vm == vd" case by storing the result of the first pass too
-     * early. Since Q is 0 there are always just two passes, so instead
-     * of a complicated loop over each pass we just unroll.
-     */
-    tmp = tcg_temp_new_i32();
-    tmp2 = tcg_temp_new_i32();
-    tmp3 = tcg_temp_new_i32();
-
-    read_neon_element32(tmp, a->vn, 0, MO_32);
-    read_neon_element32(tmp2, a->vn, 1, MO_32);
-    fn(tmp, tmp, tmp2);
-
-    read_neon_element32(tmp3, a->vm, 0, MO_32);
-    read_neon_element32(tmp2, a->vm, 1, MO_32);
-    fn(tmp3, tmp3, tmp2);
-
-    write_neon_element32(tmp, a->vd, 0, MO_32);
-    write_neon_element32(tmp3, a->vd, 1, MO_32);
-
-    return true;
-}
-
-#define DO_3SAME_PAIR(INSN, func)                                       \
-    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-    {                                                                   \
-        static NeonGenTwoOpFn * const fns[] = {                         \
-            gen_helper_neon_##func##8,                                  \
-            gen_helper_neon_##func##16,                                 \
-            gen_helper_neon_##func##32,                                 \
-        };                                                              \
-        if (a->size > 2) {                                              \
-            return false;                                               \
-        }                                                               \
-        return do_3same_pair(s, a, fns[a->size]);                       \
-    }
-
-/* 32-bit pairwise ops end up the same as the elementwise versions.  */
-#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
-#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
-#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
-#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-
-DO_3SAME_PAIR(VPMAX_S, pmax_s)
-DO_3SAME_PAIR(VPMIN_S, pmin_s)
-DO_3SAME_PAIR(VPMAX_U, pmax_u)
-DO_3SAME_PAIR(VPMIN_U, pmin_u)
-
 #define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
     WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
     WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
-- 
2.34.1

From: Richard Henderson <richard.henderson@linaro.org>

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-36-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      |  10 +++
 target/arm/tcg/translate-a64.c | 144 ++++++++++-----------------------
 2 files changed, 51 insertions(+), 103 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

This includes AND, ORR, EOR, BIC, ORN, BSF, BIT, BIF.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20240524232121.284515-37-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/tcg/a64.decode      | 10 +++++
 target/arm/tcg/translate-a64.c | 68 ++++++++++------------------------
 2 files changed, 29 insertions(+), 49 deletions(-)

diff --git a/target/arm/tcg/a64.decode b/target/arm/tcg/a64.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/a64.decode
+++ b/target/arm/tcg/a64.decode
@@ -XXX,XX +XXX,XX @@
 @rrr_q1e3       ........ ... rm:5 ...... rn:5 rd:5      &qrrr_e q=1 esz=3
 @rrrr_q1e3      ........ ... rm:5 . ra:5 rn:5 rd:5      &qrrrr_e q=1 esz=3
 
+@qrrr_b         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=0
 @qrrr_h         . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=1
 @qrrr_sd        . q:1 ...... ... rm:5 ...... rn:5 rd:5  &qrrr_e esz=%esz_sd
 @qrrr_e         . q:1 ...... esz:2 . rm:5 ...... rn:5 rd:5  &qrrr_e
@@ -XXX,XX +XXX,XX @@ SMINP_v         0.00 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 UMAXP_v         0.10 1110 ..1 ..... 10100 1 ..... ..... @qrrr_e
 UMINP_v         0.10 1110 ..1 ..... 10101 1 ..... ..... @qrrr_e
 
+AND_v           0.00 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BIC_v           0.00 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+ORR_v           0.00 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+ORN_v           0.00 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+EOR_v           0.10 1110 001 ..... 00011 1 ..... ..... @qrrr_b
+BSL_v           0.10 1110 011 ..... 00011 1 ..... ..... @qrrr_b
+BIT_v           0.10 1110 101 ..... 00011 1 ..... ..... @qrrr_b
+BIF_v           0.10 1110 111 ..... 00011 1 ..... ..... @qrrr_b
+
 ### Advanced SIMD scalar x indexed element
 
 FMUL_si         0101 1111 00 .. .... 1001 . 0 ..... .....   @rrx_h
diff --git a/target/arm/tcg/translate-a64.c b/target/arm/tcg/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tcg/translate-a64.c
+++ b/target/arm/tcg/translate-a64.c
@@ -XXX,XX +XXX,XX @@ TRANS(SMINP_v, do_gvec_fn3_no64, a, gen_gvec_sminp)
 TRANS(UMAXP_v, do_gvec_fn3_no64, a, gen_gvec_umaxp)
 TRANS(UMINP_v, do_gvec_fn3_no64, a, gen_gvec_uminp)
 
+TRANS(AND_v, do_gvec_fn3, a, tcg_gen_gvec_and)
+TRANS(BIC_v, do_gvec_fn3, a, tcg_gen_gvec_andc)
+TRANS(ORR_v, do_gvec_fn3, a, tcg_gen_gvec_or)
+TRANS(ORN_v, do_gvec_fn3, a, tcg_gen_gvec_orc)
+TRANS(EOR_v, do_gvec_fn3, a, tcg_gen_gvec_xor)
+
+static bool do_bitsel(DisasContext *s, bool is_q, int d, int a, int b, int c)
+{
+    if (fp_access_check(s)) {
+        gen_gvec_fn4(s, is_q, d, a, b, c, tcg_gen_gvec_bitsel, 0);
+    }
+    return true;
+}
+
+TRANS(BSL_v, do_bitsel, a->q, a->rd, a->rd, a->rn, a->rm)
+TRANS(BIT_v, do_bitsel, a->q, a->rd, a->rm, a->rn, a->rd)
+TRANS(BIF_v, do_bitsel, a->q, a->rd, a->rm, a->rd, a->rn)
+
 /*
  * Advanced SIMD scalar/vector x indexed element
  */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_diff(DisasContext *s, uint32_t insn)
     }
 }
 
-/* Logic op (opcode == 3) subgroup of C3.6.16. */
-static void disas_simd_3same_logic(DisasContext *s, uint32_t insn)
-{
-    int rd = extract32(insn, 0, 5);
-    int rn = extract32(insn, 5, 5);
-    int rm = extract32(insn, 16, 5);
-    int size = extract32(insn, 22, 2);
-    bool is_u = extract32(insn, 29, 1);
-    bool is_q = extract32(insn, 30, 1);
-
-    if (!fp_access_check(s)) {
-        return;
-    }
-
-    switch (size + 4 * is_u) {
-    case 0: /* AND */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_and, 0);
-        return;
-    case 1: /* BIC */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_andc, 0);
-        return;
-    case 2: /* ORR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_or, 0);
-        return;
-    case 3: /* ORN */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_orc, 0);
-        return;
-    case 4: /* EOR */
-        gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_xor, 0);
-        return;
-
-    case 5: /* BSL bitwise select */
-        gen_gvec_fn4(s, is_q, rd, rd, rn, rm, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 6: /* BIT, bitwise insert if true */
-        gen_gvec_fn4(s, is_q, rd, rm, rn, rd, tcg_gen_gvec_bitsel, 0);
-        return;
-    case 7: /* BIF, bitwise insert if false */
-        gen_gvec_fn4(s, is_q, rd, rm, rd, rn, tcg_gen_gvec_bitsel, 0);
-        return;
-
-    default:
-        g_assert_not_reached();
-    }
-}
-
 /* Integer op subgroup of C3.6.16. */
 static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
 {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same(DisasContext *s, uint32_t insn)
     int opcode = extract32(insn, 11, 5);
 
     switch (opcode) {
-    case 0x3: /* logic ops */
-        disas_simd_3same_logic(s, insn);
-        break;
     default:
         disas_simd_3same_int(s, insn);
         break;
+    case 0x3: /* logic ops */
     case 0x14: /* SMAXP, UMAXP */
     case 0x15: /* SMINP, UMINP */
     case 0x17: /* ADDP */
-- 
2.34.1