Series comparison

-[PULL 00/45] target-arm queue
+[PULL 00/24] target-arm queue
-Mostly this is patches from me and RTH cleaning up and doing
+The following changes since commit 5a67d7735d4162630769ef495cf813244fc850df:
 more decodetree conversion for AArch32 Neon. The major new feature
 is Dongjiu Geng's patchset to report host memory errors to KVM guests;
 also a new aspeed board from Patrick Williams.
-thanks
+  Merge remote-tracking branch 'remotes/berrange-gitlab/tags/tls-deps-pull-request' into staging (2021-07-02 08:22:39 +0100)
 -- PMM
 The following changes since commit 035b448b84f3557206abc44d786c5d3db2638f7d:
   Merge remote-tracking branch 'remotes/gkurz/tags/9p-next-2020-05-14' into staging (2020-05-14 10:58:30 +0100)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200514
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20210702
-for you to fetch changes up to e95485f85657be21135c17a9226e297c21e73360:
+for you to fetch changes up to 04ea4d3cfd0a21b248ece8eb7a9436a3d9898dd8:
-  target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree (2020-05-14 15:03:09 +0100)
+  target/arm: Implement MVE shifts by register (2021-07-02 11:48:38 +0100)
 ----------------------------------------------------------------
 target-arm queue:
- * target/arm: Use correct GDB XML for M-profile cores
+ * more MVE instructions
- * target/arm: Code cleanup to use gvec APIs better
+ * hw/gpio/gpio_pwr: use shutdown function for reboot
- * aspeed: Add support for the sonorapass-bmc board
+ * target/arm: Check NaN mode before silencing NaN
- * target/arm: Support reporting KVM host memory errors
+ * tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
-   to the guest via ACPI notifications
+ * hw/arm: Add basic power management to raspi.
- * target/arm: Finish conversion of Neon 3-reg-same insns to decodetree
+ * docs/system/arm: Add quanta-gbs-bmc, quanta-q7l1-bmc
 ----------------------------------------------------------------
-Dongjiu Geng (10):
+Joe Komlodi (1):
-      acpi: nvdimm: change NVDIMM_UUID_LE to a common macro
+      target/arm: Check NaN mode before silencing NaN
       hw/arm/virt: Introduce a RAS machine option
       docs: APEI GHES generation and CPER record description
       ACPI: Build related register address fields via hardware error fw_cfg blob
       ACPI: Build Hardware Error Source Table
       ACPI: Record the Generic Error Status Block address
       KVM: Move hwpoison page related functions into kvm-all.c
       ACPI: Record Generic Error Status Block(GESB) table
       target-arm: kvm64: handle SIGBUS signal from kernel or KVM
       MAINTAINERS: Add ACPI/HEST/GHES entries
-Patrick Williams (1):
+Maxim Uvarov (1):
-      aspeed: Add support for the sonorapass-bmc board
+      hw/gpio/gpio_pwr: use shutdown function for reboot
 Nolan Leake (1):
       hw/arm: Add basic power management to raspi.
 Patrick Venture (2):
       docs/system/arm: Add quanta-q7l1-bmc reference
       docs/system/arm: Add quanta-gbs-bmc reference
 Peter Maydell (18):
-      target/arm: Use correct GDB XML for M-profile cores
+      target/arm: Fix MVE widening/narrowing VLDR/VSTR offset calculation
-      target/arm: Convert Neon 3-reg-same VQRDMLAH/VQRDMLSH to decodetree
+      target/arm: Fix bugs in MVE VRMLALDAVH, VRMLSLDAVH
-      target/arm: Convert Neon 3-reg-same SHA to decodetree
+      target/arm: Make asimd_imm_const() public
-      target/arm: Convert Neon 64-bit element 3-reg-same insns
+      target/arm: Use asimd_imm_const for A64 decode
-      target/arm: Convert Neon VHADD 3-reg-same insns
+      target/arm: Use dup_const() instead of bitfield_replicate()
-      target/arm: Convert Neon VABA/VABD 3-reg-same to decodetree
+      target/arm: Implement MVE logical immediate insns
-      target/arm: Convert Neon VRHADD, VHSUB 3-reg-same insns to decodetree
+      target/arm: Implement MVE vector shift left by immediate insns
-      target/arm: Convert Neon VQSHL, VRSHL, VQRSHL 3-reg-same insns to decodetree
+      target/arm: Implement MVE vector shift right by immediate insns
-      target/arm: Convert Neon VPMAX/VPMIN 3-reg-same insns to decodetree
+      target/arm: Implement MVE VSHLL
-      target/arm: Convert Neon VPADD 3-reg-same insns to decodetree
+      target/arm: Implement MVE VSRI, VSLI
-      target/arm: Convert Neon VQDMULH/VQRDMULH 3-reg-same to decodetree
+      target/arm: Implement MVE VSHRN, VRSHRN
-      target/arm: Convert Neon VADD, VSUB, VABD 3-reg-same insns to decodetree
+      target/arm: Implement MVE saturating narrowing shifts
-      target/arm: Convert Neon VPMIN/VPMAX/VPADD float 3-reg-same insns to decodetree
+      target/arm: Implement MVE VSHLC
-      target/arm: Convert Neon fp VMUL, VMLA, VMLS 3-reg-same insns to decodetree
+      target/arm: Implement MVE VADDLV
-      target/arm: Convert Neon 3-reg-same compare insns to decodetree
+      target/arm: Implement MVE long shifts by immediate
-      target/arm: Move 'env' argument of recps_f32 and rsqrts_f32 helpers to usual place
+      target/arm: Implement MVE long shifts by register
-      target/arm: Convert Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS to decodetree
+      target/arm: Implement MVE shifts by immediate
-      target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree
+      target/arm: Implement MVE shifts by register
-Richard Henderson (16):
+Philippe Mathieu-Daudé (1):
-      target/arm: Create gen_gvec_[us]sra
+      tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
       target/arm: Create gen_gvec_{u,s}{rshr,rsra}
       target/arm: Create gen_gvec_{sri,sli}
       target/arm: Remove unnecessary range check for VSHL
       target/arm: Tidy handle_vec_simd_shri
       target/arm: Create gen_gvec_{ceq,clt,cle,cgt,cge}0
       target/arm: Create gen_gvec_{mla,mls}
       target/arm: Swap argument order for VSHL during decode
       target/arm: Create gen_gvec_{cmtst,ushl,sshl}
       target/arm: Create gen_gvec_{uqadd, sqadd, uqsub, sqsub}
       target/arm: Remove fp_status from helper_{recpe, rsqrte}_u32
       target/arm: Create gen_gvec_{qrdmla,qrdmls}
       target/arm: Pass pointer to qc to qrdmla/qrdmls
       target/arm: Clear tail in gvec_fmul_idx_*, gvec_fmla_idx_*
       target/arm: Vectorize SABD/UABD
       target/arm: Vectorize SABA/UABA
- docs/specs/acpi_hest_ghes.rst          |  110 ++
+ docs/system/arm/aspeed.rst             |   1 +
- docs/specs/index.rst                   |    1 +
+ docs/system/arm/nuvoton.rst            |   5 +-
- configure                              |    4 +-
+ include/hw/arm/bcm2835_peripherals.h   |   3 +-
- default-configs/arm-softmmu.mak        |    1 +
+ include/hw/misc/bcm2835_powermgt.h     |  29 ++
- include/hw/acpi/aml-build.h            |    1 +
+ target/arm/helper-mve.h                | 108 +++++++
- include/hw/acpi/generic_event_device.h |    2 +
+ target/arm/translate.h                 |  41 +++
- include/hw/acpi/ghes.h                 |   74 +
+ target/arm/mve.decode                  | 177 ++++++++++-
- include/hw/arm/virt.h                  |    1 +
+ target/arm/t32.decode                  |  71 ++++-
- include/qemu/uuid.h                    |   27 +
+ hw/arm/bcm2835_peripherals.c           |  13 +-
- include/sysemu/kvm.h                   |    3 +-
+ hw/gpio/gpio_pwr.c                     |   2 +-
- include/sysemu/kvm_int.h               |   12 +
+ hw/misc/bcm2835_powermgt.c             | 160 ++++++++++
- target/arm/cpu.h                       |    4 +
+ target/arm/helper-a64.c                |  12 +-
- target/arm/helper.h                    |   78 +-
+ target/arm/mve_helper.c                | 524 +++++++++++++++++++++++++++++++--
- target/arm/internals.h                 |    5 +-
+ target/arm/translate-a64.c             |  86 +-----
- target/arm/translate.h                 |   84 +-
+ target/arm/translate-mve.c             | 261 +++++++++++++++-
- target/i386/cpu.h                      |    2 +
+ target/arm/translate-neon.c            |  81 -----
- target/arm/neon-dp.decode              |  119 +-
+ target/arm/translate.c                 | 327 +++++++++++++++++++-
- accel/kvm/kvm-all.c                    |   36 +
+ target/arm/vfp_helper.c                |  24 +-
- hw/acpi/aml-build.c                    |    2 +
+ hw/misc/meson.build                    |   1 +
- hw/acpi/generic_event_device.c         |   19 +
+ tests/acceptance/boot_linux_console.py |  43 +++
- hw/acpi/ghes.c                         |  448 ++++++
+files changed, 1760 insertions(+), 209 deletions(-)
- hw/acpi/nvdimm.c                       |   10 +-
+ create mode 100644 include/hw/misc/bcm2835_powermgt.h
- hw/arm/aspeed.c                        |   78 ++
+ create mode 100644 hw/misc/bcm2835_powermgt.c
  hw/arm/virt-acpi-build.c               |   15 +
  hw/arm/virt.c                          |   23 +
  target/arm/cpu_tcg.c                   |    1 +
  target/arm/gdbstub.c                   |   22 +-
  target/arm/helper.c                    |    2 +-
  target/arm/kvm64.c                     |   77 ++
  target/arm/neon_helper.c               |   17 -
  target/arm/tlb_helper.c                |    2 +-
  target/arm/translate-a64.c             |  210 +--
  target/arm/translate-neon.inc.c        |  682 +++++++++-
  target/arm/translate.c                 | 2349 +++++++++++++++++---------------
  target/arm/vec_helper.c                |  240 +++-
  target/arm/vfp_helper.c                |    9 +-
  target/i386/kvm.c                      |   36 -
  MAINTAINERS                            |    9 +
  gdb-xml/arm-m-profile.xml              |   27 +
  hw/acpi/Kconfig                        |    4 +
  hw/acpi/Makefile.objs                  |    1 +
 files changed, 3402 insertions(+), 1445 deletions(-)
  create mode 100644 docs/specs/acpi_hest_ghes.rst
  create mode 100644 include/hw/acpi/ghes.h
  create mode 100644 hw/acpi/ghes.c
  create mode 100644 gdb-xml/arm-m-profile.xml

-[PULL 01/45] target/arm: Use correct GDB XML for M-profile cores
+Deleted patch
-GDB's remote protocol requires M-profile cores to use the feature
-name 'org.gnu.gdb.arm.m-profile' instead of the 'org.gnu.gdb.arm.core'
-feature used for A- and R-profile cores. We weren't doing this, which
-meant GDB treated our M-profile cores like A-profile ones. This mostly
-doesn't matter, but for instance means that it doesn't correctly
-handle backtraces where an M-profile exception frame is involved.
-Ship a copy of GDB's arm-m-profile.xml and use it on the M-profile
-cores.  The integer registers have the same offsets as the
-arm-core.xml, but register 25 is the M-profile XPSR rather than the
-A-profile CPSR, so we need to update arm_cpu_gdb_read_register() and
-arm_cpu_gdb_write_register() to handle XSPR reads and writes.
-Fixes: https://bugs.launchpad.net/qemu/+bug/1877136
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Message-id: 20200507134755.13997-1-peter.maydell@linaro.org
----
- configure                 |  4 ++--
- target/arm/cpu_tcg.c      |  1 +
- target/arm/gdbstub.c      | 22 ++++++++++++++++++----
- gdb-xml/arm-m-profile.xml | 27 +++++++++++++++++++++++++++
-files changed, 48 insertions(+), 6 deletions(-)
- create mode 100644 gdb-xml/arm-m-profile.xml
-diff --git a/configure b/configure
-index XXXXXXX..XXXXXXX 100755
---- a/configure
-+++ b/configure
-@@ -XXX,XX +XXX,XX @@ case "$target_name" in
-     TARGET_SYSTBL_ABI=common,oabi
-     bflt="yes"
-     mttcg="yes"
--    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
-+    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
-   ;;
-   aarch64|aarch64_be)
-     TARGET_ARCH=aarch64
-     TARGET_BASE_ARCH=arm
-     bflt="yes"
-     mttcg="yes"
--    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
-+    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
-   ;;
-   cris)
-   ;;
-diff --git a/target/arm/cpu_tcg.c b/target/arm/cpu_tcg.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu_tcg.c
-+++ b/target/arm/cpu_tcg.c
-@@ -XXX,XX +XXX,XX @@ static void arm_v7m_class_init(ObjectClass *oc, void *data)
- #endif
-     cc->cpu_exec_interrupt = arm_v7m_cpu_exec_interrupt;
-+    cc->gdb_core_xml_file = "arm-m-profile.xml";
- }
- static const ARMCPUInfo arm_tcg_cpus[] = {
-diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/gdbstub.c
-+++ b/target/arm/gdbstub.c
-@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
-         }
-         return gdb_get_reg32(mem_buf, 0);
-     case 25:
--        /* CPSR */
--        return gdb_get_reg32(mem_buf, cpsr_read(env));
-+        /* CPSR, or XPSR for M-profile */
-+        if (arm_feature(env, ARM_FEATURE_M)) {
-+            return gdb_get_reg32(mem_buf, xpsr_read(env));
-+        } else {
-+            return gdb_get_reg32(mem_buf, cpsr_read(env));
-+        }
-     }
-     /* Unknown register.  */
-     return 0;
-@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
-         }
-         return 4;
-     case 25:
--        /* CPSR */
--        cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
-+        /* CPSR, or XPSR for M-profile */
-+        if (arm_feature(env, ARM_FEATURE_M)) {
-+            /*
-+             * Don't allow writing to XPSR.Exception as it can cause
-+             * a transition into or out of handler mode (it's not
-+             * writeable via the MSR insn so this is a reasonable
-+             * restriction). Other fields are safe to update.
-+             */
-+            xpsr_write(env, tmp, ~XPSR_EXCP);
-+        } else {
-+            cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
-+        }
-         return 4;
-     }
-     /* Unknown register.  */
-diff --git a/gdb-xml/arm-m-profile.xml b/gdb-xml/arm-m-profile.xml
-new file mode 100644
-index XXXXXXX..XXXXXXX
---- /dev/null
-+++ b/gdb-xml/arm-m-profile.xml
-@@ -XXX,XX +XXX,XX @@
-+<?xml version="1.0"?>
-+<!-- Copyright (C) 2010-2020 Free Software Foundation, Inc.
-+
-+     Copying and distribution of this file, with or without modification,
-+     are permitted in any medium without royalty provided the copyright
-+     notice and this notice are preserved.  -->
-+
-+<!DOCTYPE feature SYSTEM "gdb-target.dtd">
-+<feature name="org.gnu.gdb.arm.m-profile">
-+  <reg name="r0" bitsize="32"/>
-+  <reg name="r1" bitsize="32"/>
-+  <reg name="r2" bitsize="32"/>
-+  <reg name="r3" bitsize="32"/>
-+  <reg name="r4" bitsize="32"/>
-+  <reg name="r5" bitsize="32"/>
-+  <reg name="r6" bitsize="32"/>
-+  <reg name="r7" bitsize="32"/>
-+  <reg name="r8" bitsize="32"/>
-+  <reg name="r9" bitsize="32"/>
-+  <reg name="r10" bitsize="32"/>
-+  <reg name="r11" bitsize="32"/>
-+  <reg name="r12" bitsize="32"/>
-+  <reg name="sp" bitsize="32" type="data_ptr"/>
-+  <reg name="lr" bitsize="32"/>
-+  <reg name="pc" bitsize="32" type="code_ptr"/>
-+  <reg name="xpsr" bitsize="32" regnum="25"/>
-+</feature>
---
-.20.1

-[PULL 13/45] target/arm: Create gen_gvec_{qrdmla,qrdmls}
+[PULL 01/24] docs/system/arm: Add quanta-q7l1-bmc reference
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Patrick Venture <venture@google.com>
-Provide a functional interface for the vector expansion.
+Adds a line-item reference to the supported quanta-q71l-bmc aspeed
-This fits better with the existing set of helpers that
+entry.
 we provide for other operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Signed-off-by: Patrick Venture <venture@google.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Cédric Le Goater <clg@kaod.org>
-Message-id: 20200513163245.17915-13-richard.henderson@linaro.org
+Message-id: 20210615192848.1065297-2-venture@google.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.h     |  5 ++++
+ docs/system/arm/aspeed.rst | 1 +
- target/arm/translate-a64.c | 34 ++----------------------
+file changed, 1 insertion(+)
  target/arm/translate.c     | 54 +++++++++++++++++++-------------------
 files changed, 34 insertions(+), 59 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/docs/system/arm/aspeed.rst b/docs/system/arm/aspeed.rst
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/docs/system/arm/aspeed.rst
-+++ b/target/arm/translate.h
++++ b/docs/system/arm/aspeed.rst
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+@@ -XXX,XX +XXX,XX @@ etc.
- void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ AST2400 SoC based machines :
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+ - ``palmetto-bmc``         OpenPOWER Palmetto POWER8 BMC
-+void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++- ``quanta-q71l-bmc``      OpenBMC Quanta BMC
-+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ AST2500 SoC based machines :
 +                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_gvec_op3_ool(DisasContext *s, bool is_q, int rd,
                         is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
  }
 -/* Expand a 3-operand + env pointer operation using
 - * an out-of-line helper.
 - */
 -static void gen_gvec_op3_env(DisasContext *s, bool is_q, int rd,
 -                             int rn, int rm, gen_helper_gvec_3_ptr *fn)
 -{
 -    tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 -                       vec_full_reg_offset(s, rn),
 -                       vec_full_reg_offset(s, rm), cpu_env,
 -                       is_q ? 16 : 8, vec_full_reg_size(s), 0, fn);
 -}
 -
  /* Expand a 3-operand + fpstatus pointer + simd data value operation using
   * an out-of-line helper.
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
      switch (opcode) {
      case 0x0: /* SQRDMLAH (vector) */
 -        switch (size) {
 -        case 1:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlah_s16);
 -            break;
 -        case 2:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlah_s32);
 -            break;
 -        default:
 -            g_assert_not_reached();
 -        }
 +        gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlah_qc, size);
          return;
      case 0x1: /* SQRDMLSH (vector) */
 -        switch (size) {
 -        case 1:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlsh_s16);
 -            break;
 -        case 2:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlsh_s32);
 -            break;
 -        default:
 -            g_assert_not_reached();
 -        }
 +        gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlsh_qc, size);
          return;
      case 0x2: /* SDOT / UDOT */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static const uint8_t neon_2rm_sizes[] = {
      [NEON_2RM_VCVT_UF] = 0x4,
  };
 -
 -/* Expand v8.1 simd helper.  */
 -static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
 -                         int q, int rd, int rn, int rm)
 +void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
  {
 -    if (dc_isar_feature(aa32_rdm, s)) {
 -        int opr_sz = (1 + q) * 8;
 -        tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd),
 -                           vfp_reg_offset(1, rn),
 -                           vfp_reg_offset(1, rm), cpu_env,
 -                           opr_sz, opr_sz, 0, fn);
 -        return 0;
 -    }
 -    return 1;
 +    static gen_helper_gvec_3_ptr * const fns[2] = {
 +        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
 +    };
 +    tcg_debug_assert(vece >= 1 && vece <= 2);
 +    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
 +                       opr_sz, max_sz, 0, fns[vece - 1]);
 +}
 +
 +void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3_ptr * const fns[2] = {
 +        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
 +    };
 +    tcg_debug_assert(vece >= 1 && vece <= 2);
 +    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
 +                       opr_sz, max_sz, 0, fns[vece - 1]);
  }
  #define GEN_CMP0(NAME, COND)                                            \
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  break;  /* VPADD */
              }
              /* VQRDMLAH */
 -            switch (size) {
 -            case 1:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlah_s16,
 -                                     q, rd, rn, rm);
 -            case 2:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlah_s32,
 -                                     q, rd, rn, rm);
 +            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
 +                gen_gvec_sqrdmlah_qc(size, rd_ofs, rn_ofs, rm_ofs,
 +                                     vec_size, vec_size);
 +                return 0;
              }
              return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  break;
              }
              /* VQRDMLSH */
 -            switch (size) {
 -            case 1:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlsh_s16,
 -                                     q, rd, rn, rm);
 -            case 2:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlsh_s32,
 -                                     q, rd, rn, rm);
 +            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
 +                gen_gvec_sqrdmlsh_qc(size, rd_ofs, rn_ofs, rm_ofs,
 +                                     vec_size, vec_size);
 +                return 0;
              }
              return 1;
 --
 .20.1

-[PULL 28/45] MAINTAINERS: Add ACPI/HEST/GHES entries
+[PULL 02/24] docs/system/arm: Add quanta-gbs-bmc reference
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: Patrick Venture <venture@google.com>
-I and Xiang are willing to review the APEI-related patches and
+Add line item reference to quanta-gbs-bmc machine.
 volunteer as the reviewers for the HEST/GHES part.
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
+Signed-off-by: Patrick Venture <venture@google.com>
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
+Reviewed-by: Cédric Le Goater <clg@kaod.org>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
+Message-id: 20210615192848.1065297-3-venture@google.com
-Acked-by: Michael S. Tsirkin <mst@redhat.com>
+[PMM: fixed underline Sphinx warning]
 Message-id: 20200512030609.19593-11-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- MAINTAINERS | 9 +++++++++
+ docs/system/arm/nuvoton.rst | 5 +++--
-file changed, 9 insertions(+)
+file changed, 3 insertions(+), 2 deletions(-)
-diff --git a/MAINTAINERS b/MAINTAINERS
+diff --git a/docs/system/arm/nuvoton.rst b/docs/system/arm/nuvoton.rst
 index XXXXXXX..XXXXXXX 100644
---- a/MAINTAINERS
+--- a/docs/system/arm/nuvoton.rst
-+++ b/MAINTAINERS
++++ b/docs/system/arm/nuvoton.rst
-@@ -XXX,XX +XXX,XX @@ F: tests/qtest/bios-tables-test.c
+@@ -XXX,XX +XXX,XX @@
- F: tests/qtest/acpi-utils.[hc]
+-Nuvoton iBMC boards (``npcm750-evb``, ``quanta-gsj``)
- F: tests/data/acpi/
+-=====================================================
++Nuvoton iBMC boards (``*-bmc``, ``npcm750-evb``, ``quanta-gsj``)
-+ACPI/HEST/GHES
++================================================================
-+R: Dongjiu Geng <gengdongjiu@huawei.com>
-+R: Xiang Zheng <zhengxiang9@huawei.com>
+ The `Nuvoton iBMC`_ chips (NPCM7xx) are a family of ARM-based SoCs that are
-+L: qemu-arm@nongnu.org
+ designed to be used as Baseboard Management Controllers (BMCs) in various
-+S: Maintained
+@@ -XXX,XX +XXX,XX @@ segment. The following machines are based on this chip :
-+F: hw/acpi/ghes.c
+ The NPCM730 SoC has two Cortex-A9 cores and is targeted for Data Center and
-+F: include/hw/acpi/ghes.h
+ Hyperscale applications. The following machines are based on this chip :
-+F: docs/specs/acpi_hest_ghes.rst
-+
++- ``quanta-gbs-bmc``    Quanta GBS server BMC
- ppc4xx
+ - ``quanta-gsj``        Quanta GSJ server BMC
- M: David Gibson <david@gibson.dropbear.id.au>
- L: qemu-ppc@nongnu.org
+ There are also two more SoCs, NPCM710 and NPCM705, which are single-core
 --
 .20.1

-[PULL 22/45] ACPI: Build related register address fields via hardware error fw_cfg blob
+[PULL 03/24] hw/arm: Add basic power management to raspi.
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: Nolan Leake <nolan@sigbus.net>
-This patch builds error_block_address and read_ack_register fields
+This is just enough to make reboot and poweroff work. Works for
-in hardware errors table , the error_block_address points to Generic
+linux, u-boot, and the arm trusted firmware. Not tested, but should
-Error Status Block(GESB) via bios_linker. The max size for one GESB
+work for plan9, and bare-metal/hobby OSes, since they seem to generally
-is 1kb, For more detailed information, please refer to
+do what linux does for reset.
-document: docs/specs/acpi_hest_ghes.rst
+The watchdog timer functionality is not yet implemented.
-Now we only support one Error source, if necessary, we can extend to
-support more.
+Resolves: https://gitlab.com/qemu-project/qemu/-/issues/64
+Signed-off-by: Nolan Leake <nolan@sigbus.net>
-Suggested-by: Laszlo Ersek <lersek@redhat.com>
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
+Tested-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Reviewed-by: Jonathan Cameron <Jonathan.Cameron@huawei.com>
+Message-id: 20210625210209.1870217-1-nolan@sigbus.net
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
+[PMM: tweaked commit title; fixed region size to 0x200;
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
+ moved header file to include/]
 Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
 Message-id: 20200512030609.19593-5-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- default-configs/arm-softmmu.mak |  1 +
+ include/hw/arm/bcm2835_peripherals.h |   3 +-
- include/hw/acpi/aml-build.h     |  1 +
+ include/hw/misc/bcm2835_powermgt.h   |  29 +++++
- include/hw/acpi/ghes.h          | 28 +++++++++++
+ hw/arm/bcm2835_peripherals.c         |  13 ++-
- hw/acpi/aml-build.c             |  2 +
+ hw/misc/bcm2835_powermgt.c           | 160 +++++++++++++++++++++++++++
- hw/acpi/ghes.c                  | 89 +++++++++++++++++++++++++++++++++
+ hw/misc/meson.build                  |   1 +
- hw/arm/virt-acpi-build.c        |  5 ++
+files changed, 204 insertions(+), 2 deletions(-)
- hw/acpi/Kconfig                 |  4 ++
+ create mode 100644 include/hw/misc/bcm2835_powermgt.h
- hw/acpi/Makefile.objs           |  1 +
+ create mode 100644 hw/misc/bcm2835_powermgt.c
-files changed, 131 insertions(+)
- create mode 100644 include/hw/acpi/ghes.h
+diff --git a/include/hw/arm/bcm2835_peripherals.h b/include/hw/arm/bcm2835_peripherals.h
  create mode 100644 hw/acpi/ghes.c
 diff --git a/default-configs/arm-softmmu.mak b/default-configs/arm-softmmu.mak
 index XXXXXXX..XXXXXXX 100644
---- a/default-configs/arm-softmmu.mak
+--- a/include/hw/arm/bcm2835_peripherals.h
-+++ b/default-configs/arm-softmmu.mak
++++ b/include/hw/arm/bcm2835_peripherals.h
-@@ -XXX,XX +XXX,XX @@ CONFIG_FSL_IMX7=y
+@@ -XXX,XX +XXX,XX @@
- CONFIG_FSL_IMX6UL=y
+ #include "hw/misc/bcm2835_mphi.h"
- CONFIG_SEMIHOSTING=y
+ #include "hw/misc/bcm2835_thermal.h"
- CONFIG_ALLWINNER_H3=y
+ #include "hw/misc/bcm2835_cprman.h"
-+CONFIG_ACPI_APEI=y
++#include "hw/misc/bcm2835_powermgt.h"
-diff --git a/include/hw/acpi/aml-build.h b/include/hw/acpi/aml-build.h
+ #include "hw/sd/sdhci.h"
-index XXXXXXX..XXXXXXX 100644
+ #include "hw/sd/bcm2835_sdhost.h"
---- a/include/hw/acpi/aml-build.h
+ #include "hw/gpio/bcm2835_gpio.h"
-+++ b/include/hw/acpi/aml-build.h
+@@ -XXX,XX +XXX,XX @@ struct BCM2835PeripheralState {
-@@ -XXX,XX +XXX,XX @@ struct AcpiBuildTables {
+     BCM2835MphiState mphi;
-     GArray *rsdp;
+     UnimplementedDeviceState txp;
-     GArray *tcpalog;
+     UnimplementedDeviceState armtmr;
-     GArray *vmgenid;
+-    UnimplementedDeviceState powermgt;
-+    GArray *hardware_errors;
++    BCM2835PowerMgtState powermgt;
-     BIOSLinker *linker;
+     BCM2835CprmanState cprman;
- } AcpiBuildTables;
+     PL011State uart0;
+     BCM2835AuxState aux;
-diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
+diff --git a/include/hw/misc/bcm2835_powermgt.h b/include/hw/misc/bcm2835_powermgt.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/include/hw/acpi/ghes.h
++++ b/include/hw/misc/bcm2835_powermgt.h
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Support for generating APEI tables and recording CPER for Guests
++ * BCM2835 Power Management emulation
 + *
-+ * Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
++ * Copyright (C) 2017 Marcin Chojnacki <marcinch7@gmail.com>
-+ *
++ * Copyright (C) 2021 Nolan Leake <nolan@sigbus.net>
-+ * Author: Dongjiu Geng <gengdongjiu@huawei.com>
++ *
-+ *
++ * This work is licensed under the terms of the GNU GPL, version 2 or later.
-+ * This program is free software; you can redistribute it and/or modify
++ * See the COPYING file in the top-level directory.
 + * it under the terms of the GNU General Public License as published by
 + * the Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 +
 + * This program is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 + * GNU General Public License for more details.
 +
 + * You should have received a copy of the GNU General Public License along
 + * with this program; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
-+#ifndef ACPI_GHES_H
++#ifndef BCM2835_POWERMGT_H
-+#define ACPI_GHES_H
++#define BCM2835_POWERMGT_H
 +
-+#include "hw/acpi/bios-linker-loader.h"
++#include "hw/sysbus.h"
-+
++#include "qom/object.h"
-+void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
++
 +#define TYPE_BCM2835_POWERMGT "bcm2835-powermgt"
 +OBJECT_DECLARE_SIMPLE_TYPE(BCM2835PowerMgtState, BCM2835_POWERMGT)
 +
 +struct BCM2835PowerMgtState {
 +    SysBusDevice busdev;
 +    MemoryRegion iomem;
 +
 +    uint32_t rstc;
 +    uint32_t rsts;
 +    uint32_t wdog;
 +};
 +
 +#endif
-diff --git a/hw/acpi/aml-build.c b/hw/acpi/aml-build.c
+diff --git a/hw/arm/bcm2835_peripherals.c b/hw/arm/bcm2835_peripherals.c
 index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/aml-build.c
+--- a/hw/arm/bcm2835_peripherals.c
-+++ b/hw/acpi/aml-build.c
++++ b/hw/arm/bcm2835_peripherals.c
-@@ -XXX,XX +XXX,XX @@ void acpi_build_tables_init(AcpiBuildTables *tables)
+@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_init(Object *obj)
-     tables->table_data = g_array_new(false, true /* clear */, 1);
-     tables->tcpalog = g_array_new(false, true /* clear */, 1);
+     object_property_add_const_link(OBJECT(&s->dwc2), "dma-mr",
-     tables->vmgenid = g_array_new(false, true /* clear */, 1);
+                                    OBJECT(&s->gpu_bus_mr));
-+    tables->hardware_errors = g_array_new(false, true /* clear */, 1);
++
-     tables->linker = bios_linker_loader_init();
++    /* Power Management */
 +    object_initialize_child(obj, "powermgt", &s->powermgt,
 +                            TYPE_BCM2835_POWERMGT);
  }
-@@ -XXX,XX +XXX,XX @@ void acpi_build_tables_cleanup(AcpiBuildTables *tables, bool mfre)
+ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
-     g_array_free(tables->table_data, true);
+@@ -XXX,XX +XXX,XX @@ static void bcm2835_peripherals_realize(DeviceState *dev, Error **errp)
-     g_array_free(tables->tcpalog, mfre);
+         qdev_get_gpio_in_named(DEVICE(&s->ic), BCM2835_IC_GPU_IRQ,
-     g_array_free(tables->vmgenid, mfre);
+                                INTERRUPT_USB));
-+    g_array_free(tables->hardware_errors, mfre);
- }
++    /* Power Management */
++    if (!sysbus_realize(SYS_BUS_DEVICE(&s->powermgt), errp)) {
- /*
++        return;
-diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
++    }
 +
 +    memory_region_add_subregion(&s->peri_mr, PM_OFFSET,
 +                sysbus_mmio_get_region(SYS_BUS_DEVICE(&s->powermgt), 0));
 +
      create_unimp(s, &s->txp, "bcm2835-txp", TXP_OFFSET, 0x1000);
      create_unimp(s, &s->armtmr, "bcm2835-sp804", ARMCTRL_TIMER0_1_OFFSET, 0x40);
 -    create_unimp(s, &s->powermgt, "bcm2835-powermgt", PM_OFFSET, 0x114);
      create_unimp(s, &s->i2s, "bcm2835-i2s", I2S_OFFSET, 0x100);
      create_unimp(s, &s->smi, "bcm2835-smi", SMI_OFFSET, 0x100);
      create_unimp(s, &s->spi[0], "bcm2835-spi0", SPI0_OFFSET, 0x20);
 diff --git a/hw/misc/bcm2835_powermgt.c b/hw/misc/bcm2835_powermgt.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/hw/acpi/ghes.c
++++ b/hw/misc/bcm2835_powermgt.c
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Support for generating APEI tables and recording CPER for Guests
++ * BCM2835 Power Management emulation
 + *
-+ * Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
++ * Copyright (C) 2017 Marcin Chojnacki <marcinch7@gmail.com>
-+ *
++ * Copyright (C) 2021 Nolan Leake <nolan@sigbus.net>
-+ * Author: Dongjiu Geng <gengdongjiu@huawei.com>
++ *
-+ *
++ * This work is licensed under the terms of the GNU GPL, version 2 or later.
-+ * This program is free software; you can redistribute it and/or modify
++ * See the COPYING file in the top-level directory.
 + * it under the terms of the GNU General Public License as published by
 + * the Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 +
 + * This program is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 + * GNU General Public License for more details.
 +
 + * You should have received a copy of the GNU General Public License along
 + * with this program; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
-+#include "qemu/units.h"
++#include "qemu/log.h"
-+#include "hw/acpi/ghes.h"
++#include "qemu/module.h"
-+#include "hw/acpi/aml-build.h"
++#include "hw/misc/bcm2835_powermgt.h"
-+
++#include "migration/vmstate.h"
-+#define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
++#include "sysemu/runstate.h"
-+#define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
++
-+
++#define PASSWORD 0x5a000000
-+/* The max size in bytes for one error block */
++#define PASSWORD_MASK 0xff000000
-+#define ACPI_GHES_MAX_RAW_DATA_LENGTH   (1 * KiB)
++
-+
++#define R_RSTC 0x1c
-+/* Now only support ARMv8 SEA notification type error source */
++#define V_RSTC_RESET 0x20
-+#define ACPI_GHES_ERROR_SOURCE_COUNT        1
++#define R_RSTS 0x20
-+
++#define V_RSTS_POWEROFF 0x555 /* Linux uses partition 63 to indicate halt. */
-+/*
++#define R_WDOG 0x24
-+ * Build table for the hardware error fw_cfg blob.
++
-+ * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
++static uint64_t bcm2835_powermgt_read(void *opaque, hwaddr offset,
-+ * See docs/specs/acpi_hest_ghes.rst for blobs format.
++                                      unsigned size)
-+ */
++{
-+void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker)
++    BCM2835PowerMgtState *s = (BCM2835PowerMgtState *)opaque;
-+{
++    uint32_t res = 0;
-+    int i, error_status_block_offset;
++
-+
++    switch (offset) {
-+    /* Build error_block_address */
++    case R_RSTC:
-+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
++        res = s->rstc;
-+        build_append_int_noprefix(hardware_errors, 0, sizeof(uint64_t));
++        break;
-+    }
++    case R_RSTS:
-+
++        res = s->rsts;
-+    /* Build read_ack_register */
++        break;
-+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
++    case R_WDOG:
-+        /*
++        res = s->wdog;
-+         * Initialize the value of read_ack_register to 1, so GHES can be
++        break;
-+         * writeable after (re)boot.
++
-+         * ACPI 6.2: 18.3.2.8 Generic Hardware Error Source version 2
++    default:
-+         * (GHESv2 - Type 10)
++        qemu_log_mask(LOG_UNIMP,
-+         */
++                      "bcm2835_powermgt_read: Unknown offset 0x%08"HWADDR_PRIx
-+        build_append_int_noprefix(hardware_errors, 1, sizeof(uint64_t));
++                      "\n", offset);
-+    }
++        res = 0;
-+
++        break;
-+    /* Generic Error Status Block offset in the hardware error fw_cfg blob */
++    }
-+    error_status_block_offset = hardware_errors->len;
++
-+
++    return res;
-+    /* Reserve space for Error Status Data Block */
++}
-+    acpi_data_push(hardware_errors,
++
-+        ACPI_GHES_MAX_RAW_DATA_LENGTH * ACPI_GHES_ERROR_SOURCE_COUNT);
++static void bcm2835_powermgt_write(void *opaque, hwaddr offset,
-+
++                                   uint64_t value, unsigned size)
-+    /* Tell guest firmware to place hardware_errors blob into RAM */
++{
-+    bios_linker_loader_alloc(linker, ACPI_GHES_ERRORS_FW_CFG_FILE,
++    BCM2835PowerMgtState *s = (BCM2835PowerMgtState *)opaque;
-+                             hardware_errors, sizeof(uint64_t), false);
++
-+
++    if ((value & PASSWORD_MASK) != PASSWORD) {
-+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
++        qemu_log_mask(LOG_GUEST_ERROR,
-+        /*
++                      "bcm2835_powermgt_write: Bad password 0x%"PRIx64
-+         * Tell firmware to patch error_block_address entries to point to
++                      " at offset 0x%08"HWADDR_PRIx"\n",
-+         * corresponding "Generic Error Status Block"
++                      value, offset);
-+         */
++        return;
-+        bios_linker_loader_add_pointer(linker,
++    }
-+            ACPI_GHES_ERRORS_FW_CFG_FILE, sizeof(uint64_t) * i,
++
-+            sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE,
++    value = value & ~PASSWORD_MASK;
-+            error_status_block_offset + i * ACPI_GHES_MAX_RAW_DATA_LENGTH);
++
-+    }
++    switch (offset) {
-+
++    case R_RSTC:
-+    /*
++        s->rstc = value;
-+     * tell firmware to write hardware_errors GPA into
++        if (value & V_RSTC_RESET) {
-+     * hardware_errors_addr fw_cfg, once the former has been initialized.
++            if ((s->rsts & 0xfff) == V_RSTS_POWEROFF) {
-+     */
++                qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
-+    bios_linker_loader_write_pointer(linker, ACPI_GHES_DATA_ADDR_FW_CFG_FILE,
++            } else {
-+        0, sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE, 0);
++                qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_RESET);
-+}
++            }
-diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
++        }
 +        break;
 +    case R_RSTS:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: RSTS\n");
 +        s->rsts = value;
 +        break;
 +    case R_WDOG:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: WDOG\n");
 +        s->wdog = value;
 +        break;
 +
 +    default:
 +        qemu_log_mask(LOG_UNIMP,
 +                      "bcm2835_powermgt_write: Unknown offset 0x%08"HWADDR_PRIx
 +                      "\n", offset);
 +        break;
 +    }
 +}
 +
 +static const MemoryRegionOps bcm2835_powermgt_ops = {
 +    .read = bcm2835_powermgt_read,
 +    .write = bcm2835_powermgt_write,
 +    .endianness = DEVICE_NATIVE_ENDIAN,
 +    .impl.min_access_size = 4,
 +    .impl.max_access_size = 4,
 +};
 +
 +static const VMStateDescription vmstate_bcm2835_powermgt = {
 +    .name = TYPE_BCM2835_POWERMGT,
 +    .version_id = 1,
 +    .minimum_version_id = 1,
 +    .fields = (VMStateField[]) {
 +        VMSTATE_UINT32(rstc, BCM2835PowerMgtState),
 +        VMSTATE_UINT32(rsts, BCM2835PowerMgtState),
 +        VMSTATE_UINT32(wdog, BCM2835PowerMgtState),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
 +static void bcm2835_powermgt_init(Object *obj)
 +{
 +    BCM2835PowerMgtState *s = BCM2835_POWERMGT(obj);
 +
 +    memory_region_init_io(&s->iomem, obj, &bcm2835_powermgt_ops, s,
 +                          TYPE_BCM2835_POWERMGT, 0x200);
 +    sysbus_init_mmio(SYS_BUS_DEVICE(s), &s->iomem);
 +}
 +
 +static void bcm2835_powermgt_reset(DeviceState *dev)
 +{
 +    BCM2835PowerMgtState *s = BCM2835_POWERMGT(dev);
 +
 +    /* https://elinux.org/BCM2835_registers#PM */
 +    s->rstc = 0x00000102;
 +    s->rsts = 0x00001000;
 +    s->wdog = 0x00000000;
 +}
 +
 +static void bcm2835_powermgt_class_init(ObjectClass *klass, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +
 +    dc->reset = bcm2835_powermgt_reset;
 +    dc->vmsd = &vmstate_bcm2835_powermgt;
 +}
 +
 +static TypeInfo bcm2835_powermgt_info = {
 +    .name          = TYPE_BCM2835_POWERMGT,
 +    .parent        = TYPE_SYS_BUS_DEVICE,
 +    .instance_size = sizeof(BCM2835PowerMgtState),
 +    .class_init    = bcm2835_powermgt_class_init,
 +    .instance_init = bcm2835_powermgt_init,
 +};
 +
 +static void bcm2835_powermgt_register_types(void)
 +{
 +    type_register_static(&bcm2835_powermgt_info);
 +}
 +
 +type_init(bcm2835_powermgt_register_types)
 diff --git a/hw/misc/meson.build b/hw/misc/meson.build
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt-acpi-build.c
+--- a/hw/misc/meson.build
-+++ b/hw/arm/virt-acpi-build.c
++++ b/hw/misc/meson.build
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_RASPI', if_true: files(
- #include "sysemu/reset.h"
+   'bcm2835_rng.c',
- #include "kvm_arm.h"
+   'bcm2835_thermal.c',
- #include "migration/vmstate.h"
+   'bcm2835_cprman.c',
-+#include "hw/acpi/ghes.h"
++  'bcm2835_powermgt.c',
+ ))
- #define ARM_SPI_BASE 32
+ softmmu_ss.add(when: 'CONFIG_SLAVIO', if_true: files('slavio_misc.c'))
+ softmmu_ss.add(when: 'CONFIG_ZYNQ', if_true: files('zynq_slcr.c', 'zynq-xadc.c'))
@@ -XXX,XX +XXX,XX @@ void virt_acpi_build(VirtMachineState *vms, AcpiBuildTables *tables)
      acpi_add_table(table_offsets, tables_blob);
      build_spcr(tables_blob, tables->linker, vms);
 +    if (vms->ras) {
 +        build_ghes_error_table(tables->hardware_errors, tables->linker);
 +    }
 +
      if (ms->numa_state->num_nodes > 0) {
          acpi_add_table(table_offsets, tables_blob);
          build_srat(tables_blob, tables->linker, vms);
 diff --git a/hw/acpi/Kconfig b/hw/acpi/Kconfig
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/acpi/Kconfig
 +++ b/hw/acpi/Kconfig
@@ -XXX,XX +XXX,XX @@ config ACPI_HMAT
      bool
      depends on ACPI
 +config ACPI_APEI
 +    bool
 +    depends on ACPI
 +
  config ACPI_PCI
      bool
      depends on ACPI && PCI
 diff --git a/hw/acpi/Makefile.objs b/hw/acpi/Makefile.objs
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/acpi/Makefile.objs
 +++ b/hw/acpi/Makefile.objs
@@ -XXX,XX +XXX,XX @@ common-obj-$(CONFIG_ACPI_NVDIMM) += nvdimm.o
  common-obj-$(CONFIG_ACPI_VMGENID) += vmgenid.o
  common-obj-$(CONFIG_ACPI_HW_REDUCED) += generic_event_device.o
  common-obj-$(CONFIG_ACPI_HMAT) += hmat.o
 +common-obj-$(CONFIG_ACPI_APEI) += ghes.o
  common-obj-$(call lnot,$(CONFIG_ACPI_X86)) += acpi-stub.o
  common-obj-$(call lnot,$(CONFIG_PC)) += acpi-x86-stub.o
 --
 .20.1

-[PULL 27/45] target-arm: kvm64: handle SIGBUS signal from kernel or KVM
+[PULL 04/24] tests: Boot and halt a Linux guest on the Raspberry Pi 2 machine
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: Philippe Mathieu-Daudé <f4bug@amsat.org>
-Add a SIGBUS signal handler. In this handler, it checks the SIGBUS type,
+Add a test booting and quickly shutdown a raspi2 machine,
-translates the host VA delivered by host to guest PA, then fills this PA
+to test the power management model:
 to guest APEI GHES memory, then notifies guest according to the SIGBUS
 type.
-When guest accesses the poisoned memory, it will generate a Synchronous
+   (1/1) tests/acceptance/boot_linux_console.py:BootLinuxConsole.test_arm_raspi2_initrd:
-External Abort(SEA). Then host kernel gets an APEI notification and calls
+  console: [    0.000000] Booting Linux on physical CPU 0xf00
-memory_failure() to unmapped the affected page in stage 2, finally
+  console: [    0.000000] Linux version 4.14.98-v7+ (dom@dom-XPS-13-9370) (gcc version 4.9.3 (crosstool-NG crosstool-ng-1.22.0-88-g8460611)) #1200 SMP Tue Feb 12 20:27:48 GMT 2019
-returns to guest.
+  console: [    0.000000] CPU: ARMv7 Processor [410fc075] revision 5 (ARMv7), cr=10c5387d
   console: [    0.000000] CPU: div instructions available: patching division code
   console: [    0.000000] CPU: PIPT / VIPT nonaliasing data cache, VIPT aliasing instruction cache
   console: [    0.000000] OF: fdt: Machine model: Raspberry Pi 2 Model B
   ...
   console: Boot successful.
   console: cat /proc/cpuinfo
   console: / # cat /proc/cpuinfo
   ...
   console: processor      : 3
   console: model name     : ARMv7 Processor rev 5 (v7l)
   console: BogoMIPS       : 125.00
   console: Features       : half thumb fastmult vfp edsp neon vfpv3 tls vfpv4 idiva idivt vfpd32 lpae evtstrm
   console: CPU implementer        : 0x41
   console: CPU architecture: 7
   console: CPU variant    : 0x0
   console: CPU part       : 0xc07
   console: CPU revision   : 5
   console: Hardware       : BCM2835
   console: Revision       : 0000
   console: Serial         : 0000000000000000
   console: cat /proc/iomem
   console: / # cat /proc/iomem
   console: 00000000-3bffffff : System RAM
   console: 00008000-00afffff : Kernel code
   console: 00c00000-00d468ef : Kernel data
   console: 3f006000-3f006fff : dwc_otg
   console: 3f007000-3f007eff : /soc/dma@7e007000
   console: 3f00b880-3f00b8bf : /soc/mailbox@7e00b880
   console: 3f100000-3f100027 : /soc/watchdog@7e100000
   console: 3f101000-3f102fff : /soc/cprman@7e101000
   console: 3f200000-3f2000b3 : /soc/gpio@7e200000
   PASS (24.59 s)
   RESULTS    : PASS 1 | ERROR 0 | FAIL 0 | SKIP 0 | WARN 0 | INTERRUPT 0 | CANCEL 0
   JOB TIME   : 25.02 s
-Guest continues to access the PG_hwpoison page, it will trap to KVM as
+Signed-off-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
-stage2 fault, then a SIGBUS_MCEERR_AR synchronous signal is delivered to
+Reviewed-by: Wainer dos Santos Moschetta <wainersm@redhat.com>
-Qemu, Qemu records this error address into guest APEI GHES memory and
+Message-id: 20210531113837.1689775-1-f4bug@amsat.org
 notifes guest using Synchronous-External-Abort(SEA).
 In order to inject a vSEA, we introduce the kvm_inject_arm_sea() function
 in which we can setup the type of exception and the syndrome information.
 When switching to guest, the target vcpu will jump to the synchronous
 external abort vector table entry.
 The ESR_ELx.DFSC is set to synchronous external abort(0x10), and the
 ESR_ELx.FnV is set to not valid(0x1), which will tell guest that FAR is
 not valid and hold an UNKNOWN value. These values will be set to KVM
 register structures through KVM_SET_ONE_REG IOCTL.
 Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
 Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
 Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
 Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Igor Mammedov <imammedo@redhat.com>
 Message-id: 20200512030609.19593-10-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/sysemu/kvm.h    |  3 +-
+ tests/acceptance/boot_linux_console.py | 43 ++++++++++++++++++++++++++
- target/arm/cpu.h        |  4 +++
+file changed, 43 insertions(+)
  target/arm/internals.h  |  5 +--
  target/i386/cpu.h       |  2 ++
  target/arm/helper.c     |  2 +-
  target/arm/kvm64.c      | 77 +++++++++++++++++++++++++++++++++++++++++
  target/arm/tlb_helper.c |  2 +-
 files changed, 89 insertions(+), 6 deletions(-)
-diff --git a/include/sysemu/kvm.h b/include/sysemu/kvm.h
+diff --git a/tests/acceptance/boot_linux_console.py b/tests/acceptance/boot_linux_console.py
 index XXXXXXX..XXXXXXX 100644
---- a/include/sysemu/kvm.h
+--- a/tests/acceptance/boot_linux_console.py
-+++ b/include/sysemu/kvm.h
++++ b/tests/acceptance/boot_linux_console.py
@@ -XXX,XX +XXX,XX @@ bool kvm_vcpu_id_is_valid(int vcpu_id);
  /* Returns VCPU ID to be used on KVM_CREATE_VCPU ioctl() */
  unsigned long kvm_arch_vcpu_id(CPUState *cpu);
 -#ifdef TARGET_I386
 -#define KVM_HAVE_MCE_INJECTION 1
 +#ifdef KVM_HAVE_MCE_INJECTION
  void kvm_arch_on_sigbus_vcpu(CPUState *cpu, int code, void *addr);
  #endif
 diff --git a/target/arm/cpu.h b/target/arm/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/cpu.h
 +++ b/target/arm/cpu.h
 @@ -XXX,XX +XXX,XX @@
- /* ARM processors have a weak memory model */
+ from avocado import skip
- #define TCG_GUEST_DEFAULT_MO      (0)
+ from avocado import skipUnless
+ from avocado_qemu import Test
-+#ifdef TARGET_AARCH64
++from avocado_qemu import exec_command
-+#define KVM_HAVE_MCE_INJECTION 1
+ from avocado_qemu import exec_command_and_wait_for_pattern
-+#endif
+ from avocado_qemu import interrupt_interactive_console_until_pattern
  from avocado_qemu import wait_for_console_pattern
@@ -XXX,XX +XXX,XX @@ def test_arm_raspi2_uart0(self):
          """
          self.do_test_arm_raspi2(0)
 +    def test_arm_raspi2_initrd(self):
 +        """
 +        :avocado: tags=arch:arm
 +        :avocado: tags=machine:raspi2
 +        """
 +        deb_url = ('http://archive.raspberrypi.org/debian/'
 +                   'pool/main/r/raspberrypi-firmware/'
 +                   'raspberrypi-kernel_1.20190215-1_armhf.deb')
 +        deb_hash = 'cd284220b32128c5084037553db3c482426f3972'
 +        deb_path = self.fetch_asset(deb_url, asset_hash=deb_hash)
 +        kernel_path = self.extract_from_deb(deb_path, '/boot/kernel7.img')
 +        dtb_path = self.extract_from_deb(deb_path, '/boot/bcm2709-rpi-2-b.dtb')
 +
- #define EXCP_UDEF            1   /* undefined instruction */
++        initrd_url = ('https://github.com/groeck/linux-build-test/raw/'
- #define EXCP_SWI             2   /* software interrupt */
++                      '2eb0a73b5d5a28df3170c546ddaaa9757e1e0848/rootfs/'
- #define EXCP_PREFETCH_ABORT  3
++                      'arm/rootfs-armv7a.cpio.gz')
-diff --git a/target/arm/internals.h b/target/arm/internals.h
++        initrd_hash = '604b2e45cdf35045846b8bbfbf2129b1891bdc9c'
-index XXXXXXX..XXXXXXX 100644
++        initrd_path_gz = self.fetch_asset(initrd_url, asset_hash=initrd_hash)
---- a/target/arm/internals.h
++        initrd_path = os.path.join(self.workdir, 'rootfs.cpio')
-+++ b/target/arm/internals.h
++        archive.gzip_uncompress(initrd_path_gz, initrd_path)
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_insn_abort(int same_el, int ea, int s1ptw, int fsc)
          | ARM_EL_IL | (ea << 9) | (s1ptw << 7) | fsc;
  }
 -static inline uint32_t syn_data_abort_no_iss(int same_el,
 +static inline uint32_t syn_data_abort_no_iss(int same_el, int fnv,
                                               int ea, int cm, int s1ptw,
                                               int wnr, int fsc)
  {
      return (EC_DATAABORT << ARM_EL_EC_SHIFT) | (same_el << ARM_EL_EC_SHIFT)
             | ARM_EL_IL
 -           | (ea << 9) | (cm << 8) | (s1ptw << 7) | (wnr << 6) | fsc;
 +           | (fnv << 10) | (ea << 9) | (cm << 8) | (s1ptw << 7)
 +           | (wnr << 6) | fsc;
  }
  static inline uint32_t syn_data_abort_with_iss(int same_el,
 diff --git a/target/i386/cpu.h b/target/i386/cpu.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/cpu.h
 +++ b/target/i386/cpu.h
@@ -XXX,XX +XXX,XX @@
  /* The x86 has a strong memory model with some store-after-load re-ordering */
  #define TCG_GUEST_DEFAULT_MO      (TCG_MO_ALL & ~TCG_MO_ST_LD)
 +#define KVM_HAVE_MCE_INJECTION 1
 +
- /* Maximum instruction code size */
++        self.vm.set_console()
- #define TARGET_MAX_INSN_SIZE 16
++        kernel_command_line = (self.KERNEL_COMMON_COMMAND_LINE +
++                               'earlycon=pl011,0x3f201000 console=ttyAMA0 '
-diff --git a/target/arm/helper.c b/target/arm/helper.c
++                               'panic=-1 noreboot ' +
-index XXXXXXX..XXXXXXX 100644
++                               'dwc_otg.fiq_fsm_enable=0')
---- a/target/arm/helper.c
++        self.vm.add_args('-kernel', kernel_path,
-+++ b/target/arm/helper.c
++                         '-dtb', dtb_path,
-@@ -XXX,XX +XXX,XX @@ static uint64_t do_ats_write(CPUARMState *env, uint64_t value,
++                         '-initrd', initrd_path,
-              * Report exception with ESR indicating a fault due to a
++                         '-append', kernel_command_line,
-              * translation table walk for a cache maintenance instruction.
++                         '-no-reboot')
-              */
++        self.vm.launch()
--            syn = syn_data_abort_no_iss(current_el == target_el,
++        self.wait_for_console_pattern('Boot successful.')
 +            syn = syn_data_abort_no_iss(current_el == target_el, 0,
                                          fi.ea, 1, fi.s1ptw, 1, fsc);
              env->exception.vaddress = value;
              env->exception.fsr = fsr;
 diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/kvm64.c
 +++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@
  #include "sysemu/kvm_int.h"
  #include "kvm_arm.h"
  #include "internals.h"
 +#include "hw/acpi/acpi.h"
 +#include "hw/acpi/ghes.h"
 +#include "hw/arm/virt.h"
  static bool have_guest_debug;
@@ -XXX,XX +XXX,XX @@ int kvm_arm_cpreg_level(uint64_t regidx)
      return KVM_PUT_RUNTIME_STATE;
  }
 +/* Callers must hold the iothread mutex lock */
 +static void kvm_inject_arm_sea(CPUState *c)
 +{
 +    ARMCPU *cpu = ARM_CPU(c);
 +    CPUARMState *env = &cpu->env;
 +    CPUClass *cc = CPU_GET_CLASS(c);
 +    uint32_t esr;
 +    bool same_el;
 +
-+    c->exception_index = EXCP_DATA_ABORT;
++        exec_command_and_wait_for_pattern(self, 'cat /proc/cpuinfo',
-+    env->exception.target_el = 1;
++                                                'BCM2835')
 +        exec_command_and_wait_for_pattern(self, 'cat /proc/iomem',
 +                                                '/soc/cprman@7e101000')
 +        exec_command(self, 'halt')
 +        # Wait for VM to shut down gracefully
 +        self.vm.wait()
 +
-+    /*
+     def test_arm_exynos4210_initrd(self):
-+     * Set the DFSC to synchronous external abort and set FnV to not valid,
+         """
-+     * this will tell guest the FAR_ELx is UNKNOWN for this abort.
+         :avocado: tags=arch:arm
 +     */
 +    same_el = arm_current_el(env) == env->exception.target_el;
 +    esr = syn_data_abort_no_iss(same_el, 1, 0, 0, 0, 0, 0x10);
 +
 +    env->exception.syndrome = esr;
 +
 +    cc->do_interrupt(c);
 +}
 +
  #define AARCH64_CORE_REG(x)   (KVM_REG_ARM64 | KVM_REG_SIZE_U64 | \
                   KVM_REG_ARM_CORE | KVM_REG_ARM_CORE_REG(x))
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
      return ret;
  }
 +void kvm_arch_on_sigbus_vcpu(CPUState *c, int code, void *addr)
 +{
 +    ram_addr_t ram_addr;
 +    hwaddr paddr;
 +    Object *obj = qdev_get_machine();
 +    VirtMachineState *vms = VIRT_MACHINE(obj);
 +    bool acpi_enabled = virt_is_acpi_enabled(vms);
 +
 +    assert(code == BUS_MCEERR_AR || code == BUS_MCEERR_AO);
 +
 +    if (acpi_enabled && addr &&
 +            object_property_get_bool(obj, "ras", NULL)) {
 +        ram_addr = qemu_ram_addr_from_host(addr);
 +        if (ram_addr != RAM_ADDR_INVALID &&
 +            kvm_physical_memory_addr_from_host(c->kvm_state, addr, &paddr)) {
 +            kvm_hwpoison_page_add(ram_addr);
 +            /*
 +             * If this is a BUS_MCEERR_AR, we know we have been called
 +             * synchronously from the vCPU thread, so we can easily
 +             * synchronize the state and inject an error.
 +             *
 +             * TODO: we currently don't tell the guest at all about
 +             * BUS_MCEERR_AO. In that case we might either be being
 +             * called synchronously from the vCPU thread, or a bit
 +             * later from the main thread, so doing the injection of
 +             * the error would be more complicated.
 +             */
 +            if (code == BUS_MCEERR_AR) {
 +                kvm_cpu_synchronize_state(c);
 +                if (!acpi_ghes_record_errors(ACPI_HEST_SRC_ID_SEA, paddr)) {
 +                    kvm_inject_arm_sea(c);
 +                } else {
 +                    error_report("failed to record the error");
 +                    abort();
 +                }
 +            }
 +            return;
 +        }
 +        if (code == BUS_MCEERR_AO) {
 +            error_report("Hardware memory error at addr %p for memory used by "
 +                "QEMU itself instead of guest system!", addr);
 +        }
 +    }
 +
 +    if (code == BUS_MCEERR_AR) {
 +        error_report("Hardware memory error!");
 +        exit(1);
 +    }
 +}
 +
  /* C6.6.29 BRK instruction */
  static const uint32_t brk_insn = 0xd4200000;
 diff --git a/target/arm/tlb_helper.c b/target/arm/tlb_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/tlb_helper.c
 +++ b/target/arm/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint32_t merge_syn_data_abort(uint32_t template_syn,
       * ISV field.
       */
      if (!(template_syn & ARM_EL_ISV) || target_el != 2 || s1ptw) {
 -        syn = syn_data_abort_no_iss(same_el,
 +        syn = syn_data_abort_no_iss(same_el, 0,
                                      ea, 0, s1ptw, is_write, fsc);
      } else {
          /*
 --
 .20.1

-[PULL 12/45] target/arm: Remove fp_status from helper_{recpe, rsqrte}_u32
+[PULL 05/24] target/arm: Check NaN mode before silencing NaN
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Joe Komlodi <joe.komlodi@xilinx.com>
-These operations do not touch fp_status.
+If the CPU is running in default NaN mode (FPCR.DN == 1) and we execute
 FRSQRTE, FRECPE, or FRECPX with a signaling NaN, parts_silence_nan_frac() will
 assert due to fpst->default_nan_mode being set.
+To avoid this, we check to see what NaN mode we're running in before we call
+floatxx_silence_nan().
+Signed-off-by: Joe Komlodi <joe.komlodi@xilinx.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 1624662174-175828-2-git-send-email-joe.komlodi@xilinx.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-12-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h        |  4 ++--
+ target/arm/helper-a64.c | 12 +++++++++---
- target/arm/translate-a64.c |  5 ++---
+ target/arm/vfp_helper.c | 24 ++++++++++++++++++------
- target/arm/translate.c     | 12 ++----------
+files changed, 27 insertions(+), 9 deletions(-)
  target/arm/vfp_helper.c    |  5 ++---
 files changed, 8 insertions(+), 18 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-a64.c
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(frecpx_f16)(uint32_t a, void *fpstp)
- DEF_HELPER_FLAGS_2(rsqrte_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
+         float16 nan = a;
- DEF_HELPER_FLAGS_2(rsqrte_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
+         if (float16_is_signaling_nan(a, fpst)) {
- DEF_HELPER_FLAGS_2(rsqrte_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
+             float_raise(float_flag_invalid, fpst);
--DEF_HELPER_2(recpe_u32, i32, i32, ptr)
+-            nan = float16_silence_nan(a, fpst);
--DEF_HELPER_FLAGS_2(rsqrte_u32, TCG_CALL_NO_RWG, i32, i32, ptr)
++            if (!fpst->default_nan_mode) {
-+DEF_HELPER_FLAGS_1(recpe_u32, TCG_CALL_NO_RWG, i32, i32)
++                nan = float16_silence_nan(a, fpst);
-+DEF_HELPER_FLAGS_1(rsqrte_u32, TCG_CALL_NO_RWG, i32, i32)
++            }
- DEF_HELPER_FLAGS_4(neon_tbl, TCG_CALL_NO_RWG, i32, i32, i32, ptr, i32)
+         }
+         if (fpst->default_nan_mode) {
- DEF_HELPER_3(shl_cc, i32, env, i32, i32)
+             nan = float16_default_nan(fpst);
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(frecpx_f32)(float32 a, void *fpstp)
-index XXXXXXX..XXXXXXX 100644
+         float32 nan = a;
---- a/target/arm/translate-a64.c
+         if (float32_is_signaling_nan(a, fpst)) {
-+++ b/target/arm/translate-a64.c
+             float_raise(float_flag_invalid, fpst);
-@@ -XXX,XX +XXX,XX @@ static void handle_2misc_reciprocal(DisasContext *s, int opcode,
+-            nan = float32_silence_nan(a, fpst);
++            if (!fpst->default_nan_mode) {
-             switch (opcode) {
++                nan = float32_silence_nan(a, fpst);
-             case 0x3c: /* URECPE */
++            }
--                gen_helper_recpe_u32(tcg_res, tcg_op, fpst);
+         }
-+                gen_helper_recpe_u32(tcg_res, tcg_op);
+         if (fpst->default_nan_mode) {
-                 break;
+             nan = float32_default_nan(fpst);
-             case 0x3d: /* FRECPE */
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(frecpx_f64)(float64 a, void *fpstp)
-                 gen_helper_recpe_f32(tcg_res, tcg_op, fpst);
+         float64 nan = a;
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
+         if (float64_is_signaling_nan(a, fpst)) {
-                 unallocated_encoding(s);
+             float_raise(float_flag_invalid, fpst);
-                 return;
+-            nan = float64_silence_nan(a, fpst);
-             }
++            if (!fpst->default_nan_mode) {
--            need_fpstatus = true;
++                nan = float64_silence_nan(a, fpst);
-             break;
++            }
-         case 0x1e: /* FRINT32Z */
+         }
-         case 0x1f: /* FRINT64Z */
+         if (fpst->default_nan_mode) {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
+             nan = float64_default_nan(fpst);
                      gen_helper_rints_exact(tcg_res, tcg_op, tcg_fpstatus);
                      break;
                  case 0x7c: /* URSQRTE */
 -                    gen_helper_rsqrte_u32(tcg_res, tcg_op, tcg_fpstatus);
 +                    gen_helper_rsqrte_u32(tcg_res, tcg_op);
                      break;
                  case 0x1e: /* FRINT32Z */
                  case 0x5e: /* FRINT32X */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              break;
                          }
                          case NEON_2RM_VRECPE:
 -                        {
 -                            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -                            gen_helper_recpe_u32(tmp, tmp, fpstatus);
 -                            tcg_temp_free_ptr(fpstatus);
 +                            gen_helper_recpe_u32(tmp, tmp);
                              break;
 -                        }
                          case NEON_2RM_VRSQRTE:
 -                        {
 -                            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -                            gen_helper_rsqrte_u32(tmp, tmp, fpstatus);
 -                            tcg_temp_free_ptr(fpstatus);
 +                            gen_helper_rsqrte_u32(tmp, tmp);
                              break;
 -                        }
                          case NEON_2RM_VRECPE_F:
                          {
                              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpe_f16)(uint32_t input, void *fpstp)
+         float16 nan = f16;
+         if (float16_is_signaling_nan(f16, fpst)) {
+             float_raise(float_flag_invalid, fpst);
+-            nan = float16_silence_nan(f16, fpst);
++            if (!fpst->default_nan_mode) {
++                nan = float16_silence_nan(f16, fpst);
++            }
+         }
+         if (fpst->default_nan_mode) {
+             nan =  float16_default_nan(fpst);
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(recpe_f32)(float32 input, void *fpstp)
+         float32 nan = f32;
+         if (float32_is_signaling_nan(f32, fpst)) {
+             float_raise(float_flag_invalid, fpst);
+-            nan = float32_silence_nan(f32, fpst);
++            if (!fpst->default_nan_mode) {
++                nan = float32_silence_nan(f32, fpst);
++            }
+         }
+         if (fpst->default_nan_mode) {
+             nan =  float32_default_nan(fpst);
+@@ -XXX,XX +XXX,XX @@ float64 HELPER(recpe_f64)(float64 input, void *fpstp)
+         float64 nan = f64;
+         if (float64_is_signaling_nan(f64, fpst)) {
+             float_raise(float_flag_invalid, fpst);
+-            nan = float64_silence_nan(f64, fpst);
++            if (!fpst->default_nan_mode) {
++                nan = float64_silence_nan(f64, fpst);
++            }
+         }
+         if (fpst->default_nan_mode) {
+             nan =  float64_default_nan(fpst);
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(rsqrte_f16)(uint32_t input, void *fpstp)
+         float16 nan = f16;
+         if (float16_is_signaling_nan(f16, s)) {
+             float_raise(float_flag_invalid, s);
+-            nan = float16_silence_nan(f16, s);
++            if (!s->default_nan_mode) {
++                nan = float16_silence_nan(f16, fpstp);
++            }
+         }
+         if (s->default_nan_mode) {
+             nan =  float16_default_nan(s);
+@@ -XXX,XX +XXX,XX @@ float32 HELPER(rsqrte_f32)(float32 input, void *fpstp)
+         float32 nan = f32;
+         if (float32_is_signaling_nan(f32, s)) {
+             float_raise(float_flag_invalid, s);
+-            nan = float32_silence_nan(f32, s);
++            if (!s->default_nan_mode) {
++                nan = float32_silence_nan(f32, fpstp);
++            }
+         }
+         if (s->default_nan_mode) {
+             nan =  float32_default_nan(s);
 @@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
-     return make_float64(val);
+         float64 nan = f64;
- }
+         if (float64_is_signaling_nan(f64, s)) {
+             float_raise(float_flag_invalid, s);
--uint32_t HELPER(recpe_u32)(uint32_t a, void *fpstp)
+-            nan = float64_silence_nan(f64, s);
-+uint32_t HELPER(recpe_u32)(uint32_t a)
++            if (!s->default_nan_mode) {
- {
++                nan = float64_silence_nan(f64, fpstp);
--    /* float_status *s = fpstp; */
++            }
-     int input, estimate;
+         }
+         if (s->default_nan_mode) {
-     if ((a & 0x80000000) == 0) {
+             nan =  float64_default_nan(s);
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpe_u32)(uint32_t a, void *fpstp)
      return deposit32(0, (32 - 9), 9, estimate);
  }
 -uint32_t HELPER(rsqrte_u32)(uint32_t a, void *fpstp)
 +uint32_t HELPER(rsqrte_u32)(uint32_t a)
  {
      int estimate;
 --
 .20.1

-[PULL 25/45] KVM: Move hwpoison page related functions into kvm-all.c
+[PULL 06/24] hw/gpio/gpio_pwr: use shutdown function for reboot
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: Maxim Uvarov <maxim.uvarov@linaro.org>
-kvm_hwpoison_page_add() and kvm_unpoison_all() will both
+qemu has 2 type of functions: shutdown and reboot. Shutdown
-be used by X86 and ARM platforms, so moving them into
+function has to be used for machine shutdown. Otherwise we cause
-"accel/kvm/kvm-all.c" to avoid duplicate code.
+a reset with a bogus "cause" value, when we intended a shutdown.
-For architectures that don't use the poison-list functionality
+Signed-off-by: Maxim Uvarov <maxim.uvarov@linaro.org>
 the reset handler will harmlessly do nothing, so let's register
 the kvm_unpoison_all() function in the generic kvm_init() function.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
+Message-id: 20210625111842.3790-3-maxim.uvarov@linaro.org
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
+[PMM: tweaked commit message]
 Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
 Message-id: 20200512030609.19593-8-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/sysemu/kvm_int.h | 12 ++++++++++++
+ hw/gpio/gpio_pwr.c | 2 +-
- accel/kvm/kvm-all.c      | 36 ++++++++++++++++++++++++++++++++++++
+file changed, 1 insertion(+), 1 deletion(-)
  target/i386/kvm.c        | 36 ------------------------------------
 files changed, 48 insertions(+), 36 deletions(-)
-diff --git a/include/sysemu/kvm_int.h b/include/sysemu/kvm_int.h
+diff --git a/hw/gpio/gpio_pwr.c b/hw/gpio/gpio_pwr.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/sysemu/kvm_int.h
+--- a/hw/gpio/gpio_pwr.c
-+++ b/include/sysemu/kvm_int.h
++++ b/hw/gpio/gpio_pwr.c
-@@ -XXX,XX +XXX,XX @@ void kvm_memory_listener_register(KVMState *s, KVMMemoryListener *kml,
+@@ -XXX,XX +XXX,XX @@ static void gpio_pwr_reset(void *opaque, int n, int level)
-                                   AddressSpace *as, int as_id);
+ static void gpio_pwr_shutdown(void *opaque, int n, int level)
  void kvm_set_max_memslot_size(hwaddr max_slot_size);
 +
 +/**
 + * kvm_hwpoison_page_add:
 + *
 + * Parameters:
 + *  @ram_addr: the address in the RAM for the poisoned page
 + *
 + * Add a poisoned page to the list
 + *
 + * Return: None.
 + */
 +void kvm_hwpoison_page_add(ram_addr_t ram_addr);
  #endif
 diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/kvm/kvm-all.c
 +++ b/accel/kvm/kvm-all.c
@@ -XXX,XX +XXX,XX @@
  #include "qapi/visitor.h"
  #include "qapi/qapi-types-common.h"
  #include "qapi/qapi-visit-common.h"
 +#include "sysemu/reset.h"
  #include "hw/boards.h"
@@ -XXX,XX +XXX,XX @@ int kvm_vm_check_extension(KVMState *s, unsigned int extension)
      return ret;
  }
 +typedef struct HWPoisonPage {
 +    ram_addr_t ram_addr;
 +    QLIST_ENTRY(HWPoisonPage) list;
 +} HWPoisonPage;
 +
 +static QLIST_HEAD(, HWPoisonPage) hwpoison_page_list =
 +    QLIST_HEAD_INITIALIZER(hwpoison_page_list);
 +
 +static void kvm_unpoison_all(void *param)
 +{
 +    HWPoisonPage *page, *next_page;
 +
 +    QLIST_FOREACH_SAFE(page, &hwpoison_page_list, list, next_page) {
 +        QLIST_REMOVE(page, list);
 +        qemu_ram_remap(page->ram_addr, TARGET_PAGE_SIZE);
 +        g_free(page);
 +    }
 +}
 +
 +void kvm_hwpoison_page_add(ram_addr_t ram_addr)
 +{
 +    HWPoisonPage *page;
 +
 +    QLIST_FOREACH(page, &hwpoison_page_list, list) {
 +        if (page->ram_addr == ram_addr) {
 +            return;
 +        }
 +    }
 +    page = g_new(HWPoisonPage, 1);
 +    page->ram_addr = ram_addr;
 +    QLIST_INSERT_HEAD(&hwpoison_page_list, page, list);
 +}
 +
  static uint32_t adjust_ioeventfd_endianness(uint32_t val, uint32_t size)
  {
- #if defined(HOST_WORDS_BIGENDIAN) != defined(TARGET_WORDS_BIGENDIAN)
+     if (level) {
-@@ -XXX,XX +XXX,XX @@ static int kvm_init(MachineState *ms)
+-        qemu_system_reset_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
-         s->kernel_irqchip_split = mc->default_kernel_irqchip_split ? ON_OFF_AUTO_ON : ON_OFF_AUTO_OFF;
++        qemu_system_shutdown_request(SHUTDOWN_CAUSE_GUEST_SHUTDOWN);
      }
 +    qemu_register_reset(kvm_unpoison_all, NULL);
 +
      if (s->kernel_irqchip_allowed) {
          kvm_irqchip_create(s);
      }
 diff --git a/target/i386/kvm.c b/target/i386/kvm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/i386/kvm.c
 +++ b/target/i386/kvm.c
@@ -XXX,XX +XXX,XX @@
  #include "sysemu/sysemu.h"
  #include "sysemu/hw_accel.h"
  #include "sysemu/kvm_int.h"
 -#include "sysemu/reset.h"
  #include "sysemu/runstate.h"
  #include "kvm_i386.h"
  #include "hyperv.h"
@@ -XXX,XX +XXX,XX @@ uint64_t kvm_arch_get_supported_msr_feature(KVMState *s, uint32_t index)
      }
  }
--
--typedef struct HWPoisonPage {
--    ram_addr_t ram_addr;
--    QLIST_ENTRY(HWPoisonPage) list;
--} HWPoisonPage;
--
--static QLIST_HEAD(, HWPoisonPage) hwpoison_page_list =
--    QLIST_HEAD_INITIALIZER(hwpoison_page_list);
--
--static void kvm_unpoison_all(void *param)
--{
--    HWPoisonPage *page, *next_page;
--
--    QLIST_FOREACH_SAFE(page, &hwpoison_page_list, list, next_page) {
--        QLIST_REMOVE(page, list);
--        qemu_ram_remap(page->ram_addr, TARGET_PAGE_SIZE);
--        g_free(page);
--    }
--}
--
--static void kvm_hwpoison_page_add(ram_addr_t ram_addr)
--{
--    HWPoisonPage *page;
--
--    QLIST_FOREACH(page, &hwpoison_page_list, list) {
--        if (page->ram_addr == ram_addr) {
--            return;
--        }
--    }
--    page = g_new(HWPoisonPage, 1);
--    page->ram_addr = ram_addr;
--    QLIST_INSERT_HEAD(&hwpoison_page_list, page, list);
--}
--
- static int kvm_get_mce_cap_supported(KVMState *s, uint64_t *mce_cap,
-                                      int *max_banks)
- {
-@@ -XXX,XX +XXX,XX @@ int kvm_arch_init(MachineState *ms, KVMState *s)
-         fprintf(stderr, "e820_add_entry() table is full\n");
-         return ret;
-     }
--    qemu_register_reset(kvm_unpoison_all, NULL);
-     shadow_mem = object_property_get_int(OBJECT(s), "kvm-shadow-mem", &error_abort);
-     if (shadow_mem != -1) {
 --
 .20.1

-[PULL 43/45] target/arm: Move 'env' argument of recps_f32 and rsqrts_f32 helpers to usual place
+[PULL 07/24] target/arm: Fix MVE widening/narrowing VLDR/VSTR offset calculation
-The usual location for the env argument in the argument list of a TCG helper
+In do_ldst(), the calculation of the offset needs to be based on the
-is immediately after the return-value argument. recps_f32 and rsqrts_f32
+size of the memory access, not the size of the elements in the
-differ in that they put it at the end.
+vector.  This meant we were getting it wrong for the widening and
+narrowing variants of the various VLDR and VSTR insns.
 Move the env argument to its usual place; this will allow us to
 more easily use these helper functions with the gvec APIs.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-16-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-2-peter.maydell@linaro.org
 ---
- target/arm/helper.h     | 4 ++--
+ target/arm/translate-mve.c | 17 +++++++++--------
- target/arm/translate.c  | 4 ++--
+file changed, 9 insertions(+), 8 deletions(-)
  target/arm/vfp_helper.c | 4 ++--
 files changed, 6 insertions(+), 6 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/translate-mve.c
-+++ b/target/arm/helper.h
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static bool mve_skip_first_beat(DisasContext *s)
- DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
+     }
- DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
+ }
--DEF_HELPER_3(recps_f32, f32, f32, f32, env)
+-static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
--DEF_HELPER_3(rsqrts_f32, f32, f32, f32, env)
++static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn,
-+DEF_HELPER_3(recps_f32, f32, env, f32, f32)
++                    unsigned msize)
 +DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
  DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
  DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
  DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  tcg_temp_free_ptr(fpstatus);
              } else {
                  if (size == 0) {
 -                    gen_helper_recps_f32(tmp, tmp, tmp2, cpu_env);
 +                    gen_helper_recps_f32(tmp, cpu_env, tmp, tmp2);
                  } else {
 -                    gen_helper_rsqrts_f32(tmp, tmp, tmp2, cpu_env);
 +                    gen_helper_rsqrts_f32(tmp, cpu_env, tmp, tmp2);
                }
              }
              break;
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
  #define float32_three make_float32(0x40400000)
  #define float32_one_point_five make_float32(0x3fc00000)
 -float32 HELPER(recps_f32)(float32 a, float32 b, CPUARMState *env)
 +float32 HELPER(recps_f32)(CPUARMState *env, float32 a, float32 b)
  {
-     float_status *s = &env->vfp.standard_fp_status;
+     TCGv_i32 addr;
-     if ((float32_is_infinity(a) && float32_is_zero_or_denormal(b)) ||
+     uint32_t offset;
-@@ -XXX,XX +XXX,XX @@ float32 HELPER(recps_f32)(float32 a, float32 b, CPUARMState *env)
+@@ -XXX,XX +XXX,XX @@ static bool do_ldst(DisasContext *s, arg_VLDR_VSTR *a, MVEGenLdStFn *fn)
-     return float32_sub(float32_two, float32_mul(a, b, s), s);
+         return true;
      }
 -    offset = a->imm << a->size;
 +    offset = a->imm << msize;
      if (!a->a) {
          offset = -offset;
      }
@@ -XXX,XX +XXX,XX @@ static bool trans_VLDR_VSTR(DisasContext *s, arg_VLDR_VSTR *a)
          { gen_helper_mve_vstrw, gen_helper_mve_vldrw },
          { NULL, NULL }
      };
 -    return do_ldst(s, a, ldstfns[a->size][a->l]);
 +    return do_ldst(s, a, ldstfns[a->size][a->l], a->size);
  }
--float32 HELPER(rsqrts_f32)(float32 a, float32 b, CPUARMState *env)
+-#define DO_VLDST_WIDE_NARROW(OP, SLD, ULD, ST)                  \
-+float32 HELPER(rsqrts_f32)(CPUARMState *env, float32 a, float32 b)
++#define DO_VLDST_WIDE_NARROW(OP, SLD, ULD, ST, MSIZE)           \
      static bool trans_##OP(DisasContext *s, arg_VLDR_VSTR *a)   \
      {                                                           \
          static MVEGenLdStFn * const ldstfns[2][2] = {           \
              { gen_helper_mve_##ST, gen_helper_mve_##SLD },      \
              { NULL, gen_helper_mve_##ULD },                     \
          };                                                      \
 -        return do_ldst(s, a, ldstfns[a->u][a->l]);              \
 +        return do_ldst(s, a, ldstfns[a->u][a->l], MSIZE);       \
      }
 -DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h)
 -DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w)
 -DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w)
 +DO_VLDST_WIDE_NARROW(VLDSTB_H, vldrb_sh, vldrb_uh, vstrb_h, MO_8)
 +DO_VLDST_WIDE_NARROW(VLDSTB_W, vldrb_sw, vldrb_uw, vstrb_w, MO_8)
 +DO_VLDST_WIDE_NARROW(VLDSTH_W, vldrh_sw, vldrh_uw, vstrh_w, MO_16)
  static bool trans_VDUP(DisasContext *s, arg_VDUP *a)
  {
-     float_status *s = &env->vfp.standard_fp_status;
-     float32 product;
 --
 .20.1

-[PULL 19/45] acpi: nvdimm: change NVDIMM_UUID_LE to a common macro
+[PULL 08/24] target/arm: Fix bugs in MVE VRMLALDAVH, VRMLSLDAVH
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+The initial implementation of the MVE VRMLALDAVH and VRMLSLDAVH
 insns had some bugs:
  * the 32x32 multiply of elements was being done as 32x32->32,
    not 32x32->64
  * we were incorrectly maintaining the accumulator in its full
 -bit form across all 4 beats of the insn; in the pseudocode
    it is squashed back into the 64 bits of the RdaHi:RdaLo
    registers after each beat
-The little end UUID is used in many places, so make
+In particular, fixing the second of these allows us to recast
-NVDIMM_UUID_LE to a common macro to convert the UUID
+the implementation to avoid 128-bit arithmetic entirely.
 to a little end array.
-Reviewed-by: Xiang Zheng <zhengxiang9@huawei.com>
+Since the element size here is always 4, we can also drop the
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
+parameterization of ESIZE to make the code a little more readable.
-Message-id: 20200512030609.19593-2-gengdongjiu@huawei.com
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Suggested-by: Richard Henderson <richard.henderson@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-3-peter.maydell@linaro.org
 ---
- include/qemu/uuid.h | 27 +++++++++++++++++++++++++++
+ target/arm/mve_helper.c | 38 +++++++++++++++++++++-----------------
- hw/acpi/nvdimm.c    | 10 +++-------
+file changed, 21 insertions(+), 17 deletions(-)
 files changed, 30 insertions(+), 7 deletions(-)
-diff --git a/include/qemu/uuid.h b/include/qemu/uuid.h
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/qemu/uuid.h
+--- a/target/arm/mve_helper.c
-+++ b/include/qemu/uuid.h
++++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ typedef struct {
      };
  } QemuUUID;
 +/**
 + * UUID_LE - converts the fields of UUID to little-endian array,
 + * each of parameters is the filed of UUID.
 + *
 + * @time_low: The low field of the timestamp
 + * @time_mid: The middle field of the timestamp
 + * @time_hi_and_version: The high field of the timestamp
 + *                       multiplexed with the version number
 + * @clock_seq_hi_and_reserved: The high field of the clock
 + *                             sequence multiplexed with the variant
 + * @clock_seq_low: The low field of the clock sequence
 + * @node0: The spatially unique node0 identifier
 + * @node1: The spatially unique node1 identifier
 + * @node2: The spatially unique node2 identifier
 + * @node3: The spatially unique node3 identifier
 + * @node4: The spatially unique node4 identifier
 + * @node5: The spatially unique node5 identifier
 + */
 +#define UUID_LE(time_low, time_mid, time_hi_and_version,                    \
 +  clock_seq_hi_and_reserved, clock_seq_low, node0, node1, node2,            \
 +  node3, node4, node5)                                                      \
 +  { (time_low) & 0xff, ((time_low) >> 8) & 0xff, ((time_low) >> 16) & 0xff, \
 +    ((time_low) >> 24) & 0xff, (time_mid) & 0xff, ((time_mid) >> 8) & 0xff, \
 +    (time_hi_and_version) & 0xff, ((time_hi_and_version) >> 8) & 0xff,      \
 +    (clock_seq_hi_and_reserved), (clock_seq_low), (node0), (node1), (node2),\
 +    (node3), (node4), (node5) }
 +
  #define UUID_FMT "%02hhx%02hhx%02hhx%02hhx-" \
                   "%02hhx%02hhx-%02hhx%02hhx-" \
                   "%02hhx%02hhx-" \
 diff --git a/hw/acpi/nvdimm.c b/hw/acpi/nvdimm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/acpi/nvdimm.c
 +++ b/hw/acpi/nvdimm.c
 @@ -XXX,XX +XXX,XX @@
   */
  #include "qemu/osdep.h"
-+#include "qemu/uuid.h"
+-#include "qemu/int128.h"
- #include "hw/acpi/acpi.h"
+ #include "cpu.h"
- #include "hw/acpi/aml-build.h"
+ #include "internals.h"
- #include "hw/acpi/bios-linker-loader.h"
+ #include "vec_internal.h"
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ DO_LDAV(vmlsldavsw, 4, int32_t, false, +=, -=)
- #include "hw/mem/nvdimm.h"
+ DO_LDAV(vmlsldavxsw, 4, int32_t, true, +=, -=)
- #include "qemu/nvdimm-utils.h"
 -#define NVDIMM_UUID_LE(a, b, c, d0, d1, d2, d3, d4, d5, d6, d7)             \
 -   { (a) & 0xff, ((a) >> 8) & 0xff, ((a) >> 16) & 0xff, ((a) >> 24) & 0xff, \
 -     (b) & 0xff, ((b) >> 8) & 0xff, (c) & 0xff, ((c) >> 8) & 0xff,          \
 -     (d0), (d1), (d2), (d3), (d4), (d5), (d6), (d7) }
 -
  /*
-  * define Byte Addressable Persistent Memory (PM) Region according to
+- * Rounding multiply add long dual accumulate high: we must keep
-  * ACPI 6.0: 5.2.25.1 System Physical Address Range Structure.
+- * a 72-bit internal accumulator value and return the top 64 bits.
 + * Rounding multiply add long dual accumulate high. In the pseudocode
 + * this is implemented with a 72-bit internal accumulator value of which
 + * the top 64 bits are returned. We optimize this to avoid having to
 + * use 128-bit arithmetic -- we can do this because the 74-bit accumulator
 + * is squashed back into 64-bits after each beat.
   */
- static const uint8_t nvdimm_nfit_spa_uuid[] =
+-#define DO_LDAVH(OP, ESIZE, TYPE, XCHG, EVENACC, ODDACC, TO128)         \
--      NVDIMM_UUID_LE(0x66f0d379, 0xb4f3, 0x4074, 0xac, 0x43, 0x0d, 0x33,
++#define DO_LDAVH(OP, TYPE, LTYPE, XCHG, SUB)                            \
--                     0x18, 0xb7, 0x8c, 0xdb);
+     uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vn,         \
-+      UUID_LE(0x66f0d379, 0xb4f3, 0x4074, 0xac, 0x43, 0x0d, 0x33,
+                                     void *vm, uint64_t a)               \
-+              0x18, 0xb7, 0x8c, 0xdb);
+     {                                                                   \
+         uint16_t mask = mve_element_mask(env);                          \
- /*
+         unsigned e;                                                     \
-  * NVDIMM Firmware Interface Table
+         TYPE *n = vn, *m = vm;                                          \
 -        Int128 acc = int128_lshift(TO128(a), 8);                        \
 -        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {              \
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {                      \
              if (mask & 1) {                                             \
 +                LTYPE mul;                                              \
                  if (e & 1) {                                            \
 -                    acc = ODDACC(acc, TO128(n[H##ESIZE(e - 1 * XCHG)] * \
 -                                            m[H##ESIZE(e)]));           \
 +                    mul = (LTYPE)n[H4(e - 1 * XCHG)] * m[H4(e)];        \
 +                    if (SUB) {                                          \
 +                        mul = -mul;                                     \
 +                    }                                                   \
                  } else {                                                \
 -                    acc = EVENACC(acc, TO128(n[H##ESIZE(e + 1 * XCHG)] * \
 -                                             m[H##ESIZE(e)]));          \
 +                    mul = (LTYPE)n[H4(e + 1 * XCHG)] * m[H4(e)];        \
                  }                                                       \
 -                acc = int128_add(acc, int128_make64(1 << 7));           \
 +                mul = (mul >> 8) + ((mul >> 7) & 1);                    \
 +                a += mul;                                               \
              }                                                           \
          }                                                               \
          mve_advance_vpt(env);                                           \
 -        return int128_getlo(int128_rshift(acc, 8));                     \
 +        return a;                                                       \
      }
 -DO_LDAVH(vrmlaldavhsw, 4, int32_t, false, int128_add, int128_add, int128_makes64)
 -DO_LDAVH(vrmlaldavhxsw, 4, int32_t, true, int128_add, int128_add, int128_makes64)
 +DO_LDAVH(vrmlaldavhsw, int32_t, int64_t, false, false)
 +DO_LDAVH(vrmlaldavhxsw, int32_t, int64_t, true, false)
 -DO_LDAVH(vrmlaldavhuw, 4, uint32_t, false, int128_add, int128_add, int128_make64)
 +DO_LDAVH(vrmlaldavhuw, uint32_t, uint64_t, false, false)
 -DO_LDAVH(vrmlsldavhsw, 4, int32_t, false, int128_add, int128_sub, int128_makes64)
 -DO_LDAVH(vrmlsldavhxsw, 4, int32_t, true, int128_add, int128_sub, int128_makes64)
 +DO_LDAVH(vrmlsldavhsw, int32_t, int64_t, false, true)
 +DO_LDAVH(vrmlsldavhxsw, int32_t, int64_t, true, true)
  /* Vector add across vector */
  #define DO_VADDV(OP, ESIZE, TYPE)                               \
 --
 .20.1

-[PULL 11/45] target/arm: Create gen_gvec_{uqadd, sqadd, uqsub, sqsub}
+[PULL 09/24] target/arm: Make asimd_imm_const() public
-From: Richard Henderson <richard.henderson@linaro.org>
+The function asimd_imm_const() in translate-neon.c is an
 implementation of the pseudocode AdvSIMDExpandImm(), which we will
 also want for MVE.  Move the implementation to translate.c, with a
 prototype in translate.h.
-Provide a functional interface for the vector expansion.
-This fits better with the existing set of helpers that
-we provide for other operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-11-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-4-peter.maydell@linaro.org
 ---
- target/arm/translate.h          |  13 +-
+ target/arm/translate.h      | 16 ++++++++++
- target/arm/translate-a64.c      |  22 ++-
+ target/arm/translate-neon.c | 63 -------------------------------------
- target/arm/translate-neon.inc.c |  19 +--
+ target/arm/translate.c      | 57 +++++++++++++++++++++++++++++++++
- target/arm/translate.c          | 228 +++++++++++++++++---------------
+files changed, 73 insertions(+), 63 deletions(-)
 files changed, 147 insertions(+), 135 deletions(-)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+@@ -XXX,XX +XXX,XX @@ static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
- void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+     return opc | s->be_data;
-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+ }
--extern const GVecGen4 uqadd_op[4];
++/**
--extern const GVecGen4 sqadd_op[4];
++ * asimd_imm_const: Expand an encoded SIMD constant value
--extern const GVecGen4 uqsub_op[4];
++ *
--extern const GVecGen4 sqsub_op[4];
++ * Expand a SIMD constant value. This is essentially the pseudocode
- void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
++ * AdvSIMDExpandImm, except that we also perform the boolean NOT needed for
- void gen_ushl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
++ * VMVN and VBIC (when cmode < 14 && op == 1).
- void gen_sshl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
++ *
- void gen_ushl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
++ * The combination cmode == 15 op == 1 is a reserved encoding for AArch32;
- void gen_sshl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
++ * callers must catch this.
++ *
-+void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++ * cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 was UNPREDICTABLE in v7A but
-+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++ * is either not unpredictable or merely CONSTRAINED UNPREDICTABLE in v8A;
-+void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++ * we produce an immediate constant value of 0 in these cases.
-+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++ */
-+void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++uint64_t asimd_imm_const(uint32_t imm, int cmode, int op);
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
- void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ #endif /* TARGET_ARM_TRANSLATE_H */
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+diff --git a/target/arm/translate-neon.c b/target/arm/translate-neon.c
  void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/translate-neon.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/translate-neon.c
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ DO_FP_2SH(VCVT_UH, gen_helper_gvec_vcvt_uh)
+ DO_FP_2SH(VCVT_HS, gen_helper_gvec_vcvt_hs)
-     switch (opcode) {
+ DO_FP_2SH(VCVT_HU, gen_helper_gvec_vcvt_hu)
-     case 0x01: /* SQADD, UQADD */
--        tcg_gen_gvec_4(vec_full_reg_offset(s, rd),
+-static uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
--                       offsetof(CPUARMState, vfp.qc),
+-{
--                       vec_full_reg_offset(s, rn),
+-    /*
--                       vec_full_reg_offset(s, rm),
+-     * Expand the encoded constant.
--                       is_q ? 16 : 8, vec_full_reg_size(s),
+-     * Note that cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 is UNPREDICTABLE.
--                       (u ? uqadd_op : sqadd_op) + size);
+-     * We choose to not special-case this and will behave as if a
-+        if (u) {
+-     * valid constant encoding of 0 had been given.
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqadd_qc, size);
+-     * cmode = 15 op = 1 must UNDEF; we assume decode has handled that.
-+        } else {
+-     */
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqadd_qc, size);
+-    switch (cmode) {
-+        }
+-    case 0: case 1:
-         return;
+-        /* no-op */
-     case 0x05: /* SQSUB, UQSUB */
+-        break;
--        tcg_gen_gvec_4(vec_full_reg_offset(s, rd),
+-    case 2: case 3:
--                       offsetof(CPUARMState, vfp.qc),
+-        imm <<= 8;
--                       vec_full_reg_offset(s, rn),
+-        break;
--                       vec_full_reg_offset(s, rm),
+-    case 4: case 5:
--                       is_q ? 16 : 8, vec_full_reg_size(s),
+-        imm <<= 16;
--                       (u ? uqsub_op : sqsub_op) + size);
+-        break;
-+        if (u) {
+-    case 6: case 7:
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqsub_qc, size);
+-        imm <<= 24;
-+        } else {
+-        break;
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqsub_qc, size);
+-    case 8: case 9:
-+        }
+-        imm |= imm << 16;
-         return;
+-        break;
-     case 0x08: /* SSHL, USHL */
+-    case 10: case 11:
-         if (u) {
+-        imm = (imm << 8) | (imm << 24);
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+-        break;
-index XXXXXXX..XXXXXXX 100644
+-    case 12:
---- a/target/arm/translate-neon.inc.c
+-        imm = (imm << 8) | 0xff;
-+++ b/target/arm/translate-neon.inc.c
+-        break;
-@@ -XXX,XX +XXX,XX @@ DO_3SAME(VORN, tcg_gen_gvec_orc)
+-    case 13:
- DO_3SAME(VEOR, tcg_gen_gvec_xor)
+-        imm = (imm << 16) | 0xffff;
- DO_3SAME(VSHL_S, gen_gvec_sshl)
+-        break;
- DO_3SAME(VSHL_U, gen_gvec_ushl)
+-    case 14:
-+DO_3SAME(VQADD_S, gen_gvec_sqadd_qc)
+-        if (op) {
-+DO_3SAME(VQADD_U, gen_gvec_uqadd_qc)
+-            /*
-+DO_3SAME(VQSUB_S, gen_gvec_sqsub_qc)
+-             * This is the only case where the top and bottom 32 bits
-+DO_3SAME(VQSUB_U, gen_gvec_uqsub_qc)
+-             * of the encoded constant differ.
+-             */
- /* These insns are all gvec_bitsel but with the inputs in various orders. */
+-            uint64_t imm64 = 0;
- #define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
+-            int n;
@@ -XXX,XX +XXX,XX @@ DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
  DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
  DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
 -#define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
 -    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
 -                                uint32_t rn_ofs, uint32_t rm_ofs,       \
 -                                uint32_t oprsz, uint32_t maxsz)         \
 -    {                                                                   \
 -        tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),           \
 -                       rn_ofs, rm_ofs, oprsz, maxsz, &OPARRAY[vece]);   \
 -    }                                                                   \
 -    DO_3SAME(INSN, gen_##INSN##_3s)
 -
--DO_3SAME_GVEC4(VQADD_S, sqadd_op)
+-            for (n = 0; n < 8; n++) {
--DO_3SAME_GVEC4(VQADD_U, uqadd_op)
+-                if (imm & (1 << n)) {
--DO_3SAME_GVEC4(VQSUB_S, sqsub_op)
+-                    imm64 |= (0xffULL << (n * 8));
--DO_3SAME_GVEC4(VQSUB_U, uqsub_op)
+-                }
 -            }
 -            return imm64;
 -        }
 -        imm |= (imm << 8) | (imm << 16) | (imm << 24);
 -        break;
 -    case 15:
 -        imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
 -            | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
 -        break;
 -    }
 -    if (op) {
 -        imm = ~imm;
 -    }
 -    return dup_const(MO_32, imm);
 -}
 -
- static void gen_VMUL_p_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ static bool do_1reg_imm(DisasContext *s, arg_1reg_imm *a,
-                            uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
+                         GVecGen2iFn *fn)
  {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+@@ -XXX,XX +XXX,XX @@ void arm_translate_init(void)
-     tcg_temp_free_vec(x);
+     a64_translate_init();
  }
--static const TCGOpcode vecop_list_uqadd[] = {
++uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
 -    INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 -};
 -
 -const GVecGen4 uqadd_op[4] = {
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_b,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_8 },
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_h,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_16 },
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_s,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_32 },
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_d,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
-+    static const TCGOpcode vecop_list[] = {
++    /* Expand the encoded constant as per AdvSIMDExpandImm pseudocode */
-+        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
++    switch (cmode) {
-+    };
++    case 0: case 1:
-+    static const GVecGen4 ops[4] = {
++        /* no-op */
-+        { .fniv = gen_uqadd_vec,
++        break;
-+          .fno = gen_helper_gvec_uqadd_b,
++    case 2: case 3:
-+          .write_aofs = true,
++        imm <<= 8;
-+          .opt_opc = vecop_list,
++        break;
-+          .vece = MO_8 },
++    case 4: case 5:
-+        { .fniv = gen_uqadd_vec,
++        imm <<= 16;
-+          .fno = gen_helper_gvec_uqadd_h,
++        break;
-+          .write_aofs = true,
++    case 6: case 7:
-+          .opt_opc = vecop_list,
++        imm <<= 24;
-+          .vece = MO_16 },
++        break;
-+        { .fniv = gen_uqadd_vec,
++    case 8: case 9:
-+          .fno = gen_helper_gvec_uqadd_s,
++        imm |= imm << 16;
-+          .write_aofs = true,
++        break;
-+          .opt_opc = vecop_list,
++    case 10: case 11:
-+          .vece = MO_32 },
++        imm = (imm << 8) | (imm << 24);
-+        { .fniv = gen_uqadd_vec,
++        break;
-+          .fno = gen_helper_gvec_uqadd_d,
++    case 12:
-+          .write_aofs = true,
++        imm = (imm << 8) | 0xff;
-+          .opt_opc = vecop_list,
++        break;
-+          .vece = MO_64 },
++    case 13:
-+    };
++        imm = (imm << 16) | 0xffff;
-+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
++        break;
-+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
++    case 14:
 +        if (op) {
 +            /*
 +             * This is the only case where the top and bottom 32 bits
 +             * of the encoded constant differ.
 +             */
 +            uint64_t imm64 = 0;
 +            int n;
 +
 +            for (n = 0; n < 8; n++) {
 +                if (imm & (1 << n)) {
 +                    imm64 |= (0xffULL << (n * 8));
 +                }
 +            }
 +            return imm64;
 +        }
 +        imm |= (imm << 8) | (imm << 16) | (imm << 24);
 +        break;
 +    case 15:
 +        imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
 +            | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
 +        break;
 +    }
 +    if (op) {
 +        imm = ~imm;
 +    }
 +    return dup_const(MO_32, imm);
 +}
++
- static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+ /* Generate a label used for skipping this instruction */
-                           TCGv_vec a, TCGv_vec b)
+ void arm_gen_condlabel(DisasContext *s)
-@@ -XXX,XX +XXX,XX @@ static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
+ {
      tcg_temp_free_vec(x);
  }
 -static const TCGOpcode vecop_list_sqadd[] = {
 -    INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 -};
 -
 -const GVecGen4 sqadd_op[4] = {
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_b,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_8 },
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_h,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_16 },
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_s,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_32 },
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_d,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                            TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
      tcg_temp_free_vec(x);
  }
 -static const TCGOpcode vecop_list_uqsub[] = {
 -    INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -};
 -
 -const GVecGen4 uqsub_op[4] = {
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_b,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_8 },
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_h,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_16 },
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_s,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_32 },
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_d,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                            TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
      tcg_temp_free_vec(x);
  }
 -static const TCGOpcode vecop_list_sqsub[] = {
 -    INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -};
 -
 -const GVecGen4 sqsub_op[4] = {
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_b,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_8 },
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_h,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_16 },
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_s,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_32 },
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_d,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
 --
 .20.1

-[PULL 10/45] target/arm: Create gen_gvec_{cmtst,ushl,sshl}
+[PULL 10/24] target/arm: Use asimd_imm_const for A64 decode
-From: Richard Henderson <richard.henderson@linaro.org>
+The A64 AdvSIMD modified-immediate grouping uses almost the same
 constant encoding that A32 Neon does; reuse asimd_imm_const() (to
 which we add the AArch64-specific case for cmode 15 op 1) instead of
 reimplementing it all.
-Provide a functional interface for the vector expansion.
-This fits better with the existing set of helpers that
-we provide for other operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-10-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-5-peter.maydell@linaro.org
 ---
- target/arm/translate.h          |  10 ++-
+ target/arm/translate.h     |  3 +-
- target/arm/translate-a64.c      |  18 ++--
+ target/arm/translate-a64.c | 86 ++++----------------------------------
- target/arm/translate-neon.inc.c |  23 +----
+ target/arm/translate.c     | 17 +++++++-
- target/arm/translate.c          | 146 +++++++++++++++++---------------
+files changed, 24 insertions(+), 82 deletions(-)
 files changed, 95 insertions(+), 102 deletions(-)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+@@ -XXX,XX +XXX,XX @@ static inline MemOp finalize_memop(DisasContext *s, MemOp opc)
- void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+  * VMVN and VBIC (when cmode < 14 && op == 1).
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+  *
+  * The combination cmode == 15 op == 1 is a reserved encoding for AArch32;
--extern const GVecGen3 cmtst_op[4];
+- * callers must catch this.
--extern const GVecGen3 sshl_op[4];
++ * callers must catch this; we return the 64-bit constant value defined
--extern const GVecGen3 ushl_op[4];
++ * for AArch64.
-+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+  *
-+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+  * cmode = 2,3,4,5,6,7,10,11,12,13 imm=0 was UNPREDICTABLE in v7A but
-+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+  * is either not unpredictable or merely CONSTRAINED UNPREDICTABLE in v8A;
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
  extern const GVecGen4 uqadd_op[4];
  extern const GVecGen4 sqadd_op[4];
  extern const GVecGen4 uqsub_op[4];
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-             is_q ? 16 : 8, vec_full_reg_size(s));
+ {
- }
+     int rd = extract32(insn, 0, 5);
+     int cmode = extract32(insn, 12, 4);
--/* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
+-    int cmode_3_1 = extract32(cmode, 1, 3);
--static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
+-    int cmode_0 = extract32(cmode, 0, 1);
--                         int rn, int rm, const GVecGen3 *gvec_op)
+     int o2 = extract32(insn, 11, 1);
--{
+     uint64_t abcdefgh = extract32(insn, 5, 5) | (extract32(insn, 16, 3) << 5);
--    tcg_gen_gvec_3(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
+     bool is_neg = extract32(insn, 29, 1);
--                   vec_full_reg_offset(s, rm), is_q ? 16 : 8,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
--                   vec_full_reg_size(s), gvec_op);
+         return;
--}
+     }
 -    /* See AdvSIMDExpandImm() in ARM ARM */
 -    switch (cmode_3_1) {
 -    case 0: /* Replicate(Zeros(24):imm8, 2) */
 -    case 1: /* Replicate(Zeros(16):imm8:Zeros(8), 2) */
 -    case 2: /* Replicate(Zeros(8):imm8:Zeros(16), 2) */
 -    case 3: /* Replicate(imm8:Zeros(24), 2) */
 -    {
 -        int shift = cmode_3_1 * 8;
 -        imm = bitfield_replicate(abcdefgh << shift, 32);
 -        break;
 -    }
 -    case 4: /* Replicate(Zeros(8):imm8, 4) */
 -    case 5: /* Replicate(imm8:Zeros(8), 4) */
 -    {
 -        int shift = (cmode_3_1 & 0x1) * 8;
 -        imm = bitfield_replicate(abcdefgh << shift, 16);
 -        break;
 -    }
 -    case 6:
 -        if (cmode_0) {
 -            /* Replicate(Zeros(8):imm8:Ones(16), 2) */
 -            imm = (abcdefgh << 16) | 0xffff;
 -        } else {
 -            /* Replicate(Zeros(16):imm8:Ones(8), 2) */
 -            imm = (abcdefgh << 8) | 0xff;
 -        }
 -        imm = bitfield_replicate(imm, 32);
 -        break;
 -    case 7:
 -        if (!cmode_0 && !is_neg) {
 -            imm = bitfield_replicate(abcdefgh, 8);
 -        } else if (!cmode_0 && is_neg) {
 -            int i;
 -            imm = 0;
 -            for (i = 0; i < 8; i++) {
 -                if ((abcdefgh) & (1 << i)) {
 -                    imm |= 0xffULL << (i * 8);
 -                }
 -            }
 -        } else if (cmode_0) {
 -            if (is_neg) {
 -                imm = (abcdefgh & 0x3f) << 48;
 -                if (abcdefgh & 0x80) {
 -                    imm |= 0x8000000000000000ULL;
 -                }
 -                if (abcdefgh & 0x40) {
 -                    imm |= 0x3fc0000000000000ULL;
 -                } else {
 -                    imm |= 0x4000000000000000ULL;
 -                }
 -            } else {
 -                if (o2) {
 -                    /* FMOV (vector, immediate) - half-precision */
 -                    imm = vfp_expand_imm(MO_16, abcdefgh);
 -                    /* now duplicate across the lanes */
 -                    imm = bitfield_replicate(imm, 16);
 -                } else {
 -                    imm = (abcdefgh & 0x3f) << 19;
 -                    if (abcdefgh & 0x80) {
 -                        imm |= 0x80000000;
 -                    }
 -                    if (abcdefgh & 0x40) {
 -                        imm |= 0x3e000000;
 -                    } else {
 -                        imm |= 0x40000000;
 -                    }
 -                    imm |= (imm << 32);
 -                }
 -            }
 -        }
 -        break;
 -    default:
 -        g_assert_not_reached();
 -    }
 -
- /* Expand a 3-operand operation using an out-of-line helper.  */
+-    if (cmode_3_1 != 7 && is_neg) {
- static void gen_gvec_op3_ool(DisasContext *s, bool is_q, int rd,
+-        imm = ~imm;
-                              int rn, int rm, int data, gen_helper_gvec_3 *fn)
++    if (cmode == 15 && o2 && !is_neg) {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
++        /* FMOV (vector, immediate) - half-precision */
-                        (u ? uqsub_op : sqsub_op) + size);
++        imm = vfp_expand_imm(MO_16, abcdefgh);
-         return;
++        /* now duplicate across the lanes */
-     case 0x08: /* SSHL, USHL */
++        imm = bitfield_replicate(imm, 16);
--        gen_gvec_op3(s, is_q, rd, rn, rm,
++    } else {
--                     u ? &ushl_op[size] : &sshl_op[size]);
++        imm = asimd_imm_const(abcdefgh, cmode, is_neg);
 +        if (u) {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_ushl, size);
 +        } else {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sshl, size);
 +        }
          return;
      case 0x0c: /* SMAX, UMAX */
          if (u) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
          return;
      case 0x11:
          if (!u) { /* CMTST */
 -            gen_gvec_op3(s, is_q, rd, rn, rm, &cmtst_op[size]);
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_cmtst, size);
              return;
          }
          /* else CMEQ */
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME(VBIC, tcg_gen_gvec_andc)
  DO_3SAME(VORR, tcg_gen_gvec_or)
  DO_3SAME(VORN, tcg_gen_gvec_orc)
  DO_3SAME(VEOR, tcg_gen_gvec_xor)
 +DO_3SAME(VSHL_S, gen_gvec_sshl)
 +DO_3SAME(VSHL_U, gen_gvec_ushl)
  /* These insns are all gvec_bitsel but with the inputs in various orders. */
  #define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
  DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
  DO_3SAME_NO_SZ_3(VMLA, gen_gvec_mla)
  DO_3SAME_NO_SZ_3(VMLS, gen_gvec_mls)
 +DO_3SAME_NO_SZ_3(VTST, gen_gvec_cmtst)
  #define DO_3SAME_CMP(INSN, COND)                                        \
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
  DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
  DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
 -static void gen_VTST_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 -                         uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
 -{
 -    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &cmtst_op[vece]);
 -}
 -DO_3SAME_NO_SZ_3(VTST, gen_VTST_3s)
 -
  #define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
                                  uint32_t rn_ofs, uint32_t rm_ofs,       \
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
      }
-     return do_3same(s, a, gen_VMUL_p_3s);
- }
+     if (!((cmode & 0x9) == 0x1 || (cmode & 0xd) == 0x9)) {
 -
 -#define DO_3SAME_GVEC3_SHIFT(INSN, OPARRAY)                             \
 -    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
 -                                uint32_t rn_ofs, uint32_t rm_ofs,       \
 -                                uint32_t oprsz, uint32_t maxsz)         \
 -    {                                                                   \
 -        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
 -                       oprsz, maxsz, &OPARRAY[vece]);                   \
 -    }                                                                   \
 -    DO_3SAME(INSN, gen_##INSN##_3s)
 -
 -DO_3SAME_GVEC3_SHIFT(VSHL_S, sshl_op)
 -DO_3SAME_GVEC3_SHIFT(VSHL_U, ushl_op)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+@@ -XXX,XX +XXX,XX @@ uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
-     tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
+     case 14:
- }
+         if (op) {
+             /*
--static const TCGOpcode vecop_list_cmtst[] = { INDEX_op_cmp_vec, 0 };
+-             * This is the only case where the top and bottom 32 bits
--
+-             * of the encoded constant differ.
--const GVecGen3 cmtst_op[4] = {
++             * This and cmode == 15 op == 1 are the only cases where
--    { .fni4 = gen_helper_neon_tst_u8,
++             * the top and bottom 32 bits of the encoded constant differ.
--      .fniv = gen_cmtst_vec,
+              */
--      .opt_opc = vecop_list_cmtst,
+             uint64_t imm64 = 0;
--      .vece = MO_8 },
+             int n;
--    { .fni4 = gen_helper_neon_tst_u16,
+@@ -XXX,XX +XXX,XX @@ uint64_t asimd_imm_const(uint32_t imm, int cmode, int op)
--      .fniv = gen_cmtst_vec,
+         imm |= (imm << 8) | (imm << 16) | (imm << 24);
--      .opt_opc = vecop_list_cmtst,
+         break;
--      .vece = MO_16 },
+     case 15:
--    { .fni4 = gen_cmtst_i32,
++        if (op) {
--      .fniv = gen_cmtst_vec,
++            /* Reserved encoding for AArch32; valid for AArch64 */
--      .opt_opc = vecop_list_cmtst,
++            uint64_t imm64 = (uint64_t)(imm & 0x3f) << 48;
--      .vece = MO_32 },
++            if (imm & 0x80) {
--    { .fni8 = gen_cmtst_i64,
++                imm64 |= 0x8000000000000000ULL;
--      .fniv = gen_cmtst_vec,
++            }
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++            if (imm & 0x40) {
--      .opt_opc = vecop_list_cmtst,
++                imm64 |= 0x3fc0000000000000ULL;
--      .vece = MO_64 },
++            } else {
--};
++                imm64 |= 0x4000000000000000ULL;
-+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++            }
-+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++            return imm64;
-+{
++        }
-+    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+         imm = ((imm & 0x80) << 24) | ((imm & 0x3f) << 19)
-+    static const GVecGen3 ops[4] = {
+             | ((imm & 0x40) ? (0x1f << 25) : (1 << 30));
-+        { .fni4 = gen_helper_neon_tst_u8,
+         break;
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni4 = gen_helper_neon_tst_u16,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_cmtst_i32,
 +          .fniv = gen_cmtst_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_cmtst_i64,
 +          .fniv = gen_cmtst_vec,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
  {
@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
      tcg_temp_free_vec(rsh);
  }
 -static const TCGOpcode ushl_list[] = {
 -    INDEX_op_neg_vec, INDEX_op_shlv_vec,
 -    INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
 -};
 -
 -const GVecGen3 ushl_op[4] = {
 -    { .fniv = gen_ushl_vec,
 -      .fno = gen_helper_gvec_ushl_b,
 -      .opt_opc = ushl_list,
 -      .vece = MO_8 },
 -    { .fniv = gen_ushl_vec,
 -      .fno = gen_helper_gvec_ushl_h,
 -      .opt_opc = ushl_list,
 -      .vece = MO_16 },
 -    { .fni4 = gen_ushl_i32,
 -      .fniv = gen_ushl_vec,
 -      .opt_opc = ushl_list,
 -      .vece = MO_32 },
 -    { .fni8 = gen_ushl_i64,
 -      .fniv = gen_ushl_vec,
 -      .opt_opc = ushl_list,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_neg_vec, INDEX_op_shlv_vec,
 +        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_ushl_vec,
 +          .fno = gen_helper_gvec_ushl_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_ushl_vec,
 +          .fno = gen_helper_gvec_ushl_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ushl_i32,
 +          .fniv = gen_ushl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ushl_i64,
 +          .fniv = gen_ushl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
  {
@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
      tcg_temp_free_vec(tmp);
  }
 -static const TCGOpcode sshl_list[] = {
 -    INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
 -    INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
 -};
 -
 -const GVecGen3 sshl_op[4] = {
 -    { .fniv = gen_sshl_vec,
 -      .fno = gen_helper_gvec_sshl_b,
 -      .opt_opc = sshl_list,
 -      .vece = MO_8 },
 -    { .fniv = gen_sshl_vec,
 -      .fno = gen_helper_gvec_sshl_h,
 -      .opt_opc = sshl_list,
 -      .vece = MO_16 },
 -    { .fni4 = gen_sshl_i32,
 -      .fniv = gen_sshl_vec,
 -      .opt_opc = sshl_list,
 -      .vece = MO_32 },
 -    { .fni8 = gen_sshl_i64,
 -      .fniv = gen_sshl_vec,
 -      .opt_opc = sshl_list,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
 +        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_sshl_vec,
 +          .fno = gen_helper_gvec_sshl_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_sshl_vec,
 +          .fno = gen_helper_gvec_sshl_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_sshl_i32,
 +          .fniv = gen_sshl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_sshl_i64,
 +          .fniv = gen_sshl_vec,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                            TCGv_vec a, TCGv_vec b)
 --
 .20.1

-[PULL 06/45] target/arm: Tidy handle_vec_simd_shri
+[PULL 11/24] target/arm: Use dup_const() instead of bitfield_replicate()
-From: Richard Henderson <richard.henderson@linaro.org>
+Use dup_const() instead of bitfield_replicate() in
 disas_simd_mod_imm().
-Now that we've converted all cases to gvec, there is quite a bit
+(We can't replace the other use of bitfield_replicate() in this file,
-of dead code at the end of the function.  Remove it.
+in logic_imm_decode_wmask(), because that location needs to handle 2
 and 4 bit elements, which dup_const() cannot.)
-Sink the call to gen_gvec_fn2i to the end, loading a function
-pointer within the switch statement.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-6-peter.maydell@linaro.org
 ---
- target/arm/translate-a64.c | 56 ++++++++++----------------------------
+ target/arm/translate-a64.c | 2 +-
-file changed, 14 insertions(+), 42 deletions(-)
+file changed, 1 insertion(+), 1 deletion(-)
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
+@@ -XXX,XX +XXX,XX @@ static void disas_simd_mod_imm(DisasContext *s, uint32_t insn)
-     int size = 32 - clz32(immh) - 1;
+         /* FMOV (vector, immediate) - half-precision */
-     int immhb = immh << 3 | immb;
+         imm = vfp_expand_imm(MO_16, abcdefgh);
-     int shift = 2 * (8 << size) - immhb;
+         /* now duplicate across the lanes */
--    bool accumulate = false;
+-        imm = bitfield_replicate(imm, 16);
--    int dsize = is_q ? 128 : 64;
++        imm = dup_const(MO_16, imm);
--    int esize = 8 << size;
+     } else {
--    int elements = dsize/esize;
+         imm = asimd_imm_const(abcdefgh, cmode, is_neg);
 -    MemOp memop = size | (is_u ? 0 : MO_SIGN);
 -    TCGv_i64 tcg_rn = new_tmp_a64(s);
 -    TCGv_i64 tcg_rd = new_tmp_a64(s);
 -    TCGv_i64 tcg_round;
 -    uint64_t round_const;
 -    int i;
 +    GVecGen2iFn *gvec_fn;
      if (extract32(immh, 3, 1) && !is_q) {
          unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
      switch (opcode) {
      case 0x02: /* SSRA / USRA (accumulate) */
 -        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 -                      is_u ? gen_gvec_usra : gen_gvec_ssra, size);
 -        return;
 +        gvec_fn = is_u ? gen_gvec_usra : gen_gvec_ssra;
 +        break;
      case 0x08: /* SRI */
 -        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sri, size);
 -        return;
 +        gvec_fn = gen_gvec_sri;
 +        break;
      case 0x00: /* SSHR / USHR */
          if (is_u) {
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
                  /* Shift count the same size as element size produces zero.  */
                  tcg_gen_gvec_dup_imm(size, vec_full_reg_offset(s, rd),
                                       is_q ? 16 : 8, vec_full_reg_size(s), 0);
 -            } else {
 -                gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shri, size);
 +                return;
              }
 +            gvec_fn = tcg_gen_gvec_shri;
          } else {
              /* Shift count the same size as element size produces all sign.  */
              if (shift == 8 << size) {
                  shift -= 1;
              }
 -            gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_sari, size);
 +            gvec_fn = tcg_gen_gvec_sari;
          }
 -        return;
 +        break;
      case 0x04: /* SRSHR / URSHR (rounding) */
 -        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 -                      is_u ? gen_gvec_urshr : gen_gvec_srshr, size);
 -        return;
 +        gvec_fn = is_u ? gen_gvec_urshr : gen_gvec_srshr;
 +        break;
      case 0x06: /* SRSRA / URSRA (accum + rounding) */
 -        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 -                      is_u ? gen_gvec_ursra : gen_gvec_srsra, size);
 -        return;
 +        gvec_fn = is_u ? gen_gvec_ursra : gen_gvec_srsra;
 +        break;
      default:
          g_assert_not_reached();
      }
--    round_const = 1ULL << (shift - 1);
--    tcg_round = tcg_const_i64(round_const);
--
--    for (i = 0; i < elements; i++) {
--        read_vec_element(s, tcg_rn, rn, i, memop);
--        if (accumulate) {
--            read_vec_element(s, tcg_rd, rd, i, memop);
--        }
--
--        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
--                                accumulate, is_u, size, shift);
--
--        write_vec_element(s, tcg_rd, rd, i, size);
--    }
--    tcg_temp_free_i64(tcg_round);
--
--    clear_vec_high(s, is_q, rd);
-+    gen_gvec_fn2i(s, is_q, rd, rn, shift, gvec_fn, size);
- }
- /* SHL/SLI - Vector shift left */
 --
 .20.1

-[PULL 40/45] target/arm: Convert Neon VPMIN/VPMAX/VPADD float 3-reg-same insns to decodetree
+[PULL 12/24] target/arm: Implement MVE logical immediate insns
-Convert the Neon float VPMIN, VPMAX and VPADD 3-reg-same insns to
+Implement the MVE logical-immediate insns (VMOV, VMVN,
-decodetree. These are the only remaining 'pairwise' operations,
+VORR and VBIC). These have essentially the same encoding
-so we can delete the pairwise-specific bits of the old decoder's
+as their Neon equivalents, and we implement the decode
-for-each-element loop now.
+in the same way.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-13-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-7-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  5 +++
+ target/arm/helper-mve.h    |  4 +++
- target/arm/translate-neon.inc.c | 63 +++++++++++++++++++++++++++++++++
+ target/arm/mve.decode      | 17 +++++++++++++
- target/arm/translate.c          | 63 +++++----------------------------
+ target/arm/mve_helper.c    | 24 ++++++++++++++++++
-files changed, 76 insertions(+), 55 deletions(-)
+ target/arm/translate-mve.c | 50 ++++++++++++++++++++++++++++++++++++++
 files changed, 95 insertions(+)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvsh, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vaddvuh, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vaddvsw, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
 +
 +DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
 +DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
 +DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
 @@ -XXX,XX +XXX,XX @@
- # For FP insns the high bit of 'size' is used as part of opcode decode
+ # VQDMULL has size in bit 28: 0 for 16 bit, 1 for 32 bit
- @3same_fp        .... ... . . . . size:1 .... .... .... . q:1 . . .... \
+ %size_28 28:1 !function=plus_1
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
-+@3same_fp_q0     .... ... . . . . size:1 .... .... .... . 0 . . .... \
++# 1imm format immediate
-+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
++%imm_28_16_0 28:1 16:3 0:4
++
- VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
+ &vldr_vstr rn qd imm p a w size l u
- VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
+ &1op qd qm size
-@@ -XXX,XX +XXX,XX @@ VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
+ &2op qd qm qn size
+ &2scalar qd qn rm size
- VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
++&1imm qd imm cmode op
- VSUB_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
-+VPADD_fp_3s      1111 001 1 0 . 0 . .... .... 1101 ... 0 .... @3same_fp_q0
+ @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
- VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
+ # Note that both Rn and Qd are 3 bits only (no D bit)
-+VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
+@@ -XXX,XX +XXX,XX @@
-+VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
+ @2op_nosz .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn size=0
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+ @2op_sz28 .... .... .... .... .... .... .... .... &2op qd=%qd qm=%qm qn=%qn \
       size=%size_28
 +@1imm .... .... .... .... .... cmode:4 .. op:1 . .... &1imm qd=%qd imm=%imm_28_16_0
  # The _rev suffix indicates that Vn and Vm are reversed. This is
  # the case for shifts. In the Arm ARM these insns are documented
@@ -XXX,XX +XXX,XX @@ VADDV            111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rd
  # Predicate operations
  %mask_22_13      22:1 13:3
  VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
 +
 +# Logical immediate operations (1 reg and modified-immediate)
 +
 +# The cmode/op bits here decode VORR/VBIC/VMOV/VMVN, but
 +# not in a way we can conveniently represent in decodetree without
 +# a lot of repetition:
 +# VORR: op=0, (cmode & 1) && cmode < 12
 +# VBIC: op=1, (cmode & 1) && cmode < 12
 +# VMOV: everything else
 +# So we have a single decode line and check the cmode/op in the
 +# trans function.
 +Vimm_1r 111 . 1111 1 . 00 0 ... ... 0 .... 0 1 . 1 .... @1imm
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/target/arm/mve_helper.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
+@@ -XXX,XX +XXX,XX @@ DO_1OP(vnegw, 4, int32_t, DO_NEG)
- DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
+ DO_1OP(vfnegh, 8, uint64_t, DO_FNEGH)
- DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
+ DO_1OP(vfnegs, 8, uint64_t, DO_FNEGS)
- DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
 +/*
 + * 1 operand immediates: Vda is destination and possibly also one source.
 + * All these insns work at 64-bit widths.
 + */
 +#define DO_1OP_IMM(OP, FN)                                              \
 +    void HELPER(mve_##OP)(CPUARMState *env, void *vda, uint64_t imm)    \
 +    {                                                                   \
 +        uint64_t *da = vda;                                             \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned e;                                                     \
 +        for (e = 0; e < 16 / 8; e++, mask >>= 8) {                      \
 +            mergemask(&da[H8(e)], FN(da[H8(e)], imm), mask);            \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-+static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
++#define DO_MOVI(N, I) (I)
 +#define DO_ANDI(N, I) ((N) & (I))
 +#define DO_ORRI(N, I) ((N) | (I))
 +
 +DO_1OP_IMM(vmovi, DO_MOVI)
 +DO_1OP_IMM(vandi, DO_ANDI)
 +DO_1OP_IMM(vorri, DO_ORRI)
 +
  #define DO_2OP(OP, ESIZE, TYPE, FN)                                     \
      void HELPER(glue(mve_, OP))(CPUARMState *env,                       \
                                  void *vd, void *vn, void *vm)           \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  typedef void MVEGenVADDVFn(TCGv_i32, TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void MVEGenOneOpImmFn(TCGv_ptr, TCGv_ptr, TCGv_i64);
  /* Return the offset of a Qn register (same semantics as aa32_vfp_qreg()) */
  static inline long mve_qreg_offset(unsigned reg)
@@ -XXX,XX +XXX,XX @@ static bool trans_VADDV(DisasContext *s, arg_VADDV *a)
      mve_update_eci(s);
      return true;
  }
 +
 +static bool do_1imm(DisasContext *s, arg_1imm *a, MVEGenOneOpImmFn *fn)
 +{
-+    /* FP operations handled pairwise 32 bits at a time */
++    TCGv_ptr qd;
-+    TCGv_i32 tmp, tmp2, tmp3;
++    uint64_t imm;
 +    TCGv_ptr fpstatus;
 +
-+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
++    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qd) ||
 +        !fn) {
 +        return false;
 +    }
-+
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
-+    assert(a->q == 0); /* enforced by decode patterns */
++    imm = asimd_imm_const(a->imm, a->cmode, a->op);
 +
-+    /*
++    qd = mve_qreg_ptr(a->qd);
-+     * Note that we have to be careful not to clobber the source operands
++    fn(cpu_env, qd, tcg_constant_i64(imm));
-+     * in the "vm == vd" case by storing the result of the first pass too
++    tcg_temp_free_ptr(qd);
-+     * early. Since Q is 0 there are always just two passes, so instead
++    mve_update_eci(s);
 +     * of a complicated loop over each pass we just unroll.
 +     */
 +    fpstatus = get_fpstatus_ptr(1);
 +    tmp = neon_load_reg(a->vn, 0);
 +    tmp2 = neon_load_reg(a->vn, 1);
 +    fn(tmp, tmp, tmp2, fpstatus);
 +    tcg_temp_free_i32(tmp2);
 +
 +    tmp3 = neon_load_reg(a->vm, 0);
 +    tmp2 = neon_load_reg(a->vm, 1);
 +    fn(tmp3, tmp3, tmp2, fpstatus);
 +    tcg_temp_free_i32(tmp2);
 +    tcg_temp_free_ptr(fpstatus);
 +
 +    neon_store_reg(a->vd, 0, tmp);
 +    neon_store_reg(a->vd, 1, tmp3);
 +    return true;
 +}
 +
-+/*
++static bool trans_Vimm_1r(DisasContext *s, arg_1imm *a)
-+ * For all the functions using this macro, size == 1 means fp16,
++{
-+ * which is an architecture extension we don't implement yet.
++    /* Handle decode of cmode/op here between VORR/VBIC/VMOV */
-+ */
++    MVEGenOneOpImmFn *fn;
-+#define DO_3S_FP_PAIR(INSN,FUNC)                                    \
++
-+    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
++    if ((a->cmode & 1) && a->cmode < 12) {
-+    {                                                               \
++        if (a->op) {
-+        if (a->size != 0) {                                         \
++            /*
-+            /* TODO fp16 support */                                 \
++             * For op=1, the immediate will be inverted by asimd_imm_const(),
-+            return false;                                           \
++             * so the VBIC becomes a logical AND operation.
-+        }                                                           \
++             */
-+        return do_3same_fp_pair(s, a, FUNC);                        \
++            fn = gen_helper_mve_vandi;
 +        } else {
 +            fn = gen_helper_mve_vorri;
 +        }
 +    } else {
 +        /* There is one unallocated cmode/op combination in this space */
 +        if (a->cmode == 15 && a->op == 1) {
 +            return false;
 +        }
 +        /* asimd_imm_const() sorts out VMVNI vs VMOVI for us */
 +        fn = gen_helper_mve_vmovi;
 +    }
-+
++    return do_1imm(s, a, fn);
-+DO_3S_FP_PAIR(VPADD, gen_helper_vfp_adds)
++}
 +DO_3S_FP_PAIR(VPMAX, gen_helper_vfp_maxs)
 +DO_3S_FP_PAIR(VPMIN, gen_helper_vfp_mins)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      int shift;
      int pass;
      int count;
 -    int pairwise;
      int u;
      int vec_size;
      uint32_t imm;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VPMIN:
          case NEON_3R_VPADD_VQRDMLAH:
          case NEON_3R_VQDMULH_VQRDMULH:
 +        case NEON_3R_FLOAT_ARITH:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              /* 64-bit element instructions: handled by decodetree */
              return 1;
          }
 -        pairwise = 0;
          switch (op) {
 -        case NEON_3R_FLOAT_ARITH:
 -            pairwise = (u && size < 2); /* if VPADD (float) */
 -            if (!pairwise) {
 -                return 1; /* handled by decodetree */
 -            }
 -            break;
          case NEON_3R_FLOAT_MINMAX:
 -            pairwise = u; /* if VPMIN/VPMAX (float) */
 +            if (u) {
 +                return 1; /* VPMIN/VPMAX handled by decodetree */
 +            }
              break;
          case NEON_3R_FLOAT_CMP:
              if (!u && size) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              break;
          }
 -        if (pairwise && q) {
 -            /* All the pairwise insns UNDEF if Q is set */
 -            return 1;
 -        }
 -
          for (pass = 0; pass < (q ? 4 : 2); pass++) {
 -        if (pairwise) {
 -            /* Pairwise.  */
 -            if (pass < 1) {
 -                tmp = neon_load_reg(rn, 0);
 -                tmp2 = neon_load_reg(rn, 1);
 -            } else {
 -                tmp = neon_load_reg(rm, 0);
 -                tmp2 = neon_load_reg(rm, 1);
 -            }
 -        } else {
 -            /* Elementwise.  */
 -            tmp = neon_load_reg(rn, pass);
 -            tmp2 = neon_load_reg(rm, pass);
 -        }
 +        /* Elementwise.  */
 +        tmp = neon_load_reg(rn, pass);
 +        tmp2 = neon_load_reg(rm, pass);
          switch (op) {
 -        case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
 -        {
 -            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -            switch ((u << 2) | size) {
 -            case 4: /* VPADD */
 -                gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
 -                break;
 -            default:
 -                abort();
 -            }
 -            tcg_temp_free_ptr(fpstatus);
 -            break;
 -        }
          case NEON_3R_FLOAT_MULTIPLY:
          {
              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          }
          tcg_temp_free_i32(tmp2);
 -        /* Save the result.  For elementwise operations we can put it
 -           straight into the destination register.  For pairwise operations
 -           we have to be careful to avoid clobbering the source operands.  */
 -        if (pairwise && rd == rm) {
 -            neon_store_scratch(pass, tmp);
 -        } else {
 -            neon_store_reg(rd, pass, tmp);
 -        }
 +        neon_store_reg(rd, pass, tmp);
          } /* for pass */
 -        if (pairwise && rd == rm) {
 -            for (pass = 0; pass < (q ? 4 : 2); pass++) {
 -                tmp = neon_load_scratch(pass);
 -                neon_store_reg(rd, pass, tmp);
 -            }
 -        }
          /* End of 3 register same size operations.  */
      } else if (insn & (1 << 4)) {
          if ((insn & 0x00380080) != 0) {
 --
 .20.1

-[PULL 36/45] target/arm: Convert Neon VPMAX/VPMIN 3-reg-same insns to decodetree
+[PULL 13/24] target/arm: Implement MVE vector shift left by immediate insns
-Convert the Neon integer VPMAX and VPMIN 3-reg-same insns to
+Implement the MVE shift-vector-left-by-immediate insns VSHL, VQSHL
-decodetree. These are 'pairwise' operations.
+and VQSHLU.
 The size-and-immediate encoding here is the same as Neon, and we
 handle it the same way neon-dp.decode does.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-9-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-8-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  9 +++++
+ target/arm/helper-mve.h    | 16 +++++++++++
- target/arm/translate-neon.inc.c | 71 +++++++++++++++++++++++++++++++++
+ target/arm/mve.decode      | 23 +++++++++++++++
- target/arm/translate.c          | 17 +-------
+ target/arm/mve_helper.c    | 57 ++++++++++++++++++++++++++++++++++++++
-files changed, 82 insertions(+), 15 deletions(-)
+ target/arm/translate-mve.c | 51 ++++++++++++++++++++++++++++++++++
+files changed, 147 insertions(+)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
---- a/target/arm/neon-dp.decode
+index XXXXXXX..XXXXXXX 100644
-+++ b/target/arm/neon-dp.decode
+--- a/target/arm/helper-mve.h
 +++ b/target/arm/helper-mve.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
  DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
  DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
 +
 +DEF_HELPER_FLAGS_4(mve_vshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vqshlui_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve.decode
 +++ b/target/arm/mve.decode
 @@ -XXX,XX +XXX,XX @@
- @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
+ &2op qd qm qn size
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ &2scalar qd qn rm size
+ &1imm qd imm cmode op
-+@3same_q0        .... ... . . . size:2 .... .... .... . 0 . . .... \
++&2shift qd qm shift size
-+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
-+
+ @vldr_vstr ....... . . . . l:1 rn:4 ... ...... imm:7 &vldr_vstr qd=%qd u=0
- VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
+ # Note that both Rn and Qd are 3 bits only (no D bit)
- VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
+@@ -XXX,XX +XXX,XX @@
- VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
+ @2scalar .... .... .. size:2 .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
-@@ -XXX,XX +XXX,XX @@ VMLS_3s          1111 001 1 0 . .. .... .... 1001 . . . 0 .... @3same
+ @2scalar_nosz .... .... .... .... .... .... .... rm:4 &2scalar qd=%qd qn=%qn
- VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
- VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
++@2_shl_b .... .... .. 001 shift:3 .... .... .... .... &2shift qd=%qd qm=%qm size=0
++@2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
-+VPMAX_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 0 .... @3same_q0
++@2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
-+VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
++
-+
+ # Vector loads and stores
-+VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
-+VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
+ # Widening loads and narrowing stores:
-+
+@@ -XXX,XX +XXX,XX @@ VPST             1111 1110 0 . 11 000 1 ... 0 1111 0100 1101 mask=%mask_22_13
- VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
+ # So we have a single decode line and check the cmode/op in the
+ # trans function.
- SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
+ Vimm_1r 111 . 1111 1 . 00 0 ... ... 0 .... 0 1 . 1 .... @1imm
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
++
-index XXXXXXX..XXXXXXX 100644
++# Shifts by immediate
---- a/target/arm/translate-neon.inc.c
++
-+++ b/target/arm/translate-neon.inc.c
++VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_S, qshl_s)
++VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
- DO_3SAME_32_ENV(VQSHL_U, qshl_u)
++VSHLI             111 0 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
- DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
++
- DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
++VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_b
-+
++VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_h
-+static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
++VQSHLI_S          111 0 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_b
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_h
 +VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
 +
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_b
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_h
 +VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_w
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2OP_SAT(vqsubsw, 4, int32_t, DO_SQSUB_W)
      WRAP_QRSHL_HELPER(do_sqrshl_bhs, N, M, true, satp)
  #define DO_UQRSHL_OP(N, M, satp) \
      WRAP_QRSHL_HELPER(do_uqrshl_bhs, N, M, true, satp)
 +#define DO_SUQSHL_OP(N, M, satp) \
 +    WRAP_QRSHL_HELPER(do_suqrshl_bhs, N, M, false, satp)
  DO_2OP_SAT_S(vqshls, DO_SQSHL_OP)
  DO_2OP_SAT_U(vqshlu, DO_UQSHL_OP)
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvsw, 4, uint32_t)
  DO_VADDV(vaddvub, 1, uint8_t)
  DO_VADDV(vaddvuh, 2, uint16_t)
  DO_VADDV(vaddvuw, 4, uint32_t)
 +
 +/* Shifts by immediate */
 +#define DO_2SHIFT(OP, ESIZE, TYPE, FN)                          \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        TYPE *d = vd, *m = vm;                                  \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {      \
 +            mergemask(&d[H##ESIZE(e)],                          \
 +                      FN(m[H##ESIZE(e)], shift), mask);         \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +#define DO_2SHIFT_SAT(OP, ESIZE, TYPE, FN)                      \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 +                                void *vm, uint32_t shift)       \
 +    {                                                           \
 +        TYPE *d = vd, *m = vm;                                  \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        bool qc = false;                                        \
 +        for (e = 0; e < 16 / ESIZE; e++, mask >>= ESIZE) {      \
 +            bool sat = false;                                   \
 +            mergemask(&d[H##ESIZE(e)],                          \
 +                      FN(m[H##ESIZE(e)], shift, &sat), mask);   \
 +            qc |= sat & mask & 1;                               \
 +        }                                                       \
 +        if (qc) {                                               \
 +            env->vfp.qc[0] = qc;                                \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +    }
 +
 +/* provide unsigned 2-op shift helpers for all sizes */
 +#define DO_2SHIFT_U(OP, FN)                     \
 +    DO_2SHIFT(OP##b, 1, uint8_t, FN)            \
 +    DO_2SHIFT(OP##h, 2, uint16_t, FN)           \
 +    DO_2SHIFT(OP##w, 4, uint32_t, FN)
 +
 +#define DO_2SHIFT_SAT_U(OP, FN)                 \
 +    DO_2SHIFT_SAT(OP##b, 1, uint8_t, FN)        \
 +    DO_2SHIFT_SAT(OP##h, 2, uint16_t, FN)       \
 +    DO_2SHIFT_SAT(OP##w, 4, uint32_t, FN)
 +#define DO_2SHIFT_SAT_S(OP, FN)                 \
 +    DO_2SHIFT_SAT(OP##b, 1, int8_t, FN)         \
 +    DO_2SHIFT_SAT(OP##h, 2, int16_t, FN)        \
 +    DO_2SHIFT_SAT(OP##w, 4, int32_t, FN)
 +
 +DO_2SHIFT_U(vshli_u, DO_VSHLU)
 +DO_2SHIFT_SAT_U(vqshli_u, DO_UQSHL_OP)
 +DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
 +DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ typedef void MVEGenLdStFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_ptr);
  typedef void MVEGenTwoOpScalarFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
 +typedef void MVEGenTwoOpShiftFn(TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenDualAccOpFn(TCGv_i64, TCGv_ptr, TCGv_ptr, TCGv_ptr, TCGv_i64);
  typedef void MVEGenVADDVFn(TCGv_i32, TCGv_ptr, TCGv_ptr, TCGv_i32);
  typedef void MVEGenOneOpImmFn(TCGv_ptr, TCGv_ptr, TCGv_i64);
@@ -XXX,XX +XXX,XX @@ static bool trans_Vimm_1r(DisasContext *s, arg_1imm *a)
      }
      return do_1imm(s, a, fn);
  }
 +
 +static bool do_2shift(DisasContext *s, arg_2shift *a, MVEGenTwoOpShiftFn fn,
 +                      bool negateshift)
 +{
-+    /* Operations handled pairwise 32 bits at a time */
++    TCGv_ptr qd, qm;
-+    TCGv_i32 tmp, tmp2, tmp3;
++    int shift = a->shift;
 +
-+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
++    if (!dc_isar_feature(aa32_mve, s) ||
 +        !mve_check_qreg_bank(s, a->qd | a->qm) ||
 +        !fn) {
 +        return false;
 +    }
-+
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if (a->size == 3) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
-+    assert(a->q == 0); /* enforced by decode patterns */
-+
 +    /*
-+     * Note that we have to be careful not to clobber the source operands
++     * When we handle a right shift insn using a left-shift helper
-+     * in the "vm == vd" case by storing the result of the first pass too
++     * which permits a negative shift count to indicate a right-shift,
-+     * early. Since Q is 0 there are always just two passes, so instead
++     * we must negate the shift count.
 +     * of a complicated loop over each pass we just unroll.
 +     */
-+    tmp = neon_load_reg(a->vn, 0);
++    if (negateshift) {
-+    tmp2 = neon_load_reg(a->vn, 1);
++        shift = -shift;
-+    fn(tmp, tmp, tmp2);
++    }
-+    tcg_temp_free_i32(tmp2);
++
-+
++    qd = mve_qreg_ptr(a->qd);
-+    tmp3 = neon_load_reg(a->vm, 0);
++    qm = mve_qreg_ptr(a->qm);
-+    tmp2 = neon_load_reg(a->vm, 1);
++    fn(cpu_env, qd, qm, tcg_constant_i32(shift));
-+    fn(tmp3, tmp3, tmp2);
++    tcg_temp_free_ptr(qd);
-+    tcg_temp_free_i32(tmp2);
++    tcg_temp_free_ptr(qm);
-+
++    mve_update_eci(s);
 +    neon_store_reg(a->vd, 0, tmp);
 +    neon_store_reg(a->vd, 1, tmp3);
 +    return true;
 +}
 +
-+#define DO_3SAME_PAIR(INSN, func)                                       \
++#define DO_2SHIFT(INSN, FN, NEGATESHIFT)                         \
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
++    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
-+    {                                                                   \
++    {                                                           \
-+        static NeonGenTwoOpFn * const fns[] = {                         \
++        static MVEGenTwoOpShiftFn * const fns[] = {             \
-+            gen_helper_neon_##func##8,                                  \
++            gen_helper_mve_##FN##b,                             \
-+            gen_helper_neon_##func##16,                                 \
++            gen_helper_mve_##FN##h,                             \
-+            gen_helper_neon_##func##32,                                 \
++            gen_helper_mve_##FN##w,                             \
-+        };                                                              \
++            NULL,                                               \
-+        if (a->size > 2) {                                              \
++        };                                                      \
-+            return false;                                               \
++        return do_2shift(s, a, fns[a->size], NEGATESHIFT);      \
-+        }                                                               \
++    }
-+        return do_3same_pair(s, a, fns[a->size]);                       \
++
-+    }
++DO_2SHIFT(VSHLI, vshli_u, false)
-+
++DO_2SHIFT(VQSHLI_S, vqshli_s, false)
-+/* 32-bit pairwise ops end up the same as the elementwise versions.  */
++DO_2SHIFT(VQSHLI_U, vqshli_u, false)
-+#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
++DO_2SHIFT(VQSHLUI, vqshlui_s, false)
 +#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 +#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 +#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 +
 +DO_3SAME_PAIR(VPMAX_S, pmax_s)
 +DO_3SAME_PAIR(VPMIN_S, pmin_s)
 +DO_3SAME_PAIR(VPMAX_U, pmax_u)
 +DO_3SAME_PAIR(VPMIN_U, pmin_u)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void gen_neon_rsb(int size, TCGv_i32 t0, TCGv_i32 t1)
      }
  }
 -/* 32-bit pairwise ops end up the same as the elementwise versions.  */
 -#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
 -#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 -#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 -#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -
  #define GEN_NEON_INTEGER_OP_ENV(name) do { \
      switch ((size << 1) | u) { \
      case 0: \
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VQSHL:
          case NEON_3R_VRSHL:
          case NEON_3R_VQRSHL:
 +        case NEON_3R_VPMAX:
 +        case NEON_3R_VPMIN:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          pairwise = 0;
          switch (op) {
          case NEON_3R_VPADD_VQRDMLAH:
 -        case NEON_3R_VPMAX:
 -        case NEON_3R_VPMIN:
              pairwise = 1;
              break;
          case NEON_3R_FLOAT_ARITH:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tmp2 = neon_load_reg(rm, pass);
          }
          switch (op) {
 -            break;
 -        case NEON_3R_VPMAX:
 -            GEN_NEON_INTEGER_OP(pmax);
 -            break;
 -        case NEON_3R_VPMIN:
 -            GEN_NEON_INTEGER_OP(pmin);
 -            break;
          case NEON_3R_VQDMULH_VQRDMULH: /* Multiply high.  */
              if (!u) { /* VQDMULH */
                  switch (size) {
 --
 .20.1

-[PULL 17/45] target/arm: Vectorize SABA/UABA
+[PULL 14/24] target/arm: Implement MVE vector shift right by immediate insns
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE vector shift right by immediate insns VSHRI and
 VRSHRI.  As with Neon, we implement these by using helper functions
 which perform left shifts but allow negative shift counts to indicate
 right shifts.
-Include 64-bit element size in preparation for SVE2.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-9-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h     | 12 ++++++++++++
  target/arm/translate.h      | 20 ++++++++++++++++++++
  target/arm/mve.decode       | 28 ++++++++++++++++++++++++++++
  target/arm/mve_helper.c     |  7 +++++++
  target/arm/translate-mve.c  |  5 +++++
  target/arm/translate-neon.c | 18 ------------------
 files changed, 72 insertions(+), 18 deletions(-)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20200513163245.17915-17-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/helper.h        |  17 +++--
  target/arm/translate.h     |   5 ++
  target/arm/neon_helper.c   |  10 ---
  target/arm/translate-a64.c |  17 ++---
  target/arm/translate.c     | 134 +++++++++++++++++++++++++++++++++++--
  target/arm/vec_helper.c    |  24 +++++++
 files changed, 174 insertions(+), 33 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(neon_pmax_s8, i32, i32, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
- DEF_HELPER_2(neon_pmax_u16, i32, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
- DEF_HELPER_2(neon_pmax_s16, i32, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
--DEF_HELPER_2(neon_abd_u8, i32, i32, i32)
++DEF_HELPER_FLAGS_4(mve_vshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
--DEF_HELPER_2(neon_abd_s8, i32, i32, i32)
++DEF_HELPER_FLAGS_4(mve_vshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
--DEF_HELPER_2(neon_abd_u16, i32, i32, i32)
++DEF_HELPER_FLAGS_4(mve_vshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 -DEF_HELPER_2(neon_abd_s16, i32, i32, i32)
 -DEF_HELPER_2(neon_abd_u32, i32, i32, i32)
 -DEF_HELPER_2(neon_abd_s32, i32, i32, i32)
 -
  DEF_HELPER_2(neon_shl_u16, i32, i32, i32)
  DEF_HELPER_2(neon_shl_s16, i32, i32, i32)
  DEF_HELPER_2(neon_rshl_u8, i32, i32, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_uabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_uabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_uabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
-+DEF_HELPER_FLAGS_4(gvec_uaba_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(gvec_uaba_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(gvec_uaba_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_4(gvec_uaba_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(mve_vqshlui_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
- #ifdef TARGET_AARCH64
++DEF_HELPER_FLAGS_4(mve_vrshli_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #include "helper-a64.h"
++DEF_HELPER_FLAGS_4(mve_vrshli_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #include "helper-sve.h"
++DEF_HELPER_FLAGS_4(mve_vrshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vrshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+@@ -XXX,XX +XXX,XX @@ static inline int times_2_plus_1(DisasContext *s, int x)
- void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+     return x * 2 + 1;
                     uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/neon_helper.c b/target/arm/neon_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/neon_helper.c
 +++ b/target/arm/neon_helper.c
@@ -XXX,XX +XXX,XX @@ NEON_POP(pmax_s16, neon_s16, 2)
  NEON_POP(pmax_u16, neon_u16, 2)
  #undef NEON_FN
 -#define NEON_FN(dest, src1, src2) \
 -    dest = (src1 > src2) ? (src1 - src2) : (src2 - src1)
 -NEON_VOP(abd_s8, neon_s8, 4)
 -NEON_VOP(abd_u8, neon_u8, 4)
 -NEON_VOP(abd_s16, neon_s16, 2)
 -NEON_VOP(abd_u16, neon_u16, 2)
 -NEON_VOP(abd_s32, neon_s32, 1)
 -NEON_VOP(abd_u32, neon_u32, 1)
 -#undef NEON_FN
 -
  #define NEON_FN(dest, src1, src2) do { \
      int8_t tmp; \
      tmp = (int8_t)src2; \
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
              gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sabd, size);
          }
          return;
 +    case 0xf: /* SABA, UABA */
 +        if (u) {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uaba, size);
 +        } else {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_saba, size);
 +        }
 +        return;
      case 0x10: /* ADD, SUB */
          if (u) {
              gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_sub, size);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
                  genenvfn = fns[size][u];
                  break;
              }
 -            case 0xf: /* SABA, UABA */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_abd_s8, gen_helper_neon_abd_u8 },
 -                    { gen_helper_neon_abd_s16, gen_helper_neon_abd_u16 },
 -                    { gen_helper_neon_abd_s32, gen_helper_neon_abd_u32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
              case 0x16: /* SQDMULH, SQRDMULH */
              {
                  static NeonGenTwoOpEnvFn * const fns[2][2] = {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
  }
-+static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++static inline int rsub_64(DisasContext *s, int x)
 +{
-+    TCGv_i32 t = tcg_temp_new_i32();
++    return 64 - x;
 +    gen_sabd_i32(t, a, b);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
-+static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++static inline int rsub_32(DisasContext *s, int x)
 +{
-+    TCGv_i64 t = tcg_temp_new_i64();
++    return 32 - x;
 +    gen_sabd_i64(t, a, b);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
-+static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++static inline int rsub_16(DisasContext *s, int x)
 +{
-+    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    return 16 - x;
 +    gen_sabd_vec(vece, t, a, b);
 +    tcg_gen_add_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
-+void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++static inline int rsub_8(DisasContext *s, int x)
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
-+    static const TCGOpcode vecop_list[] = {
++    return 8 - x;
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_saba_i32,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_saba_i64,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
-+static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+ static inline int arm_dc_feature(DisasContext *dc, int feature)
-+{
+ {
-+    TCGv_i32 t = tcg_temp_new_i32();
+     return (dc->features & (1ULL << feature)) != 0;
-+    gen_uabd_i32(t, a, b);
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-+    tcg_gen_add_i32(d, d, t);
+index XXXXXXX..XXXXXXX 100644
-+    tcg_temp_free_i32(t);
+--- a/target/arm/mve.decode
-+}
++++ b/target/arm/mve.decode
@@ -XXX,XX +XXX,XX @@
  @2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
  @2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
 +# Right shifts are encoded as N - shift, where N is the element size in bits.
 +%rshift_i5  16:5 !function=rsub_32
 +%rshift_i4  16:4 !function=rsub_16
 +%rshift_i3  16:3 !function=rsub_8
 +
-+static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++@2_shr_b .... .... .. 001 ... .... .... .... .... &2shift qd=%qd qm=%qm \
-+{
++         size=0 shift=%rshift_i3
-+    TCGv_i64 t = tcg_temp_new_i64();
++@2_shr_h .... .... .. 01 .... .... .... .... .... &2shift qd=%qd qm=%qm \
-+    gen_uabd_i64(t, a, b);
++         size=1 shift=%rshift_i4
-+    tcg_gen_add_i64(d, d, t);
++@2_shr_w .... .... .. 1 ..... .... .... .... .... &2shift qd=%qd qm=%qm \
-+    tcg_temp_free_i64(t);
++         size=2 shift=%rshift_i5
 +}
 +
-+static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+ # Vector loads and stores
-+{
-+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+ # Widening loads and narrowing stores:
-+    gen_uabd_vec(vece, t, a, b);
+@@ -XXX,XX +XXX,XX @@ VQSHLI_U          111 1 1111 1 . ... ... ... 0 0111 0 1 . 1 ... 0 @2_shl_w
-+    tcg_gen_add_vec(vece, d, d, t);
+ VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_b
-+    tcg_temp_free_vec(t);
+ VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_h
-+}
+ VQSHLUI           111 1 1111 1 . ... ... ... 0 0110 0 1 . 1 ... 0 @2_shl_w
 +
-+void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_b
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_h
-+{
++VSHRI_S           111 0 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_w
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uaba_i32,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uaba_i64,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
- /* Translate a NEON data processing instruction.  Return nonzero if the
++VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_b
-    instruction is invalid.
++VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_h
-    We process data in a mixture of 32-bit and 64-bit chunks.
++VSHRI_U           111 1 1111 1 . ... ... ... 0 0000 0 1 . 1 ... 0 @2_shr_w
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              }
              return 0;
 +        case NEON_3R_VABA:
 +            if (u) {
 +                gen_gvec_uaba(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            } else {
 +                gen_gvec_saba(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            }
 +            return 0;
 +
-         case NEON_3R_VADD_VSUB:
++VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
-         case NEON_3R_LOGIC:
++VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
-         case NEON_3R_VMAX:
++VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
++
-         case NEON_3R_VQRSHL:
++VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
-             GEN_NEON_INTEGER_OP_ENV(qrshl);
++VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
-             break;
++VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
--        case NEON_3R_VABA:
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 -            GEN_NEON_INTEGER_OP(abd);
 -            tcg_temp_free_i32(tmp2);
 -            tmp2 = neon_load_reg(rd, pass);
 -            gen_neon_add(size, tmp, tmp2);
 -            break;
          case NEON_3R_VPMAX:
              GEN_NEON_INTEGER_OP(pmax);
              break;
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
+--- a/target/arm/mve_helper.c
-+++ b/target/arm/vec_helper.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ DO_ABD(gvec_uabd_s, uint32_t)
+@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvuw, 4, uint32_t)
- DO_ABD(gvec_uabd_d, uint64_t)
+     DO_2SHIFT(OP##b, 1, uint8_t, FN)            \
+     DO_2SHIFT(OP##h, 2, uint16_t, FN)           \
- #undef DO_ABD
+     DO_2SHIFT(OP##w, 4, uint32_t, FN)
-+
++#define DO_2SHIFT_S(OP, FN)                     \
-+#define DO_ABA(NAME, TYPE)                                      \
++    DO_2SHIFT(OP##b, 1, int8_t, FN)             \
-+void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
++    DO_2SHIFT(OP##h, 2, int16_t, FN)            \
-+{                                                               \
++    DO_2SHIFT(OP##w, 4, int32_t, FN)
-+    intptr_t i, opr_sz = simd_oprsz(desc);                      \
-+    TYPE *d = vd, *n = vn, *m = vm;                             \
+ #define DO_2SHIFT_SAT_U(OP, FN)                 \
-+                                                                \
+     DO_2SHIFT_SAT(OP##b, 1, uint8_t, FN)        \
-+    for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
+@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvuw, 4, uint32_t)
-+        d[i] += n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];        \
+     DO_2SHIFT_SAT(OP##w, 4, int32_t, FN)
-+    }                                                           \
-+    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
+ DO_2SHIFT_U(vshli_u, DO_VSHLU)
-+}
++DO_2SHIFT_S(vshli_s, DO_VSHLS)
-+
+ DO_2SHIFT_SAT_U(vqshli_u, DO_UQSHL_OP)
-+DO_ABA(gvec_saba_b, int8_t)
+ DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
-+DO_ABA(gvec_saba_h, int16_t)
+ DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
-+DO_ABA(gvec_saba_s, int32_t)
++DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
-+DO_ABA(gvec_saba_d, int64_t)
++DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
-+
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+DO_ABA(gvec_uaba_b, uint8_t)
+index XXXXXXX..XXXXXXX 100644
-+DO_ABA(gvec_uaba_h, uint16_t)
+--- a/target/arm/translate-mve.c
-+DO_ABA(gvec_uaba_s, uint32_t)
++++ b/target/arm/translate-mve.c
-+DO_ABA(gvec_uaba_d, uint64_t)
+@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHLI, vshli_u, false)
-+
+ DO_2SHIFT(VQSHLI_S, vqshli_s, false)
-+#undef DO_ABA
+ DO_2SHIFT(VQSHLI_U, vqshli_u, false)
  DO_2SHIFT(VQSHLUI, vqshlui_s, false)
 +/* These right shifts use a left-shift helper with negated shift count */
 +DO_2SHIFT(VSHRI_S, vshli_s, true)
 +DO_2SHIFT(VSHRI_U, vshli_u, true)
 +DO_2SHIFT(VRSHRI_S, vrshli_s, true)
 +DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 diff --git a/target/arm/translate-neon.c b/target/arm/translate-neon.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.c
 +++ b/target/arm/translate-neon.c
@@ -XXX,XX +XXX,XX @@ static inline int plus1(DisasContext *s, int x)
      return x + 1;
  }
 -static inline int rsub_64(DisasContext *s, int x)
 -{
 -    return 64 - x;
 -}
 -
 -static inline int rsub_32(DisasContext *s, int x)
 -{
 -    return 32 - x;
 -}
 -static inline int rsub_16(DisasContext *s, int x)
 -{
 -    return 16 - x;
 -}
 -static inline int rsub_8(DisasContext *s, int x)
 -{
 -    return 8 - x;
 -}
 -
  static inline int neon_3same_fp_size(DisasContext *s, int x)
  {
      /* Convert 0==fp32, 1==fp16 into a MO_* value */
 --
 .20.1

-[PULL 45/45] target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree
+[PULL 15/24] target/arm: Implement MVE VSHLL
-Convert the Neon floating point VFMA and VFMS insn to decodetree.
+Implement the MVE VHLL (vector shift left long) insn.  This has two
-These are the last insns in the 3-reg-same group so we can
+encodings: the T1 encoding is the usual shift-by-immediate format,
-remove all the support/loop code from the old decoder.
+and the T2 encoding is a special case where the shift count is always
 equal to the element size.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-18-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-10-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |   3 +
+ target/arm/helper-mve.h    |  9 +++++++
- target/arm/translate-neon.inc.c |  41 ++++++++
+ target/arm/mve.decode      | 53 +++++++++++++++++++++++++++++++++++---
- target/arm/translate.c          | 176 +-------------------------------
+ target/arm/mve_helper.c    | 32 +++++++++++++++++++++++
-files changed, 46 insertions(+), 174 deletions(-)
+ target/arm/translate-mve.c | 15 +++++++++++
 files changed, 105 insertions(+), 4 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ SHA256H2_3s      1111 001 1 0 . 01 .... .... 1100 . 1 . 0 .... \
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrshli_sw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
+ DEF_HELPER_FLAGS_4(mve_vrshli_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                  vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ DEF_HELPER_FLAGS_4(mve_vrshli_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vrshli_uw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +VFMA_fp_3s       1111 001 0 0 . 0 . .... .... 1100 ... 1 .... @3same_fp
 +VFMS_fp_3s       1111 001 0 0 . 1 . .... .... 1100 ... 1 .... @3same_fp
 +
- VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
++DEF_HELPER_FLAGS_4(mve_vshllbsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vshllbsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
++DEF_HELPER_FLAGS_4(mve_vshllbub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
++DEF_HELPER_FLAGS_4(mve_vshllbuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vshlltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/target/arm/mve.decode
-+++ b/target/arm/translate-neon.inc.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
+@@ -XXX,XX +XXX,XX @@
-     return do_3same(s, a, gen_VRSQRTS_fp_3s);
+ @2_shl_h .... .... .. 01  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
- }
+ @2_shl_w .... .... .. 1   shift:5 .... .... .... .... &2shift qd=%qd qm=%qm size=2
-+static void gen_VFMA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
++@2_shll_b .... .... ... 01 shift:3 .... .... .... .... &2shift qd=%qd qm=%qm size=0
-+                            TCGv_ptr fpstatus)
++@2_shll_h .... .... ... 1  shift:4 .... .... .... .... &2shift qd=%qd qm=%qm size=1
 +# VSHLL encoding T2 where shift == esize
 +@2_shll_esize_b .... .... .... 00 .. .... .... .... .... &2shift \
 +                qd=%qd qm=%qm size=0 shift=8
 +@2_shll_esize_h .... .... .... 01 .. .... .... .... .... &2shift \
 +                qd=%qd qm=%qm size=1 shift=16
 +
  # Right shifts are encoded as N - shift, where N is the element size in bits.
  %rshift_i5  16:5 !function=rsub_32
  %rshift_i4  16:4 !function=rsub_16
@@ -XXX,XX +XXX,XX @@ VADD             1110 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
  VSUB             1111 1111 0 . .. ... 0 ... 0 1000 . 1 . 0 ... 0 @2op
  VMUL             1110 1111 0 . .. ... 0 ... 0 1001 . 1 . 1 ... 0 @2op
 -VMULH_S          111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 -VMULH_U          111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +# The VSHLL T2 encoding is not a @2op pattern, but is here because it
 +# overlaps what would be size=0b11 VMULH/VRMULH
 +{
-+    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
++  VSHLL_BS       111 0 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_BS       111 0 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_h
 -VRMULH_S         111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 -VRMULH_U         111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +  VMULH_S        111 0 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +}
 +
-+static bool trans_VFMA_fp_3s(DisasContext *s, arg_3same *a)
 +{
-+    if (!dc_isar_feature(aa32_simdfmac, s)) {
++  VSHLL_BU       111 1 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_b
-+        return false;
++  VSHLL_BU       111 1 1110 0 . 11 .. 01 ... 0 1110 0 0 . 0 ... 1 @2_shll_esize_h
 +
 +  VMULH_U        111 1 1110 0 . .. ...1 ... 0 1110 . 0 . 0 ... 1 @2op
 +}
 +
 +{
 +  VSHLL_TS       111 0 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_TS       111 0 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_h
 +
 +  VRMULH_S       111 0 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +}
 +
 +{
 +  VSHLL_TU       111 1 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_b
 +  VSHLL_TU       111 1 1110 0 . 11 .. 01 ... 1 1110 0 0 . 0 ... 1 @2_shll_esize_h
 +
 +  VRMULH_U       111 1 1110 0 . .. ...1 ... 1 1110 . 0 . 0 ... 1 @2op
 +}
  VMAX_S           111 0 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
  VMAX_U           111 1 1111 0 . .. ... 0 ... 0 0110 . 1 . 0 ... 0 @2op
@@ -XXX,XX +XXX,XX @@ VRSHRI_S          111 0 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_b
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_h
  VRSHRI_U          111 1 1111 1 . ... ... ... 0 0010 0 1 . 1 ... 0 @2_shr_w
 +
 +# VSHLL T1 encoding; the T2 VSHLL encoding is elsewhere in this file
 +VSHLL_BS          111 0 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_BS          111 0 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_BU          111 1 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_BU          111 1 1110 1 . 1 .. ... ... 0 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 +
 +VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
 +VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_SAT_S(vqshli_s, DO_SQSHL_OP)
  DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
  DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
  DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 +
 +/*
 + * Long shifts taking half-sized inputs from top or bottom of the input
 + * vector and producing a double-width result. ESIZE, TYPE are for
 + * the input, and LESIZE, LTYPE for the output.
 + * Unlike the normal shift helpers, we do not handle negative shift counts,
 + * because the long shift is strictly left-only.
 + */
 +#define DO_VSHLL(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE)                   \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,             \
 +                                void *vm, uint32_t shift)               \
 +    {                                                                   \
 +        LTYPE *d = vd;                                                  \
 +        TYPE *m = vm;                                                   \
 +        uint16_t mask = mve_element_mask(env);                          \
 +        unsigned le;                                                    \
 +        assert(shift <= 16);                                            \
 +        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) {         \
 +            LTYPE r = (LTYPE)m[H##ESIZE(le * 2 + TOP)] << shift;        \
 +            mergemask(&d[H##LESIZE(le)], r, mask);                      \
 +        }                                                               \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-+    if (a->size != 0) {
++#define DO_VSHLL_ALL(OP, TOP)                                \
-+        /* TODO fp16 support */
++    DO_VSHLL(OP##sb, TOP, 1, int8_t, 2, int16_t)             \
-+        return false;
++    DO_VSHLL(OP##ub, TOP, 1, uint8_t, 2, uint16_t)           \
 +    DO_VSHLL(OP##sh, TOP, 2, int16_t, 4, int32_t)            \
 +    DO_VSHLL(OP##uh, TOP, 2, uint16_t, 4, uint32_t)          \
 +
 +DO_VSHLL_ALL(vshllb, false)
 +DO_VSHLL_ALL(vshllt, true)
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHRI_S, vshli_s, true)
  DO_2SHIFT(VSHRI_U, vshli_u, true)
  DO_2SHIFT(VRSHRI_S, vrshli_s, true)
  DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 +
 +#define DO_VSHLL(INSN, FN)                                      \
 +    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
 +    {                                                           \
 +        static MVEGenTwoOpShiftFn * const fns[] = {             \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +        };                                                      \
 +        return do_2shift(s, a, fns[a->size], false);            \
 +    }
 +
-+    return do_3same_fp(s, a, gen_VFMA_fp_3s, true);
++DO_VSHLL(VSHLL_BS, vshllbs)
-+}
++DO_VSHLL(VSHLL_BU, vshllbu)
-+
++DO_VSHLL(VSHLL_TS, vshllts)
-+static void gen_VFMS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
++DO_VSHLL(VSHLL_TU, vshlltu)
 +                            TCGv_ptr fpstatus)
 +{
 +    gen_helper_vfp_negs(vn, vn);
 +    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
 +}
 +
 +static bool trans_VFMS_fp_3s(DisasContext *s, arg_3same *a)
 +{
 +    if (!dc_isar_feature(aa32_simdfmac, s)) {
 +        return false;
 +    }
 +
 +    if (a->size != 0) {
 +        /* TODO fp16 support */
 +        return false;
 +    }
 +
 +    return do_3same_fp(s, a, gen_VFMS_fp_3s, true);
 +}
 +
  static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
  {
      /* FP operations handled pairwise 32 bits at a time */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_neon_narrow_op(int op, int u, int size,
      }
  }
 -/* Symbolic constants for op fields for Neon 3-register same-length.
 - * The values correspond to bits [11:8,4]; see the ARM ARM DDI0406B
 - * table A7-9.
 - */
 -#define NEON_3R_VHADD 0
 -#define NEON_3R_VQADD 1
 -#define NEON_3R_VRHADD 2
 -#define NEON_3R_LOGIC 3 /* VAND,VBIC,VORR,VMOV,VORN,VEOR,VBIF,VBIT,VBSL */
 -#define NEON_3R_VHSUB 4
 -#define NEON_3R_VQSUB 5
 -#define NEON_3R_VCGT 6
 -#define NEON_3R_VCGE 7
 -#define NEON_3R_VSHL 8
 -#define NEON_3R_VQSHL 9
 -#define NEON_3R_VRSHL 10
 -#define NEON_3R_VQRSHL 11
 -#define NEON_3R_VMAX 12
 -#define NEON_3R_VMIN 13
 -#define NEON_3R_VABD 14
 -#define NEON_3R_VABA 15
 -#define NEON_3R_VADD_VSUB 16
 -#define NEON_3R_VTST_VCEQ 17
 -#define NEON_3R_VML 18 /* VMLA, VMLS */
 -#define NEON_3R_VMUL 19
 -#define NEON_3R_VPMAX 20
 -#define NEON_3R_VPMIN 21
 -#define NEON_3R_VQDMULH_VQRDMULH 22
 -#define NEON_3R_VPADD_VQRDMLAH 23
 -#define NEON_3R_SHA 24 /* SHA1C,SHA1P,SHA1M,SHA1SU0,SHA256H{2},SHA256SU1 */
 -#define NEON_3R_VFM_VQRDMLSH 25 /* VFMA, VFMS, VQRDMLSH */
 -#define NEON_3R_FLOAT_ARITH 26 /* float VADD, VSUB, VPADD, VABD */
 -#define NEON_3R_FLOAT_MULTIPLY 27 /* float VMLA, VMLS, VMUL */
 -#define NEON_3R_FLOAT_CMP 28 /* float VCEQ, VCGE, VCGT */
 -#define NEON_3R_FLOAT_ACMP 29 /* float VACGE, VACGT, VACLE, VACLT */
 -#define NEON_3R_FLOAT_MINMAX 30 /* float VMIN, VMAX */
 -#define NEON_3R_FLOAT_MISC 31 /* float VRECPS, VRSQRTS, VMAXNM/MINNM */
 -
 -static const uint8_t neon_3r_sizes[] = {
 -    [NEON_3R_VHADD] = 0x7,
 -    [NEON_3R_VQADD] = 0xf,
 -    [NEON_3R_VRHADD] = 0x7,
 -    [NEON_3R_LOGIC] = 0xf, /* size field encodes op type */
 -    [NEON_3R_VHSUB] = 0x7,
 -    [NEON_3R_VQSUB] = 0xf,
 -    [NEON_3R_VCGT] = 0x7,
 -    [NEON_3R_VCGE] = 0x7,
 -    [NEON_3R_VSHL] = 0xf,
 -    [NEON_3R_VQSHL] = 0xf,
 -    [NEON_3R_VRSHL] = 0xf,
 -    [NEON_3R_VQRSHL] = 0xf,
 -    [NEON_3R_VMAX] = 0x7,
 -    [NEON_3R_VMIN] = 0x7,
 -    [NEON_3R_VABD] = 0x7,
 -    [NEON_3R_VABA] = 0x7,
 -    [NEON_3R_VADD_VSUB] = 0xf,
 -    [NEON_3R_VTST_VCEQ] = 0x7,
 -    [NEON_3R_VML] = 0x7,
 -    [NEON_3R_VMUL] = 0x7,
 -    [NEON_3R_VPMAX] = 0x7,
 -    [NEON_3R_VPMIN] = 0x7,
 -    [NEON_3R_VQDMULH_VQRDMULH] = 0x6,
 -    [NEON_3R_VPADD_VQRDMLAH] = 0x7,
 -    [NEON_3R_SHA] = 0xf, /* size field encodes op type */
 -    [NEON_3R_VFM_VQRDMLSH] = 0x7, /* For VFM, size bit 1 encodes op */
 -    [NEON_3R_FLOAT_ARITH] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_MULTIPLY] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_CMP] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_ACMP] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_MINMAX] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_MISC] = 0x5, /* size bit 1 encodes op */
 -};
 -
  /* Symbolic constants for op fields for Neon 2-register miscellaneous.
   * The values correspond to bits [17:16,10:7]; see the ARM ARM DDI0406B
   * table A7-13.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      rm_ofs = neon_reg_offset(rm, 0);
      if ((insn & (1 << 23)) == 0) {
 -        /* Three register same length.  */
 -        op = ((insn >> 7) & 0x1e) | ((insn >> 4) & 1);
 -        /* Catch invalid op and bad size combinations: UNDEF */
 -        if ((neon_3r_sizes[op] & (1 << size)) == 0) {
 -            return 1;
 -        }
 -        /* All insns of this form UNDEF for either this condition or the
 -         * superset of cases "Q==1"; we catch the latter later.
 -         */
 -        if (q && ((rd | rn | rm) & 1)) {
 -            return 1;
 -        }
 -        switch (op) {
 -        case NEON_3R_VFM_VQRDMLSH:
 -            if (!u) {
 -                /* VFM, VFMS */
 -                if (size == 1) {
 -                    return 1;
 -                }
 -                break;
 -            }
 -            /* VQRDMLSH : handled by decodetree */
 -            return 1;
 -
 -        case NEON_3R_VADD_VSUB:
 -        case NEON_3R_LOGIC:
 -        case NEON_3R_VMAX:
 -        case NEON_3R_VMIN:
 -        case NEON_3R_VTST_VCEQ:
 -        case NEON_3R_VCGT:
 -        case NEON_3R_VCGE:
 -        case NEON_3R_VQADD:
 -        case NEON_3R_VQSUB:
 -        case NEON_3R_VMUL:
 -        case NEON_3R_VML:
 -        case NEON_3R_VSHL:
 -        case NEON_3R_SHA:
 -        case NEON_3R_VHADD:
 -        case NEON_3R_VRHADD:
 -        case NEON_3R_VHSUB:
 -        case NEON_3R_VABD:
 -        case NEON_3R_VABA:
 -        case NEON_3R_VQSHL:
 -        case NEON_3R_VRSHL:
 -        case NEON_3R_VQRSHL:
 -        case NEON_3R_VPMAX:
 -        case NEON_3R_VPMIN:
 -        case NEON_3R_VPADD_VQRDMLAH:
 -        case NEON_3R_VQDMULH_VQRDMULH:
 -        case NEON_3R_FLOAT_ARITH:
 -        case NEON_3R_FLOAT_MULTIPLY:
 -        case NEON_3R_FLOAT_CMP:
 -        case NEON_3R_FLOAT_ACMP:
 -        case NEON_3R_FLOAT_MINMAX:
 -        case NEON_3R_FLOAT_MISC:
 -            /* Already handled by decodetree */
 -            return 1;
 -        }
 -
 -        if (size == 3) {
 -            /* 64-bit element instructions: handled by decodetree */
 -            return 1;
 -        }
 -        switch (op) {
 -        case NEON_3R_VFM_VQRDMLSH:
 -            if (!dc_isar_feature(aa32_simdfmac, s)) {
 -                return 1;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
 -        for (pass = 0; pass < (q ? 4 : 2); pass++) {
 -
 -        /* Elementwise.  */
 -        tmp = neon_load_reg(rn, pass);
 -        tmp2 = neon_load_reg(rm, pass);
 -        switch (op) {
 -        case NEON_3R_VFM_VQRDMLSH:
 -        {
 -            /* VFMA, VFMS: fused multiply-add */
 -            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -            TCGv_i32 tmp3 = neon_load_reg(rd, pass);
 -            if (size) {
 -                /* VFMS */
 -                gen_helper_vfp_negs(tmp, tmp);
 -            }
 -            gen_helper_vfp_muladds(tmp, tmp, tmp2, tmp3, fpstatus);
 -            tcg_temp_free_i32(tmp3);
 -            tcg_temp_free_ptr(fpstatus);
 -            break;
 -        }
 -        default:
 -            abort();
 -        }
 -        tcg_temp_free_i32(tmp2);
 -
 -        neon_store_reg(rd, pass, tmp);
 -
 -        } /* for pass */
 -        /* End of 3 register same size operations.  */
 +        /* Three register same length: handled by decodetree */
 +        return 1;
      } else if (insn & (1 << 4)) {
          if ((insn & 0x00380080) != 0) {
              /* Two registers and shift.  */
 --
 .20.1

-[PULL 44/45] target/arm: Convert Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS to decodetree
+[PULL 16/24] target/arm: Implement MVE VSRI, VSLI
-Convert the Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS 3-reg-same
+Implement the MVE VSRI and VSLI insns, which perform a
-insns to decodetree. (These are all the remaining non-accumulation
+shift-and-insert operation.
 instructions in this group.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-17-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-11-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  6 +++
+ target/arm/helper-mve.h    |  8 ++++++++
- target/arm/translate-neon.inc.c | 70 +++++++++++++++++++++++++++++++++
+ target/arm/mve.decode      |  9 ++++++++
- target/arm/translate.c          | 42 +-------------------
+ target/arm/mve_helper.c    | 42 ++++++++++++++++++++++++++++++++++++++
-files changed, 78 insertions(+), 40 deletions(-)
+ target/arm/translate-mve.c |  3 +++
 files changed, 62 insertions(+)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ VCGE_fp_3s       1111 001 1 0 . 0 . .... .... 1110 ... 0 .... @3same_fp
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vshlltsb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VACGE_fp_3s      1111 001 1 0 . 0 . .... .... 1110 ... 1 .... @3same_fp
+ DEF_HELPER_FLAGS_4(mve_vshlltsh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VCGT_fp_3s       1111 001 1 0 . 1 . .... .... 1110 ... 0 .... @3same_fp
+ DEF_HELPER_FLAGS_4(mve_vshlltub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VACGT_fp_3s      1111 001 1 0 . 1 . .... .... 1110 ... 1 .... @3same_fp
+ DEF_HELPER_FLAGS_4(mve_vshlltuh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+VMAX_fp_3s       1111 001 0 0 . 0 . .... .... 1111 ... 0 .... @3same_fp
++
-+VMIN_fp_3s       1111 001 0 0 . 1 . .... .... 1111 ... 0 .... @3same_fp
++DEF_HELPER_FLAGS_4(mve_vsrib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
++DEF_HELPER_FLAGS_4(mve_vsrih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
++DEF_HELPER_FLAGS_4(mve_vsriw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+VRECPS_fp_3s     1111 001 0 0 . 0 . .... .... 1111 ... 1 .... @3same_fp
++
-+VRSQRTS_fp_3s    1111 001 0 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
++DEF_HELPER_FLAGS_4(mve_vslib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+VMAXNM_fp_3s     1111 001 1 0 . 0 . .... .... 1111 ... 1 .... @3same_fp
++DEF_HELPER_FLAGS_4(mve_vslih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+VMINNM_fp_3s     1111 001 1 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
++DEF_HELPER_FLAGS_4(mve_vsliw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/target/arm/mve.decode
-+++ b/target/arm/translate-neon.inc.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP(VCGE, gen_helper_neon_cge_f32, false)
+@@ -XXX,XX +XXX,XX @@ VSHLL_TS          111 0 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
- DO_3S_FP(VCGT, gen_helper_neon_cgt_f32, false)
- DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
+ VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_b
- DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
+ VSHLL_TU          111 1 1110 1 . 1 .. ... ... 1 1111 0 1 . 0 ... 0 @2_shll_h
-+DO_3S_FP(VMAX, gen_helper_vfp_maxs, false)
++
-+DO_3S_FP(VMIN, gen_helper_vfp_mins, false)
++# Shift-and-insert
++VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_b
- static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
++VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_h
-                             TCGv_ptr fpstatus)
++VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_w
-@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
++
- DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
++VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
- DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
++VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
++VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
-+static bool trans_VMAXNM_fp_3s(DisasContext *s, arg_3same *a)
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
-+{
+index XXXXXXX..XXXXXXX 100644
-+    if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
+--- a/target/arm/mve_helper.c
-+        return false;
++++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_SAT_S(vqshlui_s, DO_SUQSHL_OP)
  DO_2SHIFT_U(vrshli_u, DO_VRSHLU)
  DO_2SHIFT_S(vrshli_s, DO_VRSHLS)
 +/* Shift-and-insert; we always work with 64 bits at a time */
 +#define DO_2SHIFT_INSERT(OP, ESIZE, SHIFTFN, MASKFN)                    \
 +    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,             \
 +                                void *vm, uint32_t shift)               \
 +    {                                                                   \
 +        uint64_t *d = vd, *m = vm;                                      \
 +        uint16_t mask;                                                  \
 +        uint64_t shiftmask;                                             \
 +        unsigned e;                                                     \
 +        if (shift == 0 || shift == ESIZE * 8) {                         \
 +            /*                                                          \
 +             * Only VSLI can shift by 0; only VSRI can shift by <dt>.   \
 +             * The generic logic would give the right answer for 0 but  \
 +             * fails for <dt>.                                          \
 +             */                                                         \
 +            goto done;                                                  \
 +        }                                                               \
 +        assert(shift < ESIZE * 8);                                      \
 +        mask = mve_element_mask(env);                                   \
 +        /* ESIZE / 2 gives the MO_* value if ESIZE is in [1,2,4] */     \
 +        shiftmask = dup_const(ESIZE / 2, MASKFN(ESIZE * 8, shift));     \
 +        for (e = 0; e < 16 / 8; e++, mask >>= 8) {                      \
 +            uint64_t r = (SHIFTFN(m[H8(e)], shift) & shiftmask) |       \
 +                (d[H8(e)] & ~shiftmask);                                \
 +            mergemask(&d[H8(e)], r, mask);                              \
 +        }                                                               \
 +done:                                                                   \
 +        mve_advance_vpt(env);                                           \
 +    }
 +
-+    if (a->size != 0) {
++#define DO_SHL(N, SHIFT) ((N) << (SHIFT))
-+        /* TODO fp16 support */
++#define DO_SHR(N, SHIFT) ((N) >> (SHIFT))
-+        return false;
++#define SHL_MASK(EBITS, SHIFT) MAKE_64BIT_MASK((SHIFT), (EBITS) - (SHIFT))
-+    }
++#define SHR_MASK(EBITS, SHIFT) MAKE_64BIT_MASK(0, (EBITS) - (SHIFT))
 +
-+    return do_3same_fp(s, a, gen_helper_vfp_maxnums, false);
++DO_2SHIFT_INSERT(vsrib, 1, DO_SHR, SHR_MASK)
-+}
++DO_2SHIFT_INSERT(vsrih, 2, DO_SHR, SHR_MASK)
 +DO_2SHIFT_INSERT(vsriw, 4, DO_SHR, SHR_MASK)
 +DO_2SHIFT_INSERT(vslib, 1, DO_SHL, SHL_MASK)
 +DO_2SHIFT_INSERT(vslih, 2, DO_SHL, SHL_MASK)
 +DO_2SHIFT_INSERT(vsliw, 4, DO_SHL, SHL_MASK)
 +
-+static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
+ /*
-+{
+  * Long shifts taking half-sized inputs from top or bottom of the input
-+    if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
+  * vector and producing a double-width result. ESIZE, TYPE are for
-+        return false;
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+    }
+index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT(VSHRI_U, vshli_u, true)
  DO_2SHIFT(VRSHRI_S, vrshli_s, true)
  DO_2SHIFT(VRSHRI_U, vrshli_u, true)
 +DO_2SHIFT(VSRI, vsri, false)
 +DO_2SHIFT(VSLI, vsli, false)
 +
-+    if (a->size != 0) {
+ #define DO_VSHLL(INSN, FN)                                      \
-+        /* TODO fp16 support */
+     static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
-+        return false;
+     {                                                           \
 +    }
 +
 +    return do_3same_fp(s, a, gen_helper_vfp_minnums, false);
 +}
 +
 +WRAP_ENV_FN(gen_VRECPS_tramp, gen_helper_recps_f32)
 +
 +static void gen_VRECPS_fp_3s(unsigned vece, uint32_t rd_ofs,
 +                             uint32_t rn_ofs, uint32_t rm_ofs,
 +                             uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen3 ops = { .fni4 = gen_VRECPS_tramp };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
 +}
 +
 +static bool trans_VRECPS_fp_3s(DisasContext *s, arg_3same *a)
 +{
 +    if (a->size != 0) {
 +        /* TODO fp16 support */
 +        return false;
 +    }
 +
 +    return do_3same(s, a, gen_VRECPS_fp_3s);
 +}
 +
 +WRAP_ENV_FN(gen_VRSQRTS_tramp, gen_helper_rsqrts_f32)
 +
 +static void gen_VRSQRTS_fp_3s(unsigned vece, uint32_t rd_ofs,
 +                              uint32_t rn_ofs, uint32_t rm_ofs,
 +                              uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen3 ops = { .fni4 = gen_VRSQRTS_tramp };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
 +}
 +
 +static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
 +{
 +    if (a->size != 0) {
 +        /* TODO fp16 support */
 +        return false;
 +    }
 +
 +    return do_3same(s, a, gen_VRSQRTS_fp_3s);
 +}
 +
  static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
  {
      /* FP operations handled pairwise 32 bits at a time */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_FLOAT_MULTIPLY:
          case NEON_3R_FLOAT_CMP:
          case NEON_3R_FLOAT_ACMP:
 +        case NEON_3R_FLOAT_MINMAX:
 +        case NEON_3R_FLOAT_MISC:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              return 1;
          }
          switch (op) {
 -        case NEON_3R_FLOAT_MINMAX:
 -            if (u) {
 -                return 1; /* VPMIN/VPMAX handled by decodetree */
 -            }
 -            break;
 -        case NEON_3R_FLOAT_MISC:
 -            /* VMAXNM/VMINNM in ARMv8 */
 -            if (u && !arm_dc_feature(s, ARM_FEATURE_V8)) {
 -                return 1;
 -            }
 -            break;
          case NEON_3R_VFM_VQRDMLSH:
              if (!dc_isar_feature(aa32_simdfmac, s)) {
                  return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          tmp = neon_load_reg(rn, pass);
          tmp2 = neon_load_reg(rm, pass);
          switch (op) {
 -        case NEON_3R_FLOAT_MINMAX:
 -        {
 -            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -            if (size == 0) {
 -                gen_helper_vfp_maxs(tmp, tmp, tmp2, fpstatus);
 -            } else {
 -                gen_helper_vfp_mins(tmp, tmp, tmp2, fpstatus);
 -            }
 -            tcg_temp_free_ptr(fpstatus);
 -            break;
 -        }
 -        case NEON_3R_FLOAT_MISC:
 -            if (u) {
 -                /* VMAXNM/VMINNM */
 -                TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -                if (size == 0) {
 -                    gen_helper_vfp_maxnums(tmp, tmp, tmp2, fpstatus);
 -                } else {
 -                    gen_helper_vfp_minnums(tmp, tmp, tmp2, fpstatus);
 -                }
 -                tcg_temp_free_ptr(fpstatus);
 -            } else {
 -                if (size == 0) {
 -                    gen_helper_recps_f32(tmp, cpu_env, tmp, tmp2);
 -                } else {
 -                    gen_helper_rsqrts_f32(tmp, cpu_env, tmp, tmp2);
 -              }
 -            }
 -            break;
          case NEON_3R_VFM_VQRDMLSH:
          {
              /* VFMA, VFMS: fused multiply-add */
 --
 .20.1

-[PULL 39/45] target/arm: Convert Neon VADD, VSUB, VABD 3-reg-same insns to decodetree
+[PULL 17/24] target/arm: Implement MVE VSHRN, VRSHRN
-Convert the Neon VADD, VSUB, VABD 3-reg-same insns to decodetree.
+Implement the MVE shift-right-and-narrow insn VSHRN and VRSHRN.
-We already have gvec helpers for addition and subtraction, but must
-add one for fabd.
+do_urshr() is borrowed from sve_helper.c.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-12-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-12-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  3 ++-
+ target/arm/helper-mve.h    | 10 ++++++++++
- target/arm/neon-dp.decode       |  8 ++++++++
+ target/arm/mve.decode      | 11 +++++++++++
- target/arm/neon_helper.c        |  7 -------
+ target/arm/mve_helper.c    | 40 ++++++++++++++++++++++++++++++++++++++
- target/arm/translate-neon.inc.c | 28 ++++++++++++++++++++++++++++
+ target/arm/translate-mve.c | 15 ++++++++++++++
- target/arm/translate.c          | 10 +++-------
+files changed, 76 insertions(+)
  target/arm/vec_helper.c         |  7 +++++++
 files changed, 48 insertions(+), 15 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(neon_qneg_s16, TCG_CALL_NO_RWG, i32, env, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vsriw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- DEF_HELPER_FLAGS_2(neon_qneg_s32, TCG_CALL_NO_RWG, i32, env, i32)
+ DEF_HELPER_FLAGS_4(mve_vslib, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- DEF_HELPER_FLAGS_2(neon_qneg_s64, TCG_CALL_NO_RWG, i64, env, i64)
+ DEF_HELPER_FLAGS_4(mve_vslih, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vsliw, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 -DEF_HELPER_3(neon_abd_f32, i32, i32, i32, ptr)
  DEF_HELPER_3(neon_ceq_f32, i32, i32, i32, ptr)
  DEF_HELPER_3(neon_cge_f32, i32, i32, i32, ptr)
  DEF_HELPER_3(neon_cgt_f32, i32, i32, i32, ptr)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
- DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
++DEF_HELPER_FLAGS_4(mve_vshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                    void, ptr, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
++DEF_HELPER_FLAGS_4(mve_vshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
++DEF_HELPER_FLAGS_4(mve_vshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(mve_vrshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(mve_vrshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 diff --git a/target/arm/mve.decode b/target/arm/mve.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/mve.decode
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ VSRI              111 1 1111 1 . ... ... ... 0 0100 0 1 . 1 ... 0 @2_shr_w
- @3same_q0        .... ... . . . size:2 .... .... .... . 0 . . .... \
+ VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_b
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
+ VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_h
+ VSLI              111 1 1111 1 . ... ... ... 0 0101 0 1 . 1 ... 0 @2_shl_w
 +# For FP insns the high bit of 'size' is used as part of opcode decode
 +@3same_fp        .... ... . . . . size:1 .... .... .... . q:1 . . .... \
 +                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +
- VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
++# Narrowing shifts (which only support b and h sizes)
- VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
++VSHRNB            111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
- VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
++VSHRNB            111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
-@@ -XXX,XX +XXX,XX @@ SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
++VSHRNT            111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
-                  vm=%vm_dp vn=%vn_dp vd=%vd_dp
++VSHRNT            111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
  VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
 +
-+VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
++VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
-+VSUB_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
++VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
-+VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
++VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
-diff --git a/target/arm/neon_helper.c b/target/arm/neon_helper.c
++VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon_helper.c
+--- a/target/arm/mve_helper.c
-+++ b/target/arm/neon_helper.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_qneg_s64)(CPUARMState *env, uint64_t x)
+@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_INSERT(vsliw, 4, DO_SHL, SHL_MASK)
- }
+ DO_VSHLL_ALL(vshllb, false)
- /* NEON Float helpers.  */
+ DO_VSHLL_ALL(vshllt, true)
 -uint32_t HELPER(neon_abd_f32)(uint32_t a, uint32_t b, void *fpstp)
 -{
 -    float_status *fpst = fpstp;
 -    float32 f0 = make_float32(a);
 -    float32 f1 = make_float32(b);
 -    return float32_val(float32_abs(float32_sub(f0, f1, fpst)));
 -}
  /* Floating point comparisons produce an integer result.
   * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPADD, padd_u)
  DO_3SAME_VQDMULH(VQDMULH, qdmulh)
  DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
 +
 +/*
-+ * For all the functions using this macro, size == 1 means fp16,
++ * Narrowing right shifts, taking a double sized input, shifting it
-+ * which is an architecture extension we don't implement yet.
++ * and putting the result in either the top or bottom half of the output.
 + * ESIZE, TYPE are the output, and LESIZE, LTYPE the input.
 + */
-+#define DO_3S_FP_GVEC(INSN,FUNC)                                        \
++#define DO_VSHRN(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN)       \
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
++    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
++                                void *vm, uint32_t shift)       \
-+                                uint32_t oprsz, uint32_t maxsz)         \
++    {                                                           \
-+    {                                                                   \
++        LTYPE *m = vm;                                          \
-+        TCGv_ptr fpst = get_fpstatus_ptr(1);                            \
++        TYPE *d = vd;                                           \
-+        tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, fpst,                \
++        uint16_t mask = mve_element_mask(env);                  \
-+                           oprsz, maxsz, 0, FUNC);                      \
++        unsigned le;                                            \
-+        tcg_temp_free_ptr(fpst);                                        \
++        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) { \
-+    }                                                                   \
++            TYPE r = FN(m[H##LESIZE(le)], shift);               \
-+    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a)     \
++            mergemask(&d[H##ESIZE(le * 2 + TOP)], r, mask);     \
-+    {                                                                   \
++        }                                                       \
-+        if (a->size != 0) {                                             \
++        mve_advance_vpt(env);                                   \
 +            /* TODO fp16 support */                                     \
 +            return false;                                               \
 +        }                                                               \
 +        return do_3same(s, a, gen_##INSN##_3s);                         \
 +    }
 +
++#define DO_VSHRN_ALL(OP, FN)                                    \
++    DO_VSHRN(OP##bb, false, 1, uint8_t, 2, uint16_t, FN)        \
++    DO_VSHRN(OP##bh, false, 2, uint16_t, 4, uint32_t, FN)       \
++    DO_VSHRN(OP##tb, true, 1, uint8_t, 2, uint16_t, FN)         \
++    DO_VSHRN(OP##th, true, 2, uint16_t, 4, uint32_t, FN)
 +
-+DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
++static inline uint64_t do_urshr(uint64_t x, unsigned sh)
 +DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
 +DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          switch (op) {
          case NEON_3R_FLOAT_ARITH:
              pairwise = (u && size < 2); /* if VPADD (float) */
 +            if (!pairwise) {
 +                return 1; /* handled by decodetree */
 +            }
              break;
          case NEON_3R_FLOAT_MINMAX:
              pairwise = u; /* if VPMIN/VPMAX (float) */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          {
              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
              switch ((u << 2) | size) {
 -            case 0: /* VADD */
              case 4: /* VPADD */
                  gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
                  break;
 -            case 2: /* VSUB */
 -                gen_helper_vfp_subs(tmp, tmp, tmp2, fpstatus);
 -                break;
 -            case 6: /* VABD */
 -                gen_helper_neon_abd_f32(tmp, tmp, tmp2, fpstatus);
 -                break;
              default:
                  abort();
              }
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float64 float64_ftsmul(float64 op1, uint64_t op2, float_status *stat)
      return result;
  }
 +static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
 +{
-+    return float32_abs(float32_sub(op1, op2, stat));
++    if (likely(sh < 64)) {
 +        return (x >> sh) + ((x >> (sh - 1)) & 1);
 +    } else if (sh == 64) {
 +        return x >> 63;
 +    } else {
 +        return 0;
 +    }
 +}
 +
- #define DO_3OP(NAME, FUNC, TYPE) \
++DO_VSHRN_ALL(vshrn, DO_SHR)
- void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
++DO_VSHRN_ALL(vrshrn, do_urshr)
- {                                                                          \
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_h, float16_ftsmul, float16)
+index XXXXXXX..XXXXXXX 100644
- DO_3OP(gvec_ftsmul_s, float32_ftsmul, float32)
+--- a/target/arm/translate-mve.c
- DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
++++ b/target/arm/translate-mve.c
+@@ -XXX,XX +XXX,XX @@ DO_VSHLL(VSHLL_BS, vshllbs)
-+DO_3OP(gvec_fabd_s, float32_abd, float32)
+ DO_VSHLL(VSHLL_BU, vshllbu)
  DO_VSHLL(VSHLL_TS, vshllts)
  DO_VSHLL(VSHLL_TU, vshlltu)
 +
- #ifdef TARGET_AARCH64
++#define DO_2SHIFT_N(INSN, FN)                                   \
++    static bool trans_##INSN(DisasContext *s, arg_2shift *a)    \
- DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
++    {                                                           \
 +        static MVEGenTwoOpShiftFn * const fns[] = {             \
 +            gen_helper_mve_##FN##b,                             \
 +            gen_helper_mve_##FN##h,                             \
 +        };                                                      \
 +        return do_2shift(s, a, fns[a->size], false);            \
 +    }
 +
 +DO_2SHIFT_N(VSHRNB, vshrnb)
 +DO_2SHIFT_N(VSHRNT, vshrnt)
 +DO_2SHIFT_N(VRSHRNB, vrshrnb)
 +DO_2SHIFT_N(VRSHRNT, vrshrnt)
 --
 .20.1

-[PULL 26/45] ACPI: Record Generic Error Status Block(GESB) table
+[PULL 18/24] target/arm: Implement MVE saturating narrowing shifts
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+Implement the MVE saturating shift-right-and-narrow insns
+VQSHRN, VQSHRUN, VQRSHRN and VQRSHRUN.
-kvm_arch_on_sigbus_vcpu() error injection uses source_id as
-index in etc/hardware_errors to find out Error Status Data
+do_srshr() is borrowed from sve_helper.c.
-Block entry corresponding to error source. So supported source_id
 values should be assigned here and not be changed afterwards to
 make sure that guest will write error into expected Error Status
 Data Block.
 Before QEMU writes a new error to ACPI table, it will check whether
 previous error has been acknowledged. If not acknowledged, the new
 errors will be ignored and not be recorded. For the errors section
 type, QEMU simulate it to memory section error.
 Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
 Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
 Reviewed-by: Igor Mammedov <imammedo@redhat.com>
 Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
 Message-id: 20200512030609.19593-9-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-13-peter.maydell@linaro.org
 ---
- include/hw/acpi/ghes.h |   1 +
+ target/arm/helper-mve.h    |  30 +++++++++++
- hw/acpi/ghes.c         | 219 +++++++++++++++++++++++++++++++++++++++++
+ target/arm/mve.decode      |  28 ++++++++++
-files changed, 220 insertions(+)
+ target/arm/mve_helper.c    | 104 +++++++++++++++++++++++++++++++++++++
+ target/arm/translate-mve.c |  12 +++++
-diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
+files changed, 174 insertions(+)
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/ghes.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
-+++ b/include/hw/acpi/ghes.h
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
+--- a/target/arm/helper-mve.h
- void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
++++ b/target/arm/helper-mve.h
- void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vrshrnbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-                           GArray *hardware_errors);
+ DEF_HELPER_FLAGS_4(mve_vrshrnbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+int acpi_ghes_record_errors(uint8_t notify, uint64_t error_physical_addr);
+ DEF_HELPER_FLAGS_4(mve_vrshrntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #endif
+ DEF_HELPER_FLAGS_4(mve_vrshrnth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
++
-index XXXXXXX..XXXXXXX 100644
++DEF_HELPER_FLAGS_4(mve_vqshrnb_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
---- a/hw/acpi/ghes.c
++DEF_HELPER_FLAGS_4(mve_vqshrnb_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+++ b/hw/acpi/ghes.c
++DEF_HELPER_FLAGS_4(mve_vqshrnt_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@
++DEF_HELPER_FLAGS_4(mve_vqshrnt_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #include "qemu/error-report.h"
++
- #include "hw/acpi/generic_event_device.h"
++DEF_HELPER_FLAGS_4(mve_vqshrnb_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #include "hw/nvram/fw_cfg.h"
++DEF_HELPER_FLAGS_4(mve_vqshrnb_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#include "qemu/uuid.h"
++DEF_HELPER_FLAGS_4(mve_vqshrnt_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++DEF_HELPER_FLAGS_4(mve_vqshrnt_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
++
- #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
++DEF_HELPER_FLAGS_4(mve_vqshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-@@ -XXX,XX +XXX,XX @@
++DEF_HELPER_FLAGS_4(mve_vqshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- /* Address offset in Generic Address Structure(GAS) */
++DEF_HELPER_FLAGS_4(mve_vqshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- #define GAS_ADDR_OFFSET 4
++DEF_HELPER_FLAGS_4(mve_vqshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
++
-+/*
++DEF_HELPER_FLAGS_4(mve_vqrshrnb_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+ * The total size of Generic Error Data Entry
++DEF_HELPER_FLAGS_4(mve_vqrshrnb_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+ * ACPI 6.1/6.2: 18.3.2.7.1 Generic Error Data,
++DEF_HELPER_FLAGS_4(mve_vqrshrnt_sb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+ * Table 18-343 Generic Error Data Entry
++DEF_HELPER_FLAGS_4(mve_vqrshrnt_sh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+ */
++
-+#define ACPI_GHES_DATA_LENGTH               72
++DEF_HELPER_FLAGS_4(mve_vqrshrnb_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+
++DEF_HELPER_FLAGS_4(mve_vqrshrnb_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+/* The memory section CPER size, UEFI 2.6: N.2.5 Memory Error Section */
++DEF_HELPER_FLAGS_4(mve_vqrshrnt_ub, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#define ACPI_GHES_MEM_CPER_LENGTH           80
++DEF_HELPER_FLAGS_4(mve_vqrshrnt_uh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
 +
-+/* Masks for block_status flags */
++DEF_HELPER_FLAGS_4(mve_vqrshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+#define ACPI_GEBS_UNCORRECTABLE         1
++DEF_HELPER_FLAGS_4(mve_vqrshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+
++DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+/*
++DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+ * Total size for Generic Error Status Block except Generic Error Data Entries
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-+ * ACPI 6.2: 18.3.2.7.1 Generic Error Data,
+index XXXXXXX..XXXXXXX 100644
-+ * Table 18-380 Generic Error Status Block
+--- a/target/arm/mve.decode
-+ */
++++ b/target/arm/mve.decode
-+#define ACPI_GHES_GESB_SIZE                 20
+@@ -XXX,XX +XXX,XX @@ VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_b
-+
+ VRSHRNB           111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 1 @2_shr_h
-+/*
+ VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_b
-+ * Values for error_severity field
+ VRSHRNT           111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 1 @2_shr_h
-+ */
++
-+enum AcpiGenericErrorSeverity {
++VQSHRNB_S         111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_b
-+    ACPI_CPER_SEV_RECOVERABLE = 0,
++VQSHRNB_S         111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_h
-+    ACPI_CPER_SEV_FATAL = 1,
++VQSHRNT_S         111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_b
-+    ACPI_CPER_SEV_CORRECTED = 2,
++VQSHRNT_S         111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_h
-+    ACPI_CPER_SEV_NONE = 3,
++VQSHRNB_U         111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_b
-+};
++VQSHRNB_U         111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 0 @2_shr_h
-+
++VQSHRNT_U         111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_b
- /*
++VQSHRNT_U         111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 0 @2_shr_h
-  * Hardware Error Notification
++
-  * ACPI 4.0: 17.3.2.7 Hardware Error Notification
++VQSHRUNB          111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
-@@ -XXX,XX +XXX,XX @@ static void build_ghes_hw_error_notification(GArray *table, const uint8_t type)
++VQSHRUNB          111 0 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
-     build_append_int_noprefix(table, 0, 4);
++VQSHRUNT          111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
 +VQSHRUNT          111 0 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
 +
 +VQRSHRNB_S        111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNB_S        111 0 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNT_S        111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNT_S        111 0 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNB_U        111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNB_U        111 1 1110 1 . ... ... ... 0 1111 0 1 . 0 ... 1 @2_shr_h
 +VQRSHRNT_U        111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_b
 +VQRSHRNT_U        111 1 1110 1 . ... ... ... 1 1111 0 1 . 0 ... 1 @2_shr_h
 +
 +VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
 +VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
 +VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
 +VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint64_t do_urshr(uint64_t x, unsigned sh)
      }
  }
-+/*
++static inline int64_t do_srshr(int64_t x, unsigned sh)
 + * Generic Error Data Entry
 + * ACPI 6.1: 18.3.2.7.1 Generic Error Data
 + */
 +static void acpi_ghes_generic_error_data(GArray *table,
 +                const uint8_t *section_type, uint32_t error_severity,
 +                uint8_t validation_bits, uint8_t flags,
 +                uint32_t error_data_length, QemuUUID fru_id,
 +                uint64_t time_stamp)
 +{
-+    const uint8_t fru_text[20] = {0};
++    if (likely(sh < 64)) {
-+
++        return (x >> sh) + ((x >> (sh - 1)) & 1);
-+    /* Section Type */
++    } else {
-+    g_array_append_vals(table, section_type, 16);
++        /* Rounding the sign bit always produces 0. */
-+
++        return 0;
-+    /* Error Severity */
++    }
 +    build_append_int_noprefix(table, error_severity, 4);
 +    /* Revision */
 +    build_append_int_noprefix(table, 0x300, 2);
 +    /* Validation Bits */
 +    build_append_int_noprefix(table, validation_bits, 1);
 +    /* Flags */
 +    build_append_int_noprefix(table, flags, 1);
 +    /* Error Data Length */
 +    build_append_int_noprefix(table, error_data_length, 4);
 +
 +    /* FRU Id */
 +    g_array_append_vals(table, fru_id.data, ARRAY_SIZE(fru_id.data));
 +
 +    /* FRU Text */
 +    g_array_append_vals(table, fru_text, sizeof(fru_text));
 +
 +    /* Timestamp */
 +    build_append_int_noprefix(table, time_stamp, 8);
 +}
 +
-+/*
+ DO_VSHRN_ALL(vshrn, DO_SHR)
-+ * Generic Error Status Block
+ DO_VSHRN_ALL(vrshrn, do_urshr)
-+ * ACPI 6.1: 18.3.2.7.1 Generic Error Data
++
-+ */
++static inline int32_t do_sat_bhs(int64_t val, int64_t min, int64_t max,
-+static void acpi_ghes_generic_error_status(GArray *table, uint32_t block_status,
++                                 bool *satp)
 +                uint32_t raw_data_offset, uint32_t raw_data_length,
 +                uint32_t data_length, uint32_t error_severity)
 +{
-+    /* Block Status */
++    if (val > max) {
-+    build_append_int_noprefix(table, block_status, 4);
++        *satp = true;
-+    /* Raw Data Offset */
++        return max;
-+    build_append_int_noprefix(table, raw_data_offset, 4);
++    } else if (val < min) {
-+    /* Raw Data Length */
++        *satp = true;
-+    build_append_int_noprefix(table, raw_data_length, 4);
++        return min;
-+    /* Data Length */
++    } else {
-+    build_append_int_noprefix(table, data_length, 4);
++        return val;
-+    /* Error Severity */
++    }
 +    build_append_int_noprefix(table, error_severity, 4);
 +}
 +
-+/* UEFI 2.6: N.2.5 Memory Error Section */
++/* Saturating narrowing right shifts */
-+static void acpi_ghes_build_append_mem_cper(GArray *table,
++#define DO_VSHRN_SAT(OP, TOP, ESIZE, TYPE, LESIZE, LTYPE, FN)   \
-+                                            uint64_t error_physical_addr)
++    void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
-+{
++                                void *vm, uint32_t shift)       \
-+    /*
++    {                                                           \
-+     * Memory Error Record
++        LTYPE *m = vm;                                          \
-+     */
++        TYPE *d = vd;                                           \
-+
++        uint16_t mask = mve_element_mask(env);                  \
-+    /* Validation Bits */
++        bool qc = false;                                        \
-+    build_append_int_noprefix(table,
++        unsigned le;                                            \
-+                              (1ULL << 14) | /* Type Valid */
++        for (le = 0; le < 16 / LESIZE; le++, mask >>= LESIZE) { \
-+                              (1ULL << 1) /* Physical Address Valid */,
++            bool sat = false;                                   \
-+                              8);
++            TYPE r = FN(m[H##LESIZE(le)], shift, &sat);         \
-+    /* Error Status */
++            mergemask(&d[H##ESIZE(le * 2 + TOP)], r, mask);     \
-+    build_append_int_noprefix(table, 0, 8);
++            qc |= sat && (mask & 1 << (TOP * ESIZE));           \
-+    /* Physical Address */
++        }                                                       \
-+    build_append_int_noprefix(table, error_physical_addr, 8);
++        if (qc) {                                               \
-+    /* Skip all the detailed information normally found in such a record */
++            env->vfp.qc[0] = qc;                                \
-+    build_append_int_noprefix(table, 0, 48);
++        }                                                       \
-+    /* Memory Error Type */
++        mve_advance_vpt(env);                                   \
 +    build_append_int_noprefix(table, 0 /* Unknown error */, 1);
 +    /* Skip all the detailed information normally found in such a record */
 +    build_append_int_noprefix(table, 0, 7);
 +}
 +
 +static int acpi_ghes_record_mem_error(uint64_t error_block_address,
 +                                      uint64_t error_physical_addr)
 +{
 +    GArray *block;
 +
 +    /* Memory Error Section Type */
 +    const uint8_t uefi_cper_mem_sec[] =
 +          UUID_LE(0xA5BC1114, 0x6F64, 0x4EDE, 0xB8, 0x63, 0x3E, 0x83, \
 +                  0xED, 0x7C, 0x83, 0xB1);
 +
 +    /* invalid fru id: ACPI 4.0: 17.3.2.6.1 Generic Error Data,
 +     * Table 17-13 Generic Error Data Entry
 +     */
 +    QemuUUID fru_id = {};
 +    uint32_t data_length;
 +
 +    block = g_array_new(false, true /* clear */, 1);
 +
 +    /* This is the length if adding a new generic error data entry*/
 +    data_length = ACPI_GHES_DATA_LENGTH + ACPI_GHES_MEM_CPER_LENGTH;
 +
 +    /*
 +     * Check whether it will run out of the preallocated memory if adding a new
 +     * generic error data entry
 +     */
 +    if ((data_length + ACPI_GHES_GESB_SIZE) > ACPI_GHES_MAX_RAW_DATA_LENGTH) {
 +        error_report("Not enough memory to record new CPER!!!");
 +        g_array_free(block, true);
 +        return -1;
 +    }
 +
-+    /* Build the new generic error status block header */
++#define DO_VSHRN_SAT_UB(BOP, TOP, FN)                           \
-+    acpi_ghes_generic_error_status(block, ACPI_GEBS_UNCORRECTABLE,
++    DO_VSHRN_SAT(BOP, false, 1, uint8_t, 2, uint16_t, FN)       \
-+        0, 0, data_length, ACPI_CPER_SEV_RECOVERABLE);
++    DO_VSHRN_SAT(TOP, true, 1, uint8_t, 2, uint16_t, FN)
 +
-+    /* Build this new generic error data entry header */
++#define DO_VSHRN_SAT_UH(BOP, TOP, FN)                           \
-+    acpi_ghes_generic_error_data(block, uefi_cper_mem_sec,
++    DO_VSHRN_SAT(BOP, false, 2, uint16_t, 4, uint32_t, FN)      \
-+        ACPI_CPER_SEV_RECOVERABLE, 0, 0,
++    DO_VSHRN_SAT(TOP, true, 2, uint16_t, 4, uint32_t, FN)
-+        ACPI_GHES_MEM_CPER_LENGTH, fru_id, 0);
++
-+
++#define DO_VSHRN_SAT_SB(BOP, TOP, FN)                           \
-+    /* Build the memory section CPER for above new generic error data entry */
++    DO_VSHRN_SAT(BOP, false, 1, int8_t, 2, int16_t, FN)         \
-+    acpi_ghes_build_append_mem_cper(block, error_physical_addr);
++    DO_VSHRN_SAT(TOP, true, 1, int8_t, 2, int16_t, FN)
 +
-+    /* Write the generic error data entry into guest memory */
++#define DO_VSHRN_SAT_SH(BOP, TOP, FN)                           \
-+    cpu_physical_memory_write(error_block_address, block->data, block->len);
++    DO_VSHRN_SAT(BOP, false, 2, int16_t, 4, int32_t, FN)        \
-+
++    DO_VSHRN_SAT(TOP, true, 2, int16_t, 4, int32_t, FN)
-+    g_array_free(block, true);
++
-+
++#define DO_SHRN_SB(N, M, SATP)                                  \
-+    return 0;
++    do_sat_bhs((int64_t)(N) >> (M), INT8_MIN, INT8_MAX, SATP)
-+}
++#define DO_SHRN_UB(N, M, SATP)                                  \
-+
++    do_sat_bhs((uint64_t)(N) >> (M), 0, UINT8_MAX, SATP)
- /*
++#define DO_SHRUN_B(N, M, SATP)                                  \
-  * Build table for the hardware error fw_cfg blob.
++    do_sat_bhs((int64_t)(N) >> (M), 0, UINT8_MAX, SATP)
-  * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
++
-@@ -XXX,XX +XXX,XX @@ void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
++#define DO_SHRN_SH(N, M, SATP)                                  \
-     fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
++    do_sat_bhs((int64_t)(N) >> (M), INT16_MIN, INT16_MAX, SATP)
-         NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
++#define DO_SHRN_UH(N, M, SATP)                                  \
- }
++    do_sat_bhs((uint64_t)(N) >> (M), 0, UINT16_MAX, SATP)
-+
++#define DO_SHRUN_H(N, M, SATP)                                  \
-+int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
++    do_sat_bhs((int64_t)(N) >> (M), 0, UINT16_MAX, SATP)
-+{
++
-+    uint64_t error_block_addr, read_ack_register_addr, read_ack_register = 0;
++#define DO_RSHRN_SB(N, M, SATP)                                 \
-+    uint64_t start_addr;
++    do_sat_bhs(do_srshr(N, M), INT8_MIN, INT8_MAX, SATP)
-+    bool ret = -1;
++#define DO_RSHRN_UB(N, M, SATP)                                 \
-+    AcpiGedState *acpi_ged_state;
++    do_sat_bhs(do_urshr(N, M), 0, UINT8_MAX, SATP)
-+    AcpiGhesState *ags;
++#define DO_RSHRUN_B(N, M, SATP)                                 \
-+
++    do_sat_bhs(do_srshr(N, M), 0, UINT8_MAX, SATP)
-+    assert(source_id < ACPI_HEST_SRC_ID_RESERVED);
++
-+
++#define DO_RSHRN_SH(N, M, SATP)                                 \
-+    acpi_ged_state = ACPI_GED(object_resolve_path_type("", TYPE_ACPI_GED,
++    do_sat_bhs(do_srshr(N, M), INT16_MIN, INT16_MAX, SATP)
-+                                                       NULL));
++#define DO_RSHRN_UH(N, M, SATP)                                 \
-+    g_assert(acpi_ged_state);
++    do_sat_bhs(do_urshr(N, M), 0, UINT16_MAX, SATP)
-+    ags = &acpi_ged_state->ghes_state;
++#define DO_RSHRUN_H(N, M, SATP)                                 \
-+
++    do_sat_bhs(do_srshr(N, M), 0, UINT16_MAX, SATP)
-+    start_addr = le64_to_cpu(ags->ghes_addr_le);
++
-+
++DO_VSHRN_SAT_SB(vqshrnb_sb, vqshrnt_sb, DO_SHRN_SB)
-+    if (physical_address) {
++DO_VSHRN_SAT_SH(vqshrnb_sh, vqshrnt_sh, DO_SHRN_SH)
-+
++DO_VSHRN_SAT_UB(vqshrnb_ub, vqshrnt_ub, DO_SHRN_UB)
-+        if (source_id < ACPI_HEST_SRC_ID_RESERVED) {
++DO_VSHRN_SAT_UH(vqshrnb_uh, vqshrnt_uh, DO_SHRN_UH)
-+            start_addr += source_id * sizeof(uint64_t);
++DO_VSHRN_SAT_SB(vqshrunbb, vqshruntb, DO_SHRUN_B)
-+        }
++DO_VSHRN_SAT_SH(vqshrunbh, vqshrunth, DO_SHRUN_H)
 +
-+        cpu_physical_memory_read(start_addr, &error_block_addr,
++DO_VSHRN_SAT_SB(vqrshrnb_sb, vqrshrnt_sb, DO_RSHRN_SB)
-+                                 sizeof(error_block_addr));
++DO_VSHRN_SAT_SH(vqrshrnb_sh, vqrshrnt_sh, DO_RSHRN_SH)
-+
++DO_VSHRN_SAT_UB(vqrshrnb_ub, vqrshrnt_ub, DO_RSHRN_UB)
-+        error_block_addr = le64_to_cpu(error_block_addr);
++DO_VSHRN_SAT_UH(vqrshrnb_uh, vqrshrnt_uh, DO_RSHRN_UH)
-+
++DO_VSHRN_SAT_SB(vqrshrunbb, vqrshruntb, DO_RSHRUN_B)
-+        read_ack_register_addr = start_addr +
++DO_VSHRN_SAT_SH(vqrshrunbh, vqrshrunth, DO_RSHRUN_H)
-+            ACPI_GHES_ERROR_SOURCE_COUNT * sizeof(uint64_t);
+diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
-+
+index XXXXXXX..XXXXXXX 100644
-+        cpu_physical_memory_read(read_ack_register_addr,
+--- a/target/arm/translate-mve.c
-+                                 &read_ack_register, sizeof(read_ack_register));
++++ b/target/arm/translate-mve.c
-+
+@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_N(VSHRNB, vshrnb)
-+        /* zero means OSPM does not acknowledge the error */
+ DO_2SHIFT_N(VSHRNT, vshrnt)
-+        if (!read_ack_register) {
+ DO_2SHIFT_N(VRSHRNB, vrshrnb)
-+            error_report("OSPM does not acknowledge previous error,"
+ DO_2SHIFT_N(VRSHRNT, vrshrnt)
-+                " so can not record CPER for current error anymore");
++DO_2SHIFT_N(VQSHRNB_S, vqshrnb_s)
-+        } else if (error_block_addr) {
++DO_2SHIFT_N(VQSHRNT_S, vqshrnt_s)
-+            read_ack_register = cpu_to_le64(0);
++DO_2SHIFT_N(VQSHRNB_U, vqshrnb_u)
-+            /*
++DO_2SHIFT_N(VQSHRNT_U, vqshrnt_u)
-+             * Clear the Read Ack Register, OSPM will write it to 1 when
++DO_2SHIFT_N(VQSHRUNB, vqshrunb)
-+             * it acknowledges this error.
++DO_2SHIFT_N(VQSHRUNT, vqshrunt)
-+             */
++DO_2SHIFT_N(VQRSHRNB_S, vqrshrnb_s)
-+            cpu_physical_memory_write(read_ack_register_addr,
++DO_2SHIFT_N(VQRSHRNT_S, vqrshrnt_s)
-+                &read_ack_register, sizeof(uint64_t));
++DO_2SHIFT_N(VQRSHRNB_U, vqrshrnb_u)
-+
++DO_2SHIFT_N(VQRSHRNT_U, vqrshrnt_u)
-+            ret = acpi_ghes_record_mem_error(error_block_addr,
++DO_2SHIFT_N(VQRSHRUNB, vqrshrunb)
-+                                             physical_address);
++DO_2SHIFT_N(VQRSHRUNT, vqrshrunt)
 +        } else
 +            error_report("can not find Generic Error Status Block");
 +    }
 +
 +    return ret;
 +}
 --
 .20.1

-[PULL 41/45] target/arm: Convert Neon fp VMUL, VMLA, VMLS 3-reg-same insns to decodetree
+[PULL 19/24] target/arm: Implement MVE VSHLC
-Convert the Neon integer VMUL, VMLA, and VMLS 3-reg-same inssn to
+Implement the MVE VSHLC insn, which performs a shift left of the
-decodetree.
+entire vector with carry in bits provided from a general purpose
+register and carry out bits written back to that register.
 We don't have a gvec helper for multiply-accumulate, so VMLA and VMLS
 need a loop function do_3same_fp().  This takes a reads_vd parameter
 to do_3same_fp() which tells it to load the old value into vd before
 calling the callback function, in the same way that the do_vfp_3op_sp()
 and do_vfp_3op_dp() functions in translate-vfp.inc.c work. (The
 only uses in this patch pass reads_vd == true, but later commits
 will use reads_vd == false.)
 This conversion fixes in passing an underdecoding for VMUL
 (originally reported by Fredrik Strupe <fredrik@strupe.net>): bit 1
 of the 'size' field must be 0.  The old decoder didn't enforce this,
 but the decodetree pattern does.
 The gen_VMLA_fp_reg() function performs the addition operation
 with the operands in the opposite order to the old decoder:
 since Neon sets 'default NaN mode' float32_add operations are
 commutative so there is no behaviour difference, but putting
 them this way around matches the Arm ARM pseudocode and the
 required operation order for the subtraction in gen_VMLS_fp_reg().
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-14-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-14-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  3 ++
+ target/arm/helper-mve.h    |  2 ++
- target/arm/translate-neon.inc.c | 81 +++++++++++++++++++++++++++++++++
+ target/arm/mve.decode      |  2 ++
- target/arm/translate.c          | 17 +------
+ target/arm/mve_helper.c    | 38 ++++++++++++++++++++++++++++++++++++++
-files changed, 85 insertions(+), 16 deletions(-)
+ target/arm/translate-mve.c | 30 ++++++++++++++++++++++++++++++
 files changed, 72 insertions(+)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshrunbb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VSUB_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
+ DEF_HELPER_FLAGS_4(mve_vqrshrunbh, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VPADD_fp_3s      1111 001 1 0 . 0 . .... .... 1101 ... 0 .... @3same_fp_q0
+ DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
+ DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
-+VMLA_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
++
-+VMLS_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 1 .... @3same_fp
++DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
-+VMUL_fp_3s       1111 001 1 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
  VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
  VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/target/arm/mve.decode
-+++ b/target/arm/translate-neon.inc.c
++++ b/target/arm/mve.decode
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPADD, padd_u)
+@@ -XXX,XX +XXX,XX @@ VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_b
- DO_3SAME_VQDMULH(VQDMULH, qdmulh)
+ VQRSHRUNB         111 1 1110 1 . ... ... ... 0 1111 1 1 . 0 ... 0 @2_shr_h
- DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
+ VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_b
+ VQRSHRUNT         111 1 1110 1 . ... ... ... 1 1111 1 1 . 0 ... 0 @2_shr_h
-+static bool do_3same_fp(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn,
++
-+                        bool reads_vd)
++VSHLC             111 0 1110 1 . 1 imm:5 ... 0 1111 1100 rdm:4 qd=%qd
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VSHRN_SAT_UB(vqrshrnb_ub, vqrshrnt_ub, DO_RSHRN_UB)
  DO_VSHRN_SAT_UH(vqrshrnb_uh, vqrshrnt_uh, DO_RSHRN_UH)
  DO_VSHRN_SAT_SB(vqrshrunbb, vqrshruntb, DO_RSHRUN_B)
  DO_VSHRN_SAT_SH(vqrshrunbh, vqrshrunth, DO_RSHRUN_H)
 +
 +uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
 +                           uint32_t shift)
 +{
 +    uint32_t *d = vd;
 +    uint16_t mask = mve_element_mask(env);
 +    unsigned e;
 +    uint32_t r;
 +
 +    /*
 +     * For each 32-bit element, we shift it left, bringing in the
 +     * low 'shift' bits of rdm at the bottom. Bits shifted out at
 +     * the top become the new rdm, if the predicate mask permits.
 +     * The final rdm value is returned to update the register.
 +     * shift == 0 here means "shift by 32 bits".
 +     */
 +    if (shift == 0) {
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {
 +            r = rdm;
 +            if (mask & 1) {
 +                rdm = d[H4(e)];
 +            }
 +            mergemask(&d[H4(e)], r, mask);
 +        }
 +    } else {
 +        uint32_t shiftmask = MAKE_64BIT_MASK(0, shift);
 +
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {
 +            r = (d[H4(e)] << shift) | (rdm & shiftmask);
 +            if (mask & 1) {
 +                rdm = d[H4(e)] >> (32 - shift);
 +            }
 +            mergemask(&d[H4(e)], r, mask);
 +        }
 +    }
 +    mve_advance_vpt(env);
 +    return rdm;
 +}
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-mve.c
 +++ b/target/arm/translate-mve.c
@@ -XXX,XX +XXX,XX @@ DO_2SHIFT_N(VQRSHRNB_U, vqrshrnb_u)
  DO_2SHIFT_N(VQRSHRNT_U, vqrshrnt_u)
  DO_2SHIFT_N(VQRSHRUNB, vqrshrunb)
  DO_2SHIFT_N(VQRSHRUNT, vqrshrunt)
 +
 +static bool trans_VSHLC(DisasContext *s, arg_VSHLC *a)
 +{
 +    /*
-+     * FP operations handled elementwise 32 bits at a time.
++     * Whole Vector Left Shift with Carry. The carry is taken
-+     * If reads_vd is true then the old value of Vd will be
++     * from a general purpose register and written back there.
-+     * loaded before calling the callback function. This is
++     * An imm of 0 means "shift by 32".
 +     * used for multiply-accumulate type operations.
 +     */
-+    TCGv_i32 tmp, tmp2;
++    TCGv_ptr qd;
-+    int pass;
++    TCGv_i32 rdm;
 +
-+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
++    if (!dc_isar_feature(aa32_mve, s) || !mve_check_qreg_bank(s, a->qd)) {
 +        return false;
 +    }
-+
++    if (a->rdm == 13 || a->rdm == 15) {
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++        /* CONSTRAINED UNPREDICTABLE: we UNDEF */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
-+
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +    if ((a->vn | a->vm | a->vd) & a->q) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
-+    TCGv_ptr fpstatus = get_fpstatus_ptr(1);
++    qd = mve_qreg_ptr(a->qd);
-+    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
++    rdm = load_reg(s, a->rdm);
-+        tmp = neon_load_reg(a->vn, pass);
++    gen_helper_mve_vshlc(rdm, cpu_env, qd, rdm, tcg_constant_i32(a->imm));
-+        tmp2 = neon_load_reg(a->vm, pass);
++    store_reg(s, a->rdm, rdm);
-+        if (reads_vd) {
++    tcg_temp_free_ptr(qd);
-+            TCGv_i32 tmp_rd = neon_load_reg(a->vd, pass);
++    mve_update_eci(s);
 +            fn(tmp_rd, tmp, tmp2, fpstatus);
 +            neon_store_reg(a->vd, pass, tmp_rd);
 +            tcg_temp_free_i32(tmp);
 +        } else {
 +            fn(tmp, tmp, tmp2, fpstatus);
 +            neon_store_reg(a->vd, pass, tmp);
 +        }
 +        tcg_temp_free_i32(tmp2);
 +    }
 +    tcg_temp_free_ptr(fpstatus);
 +    return true;
 +}
-+
- /*
-  * For all the functions using this macro, size == 1 means fp16,
-  * which is an architecture extension we don't implement yet.
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
- DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
- DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
- DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
-+DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s)
-+
-+/*
-+ * For all the functions using this macro, size == 1 means fp16,
-+ * which is an architecture extension we don't implement yet.
-+ */
-+#define DO_3S_FP(INSN,FUNC,READS_VD)                                \
-+    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
-+    {                                                               \
-+        if (a->size != 0) {                                         \
-+            /* TODO fp16 support */                                 \
-+            return false;                                           \
-+        }                                                           \
-+        return do_3same_fp(s, a, FUNC, READS_VD);                   \
-+    }
-+
-+static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-+                            TCGv_ptr fpstatus)
-+{
-+    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
-+    gen_helper_vfp_adds(vd, vd, vn, fpstatus);
-+}
-+
-+static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-+                            TCGv_ptr fpstatus)
-+{
-+    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
-+    gen_helper_vfp_subs(vd, vd, vn, fpstatus);
-+}
-+
-+DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
-+DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
- static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
- {
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VPADD_VQRDMLAH:
-         case NEON_3R_VQDMULH_VQRDMULH:
-         case NEON_3R_FLOAT_ARITH:
-+        case NEON_3R_FLOAT_MULTIPLY:
-             /* Already handled by decodetree */
-             return 1;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         tmp = neon_load_reg(rn, pass);
-         tmp2 = neon_load_reg(rm, pass);
-         switch (op) {
--        case NEON_3R_FLOAT_MULTIPLY:
--        {
--            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
--            gen_helper_vfp_muls(tmp, tmp, tmp2, fpstatus);
--            if (!u) {
--                tcg_temp_free_i32(tmp2);
--                tmp2 = neon_load_reg(rd, pass);
--                if (size == 0) {
--                    gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
--                } else {
--                    gen_helper_vfp_subs(tmp, tmp2, tmp, fpstatus);
--                }
--            }
--            tcg_temp_free_ptr(fpstatus);
--            break;
--        }
-         case NEON_3R_FLOAT_CMP:
-         {
-             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 --
 .20.1

-[PULL 30/45] target/arm: Convert Neon 3-reg-same SHA to decodetree
+[PULL 20/24] target/arm: Implement MVE VADDLV
-Convert the Neon SHA instructions in the 3-reg-same group
+Implement the MVE VADDLV insn; this is similar to VADDV, except
-to decodetree.
+that it accumulates 32-bit elements into a 64-bit accumulator
 stored in a pair of general-purpose registers.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-3-peter.maydell@linaro.org
+Message-id: 20210628135835.6690-15-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  10 +++
+ target/arm/helper-mve.h    |  3 ++
- target/arm/translate-neon.inc.c | 139 ++++++++++++++++++++++++++++++++
+ target/arm/mve.decode      |  6 +++-
- target/arm/translate.c          |  46 +----------
+ target/arm/mve_helper.c    | 19 ++++++++++++
-files changed, 151 insertions(+), 44 deletions(-)
+ target/arm/translate-mve.c | 63 ++++++++++++++++++++++++++++++++++++++
 files changed, 90 insertions(+), 1 deletion(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/neon-dp.decode
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_vaddvuh, TCG_CALL_NO_WG, i32, env, ptr, i32)
- VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
+ DEF_HELPER_FLAGS_3(mve_vaddvsw, TCG_CALL_NO_WG, i32, env, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_vaddvuw, TCG_CALL_NO_WG, i32, env, ptr, i32)
- VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
 +DEF_HELPER_FLAGS_3(mve_vaddlv_s, TCG_CALL_NO_WG, i64, env, ptr, i64)
 +DEF_HELPER_FLAGS_3(mve_vaddlv_u, TCG_CALL_NO_WG, i64, env, ptr, i64)
 +
-+SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
+ DEF_HELPER_FLAGS_3(mve_vmovi, TCG_CALL_NO_WG, void, env, ptr, i64)
-+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+ DEF_HELPER_FLAGS_3(mve_vandi, TCG_CALL_NO_WG, void, env, ptr, i64)
-+SHA256H_3s       1111 001 1 0 . 00 .... .... 1100 . 1 . 0 .... \
+ DEF_HELPER_FLAGS_3(mve_vorri, TCG_CALL_NO_WG, void, env, ptr, i64)
-+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+diff --git a/target/arm/mve.decode b/target/arm/mve.decode
-+SHA256H2_3s      1111 001 1 0 . 01 .... .... 1100 . 1 . 0 .... \
+index XXXXXXX..XXXXXXX 100644
-+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+--- a/target/arm/mve.decode
-+SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
++++ b/target/arm/mve.decode
-+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+@@ -XXX,XX +XXX,XX @@ VQDMULH_scalar   1110 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  VQRDMULH_scalar  1111 1110 0 . .. ... 1 ... 0 1110 . 110 .... @2scalar
  # Vector add across vector
 -VADDV            111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rdalo
 +{
 +  VADDV          111 u:1 1110 1111 size:2 01 ... 0 1111 0 0 a:1 0 qm:3 0 rda=%rdalo
 +  VADDLV         111 u:1 1110 1 ... 1001 ... 0 1111 00 a:1 0 qm:3 0 \
 +                 rdahi=%rdahi rdalo=%rdalo
 +}
  # Predicate operations
  %mask_22_13      22:1 13:3
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ DO_VADDV(vaddvub, 1, uint8_t)
  DO_VADDV(vaddvuh, 2, uint16_t)
  DO_VADDV(vaddvuw, 4, uint32_t)
 +#define DO_VADDLV(OP, TYPE, LTYPE)                              \
 +    uint64_t HELPER(glue(mve_, OP))(CPUARMState *env, void *vm, \
 +                                    uint64_t ra)                \
 +    {                                                           \
 +        uint16_t mask = mve_element_mask(env);                  \
 +        unsigned e;                                             \
 +        TYPE *m = vm;                                           \
 +        for (e = 0; e < 16 / 4; e++, mask >>= 4) {              \
 +            if (mask & 1) {                                     \
 +                ra += (LTYPE)m[H4(e)];                          \
 +            }                                                   \
 +        }                                                       \
 +        mve_advance_vpt(env);                                   \
 +        return ra;                                              \
 +    }                                                           \
 +
- VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
++DO_VADDLV(vaddlv_s, int32_t, int64_t)
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
++DO_VADDLV(vaddlv_u, uint32_t, uint64_t)
 +
  /* Shifts by immediate */
  #define DO_2SHIFT(OP, ESIZE, TYPE, FN)                          \
      void HELPER(glue(mve_, OP))(CPUARMState *env, void *vd,     \
 diff --git a/target/arm/translate-mve.c b/target/arm/translate-mve.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/target/arm/translate-mve.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/target/arm/translate-mve.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
+@@ -XXX,XX +XXX,XX @@ static bool trans_VADDV(DisasContext *s, arg_VADDV *a)
+     return true;
- DO_VQRDMLAH(VQRDMLAH, gen_gvec_sqrdmlah_qc)
+ }
- DO_VQRDMLAH(VQRDMLSH, gen_gvec_sqrdmlsh_qc)
 +static bool trans_VADDLV(DisasContext *s, arg_VADDLV *a)
 +{
 +    /*
 +     * Vector Add Long Across Vector: accumulate the 32-bit
 +     * elements of the vector into a 64-bit result stored in
 +     * a pair of general-purpose registers.
 +     * No need to check Qm's bank: it is only 3 bits in decode.
 +     */
 +    TCGv_ptr qm;
 +    TCGv_i64 rda;
 +    TCGv_i32 rdalo, rdahi;
 +
-+static bool trans_SHA1_3s(DisasContext *s, arg_SHA1_3s *a)
++    if (!dc_isar_feature(aa32_mve, s)) {
 +{
 +    TCGv_ptr ptr1, ptr2, ptr3;
 +    TCGv_i32 tmp;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha1, s)) {
 +        return false;
 +    }
-+
++    /*
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++     * rdahi == 13 is UNPREDICTABLE; rdahi == 15 is a related
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
++     * encoding; rdalo always has bit 0 clear so cannot be 13 or 15.
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
++     */
 +    if (a->rdahi == 13 || a->rdahi == 15) {
 +        return false;
 +    }
-+
++    if (!mve_eci_check(s) || !vfp_access_check(s)) {
 +    if ((a->vn | a->vm | a->vd) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
-+    ptr1 = vfp_reg_ptr(true, a->vd);
++    /*
-+    ptr2 = vfp_reg_ptr(true, a->vn);
++     * This insn is subject to beat-wise execution. Partial execution
-+    ptr3 = vfp_reg_ptr(true, a->vm);
++     * of an A=0 (no-accumulate) insn which does not execute the first
-+    tmp = tcg_const_i32(a->optype);
++     * beat must start with the current value of RdaHi:RdaLo, not zero.
-+    gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp);
++     */
-+    tcg_temp_free_i32(tmp);
++    if (a->a || mve_skip_first_beat(s)) {
-+    tcg_temp_free_ptr(ptr1);
++        /* Accumulate input from RdaHi:RdaLo */
-+    tcg_temp_free_ptr(ptr2);
++        rda = tcg_temp_new_i64();
-+    tcg_temp_free_ptr(ptr3);
++        rdalo = load_reg(s, a->rdalo);
 +        rdahi = load_reg(s, a->rdahi);
 +        tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
 +        tcg_temp_free_i32(rdalo);
 +        tcg_temp_free_i32(rdahi);
 +    } else {
 +        /* Accumulate starting at zero */
 +        rda = tcg_const_i64(0);
 +    }
 +
++    qm = mve_qreg_ptr(a->qm);
++    if (a->u) {
++        gen_helper_mve_vaddlv_u(rda, cpu_env, qm, rda);
++    } else {
++        gen_helper_mve_vaddlv_s(rda, cpu_env, qm, rda);
++    }
++    tcg_temp_free_ptr(qm);
++
++    rdalo = tcg_temp_new_i32();
++    rdahi = tcg_temp_new_i32();
++    tcg_gen_extrl_i64_i32(rdalo, rda);
++    tcg_gen_extrh_i64_i32(rdahi, rda);
++    store_reg(s, a->rdalo, rdalo);
++    store_reg(s, a->rdahi, rdahi);
++    tcg_temp_free_i64(rda);
++    mve_update_eci(s);
 +    return true;
 +}
 +
-+static bool trans_SHA256H_3s(DisasContext *s, arg_SHA256H_3s *a)
+ static bool do_1imm(DisasContext *s, arg_1imm *a, MVEGenOneOpImmFn *fn)
-+{
+ {
-+    TCGv_ptr ptr1, ptr2, ptr3;
+     TCGv_ptr qd;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha2, s)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    ptr1 = vfp_reg_ptr(true, a->vd);
 +    ptr2 = vfp_reg_ptr(true, a->vn);
 +    ptr3 = vfp_reg_ptr(true, a->vm);
 +    gen_helper_crypto_sha256h(ptr1, ptr2, ptr3);
 +    tcg_temp_free_ptr(ptr1);
 +    tcg_temp_free_ptr(ptr2);
 +    tcg_temp_free_ptr(ptr3);
 +
 +    return true;
 +}
 +
 +static bool trans_SHA256H2_3s(DisasContext *s, arg_SHA256H2_3s *a)
 +{
 +    TCGv_ptr ptr1, ptr2, ptr3;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha2, s)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    ptr1 = vfp_reg_ptr(true, a->vd);
 +    ptr2 = vfp_reg_ptr(true, a->vn);
 +    ptr3 = vfp_reg_ptr(true, a->vm);
 +    gen_helper_crypto_sha256h2(ptr1, ptr2, ptr3);
 +    tcg_temp_free_ptr(ptr1);
 +    tcg_temp_free_ptr(ptr2);
 +    tcg_temp_free_ptr(ptr3);
 +
 +    return true;
 +}
 +
 +static bool trans_SHA256SU1_3s(DisasContext *s, arg_SHA256SU1_3s *a)
 +{
 +    TCGv_ptr ptr1, ptr2, ptr3;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha2, s)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    ptr1 = vfp_reg_ptr(true, a->vd);
 +    ptr2 = vfp_reg_ptr(true, a->vn);
 +    ptr3 = vfp_reg_ptr(true, a->vm);
 +    gen_helper_crypto_sha256su1(ptr1, ptr2, ptr3);
 +    tcg_temp_free_ptr(ptr1);
 +    tcg_temp_free_ptr(ptr2);
 +    tcg_temp_free_ptr(ptr3);
 +
 +    return true;
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      int vec_size;
      uint32_t imm;
      TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
 -    TCGv_ptr ptr1, ptr2, ptr3;
 +    TCGv_ptr ptr1, ptr2;
      TCGv_i64 tmp64;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              return 1;
          }
          switch (op) {
 -        case NEON_3R_SHA:
 -            /* The SHA-1/SHA-256 3-register instructions require special
 -             * treatment here, as their size field is overloaded as an
 -             * op type selector, and they all consume their input in a
 -             * single pass.
 -             */
 -            if (!q) {
 -                return 1;
 -            }
 -            if (!u) { /* SHA-1 */
 -                if (!dc_isar_feature(aa32_sha1, s)) {
 -                    return 1;
 -                }
 -                ptr1 = vfp_reg_ptr(true, rd);
 -                ptr2 = vfp_reg_ptr(true, rn);
 -                ptr3 = vfp_reg_ptr(true, rm);
 -                tmp4 = tcg_const_i32(size);
 -                gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp4);
 -                tcg_temp_free_i32(tmp4);
 -            } else { /* SHA-256 */
 -                if (!dc_isar_feature(aa32_sha2, s) || size == 3) {
 -                    return 1;
 -                }
 -                ptr1 = vfp_reg_ptr(true, rd);
 -                ptr2 = vfp_reg_ptr(true, rn);
 -                ptr3 = vfp_reg_ptr(true, rm);
 -                switch (size) {
 -                case 0:
 -                    gen_helper_crypto_sha256h(ptr1, ptr2, ptr3);
 -                    break;
 -                case 1:
 -                    gen_helper_crypto_sha256h2(ptr1, ptr2, ptr3);
 -                    break;
 -                case 2:
 -                    gen_helper_crypto_sha256su1(ptr1, ptr2, ptr3);
 -                    break;
 -                }
 -            }
 -            tcg_temp_free_ptr(ptr1);
 -            tcg_temp_free_ptr(ptr2);
 -            tcg_temp_free_ptr(ptr3);
 -            return 0;
 -
          case NEON_3R_VPADD_VQRDMLAH:
              if (!u) {
                  break;  /* VPADD */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VMUL:
          case NEON_3R_VML:
          case NEON_3R_VSHL:
 +        case NEON_3R_SHA:
              /* Already handled by decodetree */
              return 1;
          }
 --
 .20.1

-[PULL 03/45] target/arm: Create gen_gvec_{u,s}{rshr,rsra}
+[PULL 21/24] target/arm: Implement MVE long shifts by immediate
-From: Richard Henderson <richard.henderson@linaro.org>
+The MVE extension to v8.1M includes some new shift instructions which
+sit entirely within the non-coprocessor part of the encoding space
-Create vectorized versions of handle_shri_with_rndacc
+and which operate only on general-purpose registers.  They take up
-for shift+round and shift+round+accumulate.  Add out-of-line
+the space which was previously UNPREDICTABLE MOVS and ORRS encodings
-helpers in preparation for longer vector lengths from SVE.
+with Rm == 13 or 15.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Implement the long shifts by immediate, which perform shifts on a
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+pair of general-purpose registers treated as a 64-bit quantity, with
-Message-id: 20200513163245.17915-3-richard.henderson@linaro.org
+an immediate shift count between 1 and 32.
 Awkwardly, because the MOVS and ORRS trans functions do not UNDEF for
 the Rm==13,15 case, we need to explicitly emit code to UNDEF for the
 cases where v8.1M now requires that.  (Trying to change MOVS and ORRS
 is too difficult, because the functions that generate the code are
 shared between a dozen different kinds of arithmetic or logical
 instruction for all A32, T16 and T32 encodings, and for some insns
 and some encodings Rm==13,15 are valid.)
 We make the helper functions we need for UQSHLL and SQSHLL take
 a 32-bit value which the helper casts to int8_t because we'll need
 these helpers also for the shift-by-register insns, where the shift
 count might be < 0 or > 32.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-16-peter.maydell@linaro.org
 ---
- target/arm/helper.h        |  20 ++
+ target/arm/helper-mve.h |  3 ++
- target/arm/translate.h     |   9 +
+ target/arm/translate.h  |  1 +
- target/arm/translate-a64.c |  11 +-
+ target/arm/t32.decode   | 28 +++++++++++++
- target/arm/translate.c     | 463 +++++++++++++++++++++++++++++++++++--
+ target/arm/mve_helper.c | 10 +++++
- target/arm/vec_helper.c    |  50 ++++
+ target/arm/translate.c  | 90 +++++++++++++++++++++++++++++++++++++++++
-files changed, 527 insertions(+), 26 deletions(-)
+files changed, 132 insertions(+)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(gvec_usra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshruntb, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(gvec_usra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(gvec_usra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
-+DEF_HELPER_FLAGS_3(gvec_srshr_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++
-+DEF_HELPER_FLAGS_3(gvec_srshr_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_sqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_srshr_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_uqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
 +DEF_HELPER_FLAGS_3(gvec_srshr_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_3(gvec_urshr_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_urshr_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_urshr_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_urshr_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_3(gvec_srsra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_srsra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_srsra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_srsra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_3(gvec_ursra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_ursra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_ursra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_ursra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "helper-a64.h"
  #include "helper-sve.h"
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+@@ -XXX,XX +XXX,XX @@ typedef void CryptoTwoOpFn(TCGv_ptr, TCGv_ptr);
- void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+ typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
+ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
-+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ /**
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+  * arm_tbflags_from_tb:
-+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+index XXXXXXX..XXXXXXX 100644
-+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+--- a/target/arm/t32.decode
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
++++ b/target/arm/t32.decode
-+
+@@ -XXX,XX +XXX,XX @@
- /*
+ &mcr             !extern cp opc1 crn crm opc2 rt
-  * Forward to the isar_feature_* tests given a DisasContext pointer.
+ &mcrr            !extern cp opc1 crm rt rt2
-  */
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
++&mve_shl_ri      rdalo rdahi shim
-index XXXXXXX..XXXXXXX 100644
++
---- a/target/arm/translate-a64.c
++# rdahi: bits [3:1] from insn, bit 0 is 1
-+++ b/target/arm/translate-a64.c
++# rdalo: bits [3:1] from insn, bit 0 is 0
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
++%rdahi_9 9:3 !function=times_2_plus_1
-         return;
++%rdalo_17 17:3 !function=times_2
++
-     case 0x04: /* SRSHR / URSHR (rounding) */
+ # Data-processing (register)
--        break;
-+        gen_gvec_fn2i(s, is_q, rd, rn, shift,
+ %imm5_12_6       12:3 6:2
-+                      is_u ? gen_gvec_urshr : gen_gvec_srshr, size);
+@@ -XXX,XX +XXX,XX @@
-+        return;
+ @S_xrr_shi       ....... .... .   rn:4 .... .... .. shty:2 rm:4 \
-+
+                  &s_rrr_shi shim=%imm5_12_6 s=1 rd=0
-     case 0x06: /* SRSRA / URSRA (accum + rounding) */
--        accumulate = true;
++@mve_shl_ri      ....... .... . ... . . ... ... . .. .. .... \
--        break;
++                 &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
-+        gen_gvec_fn2i(s, is_q, rd, rn, shift,
++
-+                      is_u ? gen_gvec_ursra : gen_gvec_srsra, size);
+ {
-+        return;
+   TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
-+
+   AND_rrri       1110101 0000 . .... 0 ... .... .... ....     @s_rrr_shi
-     default:
+ }
-         g_assert_not_reached();
+ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
-     }
+ {
 +  # The v8.1M MVE shift insns overlap in encoding with MOVS/ORRS
 +  # and are distinguished by having Rm==13 or 15. Those are UNPREDICTABLE
 +  # cases for MOVS/ORRS. We decode the MVE cases first, ensuring that
 +  # they explicitly call unallocated_encoding() for cases that must UNDEF
 +  # (eg "using a new shift insn on a v8.1M CPU without MVE"), and letting
 +  # the rest fall through (where ORR_rrri and MOV_rxri will end up
 +  # handling them as r13 and r15 accesses with the same semantics as A32).
 +  [
 +    LSLL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +    LSRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    ASRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +
 +    UQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
 +    URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +    SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +  ]
 +
    MOV_rxri       1110101 0010 . 1111 0 ... .... .... ....     @s_rxr_shi
    ORR_rrri       1110101 0010 . .... 0 ... .... .... ....     @s_rrr_shi
  }
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
      mve_advance_vpt(env);
      return rdm;
  }
 +
 +uint64_t HELPER(mve_sqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_sqrshl_d(n, (int8_t)shift, false, &env->QF);
 +}
 +
 +uint64_t HELPER(mve_uqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl_d(n, (int8_t)shift, false, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+@@ -XXX,XX +XXX,XX @@ static bool trans_MOVT(DisasContext *s, arg_MOVW *a)
-     }
+     return true;
  }
 +/*
-+ * Shift one less than the requested amount, and the low bit is
++ * v8.1M MVE wide-shifts
 + * the rounding bit.  For the 8 and 16-bit operations, because we
 + * mask the low bit, we can perform a normal integer shift instead
 + * of a vector shift.
 + */
-+static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++static bool do_mve_shl_ri(DisasContext *s, arg_mve_shl_ri *a,
-+{
++                          WideShiftImmFn *fn)
-+    TCGv_i64 t = tcg_temp_new_i64();
++{
-+
++    TCGv_i64 rda;
-+    tcg_gen_shri_i64(t, a, sh - 1);
++    TCGv_i32 rdalo, rdahi;
-+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
++
-+    tcg_gen_vec_sar8i_i64(d, a, sh);
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+    tcg_gen_vec_add8_i64(d, d, t);
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
-+    tcg_temp_free_i64(t);
++        return false;
-+}
++    }
-+
++    if (a->rdahi == 15) {
-+static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++        /* These are a different encoding (SQSHL/SRSHR/UQSHL/URSHR) */
-+{
++        return false;
-+    TCGv_i64 t = tcg_temp_new_i64();
++    }
-+
++    if (!dc_isar_feature(aa32_mve, s) ||
-+    tcg_gen_shri_i64(t, a, sh - 1);
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
-+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
++        a->rdahi == 13) {
-+    tcg_gen_vec_sar16i_i64(d, a, sh);
++        /* RdaHi == 13 is UNPREDICTABLE; we choose to UNDEF */
-+    tcg_gen_vec_add16_i64(d, d, t);
++        unallocated_encoding(s);
-+    tcg_temp_free_i64(t);
++        return true;
-+}
++    }
 +
-+static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
++    if (a->shim == 0) {
-+{
++        a->shim = 32;
-+    TCGv_i32 t = tcg_temp_new_i32();
++    }
 +
-+    tcg_gen_extract_i32(t, a, sh - 1, 1);
++    rda = tcg_temp_new_i64();
-+    tcg_gen_sari_i32(d, a, sh);
++    rdalo = load_reg(s, a->rdalo);
-+    tcg_gen_add_i32(d, d, t);
++    rdahi = load_reg(s, a->rdahi);
-+    tcg_temp_free_i32(t);
++    tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
-+}
++
-+
++    fn(rda, rda, a->shim);
-+static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++
-+{
++    tcg_gen_extrl_i64_i32(rdalo, rda);
-+    TCGv_i64 t = tcg_temp_new_i64();
++    tcg_gen_extrh_i64_i32(rdahi, rda);
-+
++    store_reg(s, a->rdalo, rdalo);
-+    tcg_gen_extract_i64(t, a, sh - 1, 1);
++    store_reg(s, a->rdahi, rdahi);
-+    tcg_gen_sari_i64(d, a, sh);
++    tcg_temp_free_i64(rda);
-+    tcg_gen_add_i64(d, d, t);
++
-+    tcg_temp_free_i64(t);
++    return true;
 +}
 +
-+static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
++static bool trans_ASRL_ri(DisasContext *s, arg_mve_shl_ri *a)
 +{
-+    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    return do_mve_shl_ri(s, a, tcg_gen_sari_i64);
-+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
++}
 +
-+    tcg_gen_shri_vec(vece, t, a, sh - 1);
++static bool trans_LSLL_ri(DisasContext *s, arg_mve_shl_ri *a)
-+    tcg_gen_dupi_vec(vece, ones, 1);
++{
-+    tcg_gen_and_vec(vece, t, t, ones);
++    return do_mve_shl_ri(s, a, tcg_gen_shli_i64);
-+    tcg_gen_sari_vec(vece, d, a, sh);
++}
-+    tcg_gen_add_vec(vece, d, d, t);
++
-+
++static bool trans_LSRL_ri(DisasContext *s, arg_mve_shl_ri *a)
-+    tcg_temp_free_vec(t);
++{
-+    tcg_temp_free_vec(ones);
++    return do_mve_shl_ri(s, a, tcg_gen_shri_i64);
 +}
 +
-+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++static void gen_mve_sqshll(TCGv_i64 r, TCGv_i64 n, int64_t shift)
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++{
-+{
++    gen_helper_mve_sqshll(r, cpu_env, n, tcg_constant_i32(shift));
-+    static const TCGOpcode vecop_list[] = {
++}
-+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
++
-+    };
++static bool trans_SQSHLL_ri(DisasContext *s, arg_mve_shl_ri *a)
-+    static const GVecGen2i ops[4] = {
++{
-+        { .fni8 = gen_srshr8_i64,
++    return do_mve_shl_ri(s, a, gen_mve_sqshll);
-+          .fniv = gen_srshr_vec,
++}
-+          .fno = gen_helper_gvec_srshr_b,
++
-+          .opt_opc = vecop_list,
++static void gen_mve_uqshll(TCGv_i64 r, TCGv_i64 n, int64_t shift)
-+          .vece = MO_8 },
++{
-+        { .fni8 = gen_srshr16_i64,
++    gen_helper_mve_uqshll(r, cpu_env, n, tcg_constant_i32(shift));
-+          .fniv = gen_srshr_vec,
++}
-+          .fno = gen_helper_gvec_srshr_h,
++
-+          .opt_opc = vecop_list,
++static bool trans_UQSHLL_ri(DisasContext *s, arg_mve_shl_ri *a)
-+          .vece = MO_16 },
++{
-+        { .fni4 = gen_srshr32_i32,
++    return do_mve_shl_ri(s, a, gen_mve_uqshll);
-+          .fniv = gen_srshr_vec,
++}
-+          .fno = gen_helper_gvec_srshr_s,
++
-+          .opt_opc = vecop_list,
++static bool trans_SRSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
-+          .vece = MO_32 },
++{
-+        { .fni8 = gen_srshr64_i64,
++    return do_mve_shl_ri(s, a, gen_srshr64_i64);
-+          .fniv = gen_srshr_vec,
++}
-+          .fno = gen_helper_gvec_srshr_d,
++
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++static bool trans_URSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
-+          .opt_opc = vecop_list,
++{
-+          .vece = MO_64 },
++    return do_mve_shl_ri(s, a, gen_urshr64_i64);
-+    };
++}
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Signed results in all sign bits.  With rounding, this produces
 +         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +         * I.e. always zero.
 +         */
 +        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr8_i64(t, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr16_i64(t, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    gen_srshr32_i32(t, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr64_i64(t, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    gen_srshr_vec(vece, t, a, sh);
 +    tcg_gen_add_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_srsra8_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_srsra16_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_srsra32_i32,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_srsra64_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.  With rounding, this produces
 +     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +     * I.e. always zero.  With accumulation, this leaves D unchanged.
 +     */
 +    if (shift == (8 << vece)) {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 +    tcg_gen_vec_shr8i_i64(d, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 +    tcg_gen_vec_shr16i_i64(d, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_extract_i32(t, a, sh - 1, 1);
 +    tcg_gen_shri_i32(d, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_extract_i64(t, a, sh - 1, 1);
 +    tcg_gen_shri_i64(d, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shri_vec(vece, t, a, shift - 1);
 +    tcg_gen_dupi_vec(vece, ones, 1);
 +    tcg_gen_and_vec(vece, t, t, ones);
 +    tcg_gen_shri_vec(vece, d, a, shift);
 +    tcg_gen_add_vec(vece, d, d, t);
 +
 +    tcg_temp_free_vec(t);
 +    tcg_temp_free_vec(ones);
 +}
 +
 +void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_urshr8_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_urshr16_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_urshr32_i32,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_urshr64_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Unsigned results in zero.  With rounding, this produces a
 +         * copy of the most significant bit.
 +         */
 +        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 8) {
 +        tcg_gen_vec_shr8i_i64(t, a, 7);
 +    } else {
 +        gen_urshr8_i64(t, a, sh);
 +    }
 +    tcg_gen_vec_add8_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 16) {
 +        tcg_gen_vec_shr16i_i64(t, a, 15);
 +    } else {
 +        gen_urshr16_i64(t, a, sh);
 +    }
 +    tcg_gen_vec_add16_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    if (sh == 32) {
 +        tcg_gen_shri_i32(t, a, 31);
 +    } else {
 +        gen_urshr32_i32(t, a, sh);
 +    }
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 64) {
 +        tcg_gen_shri_i64(t, a, 63);
 +    } else {
 +        gen_urshr64_i64(t, a, sh);
 +    }
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    if (sh == (8 << vece)) {
 +        tcg_gen_shri_vec(vece, t, a, sh - 1);
 +    } else {
 +        gen_urshr_vec(vece, t, a, sh);
 +    }
 +    tcg_gen_add_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_ursra8_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_ursra16_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ursra32_i32,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ursra64_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
 +
  static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
      uint64_t mask = dup_const(MO_8, 0xff >> shift);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      }
                      return 0;
 +                case 2: /* VRSHR */
 +                    /* Right shift comes here negative.  */
 +                    shift = -shift;
 +                    if (u) {
 +                        gen_gvec_urshr(size, rd_ofs, rm_ofs, shift,
 +                                       vec_size, vec_size);
 +                    } else {
 +                        gen_gvec_srshr(size, rd_ofs, rm_ofs, shift,
 +                                       vec_size, vec_size);
 +                    }
 +                    return 0;
 +
 +                case 3: /* VRSRA */
 +                    /* Right shift comes here negative.  */
 +                    shift = -shift;
 +                    if (u) {
 +                        gen_gvec_ursra(size, rd_ofs, rm_ofs, shift,
 +                                       vec_size, vec_size);
 +                    } else {
 +                        gen_gvec_srsra(size, rd_ofs, rm_ofs, shift,
 +                                       vec_size, vec_size);
 +                    }
 +                    return 0;
 +
                  case 4: /* VSRI */
                      if (!u) {
                          return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          neon_load_reg64(cpu_V0, rm + pass);
                          tcg_gen_movi_i64(cpu_V1, imm);
                          switch (op) {
 -                        case 2: /* VRSHR */
 -                        case 3: /* VRSRA */
 -                            if (u)
 -                                gen_helper_neon_rshl_u64(cpu_V0, cpu_V0, cpu_V1);
 -                            else
 -                                gen_helper_neon_rshl_s64(cpu_V0, cpu_V0, cpu_V1);
 -                            break;
                          case 6: /* VQSHLU */
                              gen_helper_neon_qshlu_s64(cpu_V0, cpu_env,
                                                        cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          default:
                              g_assert_not_reached();
                          }
 -                        if (op == 3) {
 -                            /* Accumulate.  */
 -                            neon_load_reg64(cpu_V1, rd + pass);
 -                            tcg_gen_add_i64(cpu_V0, cpu_V0, cpu_V1);
 -                        }
                          neon_store_reg64(cpu_V0, rd + pass);
                      } else { /* size < 3 */
                          /* Operands in T0 and T1.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          tmp2 = tcg_temp_new_i32();
                          tcg_gen_movi_i32(tmp2, imm);
                          switch (op) {
 -                        case 2: /* VRSHR */
 -                        case 3: /* VRSRA */
 -                            GEN_NEON_INTEGER_OP(rshl);
 -                            break;
                          case 6: /* VQSHLU */
                              switch (size) {
                              case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              g_assert_not_reached();
                          }
                          tcg_temp_free_i32(tmp2);
 -
 -                        if (op == 3) {
 -                            /* Accumulate.  */
 -                            tmp2 = neon_load_reg(rd, pass);
 -                            gen_neon_add(size, tmp, tmp2);
 -                            tcg_temp_free_i32(tmp2);
 -                        }
                          neon_store_reg(rd, pass, tmp);
                      }
                  } /* for pass */
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_SRA(gvec_usra_d, uint64_t)
  #undef DO_SRA
 +#define DO_RSHR(NAME, TYPE)                             \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        TYPE tmp = n[i] >> (shift - 1);                 \
 +        d[i] = (tmp >> 1) + (tmp & 1);                  \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_RSHR(gvec_srshr_b, int8_t)
 +DO_RSHR(gvec_srshr_h, int16_t)
 +DO_RSHR(gvec_srshr_s, int32_t)
 +DO_RSHR(gvec_srshr_d, int64_t)
 +
 +DO_RSHR(gvec_urshr_b, uint8_t)
 +DO_RSHR(gvec_urshr_h, uint16_t)
 +DO_RSHR(gvec_urshr_s, uint32_t)
 +DO_RSHR(gvec_urshr_d, uint64_t)
 +
 +#undef DO_RSHR
 +
 +#define DO_RSRA(NAME, TYPE)                             \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        TYPE tmp = n[i] >> (shift - 1);                 \
 +        d[i] += (tmp >> 1) + (tmp & 1);                 \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_RSRA(gvec_srsra_b, int8_t)
 +DO_RSRA(gvec_srsra_h, int16_t)
 +DO_RSRA(gvec_srsra_s, int32_t)
 +DO_RSRA(gvec_srsra_d, int64_t)
 +
 +DO_RSRA(gvec_ursra_b, uint8_t)
 +DO_RSRA(gvec_ursra_h, uint16_t)
 +DO_RSRA(gvec_ursra_s, uint32_t)
 +DO_RSRA(gvec_ursra_d, uint64_t)
 +
 +#undef DO_RSRA
 +
  /*
-  * Convert float16 to float32, raising no exceptions and
+  * Multiply and multiply accumulate
-  * preserving exceptional values, including SNaN.
+  */
 --
 .20.1

-[PULL 04/45] target/arm: Create gen_gvec_{sri,sli}
+[PULL 22/24] target/arm: Implement MVE long shifts by register
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE long shifts by register, which perform shifts on a
+pair of general-purpose registers treated as a 64-bit quantity, with
-The functions eliminate duplication of the special cases for
+the shift count in another general-purpose register, which might be
-this operation.  They match up with the GVecGen2iFn typedef.
+either positive or negative.
-Add out-of-line helpers.  We got away with only having inline
+Like the long-shifts-by-immediate, these encodings sit in the space
-expanders because the neon vector size is only 16 bytes, and
+that was previously the UNPREDICTABLE MOVS/ORRS with Rm==13,15.
-we know that the inline expansion will always succeed.
+Because LSLL_rr and ASRL_rr overlap with both MOV_rxri/ORR_rrri and
-When we reuse this for SVE, tcg-gvec-op may decide to use an
+also with CSEL (as one of the previously-UNPREDICTABLE Rm==13 cases),
-out-of-line helper due to longer vector lengths.
+we have to move the CSEL pattern into the same decodetree group.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20200513163245.17915-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-17-peter.maydell@linaro.org
 ---
- target/arm/helper.h        |  10 ++
+ target/arm/helper-mve.h |  6 +++
- target/arm/translate.h     |   7 +-
+ target/arm/translate.h  |  1 +
- target/arm/translate-a64.c |  20 +---
+ target/arm/t32.decode   | 16 +++++--
- target/arm/translate.c     | 186 +++++++++++++++++++++----------------
+ target/arm/mve_helper.c | 93 +++++++++++++++++++++++++++++++++++++++++
- target/arm/vec_helper.c    |  38 ++++++++
+ target/arm/translate.c  | 69 ++++++++++++++++++++++++++++++
-files changed, 160 insertions(+), 101 deletions(-)
+files changed, 182 insertions(+), 3 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(gvec_ursra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(mve_vqrshrunth, TCG_CALL_NO_WG, void, env, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(gvec_ursra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(gvec_ursra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_4(mve_vshlc, TCG_CALL_NO_WG, i32, env, ptr, i32, i32)
-+DEF_HELPER_FLAGS_3(gvec_sri_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_sshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_sri_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_ushll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_sri_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_sqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_sri_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_uqshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+
++DEF_HELPER_FLAGS_3(mve_sqrshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_sli_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_uqrshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_sli_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_sqrshrl48, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_sli_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
 +DEF_HELPER_FLAGS_3(gvec_sli_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "helper-a64.h"
  #include "helper-sve.h"
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ extern const GVecGen3 mls_op[4];
+@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpIntFn(TCGv_ptr, TCGv_ptr, TCGv_i32);
- extern const GVecGen3 cmtst_op[4];
+ typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
- extern const GVecGen3 sshl_op[4];
+ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
- extern const GVecGen3 ushl_op[4];
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
--extern const GVecGen2i sri_op[4];
++typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
--extern const GVecGen2i sli_op[4];
- extern const GVecGen4 uqadd_op[4];
+ /**
- extern const GVecGen4 sqadd_op[4];
+  * arm_tbflags_from_tb:
- extern const GVecGen4 uqsub_op[4];
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+index XXXXXXX..XXXXXXX 100644
- void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+--- a/target/arm/t32.decode
-                     int64_t shift, uint32_t opr_sz, uint32_t max_sz);
++++ b/target/arm/t32.decode
+@@ -XXX,XX +XXX,XX @@
-+void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ &mcrr            !extern cp opc1 crm rt rt2
-+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ &mve_shl_ri      rdalo rdahi shim
-+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz);
++&mve_shl_rr      rdalo rdahi rm
-+
- /*
+ # rdahi: bits [3:1] from insn, bit 0 is 1
-  * Forward to the isar_feature_* tests given a DisasContext pointer.
+ # rdalo: bits [3:1] from insn, bit 0 is 0
-  */
+@@ -XXX,XX +XXX,XX @@
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
+ @mve_shl_ri      ....... .... . ... . . ... ... . .. .. .... \
---- a/target/arm/translate-a64.c
+                  &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
-+++ b/target/arm/translate-a64.c
++@mve_shl_rr      ....... .... . ... . rm:4  ... . .. .. .... \
-@@ -XXX,XX +XXX,XX @@ static void gen_gvec_op2(DisasContext *s, bool is_q, int rd,
++                 &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
-                    is_q ? 16 : 8, vec_full_reg_size(s), gvec_op);
- }
+ {
+   TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
--/* Expand a 2-operand + immediate AdvSIMD vector operation using
+@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
-- * an op descriptor.
+     URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
-- */
+     SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
--static void gen_gvec_op2i(DisasContext *s, bool is_q, int rd,
+     SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
--                          int rn, int64_t imm, const GVecGen2i *gvec_op)
++
--{
++    LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
--    tcg_gen_gvec_2i(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
++    ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
--                    is_q ? 16 : 8, vec_full_reg_size(s), imm, gvec_op);
++    UQRSHLL64_rr 1110101 0010 1 ... 1 ....  ... 1  0000 1101  @mve_shl_rr
--}
++    SQRSHRL64_rr 1110101 0010 1 ... 1 ....  ... 1  0010 1101  @mve_shl_rr
 +    UQRSHLL48_rr 1110101 0010 1 ... 1 ....  ... 1  1000 1101  @mve_shl_rr
 +    SQRSHRL48_rr 1110101 0010 1 ... 1 ....  ... 1  1010 1101  @mve_shl_rr
    ]
    MOV_rxri       1110101 0010 . 1111 0 ... .... .... ....     @s_rxr_shi
    ORR_rrri       1110101 0010 . .... 0 ... .... .... ....     @s_rrr_shi
 +
 +  # v8.1M CSEL and friends
 +  CSEL           1110101 0010 1 rn:4 10 op:2 rd:4 fcond:4 rm:4
  }
  {
    MVN_rxri       1110101 0011 . 1111 0 ... .... .... ....     @s_rxr_shi
@@ -XXX,XX +XXX,XX @@ SBC_rrri         1110101 1011 . .... 0 ... .... .... ....     @s_rrr_shi
  }
  RSB_rrri         1110101 1110 . .... 0 ... .... .... ....     @s_rrr_shi
 -# v8.1M CSEL and friends
 -CSEL             1110101 0010 1 rn:4 10 op:2 rd:4 fcond:4 rm:4
 -
- /* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
+ # Data-processing (register-shifted register)
- static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
-                          int rn, int rm, const GVecGen3 *gvec_op)
+ MOV_rxrr         1111 1010 0 shty:2 s:1 rm:4 1111 rd:4 0000 rs:4 \
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
+diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
-         gen_gvec_fn2i(s, is_q, rd, rn, shift,
+index XXXXXXX..XXXXXXX 100644
-                       is_u ? gen_gvec_usra : gen_gvec_ssra, size);
+--- a/target/arm/mve_helper.c
-         return;
++++ b/target/arm/mve_helper.c
-+
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_vshlc)(CPUARMState *env, void *vd, uint32_t rdm,
-     case 0x08: /* SRI */
+     return rdm;
--        /* Shift count same as element size is valid but does nothing.  */
+ }
--        if (shift == 8 << size) {
--            goto done;
++uint64_t HELPER(mve_sshrl)(CPUARMState *env, uint64_t n, uint32_t shift)
--        }
++{
--        gen_gvec_op2i(s, is_q, rd, rn, shift, &sri_op[size]);
++    return do_sqrshl_d(n, -(int8_t)shift, false, NULL);
-+        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sri, size);
++}
-         return;
++
++uint64_t HELPER(mve_ushll)(CPUARMState *env, uint64_t n, uint32_t shift)
-     case 0x00: /* SSHR / USHR */
++{
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
++    return do_uqrshl_d(n, (int8_t)shift, false, NULL);
-     }
++}
-     tcg_temp_free_i64(tcg_round);
++
+ uint64_t HELPER(mve_sqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
-- done:
+ {
-     clear_vec_high(s, is_q, rd);
+     return do_sqrshl_d(n, (int8_t)shift, false, &env->QF);
- }
+@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mve_uqshll)(CPUARMState *env, uint64_t n, uint32_t shift)
+ {
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
+     return do_uqrshl_d(n, (int8_t)shift, false, &env->QF);
-     }
+ }
++
-     if (insert) {
++uint64_t HELPER(mve_sqrshrl)(CPUARMState *env, uint64_t n, uint32_t shift)
--        gen_gvec_op2i(s, is_q, rd, rn, shift, &sli_op[size]);
++{
-+        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sli, size);
++    return do_sqrshl_d(n, -(int8_t)shift, true, &env->QF);
-     } else {
++}
-         gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
++
-     }
++uint64_t HELPER(mve_uqrshll)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl_d(n, (int8_t)shift, true, &env->QF);
 +}
 +
 +/* Operate on 64-bit values, but saturate at 48 bits */
 +static inline int64_t do_sqrshl48_d(int64_t src, int64_t shift,
 +                                    bool round, uint32_t *sat)
 +{
 +    if (shift <= -48) {
 +        /* Rounding the sign bit always produces 0. */
 +        if (round) {
 +            return 0;
 +        }
 +        return src >> 63;
 +    } else if (shift < 0) {
 +        if (round) {
 +            src >>= -shift - 1;
 +            return (src >> 1) + (src & 1);
 +        }
 +        return src >> -shift;
 +    } else if (shift < 48) {
 +        int64_t val = src << shift;
 +        int64_t extval = sextract64(val, 0, 48);
 +        if (!sat || val == extval) {
 +            return extval;
 +        }
 +    } else if (!sat || src == 0) {
 +        return 0;
 +    }
 +
 +    *sat = 1;
 +    return (1ULL << 47) - (src >= 0);
 +}
 +
 +/* Operate on 64-bit values, but saturate at 48 bits */
 +static inline uint64_t do_uqrshl48_d(uint64_t src, int64_t shift,
 +                                     bool round, uint32_t *sat)
 +{
 +    uint64_t val, extval;
 +
 +    if (shift <= -(48 + round)) {
 +        return 0;
 +    } else if (shift < 0) {
 +        if (round) {
 +            val = src >> (-shift - 1);
 +            val = (val >> 1) + (val & 1);
 +        } else {
 +            val = src >> -shift;
 +        }
 +        extval = extract64(val, 0, 48);
 +        if (!sat || val == extval) {
 +            return extval;
 +        }
 +    } else if (shift < 48) {
 +        uint64_t val = src << shift;
 +        uint64_t extval = extract64(val, 0, 48);
 +        if (!sat || val == extval) {
 +            return extval;
 +        }
 +    } else if (!sat || src == 0) {
 +        return 0;
 +    }
 +
 +    *sat = 1;
 +    return MAKE_64BIT_MASK(0, 48);
 +}
 +
 +uint64_t HELPER(mve_sqrshrl48)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_sqrshl48_d(n, -(int8_t)shift, true, &env->QF);
 +}
 +
 +uint64_t HELPER(mve_uqrshll48)(CPUARMState *env, uint64_t n, uint32_t shift)
 +{
 +    return do_uqrshl48_d(n, (int8_t)shift, true, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+@@ -XXX,XX +XXX,XX @@ static bool trans_URSHRL_ri(DisasContext *s, arg_mve_shl_ri *a)
+     return do_mve_shl_ri(s, a, gen_urshr64_i64);
- static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+ }
- {
--    if (sh == 0) {
++static bool do_mve_shl_rr(DisasContext *s, arg_mve_shl_rr *a, WideShiftFn *fn)
--        tcg_gen_mov_vec(d, a);
++{
--    } else {
++    TCGv_i64 rda;
--        TCGv_vec t = tcg_temp_new_vec_matching(d);
++    TCGv_i32 rdalo, rdahi;
--        TCGv_vec m = tcg_temp_new_vec_matching(d);
++
-+    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+    TCGv_vec m = tcg_temp_new_vec_matching(d);
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
++        return false;
--        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
++    }
--        tcg_gen_shri_vec(vece, t, a, sh);
++    if (a->rdahi == 15) {
--        tcg_gen_and_vec(vece, d, d, m);
++        /* These are a different encoding (SQSHL/SRSHR/UQSHL/URSHR) */
--        tcg_gen_or_vec(vece, d, d, t);
++        return false;
-+    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
++    }
-+    tcg_gen_shri_vec(vece, t, a, sh);
++    if (!dc_isar_feature(aa32_mve, s) ||
-+    tcg_gen_and_vec(vece, d, d, m);
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
-+    tcg_gen_or_vec(vece, d, d, t);
++        a->rdahi == 13 || a->rm == 13 || a->rm == 15 ||
++        a->rm == a->rdahi || a->rm == a->rdalo) {
--        tcg_temp_free_vec(t);
++        /* These rdahi/rdalo/rm cases are UNPREDICTABLE; we choose to UNDEF */
--        tcg_temp_free_vec(m);
++        unallocated_encoding(s);
--    }
++        return true;
-+    tcg_temp_free_vec(t);
++    }
-+    tcg_temp_free_vec(m);
++
- }
++    rda = tcg_temp_new_i64();
++    rdalo = load_reg(s, a->rdalo);
--static const TCGOpcode vecop_list_sri[] = { INDEX_op_shri_vec, 0 };
++    rdahi = load_reg(s, a->rdahi);
-+void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++    tcg_gen_concat_i32_i64(rda, rdalo, rdahi);
-+                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++
-+{
++    /* The helper takes care of the sign-extension of the low 8 bits of Rm */
-+    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
++    fn(rda, cpu_env, rda, cpu_R[a->rm]);
-+    const GVecGen2i ops[4] = {
++
-+        { .fni8 = gen_shr8_ins_i64,
++    tcg_gen_extrl_i64_i32(rdalo, rda);
-+          .fniv = gen_shr_ins_vec,
++    tcg_gen_extrh_i64_i32(rdahi, rda);
-+          .fno = gen_helper_gvec_sri_b,
++    store_reg(s, a->rdalo, rdalo);
-+          .load_dest = true,
++    store_reg(s, a->rdahi, rdahi);
-+          .opt_opc = vecop_list,
++    tcg_temp_free_i64(rda);
-+          .vece = MO_8 },
++
-+        { .fni8 = gen_shr16_ins_i64,
++    return true;
-+          .fniv = gen_shr_ins_vec,
++}
-+          .fno = gen_helper_gvec_sri_h,
++
-+          .load_dest = true,
++static bool trans_LSLL_rr(DisasContext *s, arg_mve_shl_rr *a)
-+          .opt_opc = vecop_list,
++{
-+          .vece = MO_16 },
++    return do_mve_shl_rr(s, a, gen_helper_mve_ushll);
-+        { .fni4 = gen_shr32_ins_i32,
++}
-+          .fniv = gen_shr_ins_vec,
++
-+          .fno = gen_helper_gvec_sri_s,
++static bool trans_ASRL_rr(DisasContext *s, arg_mve_shl_rr *a)
-+          .load_dest = true,
++{
-+          .opt_opc = vecop_list,
++    return do_mve_shl_rr(s, a, gen_helper_mve_sshrl);
-+          .vece = MO_32 },
++}
-+        { .fni8 = gen_shr64_ins_i64,
++
-+          .fniv = gen_shr_ins_vec,
++static bool trans_UQRSHLL64_rr(DisasContext *s, arg_mve_shl_rr *a)
-+          .fno = gen_helper_gvec_sri_d,
++{
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++    return do_mve_shl_rr(s, a, gen_helper_mve_uqrshll);
-+          .load_dest = true,
++}
-+          .opt_opc = vecop_list,
++
-+          .vece = MO_64 },
++static bool trans_SQRSHRL64_rr(DisasContext *s, arg_mve_shl_rr *a)
-+    };
++{
++    return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl);
--const GVecGen2i sri_op[4] = {
++}
--    { .fni8 = gen_shr8_ins_i64,
++
--      .fniv = gen_shr_ins_vec,
++static bool trans_UQRSHLL48_rr(DisasContext *s, arg_mve_shl_rr *a)
--      .load_dest = true,
++{
--      .opt_opc = vecop_list_sri,
++    return do_mve_shl_rr(s, a, gen_helper_mve_uqrshll48);
--      .vece = MO_8 },
++}
--    { .fni8 = gen_shr16_ins_i64,
++
--      .fniv = gen_shr_ins_vec,
++static bool trans_SQRSHRL48_rr(DisasContext *s, arg_mve_shl_rr *a)
--      .load_dest = true,
++{
--      .opt_opc = vecop_list_sri,
++    return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl48);
--      .vece = MO_16 },
++}
 -    { .fni4 = gen_shr32_ins_i32,
 -      .fniv = gen_shr_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sri,
 -      .vece = MO_32 },
 -    { .fni8 = gen_shr64_ins_i64,
 -      .fniv = gen_shr_ins_vec,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sri,
 -      .vece = MO_64 },
 -};
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /* Shift of esize leaves destination unchanged. */
 +    if (shift < (8 << vece)) {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    } else {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    }
 +}
  static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
@@ -XXX,XX +XXX,XX @@ static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
  {
 -    if (sh == 0) {
 -        tcg_gen_mov_vec(d, a);
 -    } else {
 -        TCGv_vec t = tcg_temp_new_vec_matching(d);
 -        TCGv_vec m = tcg_temp_new_vec_matching(d);
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 -        tcg_gen_shli_vec(vece, t, a, sh);
 -        tcg_gen_and_vec(vece, d, d, m);
 -        tcg_gen_or_vec(vece, d, d, t);
 +    tcg_gen_shli_vec(vece, t, a, sh);
 +    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 +    tcg_gen_and_vec(vece, d, d, m);
 +    tcg_gen_or_vec(vece, d, d, t);
 -        tcg_temp_free_vec(t);
 -        tcg_temp_free_vec(m);
 -    }
 +    tcg_temp_free_vec(t);
 +    tcg_temp_free_vec(m);
  }
 -static const TCGOpcode vecop_list_sli[] = { INDEX_op_shli_vec, 0 };
 +void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
 +    const GVecGen2i ops[4] = {
 +        { .fni8 = gen_shl8_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_shl16_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_shl32_ins_i32,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_shl64_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 -const GVecGen2i sli_op[4] = {
 -    { .fni8 = gen_shl8_ins_i64,
 -      .fniv = gen_shl_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_8 },
 -    { .fni8 = gen_shl16_ins_i64,
 -      .fniv = gen_shl_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_16 },
 -    { .fni4 = gen_shl32_ins_i32,
 -      .fniv = gen_shl_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_32 },
 -    { .fni8 = gen_shl64_ins_i64,
 -      .fniv = gen_shl_ins_vec,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_64 },
 -};
 +    /* tszimm encoding produces immediates in the range [0..esize-1]. */
 +    tcg_debug_assert(shift >= 0);
 +    tcg_debug_assert(shift < (8 << vece));
 +
 +    if (shift == 0) {
 +        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
  static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      }
                      /* Right shift comes here negative.  */
                      shift = -shift;
 -                    /* Shift out of range leaves destination unchanged.  */
 -                    if (shift < 8 << size) {
 -                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
 -                                        shift, &sri_op[size]);
 -                    }
 +                    gen_gvec_sri(size, rd_ofs, rm_ofs, shift,
 +                                 vec_size, vec_size);
                      return 0;
                  case 5: /* VSHL, VSLI */
                      if (u) { /* VSLI */
 -                        /* Shift out of range leaves destination unchanged.  */
 -                        if (shift < 8 << size) {
 -                            tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size,
 -                                            vec_size, shift, &sli_op[size]);
 -                        }
 +                        gen_gvec_sli(size, rd_ofs, rm_ofs, shift,
 +                                     vec_size, vec_size);
                      } else { /* VSHL */
                          /* Shifts larger than the element size are
                           * architecturally valid and results in zero.
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_RSRA(gvec_ursra_d, uint64_t)
  #undef DO_RSRA
 +#define DO_SRI(NAME, TYPE)                              \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        d[i] = deposit64(d[i], 0, sizeof(TYPE) * 8 - shift, n[i] >> shift); \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_SRI(gvec_sri_b, uint8_t)
 +DO_SRI(gvec_sri_h, uint16_t)
 +DO_SRI(gvec_sri_s, uint32_t)
 +DO_SRI(gvec_sri_d, uint64_t)
 +
 +#undef DO_SRI
 +
 +#define DO_SLI(NAME, TYPE)                              \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        d[i] = deposit64(d[i], shift, sizeof(TYPE) * 8 - shift, n[i]); \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_SLI(gvec_sli_b, uint8_t)
 +DO_SLI(gvec_sli_h, uint16_t)
 +DO_SLI(gvec_sli_s, uint32_t)
 +DO_SLI(gvec_sli_d, uint64_t)
 +
 +#undef DO_SLI
 +
  /*
-  * Convert float16 to float32, raising no exceptions and
+  * Multiply and multiply accumulate
-  * preserving exceptional values, including SNaN.
+  */
 --
 .20.1

-[PULL 02/45] target/arm: Create gen_gvec_[us]sra
+[PULL 23/24] target/arm: Implement MVE shifts by immediate
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shifts by immediate, which perform shifts
+on a single general-purpose register.
-The functions eliminate duplication of the special cases for
-this operation.  They match up with the GVecGen2iFn typedef.
+These patterns overlap with the long-shift-by-immediates,
+so we have to rearrange the grouping a little here.
-Add out-of-line helpers.  We got away with only having inline
 expanders because the neon vector size is only 16 bytes, and
 we know that the inline expansion will always succeed.
 When we reuse this for SVE, tcg-gvec-op may decide to use an
 out-of-line helper due to longer vector lengths.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20200513163245.17915-2-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20210628135835.6690-18-peter.maydell@linaro.org
 ---
- target/arm/helper.h        |  10 +++
+ target/arm/helper-mve.h |  3 ++
- target/arm/translate.h     |   7 +-
+ target/arm/translate.h  |  1 +
- target/arm/translate-a64.c |  15 +---
+ target/arm/t32.decode   | 31 ++++++++++++++-----
- target/arm/translate.c     | 161 ++++++++++++++++++++++---------------
+ target/arm/mve_helper.c | 10 ++++++
- target/arm/vec_helper.c    |  25 ++++++
+ target/arm/translate.c  | 68 +++++++++++++++++++++++++++++++++++++++--
-files changed, 139 insertions(+), 79 deletions(-)
+files changed, 104 insertions(+), 9 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_pmull_q, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_sqrshrl, TCG_CALL_NO_RWG, i64, env, i64, i32)
+ DEF_HELPER_FLAGS_3(mve_uqrshll, TCG_CALL_NO_RWG, i64, env, i64, i32)
- DEF_HELPER_FLAGS_4(neon_pmull_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_sqrshrl48, TCG_CALL_NO_RWG, i64, env, i64, i32)
+ DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
-+DEF_HELPER_FLAGS_3(gvec_ssra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++
-+DEF_HELPER_FLAGS_3(gvec_ssra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_uqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
-+DEF_HELPER_FLAGS_3(gvec_ssra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_sqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
 +DEF_HELPER_FLAGS_3(gvec_ssra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_3(gvec_usra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_usra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_usra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_usra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "helper-a64.h"
  #include "helper-sve.h"
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ extern const GVecGen3 mls_op[4];
+@@ -XXX,XX +XXX,XX @@ typedef void CryptoThreeOpFn(TCGv_ptr, TCGv_ptr, TCGv_ptr);
- extern const GVecGen3 cmtst_op[4];
+ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
- extern const GVecGen3 sshl_op[4];
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
- extern const GVecGen3 ushl_op[4];
+ typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
--extern const GVecGen2i ssra_op[4];
++typedef void ShiftImmFn(TCGv_i32, TCGv_i32, int32_t shift);
--extern const GVecGen2i usra_op[4];
- extern const GVecGen2i sri_op[4];
+ /**
- extern const GVecGen2i sli_op[4];
+  * arm_tbflags_from_tb:
- extern const GVecGen4 uqadd_op[4];
+diff --git a/target/arm/t32.decode b/target/arm/t32.decode
-@@ -XXX,XX +XXX,XX @@ void gen_sshl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
+index XXXXXXX..XXXXXXX 100644
- void gen_ushl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
+--- a/target/arm/t32.decode
- void gen_sshl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
++++ b/target/arm/t32.decode
+@@ -XXX,XX +XXX,XX @@
-+void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+ &mve_shl_ri      rdalo rdahi shim
-+void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+ &mve_shl_rr      rdalo rdahi rm
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
++&mve_sh_ri       rda shim
-+
- /*
+ # rdahi: bits [3:1] from insn, bit 0 is 1
-  * Forward to the isar_feature_* tests given a DisasContext pointer.
+ # rdalo: bits [3:1] from insn, bit 0 is 0
-  */
+@@ -XXX,XX +XXX,XX @@
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+                  &mve_shl_ri shim=%imm5_12_6 rdalo=%rdalo_17 rdahi=%rdahi_9
-index XXXXXXX..XXXXXXX 100644
+ @mve_shl_rr      ....... .... . ... . rm:4  ... . .. .. .... \
---- a/target/arm/translate-a64.c
+                  &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
-+++ b/target/arm/translate-a64.c
++@mve_sh_ri       ....... .... . rda:4 . ... ... . .. .. .... \
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
++                 &mve_sh_ri shim=%imm5_12_6
-     switch (opcode) {
+ {
-     case 0x02: /* SSRA / USRA (accumulate) */
+   TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
--        if (is_u) {
+@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
--            /* Shift count same as element size produces zero to add.  */
+   # the rest fall through (where ORR_rrri and MOV_rxri will end up
--            if (shift == 8 << size) {
+   # handling them as r13 and r15 accesses with the same semantics as A32).
--                goto done;
+   [
--            }
+-    LSLL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
--            gen_gvec_op2i(s, is_q, rd, rn, shift, &usra_op[size]);
+-    LSRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
--        } else {
+-    ASRL_ri      1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
--            /* Shift count same as element size produces all sign to add.  */
++    {
--            if (shift == 8 << size) {
++      UQSHL_ri   1110101 0010 1 ....  0 ...  1111 .. 00 1111  @mve_sh_ri
--                shift -= 1;
++      LSLL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 00 1111  @mve_shl_ri
--            }
++      UQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
--            gen_gvec_op2i(s, is_q, rd, rn, shift, &ssra_op[size]);
++    }
--        }
-+        gen_gvec_fn2i(s, is_q, rd, rn, shift,
+-    UQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 00 1111  @mve_shl_ri
-+                      is_u ? gen_gvec_usra : gen_gvec_ssra, size);
+-    URSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
-         return;
+-    SRSHRL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
-     case 0x08: /* SRI */
+-    SQSHLL_ri    1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
-         /* Shift count same as element size is valid but does nothing.  */
++    {
 +      URSHR_ri   1110101 0010 1 ....  0 ...  1111 .. 01 1111  @mve_sh_ri
 +      LSRL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +      URSHRL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 01 1111  @mve_shl_ri
 +    }
 +
 +    {
 +      SRSHR_ri   1110101 0010 1 ....  0 ...  1111 .. 10 1111  @mve_sh_ri
 +      ASRL_ri    1110101 0010 1 ... 0 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +      SRSHRL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 10 1111  @mve_shl_ri
 +    }
 +
 +    {
 +      SQSHL_ri   1110101 0010 1 ....  0 ...  1111 .. 11 1111  @mve_sh_ri
 +      SQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
 +    }
      LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
      ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/mve_helper.c
 +++ b/target/arm/mve_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(mve_uqrshll48)(CPUARMState *env, uint64_t n, uint32_t shift)
  {
      return do_uqrshl48_d(n, (int8_t)shift, true, &env->QF);
  }
 +
 +uint32_t HELPER(mve_uqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
 +{
 +    return do_uqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
 +}
 +
 +uint32_t HELPER(mve_sqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
 +{
 +    return do_sqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+@@ -XXX,XX +XXX,XX @@ static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
-     tcg_gen_add_vec(vece, d, d, a);
  static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t;
 +    /* Handle shift by the input size for the benefit of trans_SRSHR_ri */
 +    if (sh == 32) {
 +        tcg_gen_movi_i32(d, 0);
 +        return;
 +    }
 +    t = tcg_temp_new_i32();
      tcg_gen_extract_i32(t, a, sh - 1, 1);
      tcg_gen_sari_i32(d, a, sh);
      tcg_gen_add_i32(d, d, t);
@@ -XXX,XX +XXX,XX @@ static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
  static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
  {
 -    TCGv_i32 t = tcg_temp_new_i32();
 +    TCGv_i32 t;
 +    /* Handle shift by the input size for the benefit of trans_URSHR_ri */
 +    if (sh == 32) {
 +        tcg_gen_extract_i32(d, a, sh - 1, 1);
 +        return;
 +    }
 +    t = tcg_temp_new_i32();
      tcg_gen_extract_i32(t, a, sh - 1, 1);
      tcg_gen_shri_i32(d, a, sh);
      tcg_gen_add_i32(d, d, t);
@@ -XXX,XX +XXX,XX @@ static bool trans_SQRSHRL48_rr(DisasContext *s, arg_mve_shl_rr *a)
      return do_mve_shl_rr(s, a, gen_helper_mve_sqrshrl48);
  }
--static const TCGOpcode vecop_list_ssra[] = {
++static bool do_mve_sh_ri(DisasContext *s, arg_mve_sh_ri *a, ShiftImmFn *fn)
--    INDEX_op_sari_vec, INDEX_op_add_vec, 0
++{
--};
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
-+void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++        return false;
-+{
++    }
-+    static const TCGOpcode vecop_list[] = {
++    if (!dc_isar_feature(aa32_mve, s) ||
-+        INDEX_op_sari_vec, INDEX_op_add_vec, 0
++        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
-+    };
++        a->rda == 13 || a->rda == 15) {
-+    static const GVecGen2i ops[4] = {
++        /* These rda cases are UNPREDICTABLE; we choose to UNDEF */
-+        { .fni8 = gen_ssra8_i64,
++        unallocated_encoding(s);
-+          .fniv = gen_ssra_vec,
++        return true;
-+          .fno = gen_helper_gvec_ssra_b,
++    }
-+          .load_dest = true,
++
-+          .opt_opc = vecop_list,
++    if (a->shim == 0) {
-+          .vece = MO_8 },
++        a->shim = 32;
-+        { .fni8 = gen_ssra16_i64,
++    }
-+          .fniv = gen_ssra_vec,
++    fn(cpu_R[a->rda], cpu_R[a->rda], a->shim);
-+          .fno = gen_helper_gvec_ssra_h,
++
-+          .load_dest = true,
++    return true;
-+          .opt_opc = vecop_list,
++}
-+          .vece = MO_16 },
++
-+        { .fni4 = gen_ssra32_i32,
++static bool trans_URSHR_ri(DisasContext *s, arg_mve_sh_ri *a)
-+          .fniv = gen_ssra_vec,
++{
-+          .fno = gen_helper_gvec_ssra_s,
++    return do_mve_sh_ri(s, a, gen_urshr32_i32);
-+          .load_dest = true,
++}
-+          .opt_opc = vecop_list,
++
-+          .vece = MO_32 },
++static bool trans_SRSHR_ri(DisasContext *s, arg_mve_sh_ri *a)
-+        { .fni8 = gen_ssra64_i64,
++{
-+          .fniv = gen_ssra_vec,
++    return do_mve_sh_ri(s, a, gen_srshr32_i32);
-+          .fno = gen_helper_gvec_ssra_b,
++}
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
++
-+          .opt_opc = vecop_list,
++static void gen_mve_sqshl(TCGv_i32 r, TCGv_i32 n, int32_t shift)
-+          .load_dest = true,
++{
-+          .vece = MO_64 },
++    gen_helper_mve_sqshl(r, cpu_env, n, tcg_constant_i32(shift));
-+    };
++}
++
--const GVecGen2i ssra_op[4] = {
++static bool trans_SQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
--    { .fni8 = gen_ssra8_i64,
++{
--      .fniv = gen_ssra_vec,
++    return do_mve_sh_ri(s, a, gen_mve_sqshl);
--      .load_dest = true,
++}
--      .opt_opc = vecop_list_ssra,
++
--      .vece = MO_8 },
++static void gen_mve_uqshl(TCGv_i32 r, TCGv_i32 n, int32_t shift)
--    { .fni8 = gen_ssra16_i64,
++{
--      .fniv = gen_ssra_vec,
++    gen_helper_mve_uqshl(r, cpu_env, n, tcg_constant_i32(shift));
--      .load_dest = true,
++}
--      .opt_opc = vecop_list_ssra,
++
--      .vece = MO_16 },
++static bool trans_UQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
--    { .fni4 = gen_ssra32_i32,
++{
--      .fniv = gen_ssra_vec,
++    return do_mve_sh_ri(s, a, gen_mve_uqshl);
--      .load_dest = true,
++}
 -      .opt_opc = vecop_list_ssra,
 -      .vece = MO_32 },
 -    { .fni8 = gen_ssra64_i64,
 -      .fniv = gen_ssra_vec,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .opt_opc = vecop_list_ssra,
 -      .load_dest = true,
 -      .vece = MO_64 },
 -};
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.
 +     */
 +    shift = MIN(shift, (8 << vece) - 1);
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
  static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
@@ -XXX,XX +XXX,XX @@ static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
      tcg_gen_add_vec(vece, d, d, a);
  }
 -static const TCGOpcode vecop_list_usra[] = {
 -    INDEX_op_shri_vec, INDEX_op_add_vec, 0
 -};
 +void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_usra8_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8, },
 +        { .fni8 = gen_usra16_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16, },
 +        { .fni4 = gen_usra32_i32,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32, },
 +        { .fni8 = gen_usra64_i64,
 +          .fniv = gen_usra_vec,
 +          .fno = gen_helper_gvec_usra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64, },
 +    };
 -const GVecGen2i usra_op[4] = {
 -    { .fni8 = gen_usra8_i64,
 -      .fniv = gen_usra_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_usra,
 -      .vece = MO_8, },
 -    { .fni8 = gen_usra16_i64,
 -      .fniv = gen_usra_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_usra,
 -      .vece = MO_16, },
 -    { .fni4 = gen_usra32_i32,
 -      .fniv = gen_usra_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_usra,
 -      .vece = MO_32, },
 -    { .fni8 = gen_usra64_i64,
 -      .fniv = gen_usra_vec,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_usra,
 -      .vece = MO_64, },
 -};
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Unsigned results in all zeros as input to accumulate: nop.
 +     */
 +    if (shift < (8 << vece)) {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    } else {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    }
 +}
  static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  case 1:  /* VSRA */
                      /* Right shift comes here negative.  */
                      shift = -shift;
 -                    /* Shifts larger than the element size are architecturally
 -                     * valid.  Unsigned results in all zeros; signed results
 -                     * in all sign bits.
 -                     */
 -                    if (!u) {
 -                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
 -                                        MIN(shift, (8 << size) - 1),
 -                                        &ssra_op[size]);
 -                    } else if (shift >= 8 << size) {
 -                        /* rd += 0 */
 +                    if (u) {
 +                        gen_gvec_usra(size, rd_ofs, rm_ofs, shift,
 +                                      vec_size, vec_size);
                      } else {
 -                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
 -                                        shift, &usra_op[size]);
 +                        gen_gvec_ssra(size, rd_ofs, rm_ofs, shift,
 +                                      vec_size, vec_size);
                      }
                      return 0;
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sqsub_d)(void *vd, void *vq, void *vn,
      clear_tail(d, oprsz, simd_maxsz(desc));
  }
 +
 +#define DO_SRA(NAME, TYPE)                              \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        d[i] += n[i] >> shift;                          \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_SRA(gvec_ssra_b, int8_t)
 +DO_SRA(gvec_ssra_h, int16_t)
 +DO_SRA(gvec_ssra_s, int32_t)
 +DO_SRA(gvec_ssra_d, int64_t)
 +
 +DO_SRA(gvec_usra_b, uint8_t)
 +DO_SRA(gvec_usra_h, uint16_t)
 +DO_SRA(gvec_usra_s, uint32_t)
 +DO_SRA(gvec_usra_d, uint64_t)
 +
 +#undef DO_SRA
 +
  /*
-  * Convert float16 to float32, raising no exceptions and
+  * Multiply and multiply accumulate
-  * preserving exceptional values, including SNaN.
+  */
 --
 .20.1

-[PULL 05/45] target/arm: Remove unnecessary range check for VSHL
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-In 1dc8425e551, while converting to gvec, I added an extra range check
-against the shift count.  This was unnecessary because the encoding of
-the shift count produces 0 to the element size - 1.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-5-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 12 ++----------
-file changed, 2 insertions(+), 10 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                         gen_gvec_sli(size, rd_ofs, rm_ofs, shift,
-                                      vec_size, vec_size);
-                     } else { /* VSHL */
--                        /* Shifts larger than the element size are
--                         * architecturally valid and results in zero.
--                         */
--                        if (shift >= 8 << size) {
--                            tcg_gen_gvec_dup_imm(size, rd_ofs,
--                                                 vec_size, vec_size, 0);
--                        } else {
--                            tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
--                                              vec_size, vec_size);
--                        }
-+                        tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
-+                                          vec_size, vec_size);
-                     }
-                     return 0;
-                 }
---
-.20.1

-[PULL 07/45] target/arm: Create gen_gvec_{ceq,clt,cle,cgt,cge}0
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Provide a functional interface for the vector expansion.
-This fits better with the existing set of helpers that
-we provide for other operations.
-Macro-ize the 5 nearly identical comparisons.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-7-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.h     |  16 ++-
- target/arm/translate-a64.c |  22 ++--
- target/arm/translate.c     | 254 ++++++++-----------------------------
-files changed, 74 insertions(+), 218 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
- uint64_t vfp_expand_imm(int size, uint8_t imm8);
- /* Vector operations shared between ARM and AArch64.  */
--extern const GVecGen2 ceq0_op[4];
--extern const GVecGen2 clt0_op[4];
--extern const GVecGen2 cgt0_op[4];
--extern const GVecGen2 cle0_op[4];
--extern const GVecGen2 cge0_op[4];
-+void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_clt0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_cgt0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_cle0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_cge0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                   uint32_t opr_sz, uint32_t max_sz);
-+
- extern const GVecGen3 mla_op[4];
- extern const GVecGen3 mls_op[4];
- extern const GVecGen3 cmtst_op[4];
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
-             is_q ? 16 : 8, vec_full_reg_size(s));
- }
--/* Expand a 2-operand AdvSIMD vector operation using an op descriptor. */
--static void gen_gvec_op2(DisasContext *s, bool is_q, int rd,
--                         int rn, const GVecGen2 *gvec_op)
--{
--    tcg_gen_gvec_2(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
--                   is_q ? 16 : 8, vec_full_reg_size(s), gvec_op);
--}
--
- /* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
- static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
-                          int rn, int rm, const GVecGen3 *gvec_op)
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
-         }
-         break;
-     case 0x8: /* CMGT, CMGE */
--        gen_gvec_op2(s, is_q, rd, rn, u ? &cge0_op[size] : &cgt0_op[size]);
-+        if (u) {
-+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cge0, size);
-+        } else {
-+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cgt0, size);
-+        }
-         return;
-     case 0x9: /* CMEQ, CMLE */
--        gen_gvec_op2(s, is_q, rd, rn, u ? &cle0_op[size] : &ceq0_op[size]);
-+        if (u) {
-+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cle0, size);
-+        } else {
-+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_ceq0, size);
-+        }
-         return;
-     case 0xa: /* CMLT */
--        gen_gvec_op2(s, is_q, rd, rn, &clt0_op[size]);
-+        gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_clt0, size);
-         return;
-     case 0xb:
-         if (u) { /* ABS, NEG */
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
-     return 1;
- }
--static void gen_ceq0_i32(TCGv_i32 d, TCGv_i32 a)
--{
--    tcg_gen_setcondi_i32(TCG_COND_EQ, d, a, 0);
--    tcg_gen_neg_i32(d, d);
--}
--
--static void gen_ceq0_i64(TCGv_i64 d, TCGv_i64 a)
--{
--    tcg_gen_setcondi_i64(TCG_COND_EQ, d, a, 0);
--    tcg_gen_neg_i64(d, d);
--}
--
--static void gen_ceq0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
--{
--    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
--    tcg_gen_cmp_vec(TCG_COND_EQ, vece, d, a, zero);
--    tcg_temp_free_vec(zero);
--}
-+#define GEN_CMP0(NAME, COND)                                            \
-+    static void gen_##NAME##0_i32(TCGv_i32 d, TCGv_i32 a)               \
-+    {                                                                   \
-+        tcg_gen_setcondi_i32(COND, d, a, 0);                            \
-+        tcg_gen_neg_i32(d, d);                                          \
-+    }                                                                   \
-+    static void gen_##NAME##0_i64(TCGv_i64 d, TCGv_i64 a)               \
-+    {                                                                   \
-+        tcg_gen_setcondi_i64(COND, d, a, 0);                            \
-+        tcg_gen_neg_i64(d, d);                                          \
-+    }                                                                   \
-+    static void gen_##NAME##0_vec(unsigned vece, TCGv_vec d, TCGv_vec a) \
-+    {                                                                   \
-+        TCGv_vec zero = tcg_const_zeros_vec_matching(d);                \
-+        tcg_gen_cmp_vec(COND, vece, d, a, zero);                        \
-+        tcg_temp_free_vec(zero);                                        \
-+    }                                                                   \
-+    void gen_gvec_##NAME##0(unsigned vece, uint32_t d, uint32_t m,      \
-+                            uint32_t opr_sz, uint32_t max_sz)           \
-+    {                                                                   \
-+        const GVecGen2 op[4] = {                                        \
-+            { .fno = gen_helper_gvec_##NAME##0_b,                       \
-+              .fniv = gen_##NAME##0_vec,                                \
-+              .opt_opc = vecop_list_cmp,                                \
-+              .vece = MO_8 },                                           \
-+            { .fno = gen_helper_gvec_##NAME##0_h,                       \
-+              .fniv = gen_##NAME##0_vec,                                \
-+              .opt_opc = vecop_list_cmp,                                \
-+              .vece = MO_16 },                                          \
-+            { .fni4 = gen_##NAME##0_i32,                                \
-+              .fniv = gen_##NAME##0_vec,                                \
-+              .opt_opc = vecop_list_cmp,                                \
-+              .vece = MO_32 },                                          \
-+            { .fni8 = gen_##NAME##0_i64,                                \
-+              .fniv = gen_##NAME##0_vec,                                \
-+              .opt_opc = vecop_list_cmp,                                \
-+              .prefer_i64 = TCG_TARGET_REG_BITS == 64,                  \
-+              .vece = MO_64 },                                          \
-+        };                                                              \
-+        tcg_gen_gvec_2(d, m, opr_sz, max_sz, &op[vece]);                \
-+    }
- static const TCGOpcode vecop_list_cmp[] = {
-     INDEX_op_cmp_vec, 0
- };
--const GVecGen2 ceq0_op[4] = {
--    { .fno = gen_helper_gvec_ceq0_b,
--      .fniv = gen_ceq0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_8 },
--    { .fno = gen_helper_gvec_ceq0_h,
--      .fniv = gen_ceq0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_16 },
--    { .fni4 = gen_ceq0_i32,
--      .fniv = gen_ceq0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_32 },
--    { .fni8 = gen_ceq0_i64,
--      .fniv = gen_ceq0_vec,
--      .opt_opc = vecop_list_cmp,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .vece = MO_64 },
--};
-+GEN_CMP0(ceq, TCG_COND_EQ)
-+GEN_CMP0(cle, TCG_COND_LE)
-+GEN_CMP0(cge, TCG_COND_GE)
-+GEN_CMP0(clt, TCG_COND_LT)
-+GEN_CMP0(cgt, TCG_COND_GT)
--static void gen_cle0_i32(TCGv_i32 d, TCGv_i32 a)
--{
--    tcg_gen_setcondi_i32(TCG_COND_LE, d, a, 0);
--    tcg_gen_neg_i32(d, d);
--}
--
--static void gen_cle0_i64(TCGv_i64 d, TCGv_i64 a)
--{
--    tcg_gen_setcondi_i64(TCG_COND_LE, d, a, 0);
--    tcg_gen_neg_i64(d, d);
--}
--
--static void gen_cle0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
--{
--    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
--    tcg_gen_cmp_vec(TCG_COND_LE, vece, d, a, zero);
--    tcg_temp_free_vec(zero);
--}
--
--const GVecGen2 cle0_op[4] = {
--    { .fno = gen_helper_gvec_cle0_b,
--      .fniv = gen_cle0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_8 },
--    { .fno = gen_helper_gvec_cle0_h,
--      .fniv = gen_cle0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_16 },
--    { .fni4 = gen_cle0_i32,
--      .fniv = gen_cle0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_32 },
--    { .fni8 = gen_cle0_i64,
--      .fniv = gen_cle0_vec,
--      .opt_opc = vecop_list_cmp,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .vece = MO_64 },
--};
--
--static void gen_cge0_i32(TCGv_i32 d, TCGv_i32 a)
--{
--    tcg_gen_setcondi_i32(TCG_COND_GE, d, a, 0);
--    tcg_gen_neg_i32(d, d);
--}
--
--static void gen_cge0_i64(TCGv_i64 d, TCGv_i64 a)
--{
--    tcg_gen_setcondi_i64(TCG_COND_GE, d, a, 0);
--    tcg_gen_neg_i64(d, d);
--}
--
--static void gen_cge0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
--{
--    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
--    tcg_gen_cmp_vec(TCG_COND_GE, vece, d, a, zero);
--    tcg_temp_free_vec(zero);
--}
--
--const GVecGen2 cge0_op[4] = {
--    { .fno = gen_helper_gvec_cge0_b,
--      .fniv = gen_cge0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_8 },
--    { .fno = gen_helper_gvec_cge0_h,
--      .fniv = gen_cge0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_16 },
--    { .fni4 = gen_cge0_i32,
--      .fniv = gen_cge0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_32 },
--    { .fni8 = gen_cge0_i64,
--      .fniv = gen_cge0_vec,
--      .opt_opc = vecop_list_cmp,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .vece = MO_64 },
--};
--
--static void gen_clt0_i32(TCGv_i32 d, TCGv_i32 a)
--{
--    tcg_gen_setcondi_i32(TCG_COND_LT, d, a, 0);
--    tcg_gen_neg_i32(d, d);
--}
--
--static void gen_clt0_i64(TCGv_i64 d, TCGv_i64 a)
--{
--    tcg_gen_setcondi_i64(TCG_COND_LT, d, a, 0);
--    tcg_gen_neg_i64(d, d);
--}
--
--static void gen_clt0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
--{
--    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
--    tcg_gen_cmp_vec(TCG_COND_LT, vece, d, a, zero);
--    tcg_temp_free_vec(zero);
--}
--
--const GVecGen2 clt0_op[4] = {
--    { .fno = gen_helper_gvec_clt0_b,
--      .fniv = gen_clt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_8 },
--    { .fno = gen_helper_gvec_clt0_h,
--      .fniv = gen_clt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_16 },
--    { .fni4 = gen_clt0_i32,
--      .fniv = gen_clt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_32 },
--    { .fni8 = gen_clt0_i64,
--      .fniv = gen_clt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .vece = MO_64 },
--};
--
--static void gen_cgt0_i32(TCGv_i32 d, TCGv_i32 a)
--{
--    tcg_gen_setcondi_i32(TCG_COND_GT, d, a, 0);
--    tcg_gen_neg_i32(d, d);
--}
--
--static void gen_cgt0_i64(TCGv_i64 d, TCGv_i64 a)
--{
--    tcg_gen_setcondi_i64(TCG_COND_GT, d, a, 0);
--    tcg_gen_neg_i64(d, d);
--}
--
--static void gen_cgt0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
--{
--    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
--    tcg_gen_cmp_vec(TCG_COND_GT, vece, d, a, zero);
--    tcg_temp_free_vec(zero);
--}
--
--const GVecGen2 cgt0_op[4] = {
--    { .fno = gen_helper_gvec_cgt0_b,
--      .fniv = gen_cgt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_8 },
--    { .fno = gen_helper_gvec_cgt0_h,
--      .fniv = gen_cgt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_16 },
--    { .fni4 = gen_cgt0_i32,
--      .fniv = gen_cgt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .vece = MO_32 },
--    { .fni8 = gen_cgt0_i64,
--      .fniv = gen_cgt0_vec,
--      .opt_opc = vecop_list_cmp,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .vece = MO_64 },
--};
-+#undef GEN_CMP0
- static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
- {
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                     break;
-                 case NEON_2RM_VCEQ0:
--                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
--                                   vec_size, &ceq0_op[size]);
-+                    gen_gvec_ceq0(size, rd_ofs, rm_ofs, vec_size, vec_size);
-                     break;
-                 case NEON_2RM_VCGT0:
--                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
--                                   vec_size, &cgt0_op[size]);
-+                    gen_gvec_cgt0(size, rd_ofs, rm_ofs, vec_size, vec_size);
-                     break;
-                 case NEON_2RM_VCLE0:
--                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
--                                   vec_size, &cle0_op[size]);
-+                    gen_gvec_cle0(size, rd_ofs, rm_ofs, vec_size, vec_size);
-                     break;
-                 case NEON_2RM_VCGE0:
--                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
--                                   vec_size, &cge0_op[size]);
-+                    gen_gvec_cge0(size, rd_ofs, rm_ofs, vec_size, vec_size);
-                     break;
-                 case NEON_2RM_VCLT0:
--                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
--                                   vec_size, &clt0_op[size]);
-+                    gen_gvec_clt0(size, rd_ofs, rm_ofs, vec_size, vec_size);
-                     break;
-                 default:
---
-.20.1

-[PULL 08/45] target/arm: Create gen_gvec_{mla,mls}
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Provide a functional interface for the vector expansion.
-This fits better with the existing set of helpers that
-we provide for other operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-8-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.h          |   7 +-
- target/arm/translate-a64.c      |   4 +-
- target/arm/translate-neon.inc.c |  16 +----
- target/arm/translate.c          | 117 +++++++++++++++++---------------
-files changed, 71 insertions(+), 73 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_cle0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
- void gen_gvec_cge0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    uint32_t opr_sz, uint32_t max_sz);
--extern const GVecGen3 mla_op[4];
--extern const GVecGen3 mls_op[4];
-+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+
- extern const GVecGen3 cmtst_op[4];
- extern const GVecGen3 sshl_op[4];
- extern const GVecGen3 ushl_op[4];
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
-         return;
-     case 0x12: /* MLA, MLS */
-         if (u) {
--            gen_gvec_op3(s, is_q, rd, rn, rm, &mls_op[size]);
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mls, size);
-         } else {
--            gen_gvec_op3(s, is_q, rd, rn, rm, &mla_op[size]);
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mla, size);
-         }
-         return;
-     case 0x11:
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMAX_U, tcg_gen_gvec_umax)
- DO_3SAME_NO_SZ_3(VMIN_S, tcg_gen_gvec_smin)
- DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
- DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
-+DO_3SAME_NO_SZ_3(VMLA, gen_gvec_mla)
-+DO_3SAME_NO_SZ_3(VMLS, gen_gvec_mls)
- #define DO_3SAME_CMP(INSN, COND)                                        \
-     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
-     return do_3same(s, a, gen_VMUL_p_3s);
- }
--#define DO_3SAME_GVEC3_NO_SZ_3(INSN, OPARRAY)                           \
--    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
--                                uint32_t rn_ofs, uint32_t rm_ofs,       \
--                                uint32_t oprsz, uint32_t maxsz)         \
--    {                                                                   \
--        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
--                       oprsz, maxsz, &OPARRAY[vece]);                   \
--    }                                                                   \
--    DO_3SAME_NO_SZ_3(INSN, gen_##INSN##_3s)
--
--
--DO_3SAME_GVEC3_NO_SZ_3(VMLA, mla_op)
--DO_3SAME_GVEC3_NO_SZ_3(VMLS, mls_op)
--
- #define DO_3SAME_GVEC3_SHIFT(INSN, OPARRAY)                             \
-     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-                                 uint32_t rn_ofs, uint32_t rm_ofs,       \
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
- /* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
-  * these tables are shared with AArch64 which does support them.
-  */
-+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static const TCGOpcode vecop_list[] = {
-+        INDEX_op_mul_vec, INDEX_op_add_vec, 0
-+    };
-+    static const GVecGen3 ops[4] = {
-+        { .fni4 = gen_mla8_i32,
-+          .fniv = gen_mla_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_8 },
-+        { .fni4 = gen_mla16_i32,
-+          .fniv = gen_mla_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_16 },
-+        { .fni4 = gen_mla32_i32,
-+          .fniv = gen_mla_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_32 },
-+        { .fni8 = gen_mla64_i64,
-+          .fniv = gen_mla_vec,
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_64 },
-+    };
-+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-+}
--static const TCGOpcode vecop_list_mla[] = {
--    INDEX_op_mul_vec, INDEX_op_add_vec, 0
--};
--
--static const TCGOpcode vecop_list_mls[] = {
--    INDEX_op_mul_vec, INDEX_op_sub_vec, 0
--};
--
--const GVecGen3 mla_op[4] = {
--    { .fni4 = gen_mla8_i32,
--      .fniv = gen_mla_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_8 },
--    { .fni4 = gen_mla16_i32,
--      .fniv = gen_mla_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_16 },
--    { .fni4 = gen_mla32_i32,
--      .fniv = gen_mla_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_32 },
--    { .fni8 = gen_mla64_i64,
--      .fniv = gen_mla_vec,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_64 },
--};
--
--const GVecGen3 mls_op[4] = {
--    { .fni4 = gen_mls8_i32,
--      .fniv = gen_mls_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_8 },
--    { .fni4 = gen_mls16_i32,
--      .fniv = gen_mls_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_16 },
--    { .fni4 = gen_mls32_i32,
--      .fniv = gen_mls_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_32 },
--    { .fni8 = gen_mls64_i64,
--      .fniv = gen_mls_vec,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_64 },
--};
-+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static const TCGOpcode vecop_list[] = {
-+        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
-+    };
-+    static const GVecGen3 ops[4] = {
-+        { .fni4 = gen_mls8_i32,
-+          .fniv = gen_mls_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_8 },
-+        { .fni4 = gen_mls16_i32,
-+          .fniv = gen_mls_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_16 },
-+        { .fni4 = gen_mls32_i32,
-+          .fniv = gen_mls_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_32 },
-+        { .fni8 = gen_mls64_i64,
-+          .fniv = gen_mls_vec,
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_64 },
-+    };
-+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-+}
- /* CMTST : test is "if (X & Y != 0)". */
- static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
---
-.20.1

-[PULL 09/45] target/arm: Swap argument order for VSHL during decode
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Rather than perform the argument swap during code generation,
-perform it during decode.  This means it doesn't have to be
-special cased later, and we can share code with aarch64 code
-generation.  Hopefully the decode comment addresses any confusion
-that might arise in between.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-9-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/neon-dp.decode       | 17 +++++++++++++++--
- target/arm/translate-neon.inc.c |  3 +--
-files changed, 16 insertions(+), 4 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
- VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
- VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
--VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same
--VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same
-+# The _rev suffix indicates that Vn and Vm are reversed. This is
-+# the case for shifts. In the Arm ARM these insns are documented
-+# with the Vm and Vn fields in their usual places, but in the
-+# assembly the operands are listed "backwards", ie in the order
-+# Dd, Dm, Dn where other insns use Dd, Dn, Dm. For QEMU we choose
-+# to consider Vm and Vn as being in different fields in the insn,
-+# which allows us to avoid special-casing shifts in the trans_
-+# function code. We would otherwise need to manually swap the operands
-+# over to call Neon helper functions that are shared with AArch64,
-+# which does not have this odd reversed-operand situation.
-+@3same_rev       .... ... . . . size:2 .... .... .... . q:1 . . .... \
-+                 &3same vn=%vm_dp vm=%vn_dp vd=%vd_dp
-+
-+VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same_rev
-+VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
- VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
- VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
-                                 uint32_t rn_ofs, uint32_t rm_ofs,       \
-                                 uint32_t oprsz, uint32_t maxsz)         \
-     {                                                                   \
--        /* Note the operation is vshl vd,vm,vn */                       \
--        tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs,                          \
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
-                        oprsz, maxsz, &OPARRAY[vece]);                   \
-     }                                                                   \
-     DO_3SAME(INSN, gen_##INSN##_3s)
---
-.20.1

-[PULL 14/45] target/arm: Pass pointer to qc to qrdmla/qrdmls
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Pass a pointer directly to env->vfp.qc[0], rather than env.
-This will allow SVE2, which does not modify QC, to pass a
-pointer to dummy storage.
-Change the return type of inl_qrdml.h_s16 to match the
-sense of the operation: signed.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-14-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c  | 18 ++++++++---
- target/arm/vec_helper.c | 70 +++++++++++++++++++++++------------------
-files changed, 54 insertions(+), 34 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static const uint8_t neon_2rm_sizes[] = {
-     [NEON_2RM_VCVT_UF] = 0x4,
- };
-+static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
-+                            uint32_t opr_sz, uint32_t max_sz,
-+                            gen_helper_gvec_3_ptr *fn)
-+{
-+    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
-+
-+    tcg_gen_addi_ptr(qc_ptr, cpu_env, offsetof(CPUARMState, vfp.qc));
-+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
-+                       opr_sz, max_sz, 0, fn);
-+    tcg_temp_free_ptr(qc_ptr);
-+}
-+
- void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                           uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
- {
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-         gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
-     };
-     tcg_debug_assert(vece >= 1 && vece <= 2);
--    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
--                       opr_sz, max_sz, 0, fns[vece - 1]);
-+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
- }
- void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-         gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
-     };
-     tcg_debug_assert(vece >= 1 && vece <= 2);
--    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
--                       opr_sz, max_sz, 0, fns[vece - 1]);
-+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
- }
- #define GEN_CMP0(NAME, COND)                                            \
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@
- #define H4(x)  (x)
- #endif
--#define SET_QC() env->vfp.qc[0] = 1
--
- static void clear_tail(void *vd, uintptr_t opr_sz, uintptr_t max_sz)
- {
-     uint64_t *d = vd + opr_sz;
-@@ -XXX,XX +XXX,XX @@ static void clear_tail(void *vd, uintptr_t opr_sz, uintptr_t max_sz)
- }
- /* Signed saturating rounding doubling multiply-accumulate high half, 16-bit */
--static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
--                                int16_t src2, int16_t src3)
-+static int16_t inl_qrdmlah_s16(int16_t src1, int16_t src2,
-+                               int16_t src3, uint32_t *sat)
- {
-     /* Simplify:
-      * = ((a3 << 16) + ((e1 * e2) << 1) + (1 << 15)) >> 16
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
-     ret = ((int32_t)src3 << 15) + ret + (1 << 14);
-     ret >>= 15;
-     if (ret != (int16_t)ret) {
--        SET_QC();
-+        *sat = 1;
-         ret = (ret < 0 ? -0x8000 : 0x7fff);
-     }
-     return ret;
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
- uint32_t HELPER(neon_qrdmlah_s16)(CPUARMState *env, uint32_t src1,
-                                   uint32_t src2, uint32_t src3)
- {
--    uint16_t e1 = inl_qrdmlah_s16(env, src1, src2, src3);
--    uint16_t e2 = inl_qrdmlah_s16(env, src1 >> 16, src2 >> 16, src3 >> 16);
-+    uint32_t *sat = &env->vfp.qc[0];
-+    uint16_t e1 = inl_qrdmlah_s16(src1, src2, src3, sat);
-+    uint16_t e2 = inl_qrdmlah_s16(src1 >> 16, src2 >> 16, src3 >> 16, sat);
-     return deposit32(e1, 16, 16, e2);
- }
- void HELPER(gvec_qrdmlah_s16)(void *vd, void *vn, void *vm,
--                              void *ve, uint32_t desc)
-+                              void *vq, uint32_t desc)
- {
-     uintptr_t opr_sz = simd_oprsz(desc);
-     int16_t *d = vd;
-     int16_t *n = vn;
-     int16_t *m = vm;
--    CPUARMState *env = ve;
-     uintptr_t i;
-     for (i = 0; i < opr_sz / 2; ++i) {
--        d[i] = inl_qrdmlah_s16(env, n[i], m[i], d[i]);
-+        d[i] = inl_qrdmlah_s16(n[i], m[i], d[i], vq);
-     }
-     clear_tail(d, opr_sz, simd_maxsz(desc));
- }
- /* Signed saturating rounding doubling multiply-subtract high half, 16-bit */
--static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
--                                int16_t src2, int16_t src3)
-+static int16_t inl_qrdmlsh_s16(int16_t src1, int16_t src2,
-+                               int16_t src3, uint32_t *sat)
- {
-     /* Similarly, using subtraction:
-      * = ((a3 << 16) - ((e1 * e2) << 1) + (1 << 15)) >> 16
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
-     ret = ((int32_t)src3 << 15) - ret + (1 << 14);
-     ret >>= 15;
-     if (ret != (int16_t)ret) {
--        SET_QC();
-+        *sat = 1;
-         ret = (ret < 0 ? -0x8000 : 0x7fff);
-     }
-     return ret;
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
- uint32_t HELPER(neon_qrdmlsh_s16)(CPUARMState *env, uint32_t src1,
-                                   uint32_t src2, uint32_t src3)
- {
--    uint16_t e1 = inl_qrdmlsh_s16(env, src1, src2, src3);
--    uint16_t e2 = inl_qrdmlsh_s16(env, src1 >> 16, src2 >> 16, src3 >> 16);
-+    uint32_t *sat = &env->vfp.qc[0];
-+    uint16_t e1 = inl_qrdmlsh_s16(src1, src2, src3, sat);
-+    uint16_t e2 = inl_qrdmlsh_s16(src1 >> 16, src2 >> 16, src3 >> 16, sat);
-     return deposit32(e1, 16, 16, e2);
- }
- void HELPER(gvec_qrdmlsh_s16)(void *vd, void *vn, void *vm,
--                              void *ve, uint32_t desc)
-+                              void *vq, uint32_t desc)
- {
-     uintptr_t opr_sz = simd_oprsz(desc);
-     int16_t *d = vd;
-     int16_t *n = vn;
-     int16_t *m = vm;
--    CPUARMState *env = ve;
-     uintptr_t i;
-     for (i = 0; i < opr_sz / 2; ++i) {
--        d[i] = inl_qrdmlsh_s16(env, n[i], m[i], d[i]);
-+        d[i] = inl_qrdmlsh_s16(n[i], m[i], d[i], vq);
-     }
-     clear_tail(d, opr_sz, simd_maxsz(desc));
- }
- /* Signed saturating rounding doubling multiply-accumulate high half, 32-bit */
--uint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
--                                  int32_t src2, int32_t src3)
-+static int32_t inl_qrdmlah_s32(int32_t src1, int32_t src2,
-+                               int32_t src3, uint32_t *sat)
- {
-     /* Simplify similarly to int_qrdmlah_s16 above.  */
-     int64_t ret = (int64_t)src1 * src2;
-     ret = ((int64_t)src3 << 31) + ret + (1 << 30);
-     ret >>= 31;
-     if (ret != (int32_t)ret) {
--        SET_QC();
-+        *sat = 1;
-         ret = (ret < 0 ? INT32_MIN : INT32_MAX);
-     }
-     return ret;
- }
-+uint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
-+                                  int32_t src2, int32_t src3)
-+{
-+    uint32_t *sat = &env->vfp.qc[0];
-+    return inl_qrdmlah_s32(src1, src2, src3, sat);
-+}
-+
- void HELPER(gvec_qrdmlah_s32)(void *vd, void *vn, void *vm,
--                              void *ve, uint32_t desc)
-+                              void *vq, uint32_t desc)
- {
-     uintptr_t opr_sz = simd_oprsz(desc);
-     int32_t *d = vd;
-     int32_t *n = vn;
-     int32_t *m = vm;
--    CPUARMState *env = ve;
-     uintptr_t i;
-     for (i = 0; i < opr_sz / 4; ++i) {
--        d[i] = helper_neon_qrdmlah_s32(env, n[i], m[i], d[i]);
-+        d[i] = inl_qrdmlah_s32(n[i], m[i], d[i], vq);
-     }
-     clear_tail(d, opr_sz, simd_maxsz(desc));
- }
- /* Signed saturating rounding doubling multiply-subtract high half, 32-bit */
--uint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
--                                  int32_t src2, int32_t src3)
-+static int32_t inl_qrdmlsh_s32(int32_t src1, int32_t src2,
-+                               int32_t src3, uint32_t *sat)
- {
-     /* Simplify similarly to int_qrdmlsh_s16 above.  */
-     int64_t ret = (int64_t)src1 * src2;
-     ret = ((int64_t)src3 << 31) - ret + (1 << 30);
-     ret >>= 31;
-     if (ret != (int32_t)ret) {
--        SET_QC();
-+        *sat = 1;
-         ret = (ret < 0 ? INT32_MIN : INT32_MAX);
-     }
-     return ret;
- }
-+uint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
-+                                  int32_t src2, int32_t src3)
-+{
-+    uint32_t *sat = &env->vfp.qc[0];
-+    return inl_qrdmlsh_s32(src1, src2, src3, sat);
-+}
-+
- void HELPER(gvec_qrdmlsh_s32)(void *vd, void *vn, void *vm,
--                              void *ve, uint32_t desc)
-+                              void *vq, uint32_t desc)
- {
-     uintptr_t opr_sz = simd_oprsz(desc);
-     int32_t *d = vd;
-     int32_t *n = vn;
-     int32_t *m = vm;
--    CPUARMState *env = ve;
-     uintptr_t i;
-     for (i = 0; i < opr_sz / 4; ++i) {
--        d[i] = helper_neon_qrdmlsh_s32(env, n[i], m[i], d[i]);
-+        d[i] = inl_qrdmlsh_s32(n[i], m[i], d[i], vq);
-     }
-     clear_tail(d, opr_sz, simd_maxsz(desc));
- }
---
-.20.1

-[PULL 15/45] target/arm: Clear tail in gvec_fmul_idx_*, gvec_fmla_idx_*
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Must clear the tail for AdvSIMD when SVE is enabled.
-Fixes: ca40a6e6e39
-Cc: qemu-stable@nongnu.org
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-15-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/vec_helper.c | 2 ++
-file changed, 2 insertions(+)
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
-+++ b/target/arm/vec_helper.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
-             d[i + j] = TYPE##_mul(n[i + j], mm, stat);                     \
-         }                                                                  \
-     }                                                                      \
-+    clear_tail(d, oprsz, simd_maxsz(desc));                                \
- }
- DO_MUL_IDX(gvec_fmul_idx_h, float16, H2)
-@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
-                                      mm, a[i + j], 0, stat);               \
-         }                                                                  \
-     }                                                                      \
-+    clear_tail(d, oprsz, simd_maxsz(desc));                                \
- }
- DO_FMLA_IDX(gvec_fmla_idx_h, float16, H2)
---
-.20.1

-[PULL 16/45] target/arm: Vectorize SABD/UABD
+[PULL 24/24] target/arm: Implement MVE shifts by register
-From: Richard Henderson <richard.henderson@linaro.org>
+Implement the MVE shifts by register, which perform
 shifts on a single general-purpose register.
-Include 64-bit element size in preparation for SVE2.
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20210628135835.6690-19-peter.maydell@linaro.org
 ---
  target/arm/helper-mve.h |  2 ++
  target/arm/translate.h  |  1 +
  target/arm/t32.decode   | 18 ++++++++++++++----
  target/arm/mve_helper.c | 10 ++++++++++
  target/arm/translate.c  | 30 ++++++++++++++++++++++++++++++
 files changed, 57 insertions(+), 4 deletions(-)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+diff --git a/target/arm/helper-mve.h b/target/arm/helper-mve.h
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20200513163245.17915-16-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/helper.h        |  10 +++
  target/arm/translate.h     |   5 ++
  target/arm/translate-a64.c |   8 ++-
  target/arm/translate.c     | 133 ++++++++++++++++++++++++++++++++++++-
  target/arm/vec_helper.c    |  24 +++++++
 files changed, 176 insertions(+), 4 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper-mve.h
-+++ b/target/arm/helper.h
++++ b/target/arm/helper-mve.h
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(gvec_sli_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(mve_uqrshll48, TCG_CALL_NO_RWG, i64, env, i64, i32)
- DEF_HELPER_FLAGS_3(gvec_sli_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
- DEF_HELPER_FLAGS_3(gvec_sli_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+ DEF_HELPER_FLAGS_3(mve_uqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
+ DEF_HELPER_FLAGS_3(mve_sqshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
-+DEF_HELPER_FLAGS_4(gvec_sabd_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_uqrshl, TCG_CALL_NO_RWG, i32, env, i32, i32)
-+DEF_HELPER_FLAGS_4(gvec_sabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++DEF_HELPER_FLAGS_3(mve_sqrshr, TCG_CALL_NO_RWG, i32, env, i32, i32)
 +DEF_HELPER_FLAGS_4(gvec_sabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_sabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_uabd_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "helper-a64.h"
  #include "helper-sve.h"
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+@@ -XXX,XX +XXX,XX @@ typedef void AtomicThreeOpFn(TCGv_i64, TCGv_i64, TCGv_i64, TCGArg, MemOp);
- void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ typedef void WideShiftImmFn(TCGv_i64, TCGv_i64, int64_t shift);
-                           uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+ typedef void WideShiftFn(TCGv_i64, TCGv_ptr, TCGv_i64, TCGv_i32);
+ typedef void ShiftImmFn(TCGv_i32, TCGv_i32, int32_t shift);
-+void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++typedef void ShiftFn(TCGv_i32, TCGv_ptr, TCGv_i32, TCGv_i32);
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ /**
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+  * arm_tbflags_from_tb:
 diff --git a/target/arm/t32.decode b/target/arm/t32.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/t32.decode
 +++ b/target/arm/t32.decode
@@ -XXX,XX +XXX,XX @@
  &mve_shl_ri      rdalo rdahi shim
  &mve_shl_rr      rdalo rdahi rm
  &mve_sh_ri       rda shim
 +&mve_sh_rr       rda rm
  # rdahi: bits [3:1] from insn, bit 0 is 1
  # rdalo: bits [3:1] from insn, bit 0 is 0
@@ -XXX,XX +XXX,XX @@
                   &mve_shl_rr rdalo=%rdalo_17 rdahi=%rdahi_9
  @mve_sh_ri       ....... .... . rda:4 . ... ... . .. .. .... \
                   &mve_sh_ri shim=%imm5_12_6
 +@mve_sh_rr       ....... .... . rda:4 rm:4 .... .... .... &mve_sh_rr
  {
    TST_xrri       1110101 0000 1 .... 0 ... 1111 .... ....     @S_xrr_shi
@@ -XXX,XX +XXX,XX @@ BIC_rrri         1110101 0001 . .... 0 ... .... .... ....     @s_rrr_shi
        SQSHLL_ri  1110101 0010 1 ... 1 0 ... ... 1 .. 11 1111  @mve_shl_ri
      }
 -    LSLL_rr      1110101 0010 1 ... 0 ....  ... 1  0000 1101  @mve_shl_rr
 -    ASRL_rr      1110101 0010 1 ... 0 ....  ... 1  0010 1101  @mve_shl_rr
 -    UQRSHLL64_rr 1110101 0010 1 ... 1 ....  ... 1  0000 1101  @mve_shl_rr
 -    SQRSHRL64_rr 1110101 0010 1 ... 1 ....  ... 1  0010 1101  @mve_shl_rr
 +    {
 +      UQRSHL_rr    1110101 0010 1 ....  ....  1111 0000 1101  @mve_sh_rr
 +      LSLL_rr      1110101 0010 1 ... 0 .... ... 1 0000 1101  @mve_shl_rr
 +      UQRSHLL64_rr 1110101 0010 1 ... 1 .... ... 1 0000 1101  @mve_shl_rr
 +    }
 +
- /*
++    {
-  * Forward to the isar_feature_* tests given a DisasContext pointer.
++      SQRSHR_rr    1110101 0010 1 ....  ....  1111 0010 1101  @mve_sh_rr
-  */
++      ASRL_rr      1110101 0010 1 ... 0 .... ... 1 0010 1101  @mve_shl_rr
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
++      SQRSHRL64_rr 1110101 0010 1 ... 1 .... ... 1 0010 1101  @mve_shl_rr
 +    }
 +
      UQRSHLL48_rr 1110101 0010 1 ... 1 ....  ... 1  1000 1101  @mve_shl_rr
      SQRSHRL48_rr 1110101 0010 1 ... 1 ....  ... 1  1010 1101  @mve_shl_rr
    ]
 diff --git a/target/arm/mve_helper.c b/target/arm/mve_helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/target/arm/mve_helper.c
-+++ b/target/arm/translate-a64.c
++++ b/target/arm/mve_helper.c
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(mve_sqshl)(CPUARMState *env, uint32_t n, uint32_t shift)
-             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_smin, size);
+ {
-         }
+     return do_sqrshl_bhs(n, (int8_t)shift, 32, false, &env->QF);
-         return;
+ }
-+    case 0xe: /* SABD, UABD */
++
-+        if (u) {
++uint32_t HELPER(mve_uqrshl)(CPUARMState *env, uint32_t n, uint32_t shift)
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uabd, size);
++{
-+        } else {
++    return do_uqrshl_bhs(n, (int8_t)shift, 32, true, &env->QF);
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sabd, size);
++}
-+        }
++
-+        return;
++uint32_t HELPER(mve_sqrshr)(CPUARMState *env, uint32_t n, uint32_t shift)
-     case 0x10: /* ADD, SUB */
++{
-         if (u) {
++    return do_sqrshl_bhs(n, -(int8_t)shift, 32, true, &env->QF);
-             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_sub, size);
++}
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
                  genenvfn = fns[size][u];
                  break;
              }
 -            case 0xe: /* SABD, UABD */
              case 0xf: /* SABA, UABA */
              {
                  static NeonGenTwoOpFn * const fns[3][2] = {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+@@ -XXX,XX +XXX,XX @@ static bool trans_UQSHL_ri(DisasContext *s, arg_mve_sh_ri *a)
-                    rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+     return do_mve_sh_ri(s, a, gen_mve_uqshl);
  }
-+static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
++static bool do_mve_sh_rr(DisasContext *s, arg_mve_sh_rr *a, ShiftFn *fn)
 +{
-+    TCGv_i32 t = tcg_temp_new_i32();
++    if (!arm_dc_feature(s, ARM_FEATURE_V8_1M)) {
 +        /* Decode falls through to ORR/MOV UNPREDICTABLE handling */
 +        return false;
 +    }
 +    if (!dc_isar_feature(aa32_mve, s) ||
 +        !arm_dc_feature(s, ARM_FEATURE_M_MAIN) ||
 +        a->rda == 13 || a->rda == 15 || a->rm == 13 || a->rm == 15 ||
 +        a->rm == a->rda) {
 +        /* These rda/rm cases are UNPREDICTABLE; we choose to UNDEF */
 +        unallocated_encoding(s);
 +        return true;
 +    }
 +
-+    tcg_gen_sub_i32(t, a, b);
++    /* The helper takes care of the sign-extension of the low 8 bits of Rm */
-+    tcg_gen_sub_i32(d, b, a);
++    fn(cpu_R[a->rda], cpu_env, cpu_R[a->rda], cpu_R[a->rm]);
-+    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
++    return true;
 +    tcg_temp_free_i32(t);
 +}
 +
-+static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
++static bool trans_SQRSHR_rr(DisasContext *s, arg_mve_sh_rr *a)
 +{
-+    TCGv_i64 t = tcg_temp_new_i64();
++    return do_mve_sh_rr(s, a, gen_helper_mve_sqrshr);
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
-+static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
++static bool trans_UQRSHL_rr(DisasContext *s, arg_mve_sh_rr *a)
 +{
-+    TCGv_vec t = tcg_temp_new_vec_matching(d);
++    return do_mve_sh_rr(s, a, gen_helper_mve_uqrshl);
 +
 +    tcg_gen_smin_vec(vece, t, a, b);
 +    tcg_gen_smax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
-+void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+ /*
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+  * Multiply and multiply accumulate
-+{
+  */
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_sabd_i32,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_sabd_i64,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_sub_i32(t, a, b);
 +    tcg_gen_sub_i32(d, b, a);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_umin_vec(vece, t, a, b);
 +    tcg_gen_umax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uabd_i32,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uabd_i64,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
     We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              }
              return 1;
 +        case NEON_3R_VABD:
 +            if (u) {
 +                gen_gvec_uabd(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            } else {
 +                gen_gvec_sabd(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            }
 +            return 0;
 +
          case NEON_3R_VADD_VSUB:
          case NEON_3R_LOGIC:
          case NEON_3R_VMAX:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VQRSHL:
              GEN_NEON_INTEGER_OP_ENV(qrshl);
              break;
 -        case NEON_3R_VABD:
 -            GEN_NEON_INTEGER_OP(abd);
 -            break;
          case NEON_3R_VABA:
              GEN_NEON_INTEGER_OP(abd);
              tcg_temp_free_i32(tmp2);
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_CMP0(gvec_cgt0_h, int16_t, >)
  DO_CMP0(gvec_cge0_h, int16_t, >=)
  #undef DO_CMP0
 +
 +#define DO_ABD(NAME, TYPE)                                      \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
 +{                                                               \
 +    intptr_t i, opr_sz = simd_oprsz(desc);                      \
 +    TYPE *d = vd, *n = vn, *m = vm;                             \
 +                                                                \
 +    for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
 +        d[i] = n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];         \
 +    }                                                           \
 +    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
 +}
 +
 +DO_ABD(gvec_sabd_b, int8_t)
 +DO_ABD(gvec_sabd_h, int16_t)
 +DO_ABD(gvec_sabd_s, int32_t)
 +DO_ABD(gvec_sabd_d, int64_t)
 +
 +DO_ABD(gvec_uabd_b, uint8_t)
 +DO_ABD(gvec_uabd_h, uint16_t)
 +DO_ABD(gvec_uabd_s, uint32_t)
 +DO_ABD(gvec_uabd_d, uint64_t)
 +
 +#undef DO_ABD
 --
 .20.1

-[PULL 18/45] aspeed: Add support for the sonorapass-bmc board
+Deleted patch
-From: Patrick Williams <patrick@stwcx.xyz>
-Sonora Pass is a 2 socket x86 motherboard designed by Facebook
-and supported by OpenBMC.  Strapping configuration was obtained
-from hardware and i2c configuration is based on dts found at:
-https://github.com/facebook/openbmc-linux/blob/1633c87b8ba7c162095787c988979b748ba65dc8/arch/arm/boot/dts/aspeed-bmc-facebook-sonorapass.dts
-Booted a test image of http://github.com/facebook/openbmc to login
-prompt.
-Signed-off-by: Patrick Williams <patrick@stwcx.xyz>
-Reviewed-by: Amithash Prasad <amithash@fb.com>
-Reviewed-by: Cédric Le Goater <clg@kaod.org>
-[PMM: fixed block comment style nit]
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- hw/arm/aspeed.c | 78 +++++++++++++++++++++++++++++++++++++++++++++++++
-file changed, 78 insertions(+)
-diff --git a/hw/arm/aspeed.c b/hw/arm/aspeed.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/aspeed.c
-+++ b/hw/arm/aspeed.c
-@@ -XXX,XX +XXX,XX @@ struct AspeedBoardState {
-         SCU_AST2500_HW_STRAP_ACPI_ENABLE |                              \
-         SCU_HW_STRAP_SPI_MODE(SCU_HW_STRAP_SPI_MASTER))
-+/* Sonorapass hardware value: 0xF100D216 */
-+#define SONORAPASS_BMC_HW_STRAP1 (                                      \
-+        SCU_AST2500_HW_STRAP_SPI_AUTOFETCH_ENABLE |                     \
-+        SCU_AST2500_HW_STRAP_GPIO_STRAP_ENABLE |                        \
-+        SCU_AST2500_HW_STRAP_UART_DEBUG |                               \
-+        SCU_AST2500_HW_STRAP_RESERVED28 |                               \
-+        SCU_AST2500_HW_STRAP_DDR4_ENABLE |                              \
-+        SCU_HW_STRAP_VGA_CLASS_CODE |                                   \
-+        SCU_HW_STRAP_LPC_RESET_PIN |                                    \
-+        SCU_HW_STRAP_SPI_MODE(SCU_HW_STRAP_SPI_MASTER) |                \
-+        SCU_AST2500_HW_STRAP_SET_AXI_AHB_RATIO(AXI_AHB_RATIO_2_1) |     \
-+        SCU_HW_STRAP_VGA_BIOS_ROM |                                     \
-+        SCU_HW_STRAP_VGA_SIZE_SET(VGA_16M_DRAM) |                       \
-+        SCU_AST2500_HW_STRAP_RESERVED1)
-+
- /* Swift hardware value: 0xF11AD206 */
- #define SWIFT_BMC_HW_STRAP1 (                                           \
-         AST2500_HW_STRAP1_DEFAULTS |                                    \
-@@ -XXX,XX +XXX,XX @@ static void swift_bmc_i2c_init(AspeedBoardState *bmc)
-     i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 12), "tmp105", 0x4a);
- }
-+static void sonorapass_bmc_i2c_init(AspeedBoardState *bmc)
-+{
-+    AspeedSoCState *soc = &bmc->soc;
-+
-+    /* bus 2 : */
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 2), "tmp105", 0x48);
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 2), "tmp105", 0x49);
-+    /* bus 2 : pca9546 @ 0x73 */
-+
-+    /* bus 3 : pca9548 @ 0x70 */
-+
-+    /* bus 4 : */
-+    uint8_t *eeprom4_54 = g_malloc0(8 * 1024);
-+    smbus_eeprom_init_one(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), 0x54,
-+                          eeprom4_54);
-+    /* PCA9539 @ 0x76, but PCA9552 is compatible */
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), "pca9552", 0x76);
-+    /* PCA9539 @ 0x77, but PCA9552 is compatible */
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), "pca9552", 0x77);
-+
-+    /* bus 6 : */
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 6), "tmp105", 0x48);
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 6), "tmp105", 0x49);
-+    /* bus 6 : pca9546 @ 0x73 */
-+
-+    /* bus 8 : */
-+    uint8_t *eeprom8_56 = g_malloc0(8 * 1024);
-+    smbus_eeprom_init_one(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), 0x56,
-+                          eeprom8_56);
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), "pca9552", 0x60);
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), "pca9552", 0x61);
-+    /* bus 8 : adc128d818 @ 0x1d */
-+    /* bus 8 : adc128d818 @ 0x1f */
-+
-+    /*
-+     * bus 13 : pca9548 @ 0x71
-+     *      - channel 3:
-+     *          - tmm421 @ 0x4c
-+     *          - tmp421 @ 0x4e
-+     *          - tmp421 @ 0x4f
-+     */
-+
-+}
-+
- static void witherspoon_bmc_i2c_init(AspeedBoardState *bmc)
- {
-     AspeedSoCState *soc = &bmc->soc;
-@@ -XXX,XX +XXX,XX @@ static void aspeed_machine_romulus_class_init(ObjectClass *oc, void *data)
-     mc->default_ram_size       = 512 * MiB;
- };
-+static void aspeed_machine_sonorapass_class_init(ObjectClass *oc, void *data)
-+{
-+    MachineClass *mc = MACHINE_CLASS(oc);
-+    AspeedMachineClass *amc = ASPEED_MACHINE_CLASS(oc);
-+
-+    mc->desc       = "OCP SonoraPass BMC (ARM1176)";
-+    amc->soc_name  = "ast2500-a1";
-+    amc->hw_strap1 = SONORAPASS_BMC_HW_STRAP1;
-+    amc->fmc_model = "mx66l1g45g";
-+    amc->spi_model = "mx66l1g45g";
-+    amc->num_cs    = 2;
-+    amc->i2c_init  = sonorapass_bmc_i2c_init;
-+    mc->default_ram_size       = 512 * MiB;
-+};
-+
- static void aspeed_machine_swift_class_init(ObjectClass *oc, void *data)
- {
-     MachineClass *mc = MACHINE_CLASS(oc);
-@@ -XXX,XX +XXX,XX @@ static const TypeInfo aspeed_machine_types[] = {
-         .name          = MACHINE_TYPE_NAME("swift-bmc"),
-         .parent        = TYPE_ASPEED_MACHINE,
-         .class_init    = aspeed_machine_swift_class_init,
-+    }, {
-+        .name          = MACHINE_TYPE_NAME("sonorapass-bmc"),
-+        .parent        = TYPE_ASPEED_MACHINE,
-+        .class_init    = aspeed_machine_sonorapass_class_init,
-     }, {
-         .name          = MACHINE_TYPE_NAME("witherspoon-bmc"),
-         .parent        = TYPE_ASPEED_MACHINE,
---
-.20.1

-[PULL 20/45] hw/arm/virt: Introduce a RAS machine option
+Deleted patch
-From: Dongjiu Geng <gengdongjiu@huawei.com>
-RAS Virtualization feature is not supported now, so
-add a RAS machine option and disable it by default.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
-Reviewed-by: Jonathan Cameron <Jonathan.Cameron@huawei.com>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Message-id: 20200512030609.19593-3-gengdongjiu@huawei.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- include/hw/arm/virt.h |  1 +
- hw/arm/virt.c         | 23 +++++++++++++++++++++++
-files changed, 24 insertions(+)
-diff --git a/include/hw/arm/virt.h b/include/hw/arm/virt.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/virt.h
-+++ b/include/hw/arm/virt.h
-@@ -XXX,XX +XXX,XX @@ typedef struct {
-     bool highmem_ecam;
-     bool its;
-     bool virt;
-+    bool ras;
-     OnOffAuto acpi;
-     VirtGICType gic_version;
-     VirtIOMMUType iommu;
-diff --git a/hw/arm/virt.c b/hw/arm/virt.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt.c
-+++ b/hw/arm/virt.c
-@@ -XXX,XX +XXX,XX @@ static void virt_set_acpi(Object *obj, Visitor *v, const char *name,
-     visit_type_OnOffAuto(v, name, &vms->acpi, errp);
- }
-+static bool virt_get_ras(Object *obj, Error **errp)
-+{
-+    VirtMachineState *vms = VIRT_MACHINE(obj);
-+
-+    return vms->ras;
-+}
-+
-+static void virt_set_ras(Object *obj, bool value, Error **errp)
-+{
-+    VirtMachineState *vms = VIRT_MACHINE(obj);
-+
-+    vms->ras = value;
-+}
-+
- static char *virt_get_gic_version(Object *obj, Error **errp)
- {
-     VirtMachineState *vms = VIRT_MACHINE(obj);
-@@ -XXX,XX +XXX,XX @@ static void virt_instance_init(Object *obj)
-                                     "Valid values are none and smmuv3",
-                                     NULL);
-+    /* Default disallows RAS instantiation */
-+    vms->ras = false;
-+    object_property_add_bool(obj, "ras", virt_get_ras,
-+                             virt_set_ras, NULL);
-+    object_property_set_description(obj, "ras",
-+                                    "Set on/off to enable/disable reporting host memory errors "
-+                                    "to a KVM guest using ACPI and guest external abort exceptions",
-+                                    NULL);
-+
-     vms->irqmap = a15irqmap;
-     virt_flash_create(vms);
---
-.20.1

-[PULL 21/45] docs: APEI GHES generation and CPER record description
+Deleted patch
-From: Dongjiu Geng <gengdongjiu@huawei.com>
-Add APEI/GHES detailed design document
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
-Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Message-id: 20200512030609.19593-4-gengdongjiu@huawei.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- docs/specs/acpi_hest_ghes.rst | 110 ++++++++++++++++++++++++++++++++++
- docs/specs/index.rst          |   1 +
-files changed, 111 insertions(+)
- create mode 100644 docs/specs/acpi_hest_ghes.rst
-diff --git a/docs/specs/acpi_hest_ghes.rst b/docs/specs/acpi_hest_ghes.rst
-new file mode 100644
-index XXXXXXX..XXXXXXX
---- /dev/null
-+++ b/docs/specs/acpi_hest_ghes.rst
-@@ -XXX,XX +XXX,XX @@
-+APEI tables generating and CPER record
-+======================================
-+
-+..
-+   Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
-+
-+   This work is licensed under the terms of the GNU GPL, version 2 or later.
-+   See the COPYING file in the top-level directory.
-+
-+Design Details
-+--------------
-+
-+::
-+
-+         etc/acpi/tables                           etc/hardware_errors
-+      ====================                   ===============================
-+  + +--------------------------+            +----------------------------+
-+  | | HEST                     | +--------->|    error_block_address1    |------+
-+  | +--------------------------+ |          +----------------------------+      |
-+  | | GHES1                    | | +------->|    error_block_address2    |------+-+
-+  | +--------------------------+ | |        +----------------------------+      | |
-+  | | .................        | | |        |      ..............        |      | |
-+  | | error_status_address-----+-+ |        -----------------------------+      | |
-+  | | .................        |   |   +--->|    error_block_addressN    |------+-+---+
-+  | | read_ack_register--------+-+ |   |    +----------------------------+      | |   |
-+  | | read_ack_preserve        | +-+---+--->|     read_ack_register1     |      | |   |
-+  | | read_ack_write           |   |   |    +----------------------------+      | |   |
-+  + +--------------------------+   | +-+--->|     read_ack_register2     |      | |   |
-+  | | GHES2                    |   | | |    +----------------------------+      | |   |
-+  + +--------------------------+   | | |    |       .............        |      | |   |
-+  | | .................        |   | | |    +----------------------------+      | |   |
-+  | | error_status_address-----+---+ | | +->|     read_ack_registerN     |      | |   |
-+  | | .................        |     | | |  +----------------------------+      | |   |
-+  | | read_ack_register--------+-----+ | |  |Generic Error Status Block 1|<-----+ |   |
-+  | | read_ack_preserve        |       | |  |-+------------------------+-+        |   |
-+  | | read_ack_write           |       | |  | |          CPER          | |        |   |
-+  + +--------------------------|       | |  | |          CPER          | |        |   |
-+  | | ...............          |       | |  | |          ....          | |        |   |
-+  + +--------------------------+       | |  | |          CPER          | |        |   |
-+  | | GHESN                    |       | |  |-+------------------------+-|        |   |
-+  + +--------------------------+       | |  |Generic Error Status Block 2|<-------+   |
-+  | | .................        |       | |  |-+------------------------+-+            |
-+  | | error_status_address-----+-------+ |  | |           CPER         | |            |
-+  | | .................        |         |  | |           CPER         | |            |
-+  | | read_ack_register--------+---------+  | |           ....         | |            |
-+  | | read_ack_preserve        |            | |           CPER         | |            |
-+  | | read_ack_write           |            +-+------------------------+-+            |
-+  + +--------------------------+            |         ..........         |            |
-+                                            |----------------------------+            |
-+                                            |Generic Error Status Block N |<----------+
-+                                            |-+-------------------------+-+
-+                                            | |          CPER           | |
-+                                            | |          CPER           | |
-+                                            | |          ....           | |
-+                                            | |          CPER           | |
-+                                            +-+-------------------------+-+
-+
-+
-+(1) QEMU generates the ACPI HEST table. This table goes in the current
-+    "etc/acpi/tables" fw_cfg blob. Each error source has different
-+    notification types.
-+
-+(2) A new fw_cfg blob called "etc/hardware_errors" is introduced. QEMU
-+    also needs to populate this blob. The "etc/hardware_errors" fw_cfg blob
-+    contains an address registers table and an Error Status Data Block table.
-+
-+(3) The address registers table contains N Error Block Address entries
-+    and N Read Ack Register entries. The size for each entry is 8-byte.
-+    The Error Status Data Block table contains N Error Status Data Block
-+    entries. The size for each entry is 4096(0x1000) bytes. The total size
-+    for the "etc/hardware_errors" fw_cfg blob is (N * 8 * 2 + N * 4096) bytes.
-+    N is the number of the kinds of hardware error sources.
-+
-+(4) QEMU generates the ACPI linker/loader script for the firmware. The
-+    firmware pre-allocates memory for "etc/acpi/tables", "etc/hardware_errors"
-+    and copies blob contents there.
-+
-+(5) QEMU generates N ADD_POINTER commands, which patch addresses in the
-+    "error_status_address" fields of the HEST table with a pointer to the
-+    corresponding "address registers" in the "etc/hardware_errors" blob.
-+
-+(6) QEMU generates N ADD_POINTER commands, which patch addresses in the
-+    "read_ack_register" fields of the HEST table with a pointer to the
-+    corresponding "read_ack_register" within the "etc/hardware_errors" blob.
-+
-+(7) QEMU generates N ADD_POINTER commands for the firmware, which patch
-+    addresses in the "error_block_address" fields with a pointer to the
-+    respective "Error Status Data Block" in the "etc/hardware_errors" blob.
-+
-+(8) QEMU defines a third and write-only fw_cfg blob which is called
-+    "etc/hardware_errors_addr". Through that blob, the firmware can send back
-+    the guest-side allocation addresses to QEMU. The "etc/hardware_errors_addr"
-+    blob contains a 8-byte entry. QEMU generates a single WRITE_POINTER command
-+    for the firmware. The firmware will write back the start address of
-+    "etc/hardware_errors" blob to the fw_cfg file "etc/hardware_errors_addr".
-+
-+(9) When QEMU gets a SIGBUS from the kernel, QEMU writes CPER into corresponding
-+    "Error Status Data Block", guest memory, and then injects platform specific
-+    interrupt (in case of arm/virt machine it's Synchronous External Abort) as a
-+    notification which is necessary for notifying the guest.
-+
-+(10) This notification (in virtual hardware) will be handled by the guest
-+     kernel, on receiving notification, guest APEI driver could read the CPER error
-+     and take appropriate action.
-+
-+(11) kvm_arch_on_sigbus_vcpu() uses source_id as index in "etc/hardware_errors" to
-+     find out "Error Status Data Block" entry corresponding to error source. So supported
-+     source_id values should be assigned here and not be changed afterwards to make sure
-+     that guest will write error into expected "Error Status Data Block" even if guest was
-+     migrated to a newer QEMU.
-diff --git a/docs/specs/index.rst b/docs/specs/index.rst
-index XXXXXXX..XXXXXXX 100644
---- a/docs/specs/index.rst
-+++ b/docs/specs/index.rst
-@@ -XXX,XX +XXX,XX @@ Contents:
-    ppc-spapr-xive
-    acpi_hw_reduced_hotplug
-    tpm
-+   acpi_hest_ghes
---
-.20.1

-[PULL 23/45] ACPI: Build Hardware Error Source Table
+Deleted patch
-From: Dongjiu Geng <gengdongjiu@huawei.com>
-This patch builds Hardware Error Source Table(HEST) via fw_cfg blobs.
-Now it only supports ARMv8 SEA, a type of Generic Hardware Error
-Source version 2(GHESv2) error source. Afterwards, we can extend
-the supported types if needed. For the CPER section, currently it
-is memory section because kernel mainly wants userspace to handle
-the memory errors.
-This patch follows the spec ACPI 6.2 to build the Hardware Error
-Source table. For more detailed information, please refer to
-document: docs/specs/acpi_hest_ghes.rst
-build_ghes_hw_error_notification() helper will help to add Hardware
-Error Notification to ACPI tables without using packed C structures
-and avoid endianness issues as API doesn't need explicit conversion.
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
-Message-id: 20200512030609.19593-6-gengdongjiu@huawei.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- include/hw/acpi/ghes.h   |  39 ++++++++++++
- hw/acpi/ghes.c           | 126 +++++++++++++++++++++++++++++++++++++++
- hw/arm/virt-acpi-build.c |   2 +
-files changed, 167 insertions(+)
-diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/ghes.h
-+++ b/include/hw/acpi/ghes.h
-@@ -XXX,XX +XXX,XX @@
- #include "hw/acpi/bios-linker-loader.h"
-+/*
-+ * Values for Hardware Error Notification Type field
-+ */
-+enum AcpiGhesNotifyType {
-+    /* Polled */
-+    ACPI_GHES_NOTIFY_POLLED = 0,
-+    /* External Interrupt */
-+    ACPI_GHES_NOTIFY_EXTERNAL = 1,
-+    /* Local Interrupt */
-+    ACPI_GHES_NOTIFY_LOCAL = 2,
-+    /* SCI */
-+    ACPI_GHES_NOTIFY_SCI = 3,
-+    /* NMI */
-+    ACPI_GHES_NOTIFY_NMI = 4,
-+    /* CMCI, ACPI 5.0: 18.3.2.7, Table 18-290 */
-+    ACPI_GHES_NOTIFY_CMCI = 5,
-+    /* MCE, ACPI 5.0: 18.3.2.7, Table 18-290 */
-+    ACPI_GHES_NOTIFY_MCE = 6,
-+    /* GPIO-Signal, ACPI 6.0: 18.3.2.7, Table 18-332 */
-+    ACPI_GHES_NOTIFY_GPIO = 7,
-+    /* ARMv8 SEA, ACPI 6.1: 18.3.2.9, Table 18-345 */
-+    ACPI_GHES_NOTIFY_SEA = 8,
-+    /* ARMv8 SEI, ACPI 6.1: 18.3.2.9, Table 18-345 */
-+    ACPI_GHES_NOTIFY_SEI = 9,
-+    /* External Interrupt - GSIV, ACPI 6.1: 18.3.2.9, Table 18-345 */
-+    ACPI_GHES_NOTIFY_GSIV = 10,
-+    /* Software Delegated Exception, ACPI 6.2: 18.3.2.9, Table 18-383 */
-+    ACPI_GHES_NOTIFY_SDEI = 11,
-+    /* 12 and greater are reserved */
-+    ACPI_GHES_NOTIFY_RESERVED = 12
-+};
-+
-+enum {
-+    ACPI_HEST_SRC_ID_SEA = 0,
-+    /* future ids go here */
-+    ACPI_HEST_SRC_ID_RESERVED,
-+};
-+
- void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
-+void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
- #endif
-diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/ghes.c
-+++ b/hw/acpi/ghes.c
-@@ -XXX,XX +XXX,XX @@
- #include "qemu/units.h"
- #include "hw/acpi/ghes.h"
- #include "hw/acpi/aml-build.h"
-+#include "qemu/error-report.h"
- #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
- #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
-@@ -XXX,XX +XXX,XX @@
- /* Now only support ARMv8 SEA notification type error source */
- #define ACPI_GHES_ERROR_SOURCE_COUNT        1
-+/* Generic Hardware Error Source version 2 */
-+#define ACPI_GHES_SOURCE_GENERIC_ERROR_V2   10
-+
-+/* Address offset in Generic Address Structure(GAS) */
-+#define GAS_ADDR_OFFSET 4
-+
-+/*
-+ * Hardware Error Notification
-+ * ACPI 4.0: 17.3.2.7 Hardware Error Notification
-+ * Composes dummy Hardware Error Notification descriptor of specified type
-+ */
-+static void build_ghes_hw_error_notification(GArray *table, const uint8_t type)
-+{
-+    /* Type */
-+    build_append_int_noprefix(table, type, 1);
-+    /*
-+     * Length:
-+     * Total length of the structure in bytes
-+     */
-+    build_append_int_noprefix(table, 28, 1);
-+    /* Configuration Write Enable */
-+    build_append_int_noprefix(table, 0, 2);
-+    /* Poll Interval */
-+    build_append_int_noprefix(table, 0, 4);
-+    /* Vector */
-+    build_append_int_noprefix(table, 0, 4);
-+    /* Switch To Polling Threshold Value */
-+    build_append_int_noprefix(table, 0, 4);
-+    /* Switch To Polling Threshold Window */
-+    build_append_int_noprefix(table, 0, 4);
-+    /* Error Threshold Value */
-+    build_append_int_noprefix(table, 0, 4);
-+    /* Error Threshold Window */
-+    build_append_int_noprefix(table, 0, 4);
-+}
-+
- /*
-  * Build table for the hardware error fw_cfg blob.
-  * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
-@@ -XXX,XX +XXX,XX @@ void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker)
-     bios_linker_loader_write_pointer(linker, ACPI_GHES_DATA_ADDR_FW_CFG_FILE,
-, sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE, 0);
- }
-+
-+/* Build Generic Hardware Error Source version 2 (GHESv2) */
-+static void build_ghes_v2(GArray *table_data, int source_id, BIOSLinker *linker)
-+{
-+    uint64_t address_offset;
-+    /*
-+     * Type:
-+     * Generic Hardware Error Source version 2(GHESv2 - Type 10)
-+     */
-+    build_append_int_noprefix(table_data, ACPI_GHES_SOURCE_GENERIC_ERROR_V2, 2);
-+    /* Source Id */
-+    build_append_int_noprefix(table_data, source_id, 2);
-+    /* Related Source Id */
-+    build_append_int_noprefix(table_data, 0xffff, 2);
-+    /* Flags */
-+    build_append_int_noprefix(table_data, 0, 1);
-+    /* Enabled */
-+    build_append_int_noprefix(table_data, 1, 1);
-+
-+    /* Number of Records To Pre-allocate */
-+    build_append_int_noprefix(table_data, 1, 4);
-+    /* Max Sections Per Record */
-+    build_append_int_noprefix(table_data, 1, 4);
-+    /* Max Raw Data Length */
-+    build_append_int_noprefix(table_data, ACPI_GHES_MAX_RAW_DATA_LENGTH, 4);
-+
-+    address_offset = table_data->len;
-+    /* Error Status Address */
-+    build_append_gas(table_data, AML_AS_SYSTEM_MEMORY, 0x40, 0,
-+                     4 /* QWord access */, 0);
-+    bios_linker_loader_add_pointer(linker, ACPI_BUILD_TABLE_FILE,
-+        address_offset + GAS_ADDR_OFFSET, sizeof(uint64_t),
-+        ACPI_GHES_ERRORS_FW_CFG_FILE, source_id * sizeof(uint64_t));
-+
-+    switch (source_id) {
-+    case ACPI_HEST_SRC_ID_SEA:
-+        /*
-+         * Notification Structure
-+         * Now only enable ARMv8 SEA notification type
-+         */
-+        build_ghes_hw_error_notification(table_data, ACPI_GHES_NOTIFY_SEA);
-+        break;
-+    default:
-+        error_report("Not support this error source");
-+        abort();
-+    }
-+
-+    /* Error Status Block Length */
-+    build_append_int_noprefix(table_data, ACPI_GHES_MAX_RAW_DATA_LENGTH, 4);
-+
-+    /*
-+     * Read Ack Register
-+     * ACPI 6.1: 18.3.2.8 Generic Hardware Error Source
-+     * version 2 (GHESv2 - Type 10)
-+     */
-+    address_offset = table_data->len;
-+    build_append_gas(table_data, AML_AS_SYSTEM_MEMORY, 0x40, 0,
-+                     4 /* QWord access */, 0);
-+    bios_linker_loader_add_pointer(linker, ACPI_BUILD_TABLE_FILE,
-+        address_offset + GAS_ADDR_OFFSET,
-+        sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE,
-+        (ACPI_GHES_ERROR_SOURCE_COUNT + source_id) * sizeof(uint64_t));
-+
-+    /*
-+     * Read Ack Preserve field
-+     * We only provide the first bit in Read Ack Register to OSPM to write
-+     * while the other bits are preserved.
-+     */
-+    build_append_int_noprefix(table_data, ~0x1ULL, 8);
-+    /* Read Ack Write */
-+    build_append_int_noprefix(table_data, 0x1, 8);
-+}
-+
-+/* Build Hardware Error Source Table */
-+void acpi_build_hest(GArray *table_data, BIOSLinker *linker)
-+{
-+    uint64_t hest_start = table_data->len;
-+
-+    /* Hardware Error Source Table header*/
-+    acpi_data_push(table_data, sizeof(AcpiTableHeader));
-+
-+    /* Error Source Count */
-+    build_append_int_noprefix(table_data, ACPI_GHES_ERROR_SOURCE_COUNT, 4);
-+
-+    build_ghes_v2(table_data, ACPI_HEST_SRC_ID_SEA, linker);
-+
-+    build_header(linker, table_data, (void *)(table_data->data + hest_start),
-+        "HEST", table_data->len - hest_start, 1, NULL, NULL);
-+}
-diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt-acpi-build.c
-+++ b/hw/arm/virt-acpi-build.c
-@@ -XXX,XX +XXX,XX @@ void virt_acpi_build(VirtMachineState *vms, AcpiBuildTables *tables)
-     if (vms->ras) {
-         build_ghes_error_table(tables->hardware_errors, tables->linker);
-+        acpi_add_table(table_offsets, tables_blob);
-+        acpi_build_hest(tables_blob, tables->linker);
-     }
-     if (ms->numa_state->num_nodes > 0) {
---
-.20.1

-[PULL 24/45] ACPI: Record the Generic Error Status Block address
+Deleted patch
-From: Dongjiu Geng <gengdongjiu@huawei.com>
-Record the GHEB address via fw_cfg file, when recording
-a error to CPER, it will use this address to find out
-Generic Error Data Entries and write the error.
-In order to avoid migration failure, make hardware
-error table address to a part of GED device instead
-of global variable, then this address will be migrated
-to target QEMU.
-Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
-Message-id: 20200512030609.19593-7-gengdongjiu@huawei.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- include/hw/acpi/generic_event_device.h |  2 ++
- include/hw/acpi/ghes.h                 |  6 ++++++
- hw/acpi/generic_event_device.c         | 19 +++++++++++++++++++
- hw/acpi/ghes.c                         | 14 ++++++++++++++
- hw/arm/virt-acpi-build.c               |  8 ++++++++
-files changed, 49 insertions(+)
-diff --git a/include/hw/acpi/generic_event_device.h b/include/hw/acpi/generic_event_device.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/generic_event_device.h
-+++ b/include/hw/acpi/generic_event_device.h
-@@ -XXX,XX +XXX,XX @@
- #include "hw/sysbus.h"
- #include "hw/acpi/memory_hotplug.h"
-+#include "hw/acpi/ghes.h"
- #define ACPI_POWER_BUTTON_DEVICE "PWRB"
-@@ -XXX,XX +XXX,XX @@ typedef struct AcpiGedState {
-     GEDState ged_state;
-     uint32_t ged_event_bitmap;
-     qemu_irq irq;
-+    AcpiGhesState ghes_state;
- } AcpiGedState;
- void build_ged_aml(Aml *table, const char* name, HotplugHandler *hotplug_dev,
-diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/ghes.h
-+++ b/include/hw/acpi/ghes.h
-@@ -XXX,XX +XXX,XX @@ enum {
-     ACPI_HEST_SRC_ID_RESERVED,
- };
-+typedef struct AcpiGhesState {
-+    uint64_t ghes_addr_le;
-+} AcpiGhesState;
-+
- void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
- void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
-+void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
-+                          GArray *hardware_errors);
- #endif
-diff --git a/hw/acpi/generic_event_device.c b/hw/acpi/generic_event_device.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/generic_event_device.c
-+++ b/hw/acpi/generic_event_device.c
-@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_ged_state = {
-     }
- };
-+static bool ghes_needed(void *opaque)
-+{
-+    AcpiGedState *s = opaque;
-+    return s->ghes_state.ghes_addr_le;
-+}
-+
-+static const VMStateDescription vmstate_ghes_state = {
-+    .name = "acpi-ged/ghes",
-+    .version_id = 1,
-+    .minimum_version_id = 1,
-+    .needed = ghes_needed,
-+    .fields      = (VMStateField[]) {
-+        VMSTATE_STRUCT(ghes_state, AcpiGedState, 1,
-+                       vmstate_ghes_state, AcpiGhesState),
-+        VMSTATE_END_OF_LIST()
-+    }
-+};
-+
- static const VMStateDescription vmstate_acpi_ged = {
-     .name = "acpi-ged",
-     .version_id = 1,
-@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_acpi_ged = {
-     },
-     .subsections = (const VMStateDescription * []) {
-         &vmstate_memhp_state,
-+        &vmstate_ghes_state,
-         NULL
-     }
- };
-diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/ghes.c
-+++ b/hw/acpi/ghes.c
-@@ -XXX,XX +XXX,XX @@
- #include "hw/acpi/ghes.h"
- #include "hw/acpi/aml-build.h"
- #include "qemu/error-report.h"
-+#include "hw/acpi/generic_event_device.h"
-+#include "hw/nvram/fw_cfg.h"
- #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
- #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
-@@ -XXX,XX +XXX,XX @@ void acpi_build_hest(GArray *table_data, BIOSLinker *linker)
-     build_header(linker, table_data, (void *)(table_data->data + hest_start),
-         "HEST", table_data->len - hest_start, 1, NULL, NULL);
- }
-+
-+void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
-+                          GArray *hardware_error)
-+{
-+    /* Create a read-only fw_cfg file for GHES */
-+    fw_cfg_add_file(s, ACPI_GHES_ERRORS_FW_CFG_FILE, hardware_error->data,
-+                    hardware_error->len);
-+
-+    /* Create a read-write fw_cfg file for Address */
-+    fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
-+        NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
-+}
-diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt-acpi-build.c
-+++ b/hw/arm/virt-acpi-build.c
-@@ -XXX,XX +XXX,XX @@ void virt_acpi_setup(VirtMachineState *vms)
- {
-     AcpiBuildTables tables;
-     AcpiBuildState *build_state;
-+    AcpiGedState *acpi_ged_state;
-     if (!vms->fw_cfg) {
-         trace_virt_acpi_setup();
-@@ -XXX,XX +XXX,XX @@ void virt_acpi_setup(VirtMachineState *vms)
-     fw_cfg_add_file(vms->fw_cfg, ACPI_BUILD_TPMLOG_FILE, tables.tcpalog->data,
-                     acpi_data_len(tables.tcpalog));
-+    if (vms->ras) {
-+        assert(vms->acpi_dev);
-+        acpi_ged_state = ACPI_GED(vms->acpi_dev);
-+        acpi_ghes_add_fw_cfg(&acpi_ged_state->ghes_state,
-+                             vms->fw_cfg, tables.hardware_errors);
-+    }
-+
-     build_state->rsdp_mr = acpi_add_rom_blob(virt_acpi_build_update,
-                                              build_state, tables.rsdp,
-                                              ACPI_BUILD_RSDP_FILE, 0);
---
-.20.1

-[PULL 29/45] target/arm: Convert Neon 3-reg-same VQRDMLAH/VQRDMLSH to decodetree
+Deleted patch
-Convert the Neon VQRDMLAH and VQRDMLSH insns in the 3-reg-same group
-to decodetree.  These don't use do_3same() because they want to
-operate on VFP double registers, whose offsets are different from the
-neon_reg_offset() calculations do_3same does.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-2-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       |  3 +++
- target/arm/translate-neon.inc.c | 15 +++++++++++++++
- target/arm/translate.c          | 14 ++------------
-files changed, 20 insertions(+), 12 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VMLS_3s          1111 001 1 0 . .. .... .... 1001 . . . 0 .... @3same
- VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
- VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
-+
-+VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
-+VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
-     }
-     return do_3same(s, a, gen_VMUL_p_3s);
- }
-+
-+#define DO_VQRDMLAH(INSN, FUNC)                                         \
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-+    {                                                                   \
-+        if (!dc_isar_feature(aa32_rdm, s)) {                            \
-+            return false;                                               \
-+        }                                                               \
-+        if (a->size != 1 && a->size != 2) {                             \
-+            return false;                                               \
-+        }                                                               \
-+        return do_3same(s, a, FUNC);                                    \
-+    }
-+
-+DO_VQRDMLAH(VQRDMLAH, gen_gvec_sqrdmlah_qc)
-+DO_VQRDMLAH(VQRDMLSH, gen_gvec_sqrdmlsh_qc)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             if (!u) {
-                 break;  /* VPADD */
-             }
--            /* VQRDMLAH */
--            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
--                gen_gvec_sqrdmlah_qc(size, rd_ofs, rn_ofs, rm_ofs,
--                                     vec_size, vec_size);
--                return 0;
--            }
-+            /* VQRDMLAH : handled by decodetree */
-             return 1;
-         case NEON_3R_VFM_VQRDMLSH:
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                 }
-                 break;
-             }
--            /* VQRDMLSH */
--            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
--                gen_gvec_sqrdmlsh_qc(size, rd_ofs, rn_ofs, rm_ofs,
--                                     vec_size, vec_size);
--                return 0;
--            }
-+            /* VQRDMLSH : handled by decodetree */
-             return 1;
-         case NEON_3R_VABD:
---
-.20.1

-[PULL 31/45] target/arm: Convert Neon 64-bit element 3-reg-same insns
+Deleted patch
-Convert the 64-bit element insns in the 3-reg-same group
-to decodetree. This covers VQSHL, VRSHL and VQRSHL where
-size==0b11.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-4-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       | 13 +++++++++++
- target/arm/translate-neon.inc.c | 24 +++++++++++++++++++++
- target/arm/translate.c          | 38 ++-------------------------------
-files changed, 39 insertions(+), 36 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
- VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same_rev
- VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
-+# Insns operating on 64-bit elements (size!=0b11 handled elsewhere)
-+# The _rev suffix indicates that Vn and Vm are reversed (as explained
-+# by the comment for the @3same_rev format).
-+@3same_64_rev    .... ... . . . 11 .... .... .... . q:1 . . .... \
-+                 &3same vm=%vn_dp vn=%vm_dp vd=%vd_dp size=3
-+
-+VQSHL_S64_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
-+VQSHL_U64_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
-+VRSHL_S64_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
-+VRSHL_U64_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
-+VQRSHL_S64_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
-+VQRSHL_U64_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
-+
- VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
- VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
- VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_SHA256SU1_3s(DisasContext *s, arg_SHA256SU1_3s *a)
-     return true;
- }
-+
-+#define DO_3SAME_64(INSN, FUNC)                                         \
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
-+                                uint32_t oprsz, uint32_t maxsz)         \
-+    {                                                                   \
-+        static const GVecGen3 op = { .fni8 = FUNC };                    \
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &op);      \
-+    }                                                                   \
-+    DO_3SAME(INSN, gen_##INSN##_3s)
-+
-+#define DO_3SAME_64_ENV(INSN, FUNC)                                     \
-+    static void gen_##INSN##_elt(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)    \
-+    {                                                                   \
-+        FUNC(d, cpu_env, n, m);                                         \
-+    }                                                                   \
-+    DO_3SAME_64(INSN, gen_##INSN##_elt)
-+
-+DO_3SAME_64(VRSHL_S64, gen_helper_neon_rshl_s64)
-+DO_3SAME_64(VRSHL_U64, gen_helper_neon_rshl_u64)
-+DO_3SAME_64_ENV(VQSHL_S64, gen_helper_neon_qshl_s64)
-+DO_3SAME_64_ENV(VQSHL_U64, gen_helper_neon_qshl_u64)
-+DO_3SAME_64_ENV(VQRSHL_S64, gen_helper_neon_qrshl_s64)
-+DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         }
-         if (size == 3) {
--            /* 64-bit element instructions. */
--            for (pass = 0; pass < (q ? 2 : 1); pass++) {
--                neon_load_reg64(cpu_V0, rn + pass);
--                neon_load_reg64(cpu_V1, rm + pass);
--                switch (op) {
--                case NEON_3R_VQSHL:
--                    if (u) {
--                        gen_helper_neon_qshl_u64(cpu_V0, cpu_env,
--                                                 cpu_V1, cpu_V0);
--                    } else {
--                        gen_helper_neon_qshl_s64(cpu_V0, cpu_env,
--                                                 cpu_V1, cpu_V0);
--                    }
--                    break;
--                case NEON_3R_VRSHL:
--                    if (u) {
--                        gen_helper_neon_rshl_u64(cpu_V0, cpu_V1, cpu_V0);
--                    } else {
--                        gen_helper_neon_rshl_s64(cpu_V0, cpu_V1, cpu_V0);
--                    }
--                    break;
--                case NEON_3R_VQRSHL:
--                    if (u) {
--                        gen_helper_neon_qrshl_u64(cpu_V0, cpu_env,
--                                                  cpu_V1, cpu_V0);
--                    } else {
--                        gen_helper_neon_qrshl_s64(cpu_V0, cpu_env,
--                                                  cpu_V1, cpu_V0);
--                    }
--                    break;
--                default:
--                    abort();
--                }
--                neon_store_reg64(cpu_V0, rd + pass);
--            }
--            return 0;
-+            /* 64-bit element instructions: handled by decodetree */
-+            return 1;
-         }
-         pairwise = 0;
-         switch (op) {
---
-.20.1

-[PULL 32/45] target/arm: Convert Neon VHADD 3-reg-same insns
+Deleted patch
-Convert the Neon VHADD insns in the 3-reg-same group to decodetree.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-5-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       |  2 ++
- target/arm/translate-neon.inc.c | 24 ++++++++++++++++++++++++
- target/arm/translate.c          |  4 +---
-files changed, 27 insertions(+), 3 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@
- @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
-+VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
-+VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
- VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
- VQADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 1 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQSHL_S64, gen_helper_neon_qshl_s64)
- DO_3SAME_64_ENV(VQSHL_U64, gen_helper_neon_qshl_u64)
- DO_3SAME_64_ENV(VQRSHL_S64, gen_helper_neon_qrshl_s64)
- DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
-+
-+#define DO_3SAME_32(INSN, FUNC)                                         \
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
-+                                uint32_t oprsz, uint32_t maxsz)         \
-+    {                                                                   \
-+        static const GVecGen3 ops[4] = {                                \
-+            { .fni4 = gen_helper_neon_##FUNC##8 },                      \
-+            { .fni4 = gen_helper_neon_##FUNC##16 },                     \
-+            { .fni4 = gen_helper_neon_##FUNC##32 },                     \
-+            { 0 },                                                      \
-+        };                                                              \
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece]); \
-+    }                                                                   \
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-+    {                                                                   \
-+        if (a->size > 2) {                                              \
-+            return false;                                               \
-+        }                                                               \
-+        return do_3same(s, a, gen_##INSN##_3s);                         \
-+    }
-+
-+DO_3SAME_32(VHADD_S, hadd_s)
-+DO_3SAME_32(VHADD_U, hadd_u)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VML:
-         case NEON_3R_VSHL:
-         case NEON_3R_SHA:
-+        case NEON_3R_VHADD:
-             /* Already handled by decodetree */
-             return 1;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             tmp2 = neon_load_reg(rm, pass);
-         }
-         switch (op) {
--        case NEON_3R_VHADD:
--            GEN_NEON_INTEGER_OP(hadd);
--            break;
-         case NEON_3R_VRHADD:
-             GEN_NEON_INTEGER_OP(rhadd);
-             break;
---
-.20.1

-[PULL 33/45] target/arm: Convert Neon VABA/VABD 3-reg-same to decodetree
+Deleted patch
-Convert the Neon VABA and VABD insns in the 3-reg-same group to
-decodetree.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-6-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       |  6 ++++++
- target/arm/translate-neon.inc.c |  4 ++++
- target/arm/translate.c          | 22 ++--------------------
-files changed, 12 insertions(+), 20 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
- VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
- VMIN_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 1 .... @3same
-+VABD_S_3s        1111 001 0 0 . .. .... .... 0111 . . . 0 .... @3same
-+VABD_U_3s        1111 001 1 0 . .. .... .... 0111 . . . 0 .... @3same
-+
-+VABA_S_3s        1111 001 0 0 . .. .... .... 0111 . . . 1 .... @3same
-+VABA_U_3s        1111 001 1 0 . .. .... .... 0111 . . . 1 .... @3same
-+
- VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
- VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
- DO_3SAME_NO_SZ_3(VMLA, gen_gvec_mla)
- DO_3SAME_NO_SZ_3(VMLS, gen_gvec_mls)
- DO_3SAME_NO_SZ_3(VTST, gen_gvec_cmtst)
-+DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
-+DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
-+DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
-+DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
- #define DO_3SAME_CMP(INSN, COND)                                        \
-     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             /* VQRDMLSH : handled by decodetree */
-             return 1;
--        case NEON_3R_VABD:
--            if (u) {
--                gen_gvec_uabd(size, rd_ofs, rn_ofs, rm_ofs,
--                              vec_size, vec_size);
--            } else {
--                gen_gvec_sabd(size, rd_ofs, rn_ofs, rm_ofs,
--                              vec_size, vec_size);
--            }
--            return 0;
--
--        case NEON_3R_VABA:
--            if (u) {
--                gen_gvec_uaba(size, rd_ofs, rn_ofs, rm_ofs,
--                              vec_size, vec_size);
--            } else {
--                gen_gvec_saba(size, rd_ofs, rn_ofs, rm_ofs,
--                              vec_size, vec_size);
--            }
--            return 0;
--
-         case NEON_3R_VADD_VSUB:
-         case NEON_3R_LOGIC:
-         case NEON_3R_VMAX:
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VSHL:
-         case NEON_3R_SHA:
-         case NEON_3R_VHADD:
-+        case NEON_3R_VABD:
-+        case NEON_3R_VABA:
-             /* Already handled by decodetree */
-             return 1;
-         }
---
-.20.1

-[PULL 34/45] target/arm: Convert Neon VRHADD, VHSUB 3-reg-same insns to decodetree
+Deleted patch
-Convert the Neon VRHADD and VHSUB 3-reg-same insns to decodetree.
-(These are all the other insns in 3-reg-same which were using
-GEN_NEON_INTEGER_OP() and which are not pairwise or
-reversed-operands.)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-7-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       | 6 ++++++
- target/arm/translate-neon.inc.c | 4 ++++
- target/arm/translate.c          | 8 ++------
-files changed, 12 insertions(+), 6 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
- VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
- VQADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 1 .... @3same
-+VRHADD_S_3s      1111 001 0 0 . .. .... .... 0001 . . . 0 .... @3same
-+VRHADD_U_3s      1111 001 1 0 . .. .... .... 0001 . . . 0 .... @3same
-+
- @3same_logic     .... ... . . . .. .... .... .... . q:1 .. .... \
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp size=0
-@@ -XXX,XX +XXX,XX @@ VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
- VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
- VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
-+VHSUB_S_3s       1111 001 0 0 . .. .... .... 0010 . . . 0 .... @3same
-+VHSUB_U_3s       1111 001 1 0 . .. .... .... 0010 . . . 0 .... @3same
-+
- VQSUB_S_3s       1111 001 0 0 . .. .... .... 0010 . . . 1 .... @3same
- VQSUB_U_3s       1111 001 1 0 . .. .... .... 0010 . . . 1 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
- DO_3SAME_32(VHADD_S, hadd_s)
- DO_3SAME_32(VHADD_U, hadd_u)
-+DO_3SAME_32(VHSUB_S, hsub_s)
-+DO_3SAME_32(VHSUB_U, hsub_u)
-+DO_3SAME_32(VRHADD_S, rhadd_s)
-+DO_3SAME_32(VRHADD_U, rhadd_u)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VSHL:
-         case NEON_3R_SHA:
-         case NEON_3R_VHADD:
-+        case NEON_3R_VRHADD:
-+        case NEON_3R_VHSUB:
-         case NEON_3R_VABD:
-         case NEON_3R_VABA:
-             /* Already handled by decodetree */
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             tmp2 = neon_load_reg(rm, pass);
-         }
-         switch (op) {
--        case NEON_3R_VRHADD:
--            GEN_NEON_INTEGER_OP(rhadd);
--            break;
--        case NEON_3R_VHSUB:
--            GEN_NEON_INTEGER_OP(hsub);
--            break;
-         case NEON_3R_VQSHL:
-             GEN_NEON_INTEGER_OP_ENV(qshl);
-             break;
---
-.20.1

-[PULL 35/45] target/arm: Convert Neon VQSHL, VRSHL, VQRSHL 3-reg-same insns to decodetree
+Deleted patch
-Convert the VQSHL, VRSHL and VQRSHL insns in the 3-reg-same
-group to decodetree. We have already implemented the size==0b11
-case of these insns; this commit handles the remaining sizes.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-8-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       | 30 ++++++++++++++++++-----
- target/arm/translate-neon.inc.c | 43 +++++++++++++++++++++++++++++++++
- target/arm/translate.c          | 22 +++--------------
-files changed, 70 insertions(+), 25 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
- @3same_64_rev    .... ... . . . 11 .... .... .... . q:1 . . .... \
-                  &3same vm=%vn_dp vn=%vm_dp vd=%vd_dp size=3
--VQSHL_S64_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
--VQSHL_U64_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
--VRSHL_S64_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
--VRSHL_U64_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
--VQRSHL_S64_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
--VQRSHL_U64_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
-+{
-+  VQSHL_S64_3s   1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
-+  VQSHL_S_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_rev
-+}
-+{
-+  VQSHL_U64_3s   1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
-+  VQSHL_U_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_rev
-+}
-+{
-+  VRSHL_S64_3s   1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
-+  VRSHL_S_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_rev
-+}
-+{
-+  VRSHL_U64_3s   1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
-+  VRSHL_U_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_rev
-+}
-+{
-+  VQRSHL_S64_3s  1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
-+  VQRSHL_S_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_rev
-+}
-+{
-+  VQRSHL_U64_3s  1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
-+  VQRSHL_U_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_rev
-+}
- VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
- VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
-         return do_3same(s, a, gen_##INSN##_3s);                         \
-     }
-+/*
-+ * Some helper functions need to be passed the cpu_env. In order
-+ * to use those with the gvec APIs like tcg_gen_gvec_3() we need
-+ * to create wrapper functions whose prototype is a NeonGenTwoOpFn()
-+ * and which call a NeonGenTwoOpEnvFn().
-+ */
-+#define WRAP_ENV_FN(WRAPNAME, FUNC)                                     \
-+    static void WRAPNAME(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m)            \
-+    {                                                                   \
-+        FUNC(d, cpu_env, n, m);                                         \
-+    }
-+
-+#define DO_3SAME_32_ENV(INSN, FUNC)                                     \
-+    WRAP_ENV_FN(gen_##INSN##_tramp8, gen_helper_neon_##FUNC##8);        \
-+    WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##16);      \
-+    WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##32);      \
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
-+                                uint32_t oprsz, uint32_t maxsz)         \
-+    {                                                                   \
-+        static const GVecGen3 ops[4] = {                                \
-+            { .fni4 = gen_##INSN##_tramp8 },                            \
-+            { .fni4 = gen_##INSN##_tramp16 },                           \
-+            { .fni4 = gen_##INSN##_tramp32 },                           \
-+            { 0 },                                                      \
-+        };                                                              \
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece]); \
-+    }                                                                   \
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-+    {                                                                   \
-+        if (a->size > 2) {                                              \
-+            return false;                                               \
-+        }                                                               \
-+        return do_3same(s, a, gen_##INSN##_3s);                         \
-+    }
-+
- DO_3SAME_32(VHADD_S, hadd_s)
- DO_3SAME_32(VHADD_U, hadd_u)
- DO_3SAME_32(VHSUB_S, hsub_s)
- DO_3SAME_32(VHSUB_U, hsub_u)
- DO_3SAME_32(VRHADD_S, rhadd_s)
- DO_3SAME_32(VRHADD_U, rhadd_u)
-+DO_3SAME_32(VRSHL_S, rshl_s)
-+DO_3SAME_32(VRSHL_U, rshl_u)
-+
-+DO_3SAME_32_ENV(VQSHL_S, qshl_s)
-+DO_3SAME_32_ENV(VQSHL_U, qshl_u)
-+DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
-+DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VHSUB:
-         case NEON_3R_VABD:
-         case NEON_3R_VABA:
-+        case NEON_3R_VQSHL:
-+        case NEON_3R_VRSHL:
-+        case NEON_3R_VQRSHL:
-             /* Already handled by decodetree */
-             return 1;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         }
-         pairwise = 0;
-         switch (op) {
--        case NEON_3R_VQSHL:
--        case NEON_3R_VRSHL:
--        case NEON_3R_VQRSHL:
--            {
--                int rtmp;
--                /* Shift instruction operands are reversed.  */
--                rtmp = rn;
--                rn = rm;
--                rm = rtmp;
--            }
--            break;
-         case NEON_3R_VPADD_VQRDMLAH:
-         case NEON_3R_VPMAX:
-         case NEON_3R_VPMIN:
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             tmp2 = neon_load_reg(rm, pass);
-         }
-         switch (op) {
--        case NEON_3R_VQSHL:
--            GEN_NEON_INTEGER_OP_ENV(qshl);
--            break;
--        case NEON_3R_VRSHL:
--            GEN_NEON_INTEGER_OP(rshl);
--            break;
--        case NEON_3R_VQRSHL:
--            GEN_NEON_INTEGER_OP_ENV(qrshl);
-             break;
-         case NEON_3R_VPMAX:
-             GEN_NEON_INTEGER_OP(pmax);
---
-.20.1

-[PULL 37/45] target/arm: Convert Neon VPADD 3-reg-same insns to decodetree
+Deleted patch
-Convert the Neon integer VPADD 3-reg-same insns to decodetree.  These
-are 'pairwise' operations.  (Note that VQRDMLAH, which shares the
-same primary opcode but has U=1, has already been converted.)
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-10-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       |  2 ++
- target/arm/translate-neon.inc.c |  2 ++
- target/arm/translate.c          | 19 +------------------
-files changed, 5 insertions(+), 18 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
- VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
- VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
-+VPADD_3s         1111 001 0 0 . .. .... .... 1011 . . . 1 .... @3same_q0
-+
- VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
- SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
- #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
- #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
- #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-+#define gen_helper_neon_padd_u32  tcg_gen_add_i32
- DO_3SAME_PAIR(VPMAX_S, pmax_s)
- DO_3SAME_PAIR(VPMIN_S, pmin_s)
- DO_3SAME_PAIR(VPMAX_U, pmax_u)
- DO_3SAME_PAIR(VPMIN_U, pmin_u)
-+DO_3SAME_PAIR(VPADD, padd_u)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             return 1;
-         }
-         switch (op) {
--        case NEON_3R_VPADD_VQRDMLAH:
--            if (!u) {
--                break;  /* VPADD */
--            }
--            /* VQRDMLAH : handled by decodetree */
--            return 1;
--
-         case NEON_3R_VFM_VQRDMLSH:
-             if (!u) {
-                 /* VFM, VFMS */
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VQRSHL:
-         case NEON_3R_VPMAX:
-         case NEON_3R_VPMIN:
-+        case NEON_3R_VPADD_VQRDMLAH:
-             /* Already handled by decodetree */
-             return 1;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         }
-         pairwise = 0;
-         switch (op) {
--        case NEON_3R_VPADD_VQRDMLAH:
--            pairwise = 1;
--            break;
-         case NEON_3R_FLOAT_ARITH:
-             pairwise = (u && size < 2); /* if VPADD (float) */
-             break;
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                 }
-             }
-             break;
--        case NEON_3R_VPADD_VQRDMLAH:
--            switch (size) {
--            case 0: gen_helper_neon_padd_u8(tmp, tmp, tmp2); break;
--            case 1: gen_helper_neon_padd_u16(tmp, tmp, tmp2); break;
--            case 2: tcg_gen_add_i32(tmp, tmp, tmp2); break;
--            default: abort();
--            }
--            break;
-         case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
-         {
-             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
---
-.20.1

-[PULL 38/45] target/arm: Convert Neon VQDMULH/VQRDMULH 3-reg-same to decodetree
+Deleted patch
-Convert the Neon VQDMULH and VQRDMULH 3-reg-same insns to
-decodetree. These are the last integer operations in the
--reg-same group.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-11-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       |  3 +++
- target/arm/translate-neon.inc.c | 24 ++++++++++++++++++++++++
- target/arm/translate.c          | 24 +-----------------------
-files changed, 28 insertions(+), 23 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
- VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
- VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
-+VQDMULH_3s       1111 001 0 0 . .. .... .... 1011 . . . 0 .... @3same
-+VQRDMULH_3s      1111 001 1 0 . .. .... .... 1011 . . . 0 .... @3same
-+
- VPADD_3s         1111 001 0 0 . .. .... .... 1011 . . . 1 .... @3same_q0
- VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPMIN_S, pmin_s)
- DO_3SAME_PAIR(VPMAX_U, pmax_u)
- DO_3SAME_PAIR(VPMIN_U, pmin_u)
- DO_3SAME_PAIR(VPADD, padd_u)
-+
-+#define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
-+    WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
-+    WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
-+                                uint32_t oprsz, uint32_t maxsz)         \
-+    {                                                                   \
-+        static const GVecGen3 ops[2] = {                                \
-+            { .fni4 = gen_##INSN##_tramp16 },                           \
-+            { .fni4 = gen_##INSN##_tramp32 },                           \
-+        };                                                              \
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece - 1]); \
-+    }                                                                   \
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
-+    {                                                                   \
-+        if (a->size != 1 && a->size != 2) {                             \
-+            return false;                                               \
-+        }                                                               \
-+        return do_3same(s, a, gen_##INSN##_3s);                         \
-+    }
-+
-+DO_3SAME_VQDMULH(VQDMULH, qdmulh)
-+DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VPMAX:
-         case NEON_3R_VPMIN:
-         case NEON_3R_VPADD_VQRDMLAH:
-+        case NEON_3R_VQDMULH_VQRDMULH:
-             /* Already handled by decodetree */
-             return 1;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-             tmp2 = neon_load_reg(rm, pass);
-         }
-         switch (op) {
--        case NEON_3R_VQDMULH_VQRDMULH: /* Multiply high.  */
--            if (!u) { /* VQDMULH */
--                switch (size) {
--                case 1:
--                    gen_helper_neon_qdmulh_s16(tmp, cpu_env, tmp, tmp2);
--                    break;
--                case 2:
--                    gen_helper_neon_qdmulh_s32(tmp, cpu_env, tmp, tmp2);
--                    break;
--                default: abort();
--                }
--            } else { /* VQRDMULH */
--                switch (size) {
--                case 1:
--                    gen_helper_neon_qrdmulh_s16(tmp, cpu_env, tmp, tmp2);
--                    break;
--                case 2:
--                    gen_helper_neon_qrdmulh_s32(tmp, cpu_env, tmp, tmp2);
--                    break;
--                default: abort();
--                }
--            }
--            break;
-         case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
-         {
-             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
---
-.20.1

-[PULL 42/45] target/arm: Convert Neon 3-reg-same compare insns to decodetree
+Deleted patch
-Convert the Neon integer 3-reg-same compare insns VCGE, VCGT,
-VCEQ, VACGE and VACGT to decodetree.
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-15-peter.maydell@linaro.org
----
- target/arm/neon-dp.decode       |  5 +++++
- target/arm/translate-neon.inc.c |  6 +++++
- target/arm/translate.c          | 39 ++-------------------------------
-files changed, 13 insertions(+), 37 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
- VMLA_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
- VMLS_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 1 .... @3same_fp
- VMUL_fp_3s       1111 001 1 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
-+VCEQ_fp_3s       1111 001 0 0 . 0 . .... .... 1110 ... 0 .... @3same_fp
-+VCGE_fp_3s       1111 001 1 0 . 0 . .... .... 1110 ... 0 .... @3same_fp
-+VACGE_fp_3s      1111 001 1 0 . 0 . .... .... 1110 ... 1 .... @3same_fp
-+VCGT_fp_3s       1111 001 1 0 . 1 . .... .... 1110 ... 0 .... @3same_fp
-+VACGT_fp_3s      1111 001 1 0 . 1 . .... .... 1110 ... 1 .... @3same_fp
- VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
- VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s)
-         return do_3same_fp(s, a, FUNC, READS_VD);                   \
-     }
-+DO_3S_FP(VCEQ, gen_helper_neon_ceq_f32, false)
-+DO_3S_FP(VCGE, gen_helper_neon_cge_f32, false)
-+DO_3S_FP(VCGT, gen_helper_neon_cgt_f32, false)
-+DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
-+DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
-+
- static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-                             TCGv_ptr fpstatus)
- {
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VQDMULH_VQRDMULH:
-         case NEON_3R_FLOAT_ARITH:
-         case NEON_3R_FLOAT_MULTIPLY:
-+        case NEON_3R_FLOAT_CMP:
-+        case NEON_3R_FLOAT_ACMP:
-             /* Already handled by decodetree */
-             return 1;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                 return 1; /* VPMIN/VPMAX handled by decodetree */
-             }
-             break;
--        case NEON_3R_FLOAT_CMP:
--            if (!u && size) {
--                /* no encoding for U=0 C=1x */
--                return 1;
--            }
--            break;
--        case NEON_3R_FLOAT_ACMP:
--            if (!u) {
--                return 1;
--            }
--            break;
-         case NEON_3R_FLOAT_MISC:
-             /* VMAXNM/VMINNM in ARMv8 */
-             if (u && !arm_dc_feature(s, ARM_FEATURE_V8)) {
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         tmp = neon_load_reg(rn, pass);
-         tmp2 = neon_load_reg(rm, pass);
-         switch (op) {
--        case NEON_3R_FLOAT_CMP:
--        {
--            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
--            if (!u) {
--                gen_helper_neon_ceq_f32(tmp, tmp, tmp2, fpstatus);
--            } else {
--                if (size == 0) {
--                    gen_helper_neon_cge_f32(tmp, tmp, tmp2, fpstatus);
--                } else {
--                    gen_helper_neon_cgt_f32(tmp, tmp, tmp2, fpstatus);
--                }
--            }
--            tcg_temp_free_ptr(fpstatus);
--            break;
--        }
--        case NEON_3R_FLOAT_ACMP:
--        {
--            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
--            if (size == 0) {
--                gen_helper_neon_acge_f32(tmp, tmp, tmp2, fpstatus);
--            } else {
--                gen_helper_neon_acgt_f32(tmp, tmp, tmp2, fpstatus);
--            }
--            tcg_temp_free_ptr(fpstatus);
--            break;
--        }
-         case NEON_3R_FLOAT_MINMAX:
-         {
-             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
---
-.20.1

Mostly this is patches from me and RTH cleaning up and doing
more decodetree conversion for AArch32 Neon. The major new feature
is Dongjiu Geng's patchset to report host memory errors to KVM guests;
also a new aspeed board from Patrick Williams.

thanks
-- PMM

The following changes since commit 035b448b84f3557206abc44d786c5d3db2638f7d:

Merge remote-tracking branch 'remotes/gkurz/tags/9p-next-2020-05-14' into staging (2020-05-14 10:58:30 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200514

for you to fetch changes up to e95485f85657be21135c17a9226e297c21e73360:

target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree (2020-05-14 15:03:09 +0100)

----------------------------------------------------------------
target-arm queue:
 * target/arm: Use correct GDB XML for M-profile cores
 * target/arm: Code cleanup to use gvec APIs better
 * aspeed: Add support for the sonorapass-bmc board
 * target/arm: Support reporting KVM host memory errors
   to the guest via ACPI notifications
 * target/arm: Finish conversion of Neon 3-reg-same insns to decodetree

----------------------------------------------------------------
Dongjiu Geng (10):
      acpi: nvdimm: change NVDIMM_UUID_LE to a common macro
      hw/arm/virt: Introduce a RAS machine option
      docs: APEI GHES generation and CPER record description
      ACPI: Build related register address fields via hardware error fw_cfg blob
      ACPI: Build Hardware Error Source Table
      ACPI: Record the Generic Error Status Block address
      KVM: Move hwpoison page related functions into kvm-all.c
      ACPI: Record Generic Error Status Block(GESB) table
      target-arm: kvm64: handle SIGBUS signal from kernel or KVM
      MAINTAINERS: Add ACPI/HEST/GHES entries

Patrick Williams (1):
      aspeed: Add support for the sonorapass-bmc board

Peter Maydell (18):
      target/arm: Use correct GDB XML for M-profile cores
      target/arm: Convert Neon 3-reg-same VQRDMLAH/VQRDMLSH to decodetree
      target/arm: Convert Neon 3-reg-same SHA to decodetree
      target/arm: Convert Neon 64-bit element 3-reg-same insns
      target/arm: Convert Neon VHADD 3-reg-same insns
      target/arm: Convert Neon VABA/VABD 3-reg-same to decodetree
      target/arm: Convert Neon VRHADD, VHSUB 3-reg-same insns to decodetree
      target/arm: Convert Neon VQSHL, VRSHL, VQRSHL 3-reg-same insns to decodetree
      target/arm: Convert Neon VPMAX/VPMIN 3-reg-same insns to decodetree
      target/arm: Convert Neon VPADD 3-reg-same insns to decodetree
      target/arm: Convert Neon VQDMULH/VQRDMULH 3-reg-same to decodetree
      target/arm: Convert Neon VADD, VSUB, VABD 3-reg-same insns to decodetree
      target/arm: Convert Neon VPMIN/VPMAX/VPADD float 3-reg-same insns to decodetree
      target/arm: Convert Neon fp VMUL, VMLA, VMLS 3-reg-same insns to decodetree
      target/arm: Convert Neon 3-reg-same compare insns to decodetree
      target/arm: Move 'env' argument of recps_f32 and rsqrts_f32 helpers to usual place
      target/arm: Convert Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS to decodetree
      target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree

Richard Henderson (16):
      target/arm: Create gen_gvec_[us]sra
      target/arm: Create gen_gvec_{u,s}{rshr,rsra}
      target/arm: Create gen_gvec_{sri,sli}
      target/arm: Remove unnecessary range check for VSHL
      target/arm: Tidy handle_vec_simd_shri
      target/arm: Create gen_gvec_{ceq,clt,cle,cgt,cge}0
      target/arm: Create gen_gvec_{mla,mls}
      target/arm: Swap argument order for VSHL during decode
      target/arm: Create gen_gvec_{cmtst,ushl,sshl}
      target/arm: Create gen_gvec_{uqadd, sqadd, uqsub, sqsub}
      target/arm: Remove fp_status from helper_{recpe, rsqrte}_u32
      target/arm: Create gen_gvec_{qrdmla,qrdmls}
      target/arm: Pass pointer to qc to qrdmla/qrdmls
      target/arm: Clear tail in gvec_fmul_idx_*, gvec_fmla_idx_*
      target/arm: Vectorize SABD/UABD
      target/arm: Vectorize SABA/UABA

GDB's remote protocol requires M-profile cores to use the feature
name 'org.gnu.gdb.arm.m-profile' instead of the 'org.gnu.gdb.arm.core'
feature used for A- and R-profile cores. We weren't doing this, which
meant GDB treated our M-profile cores like A-profile ones. This mostly
doesn't matter, but for instance means that it doesn't correctly
handle backtraces where an M-profile exception frame is involved.

Ship a copy of GDB's arm-m-profile.xml and use it on the M-profile
cores.  The integer registers have the same offsets as the
arm-core.xml, but register 25 is the M-profile XPSR rather than the
A-profile CPSR, so we need to update arm_cpu_gdb_read_register() and
arm_cpu_gdb_write_register() to handle XSPR reads and writes.

Fixes: https://bugs.launchpad.net/qemu/+bug/1877136
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20200507134755.13997-1-peter.maydell@linaro.org
---
 configure                 |  4 ++--
 target/arm/cpu_tcg.c      |  1 +
 target/arm/gdbstub.c      | 22 ++++++++++++++++++----
 gdb-xml/arm-m-profile.xml | 27 +++++++++++++++++++++++++++
 4 files changed, 48 insertions(+), 6 deletions(-)
 create mode 100644 gdb-xml/arm-m-profile.xml

diff --git a/configure b/configure
index XXXXXXX..XXXXXXX 100755
--- a/configure
+++ b/configure
@@ -XXX,XX +XXX,XX @@ case "$target_name" in
     TARGET_SYSTBL_ABI=common,oabi
     bflt="yes"
     mttcg="yes"
-    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
+    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
   ;;
   aarch64|aarch64_be)
     TARGET_ARCH=aarch64
     TARGET_BASE_ARCH=arm
     bflt="yes"
     mttcg="yes"
-    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
+    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
   ;;
   cris)
   ;;
diff --git a/target/arm/cpu_tcg.c b/target/arm/cpu_tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu_tcg.c
+++ b/target/arm/cpu_tcg.c
@@ -XXX,XX +XXX,XX @@ static void arm_v7m_class_init(ObjectClass *oc, void *data)
 #endif
 
     cc->cpu_exec_interrupt = arm_v7m_cpu_exec_interrupt;
+    cc->gdb_core_xml_file = "arm-m-profile.xml";
 }
 
 static const ARMCPUInfo arm_tcg_cpus[] = {
diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/gdbstub.c
+++ b/target/arm/gdbstub.c
@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
         }
         return gdb_get_reg32(mem_buf, 0);
     case 25:
-        /* CPSR */
-        return gdb_get_reg32(mem_buf, cpsr_read(env));
+        /* CPSR, or XPSR for M-profile */
+        if (arm_feature(env, ARM_FEATURE_M)) {
+            return gdb_get_reg32(mem_buf, xpsr_read(env));
+        } else {
+            return gdb_get_reg32(mem_buf, cpsr_read(env));
+        }
     }
     /* Unknown register.  */
     return 0;
@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
         }
         return 4;
     case 25:
-        /* CPSR */
-        cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
+        /* CPSR, or XPSR for M-profile */
+        if (arm_feature(env, ARM_FEATURE_M)) {
+            /*
+             * Don't allow writing to XPSR.Exception as it can cause
+             * a transition into or out of handler mode (it's not
+             * writeable via the MSR insn so this is a reasonable
+             * restriction). Other fields are safe to update.
+             */
+            xpsr_write(env, tmp, ~XPSR_EXCP);
+        } else {
+            cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
+        }
         return 4;
     }
     /* Unknown register.  */
diff --git a/gdb-xml/arm-m-profile.xml b/gdb-xml/arm-m-profile.xml
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/gdb-xml/arm-m-profile.xml
@@ -XXX,XX +XXX,XX @@
+<?xml version="1.0"?>
+
+
+<!DOCTYPE feature SYSTEM "gdb-target.dtd">
+<feature name="org.gnu.gdb.arm.m-profile">
+  <reg name="r0" bitsize="32"/>
+  <reg name="r1" bitsize="32"/>
+  <reg name="r2" bitsize="32"/>
+  <reg name="r3" bitsize="32"/>
+  <reg name="r4" bitsize="32"/>
+  <reg name="r5" bitsize="32"/>
+  <reg name="r6" bitsize="32"/>
+  <reg name="r7" bitsize="32"/>
+  <reg name="r8" bitsize="32"/>
+  <reg name="r9" bitsize="32"/>
+  <reg name="r10" bitsize="32"/>
+  <reg name="r11" bitsize="32"/>
+  <reg name="r12" bitsize="32"/>
+  <reg name="sp" bitsize="32" type="data_ptr"/>
+  <reg name="lr" bitsize="32"/>
+  <reg name="pc" bitsize="32" type="code_ptr"/>
+  <reg name="xpsr" bitsize="32" regnum="25"/>
+</feature>
-- 
2.20.1