Series comparison

-[PULL 00/45] target-arm queue
+[PULL 00/39] target-arm queue
-Mostly this is patches from me and RTH cleaning up and doing
+The following changes since commit 55ef0b702bc2c90c3c4ed97f97676d8f139e5ca1:
 more decodetree conversion for AArch32 Neon. The major new feature
 is Dongjiu Geng's patchset to report host memory errors to KVM guests;
 also a new aspeed board from Patrick Williams.
-thanks
+  Merge remote-tracking branch 'remotes/lvivier-gitlab/tags/linux-user-for-7.0-pull-request' into staging (2022-02-07 10:48:25 +0000)
 -- PMM
 The following changes since commit 035b448b84f3557206abc44d786c5d3db2638f7d:
   Merge remote-tracking branch 'remotes/gkurz/tags/9p-next-2020-05-14' into staging (2020-05-14 10:58:30 +0100)
 are available in the Git repository at:
-  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200514
+  https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20220208
-for you to fetch changes up to e95485f85657be21135c17a9226e297c21e73360:
+for you to fetch changes up to 4fd1ebb10593087d45d2f56f7f3d13447d24802c:
-  target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree (2020-05-14 15:03:09 +0100)
+  hw/sensor: Add lsm303dlhc magnetometer device (2022-02-08 10:56:29 +0000)
 ----------------------------------------------------------------
 target-arm queue:
- * target/arm: Use correct GDB XML for M-profile cores
+ * Fix handling of SVE ZCR_LEN when using VHE
- * target/arm: Code cleanup to use gvec APIs better
+ * xlnx-zynqmp: 'Or' the QSPI / QSPI DMA IRQs
- * aspeed: Add support for the sonorapass-bmc board
+ * Don't ever enable PSCI when booting guest in EL3
- * target/arm: Support reporting KVM host memory errors
+ * Adhere to SMCCC 1.3 section 5.2
-   to the guest via ACPI notifications
+ * highbank: Fix issues with booting SMP
- * target/arm: Finish conversion of Neon 3-reg-same insns to decodetree
+ * midway: Fix issues booting at all
  * boot: Drop existing dtb /psci node rather than retaining it
  * versal-virt: Always call arm_load_kernel()
  * force flag recalculation when messing with DAIF
  * hw/timer/armv7m_systick: Update clock source before enabling timer
  * hw/arm/smmuv3: Fix device reset
  * hw/intc/arm_gicv3_its: refactorings and minor bug fixes
  * hw/sensor: Add lsm303dlhc magnetometer device
 ----------------------------------------------------------------
-Dongjiu Geng (10):
+Alex Bennée (1):
-      acpi: nvdimm: change NVDIMM_UUID_LE to a common macro
+      arm: force flag recalculation when messing with DAIF
       hw/arm/virt: Introduce a RAS machine option
       docs: APEI GHES generation and CPER record description
       ACPI: Build related register address fields via hardware error fw_cfg blob
       ACPI: Build Hardware Error Source Table
       ACPI: Record the Generic Error Status Block address
       KVM: Move hwpoison page related functions into kvm-all.c
       ACPI: Record Generic Error Status Block(GESB) table
       target-arm: kvm64: handle SIGBUS signal from kernel or KVM
       MAINTAINERS: Add ACPI/HEST/GHES entries
-Patrick Williams (1):
+Edgar E. Iglesias (1):
-      aspeed: Add support for the sonorapass-bmc board
+      hw/arm: versal-virt: Always call arm_load_kernel()
-Peter Maydell (18):
+Eric Auger (1):
-      target/arm: Use correct GDB XML for M-profile cores
+      hw/arm/smmuv3: Fix device reset
       target/arm: Convert Neon 3-reg-same VQRDMLAH/VQRDMLSH to decodetree
       target/arm: Convert Neon 3-reg-same SHA to decodetree
       target/arm: Convert Neon 64-bit element 3-reg-same insns
       target/arm: Convert Neon VHADD 3-reg-same insns
       target/arm: Convert Neon VABA/VABD 3-reg-same to decodetree
       target/arm: Convert Neon VRHADD, VHSUB 3-reg-same insns to decodetree
       target/arm: Convert Neon VQSHL, VRSHL, VQRSHL 3-reg-same insns to decodetree
       target/arm: Convert Neon VPMAX/VPMIN 3-reg-same insns to decodetree
       target/arm: Convert Neon VPADD 3-reg-same insns to decodetree
       target/arm: Convert Neon VQDMULH/VQRDMULH 3-reg-same to decodetree
       target/arm: Convert Neon VADD, VSUB, VABD 3-reg-same insns to decodetree
       target/arm: Convert Neon VPMIN/VPMAX/VPADD float 3-reg-same insns to decodetree
       target/arm: Convert Neon fp VMUL, VMLA, VMLS 3-reg-same insns to decodetree
       target/arm: Convert Neon 3-reg-same compare insns to decodetree
       target/arm: Move 'env' argument of recps_f32 and rsqrts_f32 helpers to usual place
       target/arm: Convert Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS to decodetree
       target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree
-Richard Henderson (16):
+Francisco Iglesias (1):
-      target/arm: Create gen_gvec_[us]sra
+      hw/arm/xlnx-zynqmp: 'Or' the QSPI / QSPI DMA IRQs
       target/arm: Create gen_gvec_{u,s}{rshr,rsra}
       target/arm: Create gen_gvec_{sri,sli}
       target/arm: Remove unnecessary range check for VSHL
       target/arm: Tidy handle_vec_simd_shri
       target/arm: Create gen_gvec_{ceq,clt,cle,cgt,cge}0
       target/arm: Create gen_gvec_{mla,mls}
       target/arm: Swap argument order for VSHL during decode
       target/arm: Create gen_gvec_{cmtst,ushl,sshl}
       target/arm: Create gen_gvec_{uqadd, sqadd, uqsub, sqsub}
       target/arm: Remove fp_status from helper_{recpe, rsqrte}_u32
       target/arm: Create gen_gvec_{qrdmla,qrdmls}
       target/arm: Pass pointer to qc to qrdmla/qrdmls
       target/arm: Clear tail in gvec_fmul_idx_*, gvec_fmla_idx_*
       target/arm: Vectorize SABD/UABD
       target/arm: Vectorize SABA/UABA
- docs/specs/acpi_hest_ghes.rst          |  110 ++
+Kevin Townsend (1):
- docs/specs/index.rst                   |    1 +
+      hw/sensor: Add lsm303dlhc magnetometer device
  configure                              |    4 +-
  default-configs/arm-softmmu.mak        |    1 +
  include/hw/acpi/aml-build.h            |    1 +
  include/hw/acpi/generic_event_device.h |    2 +
  include/hw/acpi/ghes.h                 |   74 +
  include/hw/arm/virt.h                  |    1 +
  include/qemu/uuid.h                    |   27 +
  include/sysemu/kvm.h                   |    3 +-
  include/sysemu/kvm_int.h               |   12 +
  target/arm/cpu.h                       |    4 +
  target/arm/helper.h                    |   78 +-
  target/arm/internals.h                 |    5 +-
  target/arm/translate.h                 |   84 +-
  target/i386/cpu.h                      |    2 +
  target/arm/neon-dp.decode              |  119 +-
  accel/kvm/kvm-all.c                    |   36 +
  hw/acpi/aml-build.c                    |    2 +
  hw/acpi/generic_event_device.c         |   19 +
  hw/acpi/ghes.c                         |  448 ++++++
  hw/acpi/nvdimm.c                       |   10 +-
  hw/arm/aspeed.c                        |   78 ++
  hw/arm/virt-acpi-build.c               |   15 +
  hw/arm/virt.c                          |   23 +
  target/arm/cpu_tcg.c                   |    1 +
  target/arm/gdbstub.c                   |   22 +-
  target/arm/helper.c                    |    2 +-
  target/arm/kvm64.c                     |   77 ++
  target/arm/neon_helper.c               |   17 -
  target/arm/tlb_helper.c                |    2 +-
  target/arm/translate-a64.c             |  210 +--
  target/arm/translate-neon.inc.c        |  682 +++++++++-
  target/arm/translate.c                 | 2349 +++++++++++++++++---------------
  target/arm/vec_helper.c                |  240 +++-
  target/arm/vfp_helper.c                |    9 +-
  target/i386/kvm.c                      |   36 -
  MAINTAINERS                            |    9 +
  gdb-xml/arm-m-profile.xml              |   27 +
  hw/acpi/Kconfig                        |    4 +
  hw/acpi/Makefile.objs                  |    1 +
 files changed, 3402 insertions(+), 1445 deletions(-)
  create mode 100644 docs/specs/acpi_hest_ghes.rst
  create mode 100644 include/hw/acpi/ghes.h
  create mode 100644 hw/acpi/ghes.c
  create mode 100644 gdb-xml/arm-m-profile.xml
+Peter Maydell (29):
+      target/arm: make psci-conduit settable after realize
+      cpu.c: Make start-powered-off settable after realize
+      hw/arm/boot: Support setting psci-conduit based on guest EL
+      hw/arm: imx: Don't enable PSCI conduit when booting guest in EL3
+      hw/arm: allwinner: Don't enable PSCI conduit when booting guest in EL3
+      hw/arm/xlnx-zcu102: Don't enable PSCI conduit when booting guest in EL3
+      hw/arm/versal: Let boot.c handle PSCI enablement
+      hw/arm/virt: Let boot.c handle PSCI enablement
+      hw/arm: highbank: For EL3 guests, don't enable PSCI, start all cores
+      arm: tcg: Adhere to SMCCC 1.3 section 5.2
+      hw/arm/highbank: Drop use of secure_board_setup
+      hw/arm/boot: Prevent setting both psci_conduit and secure_board_setup
+      hw/arm/boot: Don't write secondary boot stub if using PSCI
+      hw/arm/highbank: Drop unused secondary boot stub code
+      hw/arm/boot: Drop nb_cpus field from arm_boot_info
+      hw/arm/boot: Drop existing dtb /psci node rather than retaining it
+      hw/intc/arm_gicv3_its: Use address_space_map() to access command queue packets
+      hw/intc/arm_gicv3_its: Keep DTEs as a struct, not a raw uint64_t
+      hw/intc/arm_gicv3_its: Pass DTEntry to update_dte()
+      hw/intc/arm_gicv3_its: Keep CTEs as a struct, not a raw uint64_t
+      hw/intc/arm_gicv3_its: Pass CTEntry to update_cte()
+      hw/intc/arm_gicv3_its: Fix address calculation in get_ite() and update_ite()
+      hw/intc/arm_gicv3_its: Avoid nested ifs in get_ite()
+      hw/intc/arm_gicv3_its: Pass ITE values back from get_ite() via a struct
+      hw/intc/arm_gicv3_its: Make update_ite() use ITEntry
+      hw/intc/arm_gicv3_its: Drop TableDesc and CmdQDesc valid fields
+      hw/intc/arm_gicv3_its: In MAPC with V=0, don't check rdbase field
+      hw/intc/arm_gicv3_its: Don't allow intid 1023 in MAPI/MAPTI
+      hw/intc/arm_gicv3_its: Split error checks
+Richard Henderson (4):
+      target/arm: Fix sve_zcr_len_for_el for VHE mode running
+      target/arm: Tidy sve_exception_el for CPACR_EL1 access
+      target/arm: Fix {fp, sve}_exception_el for VHE mode running
+      target/arm: Use CPTR_TFP with CPTR_EL3 in fp_exception_el
+Richard Petri (1):
+      hw/timer/armv7m_systick: Update clock source before enabling timer
+ hw/intc/gicv3_internal.h               |  23 +-
+ include/hw/arm/boot.h                  |  14 +-
+ include/hw/arm/xlnx-versal.h           |   1 -
+ include/hw/arm/xlnx-zynqmp.h           |   2 +
+ include/hw/intc/arm_gicv3_its_common.h |   2 -
+ cpu.c                                  |  22 +-
+ hw/arm/allwinner-h3.c                  |   9 +-
+ hw/arm/aspeed.c                        |   1 -
+ hw/arm/boot.c                          | 107 ++++-
+ hw/arm/exynos4_boards.c                |   1 -
+ hw/arm/fsl-imx6ul.c                    |   2 -
+ hw/arm/fsl-imx7.c                      |   8 +-
+ hw/arm/highbank.c                      |  72 +---
+ hw/arm/imx25_pdk.c                     |   3 +-
+ hw/arm/kzm.c                           |   1 -
+ hw/arm/mcimx6ul-evk.c                  |   2 +-
+ hw/arm/mcimx7d-sabre.c                 |   2 +-
+ hw/arm/npcm7xx.c                       |   3 -
+ hw/arm/orangepi.c                      |   5 +-
+ hw/arm/raspi.c                         |   1 -
+ hw/arm/realview.c                      |   1 -
+ hw/arm/sabrelite.c                     |   1 -
+ hw/arm/sbsa-ref.c                      |   1 -
+ hw/arm/smmuv3.c                        |   6 +
+ hw/arm/vexpress.c                      |   1 -
+ hw/arm/virt.c                          |  13 +-
+ hw/arm/xilinx_zynq.c                   |   1 -
+ hw/arm/xlnx-versal-virt.c              |  17 +-
+ hw/arm/xlnx-versal.c                   |   5 +-
+ hw/arm/xlnx-zcu102.c                   |   1 +
+ hw/arm/xlnx-zynqmp.c                   |  25 +-
+ hw/intc/arm_gicv3_its.c                | 696 +++++++++++++++------------------
+ hw/sensor/lsm303dlhc_mag.c             | 556 ++++++++++++++++++++++++++
+ hw/timer/armv7m_systick.c              |   8 +-
+ target/arm/cpu.c                       |   6 +-
+ target/arm/helper-a64.c                |   2 +
+ target/arm/helper.c                    | 118 ++++--
+ target/arm/psci.c                      |  35 +-
+ tests/qtest/lsm303dlhc-mag-test.c      | 148 +++++++
+ hw/sensor/Kconfig                      |   4 +
+ hw/sensor/meson.build                  |   1 +
+ tests/qtest/meson.build                |   1 +
+files changed, 1308 insertions(+), 620 deletions(-)
+ create mode 100644 hw/sensor/lsm303dlhc_mag.c
+ create mode 100644 tests/qtest/lsm303dlhc-mag-test.c

-[PULL 17/45] target/arm: Vectorize SABA/UABA
+[PULL 01/39] target/arm: Fix sve_zcr_len_for_el for VHE mode running
 From: Richard Henderson <richard.henderson@linaro.org>
-Include 64-bit element size in preparation for SVE2.
+When HCR_EL2.{E2H,TGE} == '11', ZCR_EL1 is unused.
+Reported-by: Zenghui Yu <yuzenghui@huawei.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Zenghui Yu <yuzenghui@huawei.com>
-Message-id: 20200513163245.17915-17-richard.henderson@linaro.org
+Message-id: 20220127063428.30212-2-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h        |  17 +++--
+ target/arm/helper.c | 3 ++-
- target/arm/translate.h     |   5 ++
+file changed, 2 insertions(+), 1 deletion(-)
  target/arm/neon_helper.c   |  10 ---
  target/arm/translate-a64.c |  17 ++---
  target/arm/translate.c     | 134 +++++++++++++++++++++++++++++++++++--
  target/arm/vec_helper.c    |  24 +++++++
 files changed, 174 insertions(+), 33 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper.c
-+++ b/target/arm/helper.h
++++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(neon_pmax_s8, i32, i32, i32)
+@@ -XXX,XX +XXX,XX @@ uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
- DEF_HELPER_2(neon_pmax_u16, i32, i32, i32)
+     ARMCPU *cpu = env_archcpu(env);
- DEF_HELPER_2(neon_pmax_s16, i32, i32, i32)
+     uint32_t zcr_len = cpu->sve_max_vq - 1;
--DEF_HELPER_2(neon_abd_u8, i32, i32, i32)
+-    if (el <= 1) {
--DEF_HELPER_2(neon_abd_s8, i32, i32, i32)
++    if (el <= 1 &&
--DEF_HELPER_2(neon_abd_u16, i32, i32, i32)
++        (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
--DEF_HELPER_2(neon_abd_s16, i32, i32, i32)
+         zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[1]);
--DEF_HELPER_2(neon_abd_u32, i32, i32, i32)
+     }
--DEF_HELPER_2(neon_abd_s32, i32, i32, i32)
+     if (el <= 2 && arm_feature(env, ARM_FEATURE_EL2)) {
 -
  DEF_HELPER_2(neon_shl_u16, i32, i32, i32)
  DEF_HELPER_2(neon_shl_s16, i32, i32, i32)
  DEF_HELPER_2(neon_rshl_u8, i32, i32, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_uabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_uabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_4(gvec_uabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_saba_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_4(gvec_uaba_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uaba_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uaba_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_4(gvec_uaba_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "helper-a64.h"
  #include "helper-sve.h"
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
  void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                     uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/neon_helper.c b/target/arm/neon_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/neon_helper.c
 +++ b/target/arm/neon_helper.c
@@ -XXX,XX +XXX,XX @@ NEON_POP(pmax_s16, neon_s16, 2)
  NEON_POP(pmax_u16, neon_u16, 2)
  #undef NEON_FN
 -#define NEON_FN(dest, src1, src2) \
 -    dest = (src1 > src2) ? (src1 - src2) : (src2 - src1)
 -NEON_VOP(abd_s8, neon_s8, 4)
 -NEON_VOP(abd_u8, neon_u8, 4)
 -NEON_VOP(abd_s16, neon_s16, 2)
 -NEON_VOP(abd_u16, neon_u16, 2)
 -NEON_VOP(abd_s32, neon_s32, 1)
 -NEON_VOP(abd_u32, neon_u32, 1)
 -#undef NEON_FN
 -
  #define NEON_FN(dest, src1, src2) do { \
      int8_t tmp; \
      tmp = (int8_t)src2; \
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
              gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sabd, size);
          }
          return;
 +    case 0xf: /* SABA, UABA */
 +        if (u) {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uaba, size);
 +        } else {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_saba, size);
 +        }
 +        return;
      case 0x10: /* ADD, SUB */
          if (u) {
              gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_sub, size);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
                  genenvfn = fns[size][u];
                  break;
              }
 -            case 0xf: /* SABA, UABA */
 -            {
 -                static NeonGenTwoOpFn * const fns[3][2] = {
 -                    { gen_helper_neon_abd_s8, gen_helper_neon_abd_u8 },
 -                    { gen_helper_neon_abd_s16, gen_helper_neon_abd_u16 },
 -                    { gen_helper_neon_abd_s32, gen_helper_neon_abd_u32 },
 -                };
 -                genfn = fns[size][u];
 -                break;
 -            }
              case 0x16: /* SQDMULH, SQRDMULH */
              {
                  static NeonGenTwoOpEnvFn * const fns[2][2] = {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
      tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
  }
 +static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +    gen_sabd_i32(t, a, b);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    gen_sabd_i64(t, a, b);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    gen_sabd_vec(vece, t, a, b);
 +    tcg_gen_add_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_saba_i32,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_saba_i64,
 +          .fniv = gen_saba_vec,
 +          .fno = gen_helper_gvec_saba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +    gen_uabd_i32(t, a, b);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +    gen_uabd_i64(t, a, b);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    gen_uabd_vec(vece, t, a, b);
 +    tcg_gen_add_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_add_vec,
 +        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uaba_i32,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uaba_i64,
 +          .fniv = gen_uaba_vec,
 +          .fno = gen_helper_gvec_uaba_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
     We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              }
              return 0;
 +        case NEON_3R_VABA:
 +            if (u) {
 +                gen_gvec_uaba(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            } else {
 +                gen_gvec_saba(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            }
 +            return 0;
 +
          case NEON_3R_VADD_VSUB:
          case NEON_3R_LOGIC:
          case NEON_3R_VMAX:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VQRSHL:
              GEN_NEON_INTEGER_OP_ENV(qrshl);
              break;
 -        case NEON_3R_VABA:
 -            GEN_NEON_INTEGER_OP(abd);
 -            tcg_temp_free_i32(tmp2);
 -            tmp2 = neon_load_reg(rd, pass);
 -            gen_neon_add(size, tmp, tmp2);
 -            break;
          case NEON_3R_VPMAX:
              GEN_NEON_INTEGER_OP(pmax);
              break;
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ABD(gvec_uabd_s, uint32_t)
  DO_ABD(gvec_uabd_d, uint64_t)
  #undef DO_ABD
 +
 +#define DO_ABA(NAME, TYPE)                                      \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
 +{                                                               \
 +    intptr_t i, opr_sz = simd_oprsz(desc);                      \
 +    TYPE *d = vd, *n = vn, *m = vm;                             \
 +                                                                \
 +    for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
 +        d[i] += n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];        \
 +    }                                                           \
 +    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
 +}
 +
 +DO_ABA(gvec_saba_b, int8_t)
 +DO_ABA(gvec_saba_h, int16_t)
 +DO_ABA(gvec_saba_s, int32_t)
 +DO_ABA(gvec_saba_d, int64_t)
 +
 +DO_ABA(gvec_uaba_b, uint8_t)
 +DO_ABA(gvec_uaba_h, uint16_t)
 +DO_ABA(gvec_uaba_s, uint32_t)
 +DO_ABA(gvec_uaba_d, uint64_t)
 +
 +#undef DO_ABA
 --
-.20.1
+.25.1

-[PULL 27/45] target-arm: kvm64: handle SIGBUS signal from kernel or KVM
+[PULL 02/39] target/arm: Tidy sve_exception_el for CPACR_EL1 access
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: Richard Henderson <richard.henderson@linaro.org>
-Add a SIGBUS signal handler. In this handler, it checks the SIGBUS type,
+Extract entire fields for ZEN and FPEN, rather than testing specific bits.
-translates the host VA delivered by host to guest PA, then fills this PA
+This makes it easier to follow the code versus the ARM spec.
 to guest APEI GHES memory, then notifies guest according to the SIGBUS
 type.
-When guest accesses the poisoned memory, it will generate a Synchronous
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 External Abort(SEA). Then host kernel gets an APEI notification and calls
 memory_failure() to unmapped the affected page in stage 2, finally
 returns to guest.
 Guest continues to access the PG_hwpoison page, it will trap to KVM as
 stage2 fault, then a SIGBUS_MCEERR_AR synchronous signal is delivered to
 Qemu, Qemu records this error address into guest APEI GHES memory and
 notifes guest using Synchronous-External-Abort(SEA).
 In order to inject a vSEA, we introduce the kvm_inject_arm_sea() function
 in which we can setup the type of exception and the syndrome information.
 When switching to guest, the target vcpu will jump to the synchronous
 external abort vector table entry.
 The ESR_ELx.DFSC is set to synchronous external abort(0x10), and the
 ESR_ELx.FnV is set to not valid(0x1), which will tell guest that FAR is
 not valid and hold an UNKNOWN value. These values will be set to KVM
 register structures through KVM_SET_ONE_REG IOCTL.
 Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
 Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
 Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
 Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
+Reviewed-by: Zenghui Yu <yuzenghui@huawei.com>
-Message-id: 20200512030609.19593-10-gengdongjiu@huawei.com
+Message-id: 20220127063428.30212-3-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/sysemu/kvm.h    |  3 +-
+ target/arm/helper.c | 36 +++++++++++++++++-------------------
- target/arm/cpu.h        |  4 +++
+file changed, 17 insertions(+), 19 deletions(-)
  target/arm/internals.h  |  5 +--
  target/i386/cpu.h       |  2 ++
  target/arm/helper.c     |  2 +-
  target/arm/kvm64.c      | 77 +++++++++++++++++++++++++++++++++++++++++
  target/arm/tlb_helper.c |  2 +-
 files changed, 89 insertions(+), 6 deletions(-)
-diff --git a/include/sysemu/kvm.h b/include/sysemu/kvm.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/sysemu/kvm.h
-+++ b/include/sysemu/kvm.h
-@@ -XXX,XX +XXX,XX @@ bool kvm_vcpu_id_is_valid(int vcpu_id);
- /* Returns VCPU ID to be used on KVM_CREATE_VCPU ioctl() */
- unsigned long kvm_arch_vcpu_id(CPUState *cpu);
--#ifdef TARGET_I386
--#define KVM_HAVE_MCE_INJECTION 1
-+#ifdef KVM_HAVE_MCE_INJECTION
- void kvm_arch_on_sigbus_vcpu(CPUState *cpu, int code, void *addr);
- #endif
-diff --git a/target/arm/cpu.h b/target/arm/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu.h
-+++ b/target/arm/cpu.h
-@@ -XXX,XX +XXX,XX @@
- /* ARM processors have a weak memory model */
- #define TCG_GUEST_DEFAULT_MO      (0)
-+#ifdef TARGET_AARCH64
-+#define KVM_HAVE_MCE_INJECTION 1
-+#endif
-+
- #define EXCP_UDEF            1   /* undefined instruction */
- #define EXCP_SWI             2   /* software interrupt */
- #define EXCP_PREFETCH_ABORT  3
-diff --git a/target/arm/internals.h b/target/arm/internals.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/internals.h
-+++ b/target/arm/internals.h
-@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_insn_abort(int same_el, int ea, int s1ptw, int fsc)
-         | ARM_EL_IL | (ea << 9) | (s1ptw << 7) | fsc;
- }
--static inline uint32_t syn_data_abort_no_iss(int same_el,
-+static inline uint32_t syn_data_abort_no_iss(int same_el, int fnv,
-                                              int ea, int cm, int s1ptw,
-                                              int wnr, int fsc)
- {
-     return (EC_DATAABORT << ARM_EL_EC_SHIFT) | (same_el << ARM_EL_EC_SHIFT)
-            | ARM_EL_IL
--           | (ea << 9) | (cm << 8) | (s1ptw << 7) | (wnr << 6) | fsc;
-+           | (fnv << 10) | (ea << 9) | (cm << 8) | (s1ptw << 7)
-+           | (wnr << 6) | fsc;
- }
- static inline uint32_t syn_data_abort_with_iss(int same_el,
-diff --git a/target/i386/cpu.h b/target/i386/cpu.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/i386/cpu.h
-+++ b/target/i386/cpu.h
-@@ -XXX,XX +XXX,XX @@
- /* The x86 has a strong memory model with some store-after-load re-ordering */
- #define TCG_GUEST_DEFAULT_MO      (TCG_MO_ALL & ~TCG_MO_ST_LD)
-+#define KVM_HAVE_MCE_INJECTION 1
-+
- /* Maximum instruction code size */
- #define TARGET_MAX_INSN_SIZE 16
 diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/helper.c
 +++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ static uint64_t do_ats_write(CPUARMState *env, uint64_t value,
+@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
-              * Report exception with ESR indicating a fault due to a
+     uint64_t hcr_el2 = arm_hcr_el2_eff(env);
-              * translation table walk for a cache maintenance instruction.
-              */
+     if (el <= 1 && (hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
--            syn = syn_data_abort_no_iss(current_el == target_el,
+-        bool disabled = false;
-+            syn = syn_data_abort_no_iss(current_el == target_el, 0,
+-
-                                         fi.ea, 1, fi.s1ptw, 1, fsc);
+-        /* The CPACR.ZEN controls traps to EL1:
-             env->exception.vaddress = value;
+-         * 0, 2 : trap EL0 and EL1 accesses
-             env->exception.fsr = fsr;
+-         * 1    : trap only EL0 accesses
-diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
+-         * 3    : trap no accesses
-index XXXXXXX..XXXXXXX 100644
+-         */
---- a/target/arm/kvm64.c
+-        if (!extract32(env->cp15.cpacr_el1, 16, 1)) {
-+++ b/target/arm/kvm64.c
+-            disabled = true;
-@@ -XXX,XX +XXX,XX @@
+-        } else if (!extract32(env->cp15.cpacr_el1, 17, 1)) {
- #include "sysemu/kvm_int.h"
+-            disabled = el == 0;
- #include "kvm_arm.h"
+-        }
- #include "internals.h"
+-        if (disabled) {
-+#include "hw/acpi/acpi.h"
++        /* Check CPACR.ZEN.  */
-+#include "hw/acpi/ghes.h"
++        switch (extract32(env->cp15.cpacr_el1, 16, 2)) {
-+#include "hw/arm/virt.h"
++        case 1:
++            if (el != 0) {
- static bool have_guest_debug;
++                break;
@@ -XXX,XX +XXX,XX @@ int kvm_arm_cpreg_level(uint64_t regidx)
      return KVM_PUT_RUNTIME_STATE;
  }
 +/* Callers must hold the iothread mutex lock */
 +static void kvm_inject_arm_sea(CPUState *c)
 +{
 +    ARMCPU *cpu = ARM_CPU(c);
 +    CPUARMState *env = &cpu->env;
 +    CPUClass *cc = CPU_GET_CLASS(c);
 +    uint32_t esr;
 +    bool same_el;
 +
 +    c->exception_index = EXCP_DATA_ABORT;
 +    env->exception.target_el = 1;
 +
 +    /*
 +     * Set the DFSC to synchronous external abort and set FnV to not valid,
 +     * this will tell guest the FAR_ELx is UNKNOWN for this abort.
 +     */
 +    same_el = arm_current_el(env) == env->exception.target_el;
 +    esr = syn_data_abort_no_iss(same_el, 1, 0, 0, 0, 0, 0x10);
 +
 +    env->exception.syndrome = esr;
 +
 +    cc->do_interrupt(c);
 +}
 +
  #define AARCH64_CORE_REG(x)   (KVM_REG_ARM64 | KVM_REG_SIZE_U64 | \
                   KVM_REG_ARM_CORE | KVM_REG_ARM_CORE_REG(x))
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
      return ret;
  }
 +void kvm_arch_on_sigbus_vcpu(CPUState *c, int code, void *addr)
 +{
 +    ram_addr_t ram_addr;
 +    hwaddr paddr;
 +    Object *obj = qdev_get_machine();
 +    VirtMachineState *vms = VIRT_MACHINE(obj);
 +    bool acpi_enabled = virt_is_acpi_enabled(vms);
 +
 +    assert(code == BUS_MCEERR_AR || code == BUS_MCEERR_AO);
 +
 +    if (acpi_enabled && addr &&
 +            object_property_get_bool(obj, "ras", NULL)) {
 +        ram_addr = qemu_ram_addr_from_host(addr);
 +        if (ram_addr != RAM_ADDR_INVALID &&
 +            kvm_physical_memory_addr_from_host(c->kvm_state, addr, &paddr)) {
 +            kvm_hwpoison_page_add(ram_addr);
 +            /*
 +             * If this is a BUS_MCEERR_AR, we know we have been called
 +             * synchronously from the vCPU thread, so we can easily
 +             * synchronize the state and inject an error.
 +             *
 +             * TODO: we currently don't tell the guest at all about
 +             * BUS_MCEERR_AO. In that case we might either be being
 +             * called synchronously from the vCPU thread, or a bit
 +             * later from the main thread, so doing the injection of
 +             * the error would be more complicated.
 +             */
 +            if (code == BUS_MCEERR_AR) {
 +                kvm_cpu_synchronize_state(c);
 +                if (!acpi_ghes_record_errors(ACPI_HEST_SRC_ID_SEA, paddr)) {
 +                    kvm_inject_arm_sea(c);
 +                } else {
 +                    error_report("failed to record the error");
 +                    abort();
 +                }
 +            }
-+            return;
++            /* fall through */
-+        }
++        case 0:
-+        if (code == BUS_MCEERR_AO) {
++        case 2:
-+            error_report("Hardware memory error at addr %p for memory used by "
+             /* route_to_el2 */
-+                "QEMU itself instead of guest system!", addr);
+             return hcr_el2 & HCR_TGE ? 2 : 1;
-+        }
+         }
-+    }
-+
+         /* Check CPACR.FPEN.  */
-+    if (code == BUS_MCEERR_AR) {
+-        if (!extract32(env->cp15.cpacr_el1, 20, 1)) {
-+        error_report("Hardware memory error!");
+-            disabled = true;
-+        exit(1);
+-        } else if (!extract32(env->cp15.cpacr_el1, 21, 1)) {
-+    }
+-            disabled = el == 0;
-+}
+-        }
-+
+-        if (disabled) {
- /* C6.6.29 BRK instruction */
++        switch (extract32(env->cp15.cpacr_el1, 20, 2)) {
- static const uint32_t brk_insn = 0xd4200000;
++        case 1:
++            if (el != 0) {
-diff --git a/target/arm/tlb_helper.c b/target/arm/tlb_helper.c
++                break;
-index XXXXXXX..XXXXXXX 100644
++            }
---- a/target/arm/tlb_helper.c
++            /* fall through */
-+++ b/target/arm/tlb_helper.c
++        case 0:
-@@ -XXX,XX +XXX,XX @@ static inline uint32_t merge_syn_data_abort(uint32_t template_syn,
++        case 2:
-      * ISV field.
+             return 0;
-      */
+         }
-     if (!(template_syn & ARM_EL_ISV) || target_el != 2 || s1ptw) {
+     }
 -        syn = syn_data_abort_no_iss(same_el,
 +        syn = syn_data_abort_no_iss(same_el, 0,
                                      ea, 0, s1ptw, is_write, fsc);
      } else {
          /*
 --
-.20.1
+.25.1

-[PULL 16/45] target/arm: Vectorize SABD/UABD
+[PULL 03/39] target/arm: Fix {fp, sve}_exception_el for VHE mode running
 From: Richard Henderson <richard.henderson@linaro.org>
-Include 64-bit element size in preparation for SVE2.
+When HCR_EL2.E2H is set, the format of CPTR_EL2 changes to
 look more like CPACR_EL1, with ZEN and FPEN fields instead
 of TZ and TFP fields.
+Reported-by: Zenghui Yu <yuzenghui@huawei.com>
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20220127063428.30212-4-richard.henderson@linaro.org
 Message-id: 20200513163245.17915-16-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h        |  10 +++
+ target/arm/helper.c | 77 +++++++++++++++++++++++++++++++++++----------
- target/arm/translate.h     |   5 ++
+file changed, 60 insertions(+), 17 deletions(-)
  target/arm/translate-a64.c |   8 ++-
  target/arm/translate.c     | 133 ++++++++++++++++++++++++++++++++++++-
  target/arm/vec_helper.c    |  24 +++++++
 files changed, 176 insertions(+), 4 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/target/arm/helper.c
-+++ b/target/arm/helper.h
++++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(gvec_sli_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
- DEF_HELPER_FLAGS_3(gvec_sli_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+         }
- DEF_HELPER_FLAGS_3(gvec_sli_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+     }
-+DEF_HELPER_FLAGS_4(gvec_sabd_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-    /* CPTR_EL2.  Since TZ and TFP are positive,
-+DEF_HELPER_FLAGS_4(gvec_sabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+-     * they will be zero when EL2 is not present.
-+DEF_HELPER_FLAGS_4(gvec_sabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++    /*
-+DEF_HELPER_FLAGS_4(gvec_sabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++     * CPTR_EL2 changes format with HCR_EL2.E2H (regardless of TGE).
       */
 -    if (el <= 2 && arm_is_el2_enabled(env)) {
 -        if (env->cp15.cptr_el[2] & CPTR_TZ) {
 -            return 2;
 -        }
 -        if (env->cp15.cptr_el[2] & CPTR_TFP) {
 -            return 0;
 +    if (el <= 2) {
 +        if (hcr_el2 & HCR_E2H) {
 +            /* Check CPTR_EL2.ZEN.  */
 +            switch (extract32(env->cp15.cptr_el[2], 16, 2)) {
 +            case 1:
 +                if (el != 0 || !(hcr_el2 & HCR_TGE)) {
 +                    break;
 +                }
 +                /* fall through */
 +            case 0:
 +            case 2:
 +                return 2;
 +            }
 +
-+DEF_HELPER_FLAGS_4(gvec_uabd_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++            /* Check CPTR_EL2.FPEN.  */
-+DEF_HELPER_FLAGS_4(gvec_uabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
-+DEF_HELPER_FLAGS_4(gvec_uabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++            case 1:
-+DEF_HELPER_FLAGS_4(gvec_uabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
++                if (el == 2 || !(hcr_el2 & HCR_TGE)) {
 +                    break;
 +                }
 +                /* fall through */
 +            case 0:
 +            case 2:
 +                return 0;
 +            }
 +        } else if (arm_is_el2_enabled(env)) {
 +            if (env->cp15.cptr_el[2] & CPTR_TZ) {
 +                return 2;
 +            }
 +            if (env->cp15.cptr_el[2] & CPTR_TFP) {
 +                return 0;
 +            }
          }
      }
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
  int fp_exception_el(CPUARMState *env, int cur_el)
  {
  #ifndef CONFIG_USER_ONLY
 +    uint64_t hcr_el2;
 +
- #ifdef TARGET_AARCH64
+     /* CPACR and the CPTR registers don't exist before v6, so FP is
- #include "helper-a64.h"
+      * always accessible
- #include "helper-sve.h"
+      */
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
-index XXXXXXX..XXXXXXX 100644
+         return 0;
---- a/target/arm/translate.h
+     }
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++    hcr_el2 = arm_hcr_el2_eff(env);
  void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                            uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
- /*
+     /* The CPACR controls traps to EL1, or PL1 if we're 32 bit:
-  * Forward to the isar_feature_* tests given a DisasContext pointer.
+      * 0, 2 : trap EL0 and EL1/PL1 accesses
-  */
+      * 1    : trap only EL0 accesses
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+      * 3    : trap no accesses
-index XXXXXXX..XXXXXXX 100644
+      * This register is ignored if E2H+TGE are both set.
---- a/target/arm/translate-a64.c
+      */
-+++ b/target/arm/translate-a64.c
+-    if ((arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
++    if ((hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
-             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_smin, size);
+         int fpen = extract32(env->cp15.cpacr_el1, 20, 2);
          switch (fpen) {
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
          }
-         return;
+     }
-+    case 0xe: /* SABD, UABD */
-+        if (u) {
+-    /* For the CPTR registers we don't need to guard with an ARM_FEATURE
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uabd, size);
+-     * check because zero bits in the registers mean "don't trap".
-+        } else {
++    /*
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sabd, size);
++     * CPTR_EL2 is present in v7VE or v8, and changes format
 +     * with HCR_EL2.E2H (regardless of TGE).
       */
 -
 -    /* CPTR_EL2 : present in v7VE or v8 */
 -    if (cur_el <= 2 && extract32(env->cp15.cptr_el[2], 10, 1)
 -        && arm_is_el2_enabled(env)) {
 -        /* Trap FP ops at EL2, NS-EL1 or NS-EL0 to EL2 */
 -        return 2;
 +    if (cur_el <= 2) {
 +        if (hcr_el2 & HCR_E2H) {
 +            /* Check CPTR_EL2.FPEN.  */
 +            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
 +            case 1:
 +                if (cur_el != 0 || !(hcr_el2 & HCR_TGE)) {
 +                    break;
 +                }
 +                /* fall through */
 +            case 0:
 +            case 2:
 +                return 2;
 +            }
 +        } else if (arm_is_el2_enabled(env)) {
 +            if (env->cp15.cptr_el[2] & CPTR_TFP) {
 +                return 2;
 +            }
 +        }
-+        return;
+     }
-     case 0x10: /* ADD, SUB */
-         if (u) {
+     /* CPTR_EL3 : present in v8 */
              gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_sub, size);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
                  genenvfn = fns[size][u];
                  break;
              }
 -            case 0xe: /* SABD, UABD */
              case 0xf: /* SABA, UABA */
              {
                  static NeonGenTwoOpFn * const fns[3][2] = {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                     rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
  }
 +static void gen_sabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_sub_i32(t, a, b);
 +    tcg_gen_sub_i32(d, b, a);
 +    tcg_gen_movcond_i32(TCG_COND_LT, d, a, b, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_sabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LT, d, a, b, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_sabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_smin_vec(vece, t, a, b);
 +    tcg_gen_smax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_smin_vec, INDEX_op_smax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_sabd_i32,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_sabd_i64,
 +          .fniv = gen_sabd_vec,
 +          .fno = gen_helper_gvec_sabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
 +static void gen_uabd_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_sub_i32(t, a, b);
 +    tcg_gen_sub_i32(d, b, a);
 +    tcg_gen_movcond_i32(TCG_COND_LTU, d, a, b, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_uabd_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_sub_i64(t, a, b);
 +    tcg_gen_sub_i64(d, b, a);
 +    tcg_gen_movcond_i64(TCG_COND_LTU, d, a, b, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_uabd_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_umin_vec(vece, t, a, b);
 +    tcg_gen_umax_vec(vece, d, a, b);
 +    tcg_gen_sub_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sub_vec, INDEX_op_umin_vec, INDEX_op_umax_vec, 0
 +    };
 +    static const GVecGen3 ops[4] = {
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_uabd_i32,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_uabd_i64,
 +          .fniv = gen_uabd_vec,
 +          .fno = gen_helper_gvec_uabd_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
 +
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
     We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              }
              return 1;
 +        case NEON_3R_VABD:
 +            if (u) {
 +                gen_gvec_uabd(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            } else {
 +                gen_gvec_sabd(size, rd_ofs, rn_ofs, rm_ofs,
 +                              vec_size, vec_size);
 +            }
 +            return 0;
 +
          case NEON_3R_VADD_VSUB:
          case NEON_3R_LOGIC:
          case NEON_3R_VMAX:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VQRSHL:
              GEN_NEON_INTEGER_OP_ENV(qrshl);
              break;
 -        case NEON_3R_VABD:
 -            GEN_NEON_INTEGER_OP(abd);
 -            break;
          case NEON_3R_VABA:
              GEN_NEON_INTEGER_OP(abd);
              tcg_temp_free_i32(tmp2);
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_CMP0(gvec_cgt0_h, int16_t, >)
  DO_CMP0(gvec_cge0_h, int16_t, >=)
  #undef DO_CMP0
 +
 +#define DO_ABD(NAME, TYPE)                                      \
 +void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
 +{                                                               \
 +    intptr_t i, opr_sz = simd_oprsz(desc);                      \
 +    TYPE *d = vd, *n = vn, *m = vm;                             \
 +                                                                \
 +    for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
 +        d[i] = n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];         \
 +    }                                                           \
 +    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
 +}
 +
 +DO_ABD(gvec_sabd_b, int8_t)
 +DO_ABD(gvec_sabd_h, int16_t)
 +DO_ABD(gvec_sabd_s, int32_t)
 +DO_ABD(gvec_sabd_d, int64_t)
 +
 +DO_ABD(gvec_uabd_b, uint8_t)
 +DO_ABD(gvec_uabd_h, uint16_t)
 +DO_ABD(gvec_uabd_s, uint32_t)
 +DO_ABD(gvec_uabd_d, uint64_t)
 +
 +#undef DO_ABD
 --
-.20.1
+.25.1

-[PULL 13/45] target/arm: Create gen_gvec_{qrdmla,qrdmls}
+[PULL 04/39] target/arm: Use CPTR_TFP with CPTR_EL3 in fp_exception_el
 From: Richard Henderson <richard.henderson@linaro.org>
-Provide a functional interface for the vector expansion.
+Use the named bit rather than a bare extract32.
 This fits better with the existing set of helpers that
 we provide for other operations.
+Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Zenghui Yu <yuzenghui@huawei.com>
-Message-id: 20200513163245.17915-13-richard.henderson@linaro.org
+Message-id: 20220127063428.30212-5-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate.h     |  5 ++++
+ target/arm/helper.c | 2 +-
- target/arm/translate-a64.c | 34 ++----------------------
+file changed, 1 insertion(+), 1 deletion(-)
  target/arm/translate.c     | 54 +++++++++++++++++++-------------------
 files changed, 34 insertions(+), 59 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/target/arm/helper.c b/target/arm/helper.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/helper.c
-+++ b/target/arm/translate.h
++++ b/target/arm/helper.c
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
- void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+     }
-                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+     /* CPTR_EL3 : present in v8 */
-+void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-    if (extract32(env->cp15.cptr_el[3], 10, 1)) {
-+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
++    if (env->cp15.cptr_el[3] & CPTR_TFP) {
-+void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+         /* Trap all FP ops to EL3 */
-+                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+         return 3;
-+
+     }
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_gvec_op3_ool(DisasContext *s, bool is_q, int rd,
                         is_q ? 16 : 8, vec_full_reg_size(s), data, fn);
  }
 -/* Expand a 3-operand + env pointer operation using
 - * an out-of-line helper.
 - */
 -static void gen_gvec_op3_env(DisasContext *s, bool is_q, int rd,
 -                             int rn, int rm, gen_helper_gvec_3_ptr *fn)
 -{
 -    tcg_gen_gvec_3_ptr(vec_full_reg_offset(s, rd),
 -                       vec_full_reg_offset(s, rn),
 -                       vec_full_reg_offset(s, rm), cpu_env,
 -                       is_q ? 16 : 8, vec_full_reg_size(s), 0, fn);
 -}
 -
  /* Expand a 3-operand + fpstatus pointer + simd data value operation using
   * an out-of-line helper.
   */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_three_reg_same_extra(DisasContext *s, uint32_t insn)
      switch (opcode) {
      case 0x0: /* SQRDMLAH (vector) */
 -        switch (size) {
 -        case 1:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlah_s16);
 -            break;
 -        case 2:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlah_s32);
 -            break;
 -        default:
 -            g_assert_not_reached();
 -        }
 +        gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlah_qc, size);
          return;
      case 0x1: /* SQRDMLSH (vector) */
 -        switch (size) {
 -        case 1:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlsh_s16);
 -            break;
 -        case 2:
 -            gen_gvec_op3_env(s, is_q, rd, rn, rm, gen_helper_gvec_qrdmlsh_s32);
 -            break;
 -        default:
 -            g_assert_not_reached();
 -        }
 +        gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqrdmlsh_qc, size);
          return;
      case 0x2: /* SDOT / UDOT */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static const uint8_t neon_2rm_sizes[] = {
      [NEON_2RM_VCVT_UF] = 0x4,
  };
 -
 -/* Expand v8.1 simd helper.  */
 -static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
 -                         int q, int rd, int rn, int rm)
 +void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
  {
 -    if (dc_isar_feature(aa32_rdm, s)) {
 -        int opr_sz = (1 + q) * 8;
 -        tcg_gen_gvec_3_ptr(vfp_reg_offset(1, rd),
 -                           vfp_reg_offset(1, rn),
 -                           vfp_reg_offset(1, rm), cpu_env,
 -                           opr_sz, opr_sz, 0, fn);
 -        return 0;
 -    }
 -    return 1;
 +    static gen_helper_gvec_3_ptr * const fns[2] = {
 +        gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
 +    };
 +    tcg_debug_assert(vece >= 1 && vece <= 2);
 +    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
 +                       opr_sz, max_sz, 0, fns[vece - 1]);
 +}
 +
 +void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                          uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static gen_helper_gvec_3_ptr * const fns[2] = {
 +        gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
 +    };
 +    tcg_debug_assert(vece >= 1 && vece <= 2);
 +    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
 +                       opr_sz, max_sz, 0, fns[vece - 1]);
  }
  #define GEN_CMP0(NAME, COND)                                            \
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  break;  /* VPADD */
              }
              /* VQRDMLAH */
 -            switch (size) {
 -            case 1:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlah_s16,
 -                                     q, rd, rn, rm);
 -            case 2:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlah_s32,
 -                                     q, rd, rn, rm);
 +            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
 +                gen_gvec_sqrdmlah_qc(size, rd_ofs, rn_ofs, rm_ofs,
 +                                     vec_size, vec_size);
 +                return 0;
              }
              return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  break;
              }
              /* VQRDMLSH */
 -            switch (size) {
 -            case 1:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlsh_s16,
 -                                     q, rd, rn, rm);
 -            case 2:
 -                return do_v81_helper(s, gen_helper_gvec_qrdmlsh_s32,
 -                                     q, rd, rn, rm);
 +            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
 +                gen_gvec_sqrdmlsh_qc(size, rd_ofs, rn_ofs, rm_ofs,
 +                                     vec_size, vec_size);
 +                return 0;
              }
              return 1;
 --
-.20.1
+.25.1

-[PULL 06/45] target/arm: Tidy handle_vec_simd_shri
+[PULL 05/39] hw/arm/xlnx-zynqmp: 'Or' the QSPI / QSPI DMA IRQs
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Francisco Iglesias <francisco.iglesias@xilinx.com>
-Now that we've converted all cases to gvec, there is quite a bit
+'Or' the IRQs coming from the QSPI and QSPI DMA models. This is done for
-of dead code at the end of the function.  Remove it.
+avoiding the situation where one of the models incorrectly deasserts an
 interrupt asserted from the other model (which will result in that the IRQ
 is lost and will not reach guest SW).
-Sink the call to gen_gvec_fn2i to the end, loading a function
+Signed-off-by: Francisco Iglesias <francisco.iglesias@xilinx.com>
-pointer within the switch statement.
+Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Luc Michel <luc@lmichel.fr>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Message-id: 20220203151742.1457-1-francisco.iglesias@xilinx.com
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20200513163245.17915-6-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/translate-a64.c | 56 ++++++++++----------------------------
+ include/hw/arm/xlnx-zynqmp.h |  2 ++
-file changed, 14 insertions(+), 42 deletions(-)
+ hw/arm/xlnx-zynqmp.c         | 14 ++++++++++++--
 files changed, 14 insertions(+), 2 deletions(-)
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+diff --git a/include/hw/arm/xlnx-zynqmp.h b/include/hw/arm/xlnx-zynqmp.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
+--- a/include/hw/arm/xlnx-zynqmp.h
-+++ b/target/arm/translate-a64.c
++++ b/include/hw/arm/xlnx-zynqmp.h
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
+@@ -XXX,XX +XXX,XX @@
-     int size = 32 - clz32(immh) - 1;
+ #include "hw/dma/xlnx_csu_dma.h"
-     int immhb = immh << 3 | immb;
+ #include "hw/nvram/xlnx-bbram.h"
-     int shift = 2 * (8 << size) - immhb;
+ #include "hw/nvram/xlnx-zynqmp-efuse.h"
--    bool accumulate = false;
++#include "hw/or-irq.h"
--    int dsize = is_q ? 128 : 64;
--    int esize = 8 << size;
+ #define TYPE_XLNX_ZYNQMP "xlnx-zynqmp"
--    int elements = dsize/esize;
+ OBJECT_DECLARE_SIMPLE_TYPE(XlnxZynqMPState, XLNX_ZYNQMP)
--    MemOp memop = size | (is_u ? 0 : MO_SIGN);
+@@ -XXX,XX +XXX,XX @@ struct XlnxZynqMPState {
--    TCGv_i64 tcg_rn = new_tmp_a64(s);
+     XlnxZDMA gdma[XLNX_ZYNQMP_NUM_GDMA_CH];
--    TCGv_i64 tcg_rd = new_tmp_a64(s);
+     XlnxZDMA adma[XLNX_ZYNQMP_NUM_ADMA_CH];
--    TCGv_i64 tcg_round;
+     XlnxCSUDMA qspi_dma;
--    uint64_t round_const;
++    qemu_or_irq qspi_irq_orgate;
--    int i;
-+    GVecGen2iFn *gvec_fn;
+     char *boot_cpu;
+     ARMCPU *boot_cpu_ptr;
-     if (extract32(immh, 3, 1) && !is_q) {
+diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
-         unallocated_encoding(s);
+index XXXXXXX..XXXXXXX 100644
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
+--- a/hw/arm/xlnx-zynqmp.c
++++ b/hw/arm/xlnx-zynqmp.c
-     switch (opcode) {
+@@ -XXX,XX +XXX,XX @@
-     case 0x02: /* SSRA / USRA (accumulate) */
+ #define LQSPI_ADDR          0xc0000000
--        gen_gvec_fn2i(s, is_q, rd, rn, shift,
+ #define QSPI_IRQ            15
--                      is_u ? gen_gvec_usra : gen_gvec_ssra, size);
+ #define QSPI_DMA_ADDR       0xff0f0800
--        return;
++#define NUM_QSPI_IRQ_LINES  2
-+        gvec_fn = is_u ? gen_gvec_usra : gen_gvec_ssra;
-+        break;
+ #define DP_ADDR             0xfd4a0000
+ #define DP_IRQ              113
-     case 0x08: /* SRI */
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_init(Object *obj)
 -        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sri, size);
 -        return;
 +        gvec_fn = gen_gvec_sri;
 +        break;
      case 0x00: /* SSHR / USHR */
          if (is_u) {
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
                  /* Shift count the same size as element size produces zero.  */
                  tcg_gen_gvec_dup_imm(size, vec_full_reg_offset(s, rd),
                                       is_q ? 16 : 8, vec_full_reg_size(s), 0);
 -            } else {
 -                gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shri, size);
 +                return;
              }
 +            gvec_fn = tcg_gen_gvec_shri;
          } else {
              /* Shift count the same size as element size produces all sign.  */
              if (shift == 8 << size) {
                  shift -= 1;
              }
 -            gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_sari, size);
 +            gvec_fn = tcg_gen_gvec_sari;
          }
 -        return;
 +        break;
      case 0x04: /* SRSHR / URSHR (rounding) */
 -        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 -                      is_u ? gen_gvec_urshr : gen_gvec_srshr, size);
 -        return;
 +        gvec_fn = is_u ? gen_gvec_urshr : gen_gvec_srshr;
 +        break;
      case 0x06: /* SRSRA / URSRA (accum + rounding) */
 -        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 -                      is_u ? gen_gvec_ursra : gen_gvec_srsra, size);
 -        return;
 +        gvec_fn = is_u ? gen_gvec_ursra : gen_gvec_srsra;
 +        break;
      default:
          g_assert_not_reached();
      }
--    round_const = 1ULL << (shift - 1);
+     object_initialize_child(obj, "qspi-dma", &s->qspi_dma, TYPE_XLNX_CSU_DMA);
--    tcg_round = tcg_const_i64(round_const);
++    object_initialize_child(obj, "qspi-irq-orgate",
--
++                            &s->qspi_irq_orgate, TYPE_OR_IRQ);
 -    for (i = 0; i < elements; i++) {
 -        read_vec_element(s, tcg_rn, rn, i, memop);
 -        if (accumulate) {
 -            read_vec_element(s, tcg_rd, rd, i, memop);
 -        }
 -
 -        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
 -                                accumulate, is_u, size, shift);
 -
 -        write_vec_element(s, tcg_rd, rd, i, size);
 -    }
 -    tcg_temp_free_i64(tcg_round);
 -
 -    clear_vec_high(s, is_q, rd);
 +    gen_gvec_fn2i(s, is_q, rd, rn, shift, gvec_fn, size);
  }
- /* SHL/SLI - Vector shift left */
+ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
                             gic_spi[adma_ch_intr[i]]);
      }
 +    object_property_set_int(OBJECT(&s->qspi_irq_orgate),
 +                            "num-lines", NUM_QSPI_IRQ_LINES, &error_fatal);
 +    qdev_realize(DEVICE(&s->qspi_irq_orgate), NULL, &error_fatal);
 +    qdev_connect_gpio_out(DEVICE(&s->qspi_irq_orgate), 0, gic_spi[QSPI_IRQ]);
 +
      if (!object_property_set_link(OBJECT(&s->qspi_dma), "dma",
                                    OBJECT(system_memory), errp)) {
          return;
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
      }
      sysbus_mmio_map(SYS_BUS_DEVICE(&s->qspi_dma), 0, QSPI_DMA_ADDR);
 -    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi_dma), 0, gic_spi[QSPI_IRQ]);
 +    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi_dma), 0,
 +                       qdev_get_gpio_in(DEVICE(&s->qspi_irq_orgate), 0));
      if (!object_property_set_link(OBJECT(&s->qspi), "stream-connected-dma",
                                    OBJECT(&s->qspi_dma), errp)) {
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
      }
      sysbus_mmio_map(SYS_BUS_DEVICE(&s->qspi), 0, QSPI_ADDR);
      sysbus_mmio_map(SYS_BUS_DEVICE(&s->qspi), 1, LQSPI_ADDR);
 -    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi), 0, gic_spi[QSPI_IRQ]);
 +    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi), 0,
 +                       qdev_get_gpio_in(DEVICE(&s->qspi_irq_orgate), 1));
      for (i = 0; i < XLNX_ZYNQMP_NUM_QSPI_BUS; i++) {
          g_autofree gchar *bus_name = g_strdup_printf("qspi%d", i);
 --
-.20.1
+.25.1

-[PULL 11/45] target/arm: Create gen_gvec_{uqadd, sqadd, uqsub, sqsub}
+[PULL 06/39] target/arm: make psci-conduit settable after realize
-From: Richard Henderson <richard.henderson@linaro.org>
+We want to allow the psci-conduit property to be set after realize,
 because the parts of the code which are best placed to decide if it's
 OK to enable QEMU's builtin PSCI emulation (the board code and the
 arm_load_kernel() function are distant from the code which creates
 and realizes CPUs (typically inside an SoC object's init and realize
 method) and run afterwards.
-Provide a functional interface for the vector expansion.
+Since the DEFINE_PROP_* macros don't have support for creating
-This fits better with the existing set of helpers that
+properties which can be changed after realize, change the property to
-we provide for other operations.
+be created with object_property_add_uint32_ptr(), which is what we
 already use in this function for creating settable-after-realize
 properties like init-svtor and init-nsvtor.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Note that it doesn't conceptually make sense to change the setting of
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+the property after the machine has been completely initialized,
-Message-id: 20200513163245.17915-11-richard.henderson@linaro.org
+beacuse this would mean that the behaviour of the machine when first
 started would differ from its behaviour when the system is
 subsequently reset.  (It would also require the underlying state to
 be migrated, which we don't do.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Tested-by: Cédric Le Goater <clg@kaod.org>
+Message-id: 20220127154639.2090164-2-peter.maydell@linaro.org
 ---
- target/arm/translate.h          |  13 +-
+ target/arm/cpu.c | 6 +++++-
- target/arm/translate-a64.c      |  22 ++-
+file changed, 5 insertions(+), 1 deletion(-)
  target/arm/translate-neon.inc.c |  19 +--
  target/arm/translate.c          | 228 +++++++++++++++++---------------
 files changed, 147 insertions(+), 135 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/target/arm/cpu.c b/target/arm/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/target/arm/cpu.c
-+++ b/target/arm/translate.h
++++ b/target/arm/cpu.c
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+@@ -XXX,XX +XXX,XX @@ void arm_cpu_post_init(Object *obj)
- void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                                        OBJ_PROP_FLAG_READWRITE);
-                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+     }
--extern const GVecGen4 uqadd_op[4];
++    /* Not DEFINE_PROP_UINT32: we want this to be settable after realize */
--extern const GVecGen4 sqadd_op[4];
++    object_property_add_uint32_ptr(obj, "psci-conduit",
--extern const GVecGen4 uqsub_op[4];
++                                   &cpu->psci_conduit,
--extern const GVecGen4 sqsub_op[4];
++                                   OBJ_PROP_FLAG_READWRITE);
  void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
  void gen_ushl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  void gen_sshl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  void gen_ushl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
  void gen_sshl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 +void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 +
- void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+     qdev_property_add_static(DEVICE(obj), &arm_cpu_cfgend_property);
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
- void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+     if (arm_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER)) {
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static ObjectClass *arm_cpu_class_by_name(const char *cpu_model)
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
      switch (opcode) {
      case 0x01: /* SQADD, UQADD */
 -        tcg_gen_gvec_4(vec_full_reg_offset(s, rd),
 -                       offsetof(CPUARMState, vfp.qc),
 -                       vec_full_reg_offset(s, rn),
 -                       vec_full_reg_offset(s, rm),
 -                       is_q ? 16 : 8, vec_full_reg_size(s),
 -                       (u ? uqadd_op : sqadd_op) + size);
 +        if (u) {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqadd_qc, size);
 +        } else {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqadd_qc, size);
 +        }
          return;
      case 0x05: /* SQSUB, UQSUB */
 -        tcg_gen_gvec_4(vec_full_reg_offset(s, rd),
 -                       offsetof(CPUARMState, vfp.qc),
 -                       vec_full_reg_offset(s, rn),
 -                       vec_full_reg_offset(s, rm),
 -                       is_q ? 16 : 8, vec_full_reg_size(s),
 -                       (u ? uqsub_op : sqsub_op) + size);
 +        if (u) {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqsub_qc, size);
 +        } else {
 +            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqsub_qc, size);
 +        }
          return;
      case 0x08: /* SSHL, USHL */
          if (u) {
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME(VORN, tcg_gen_gvec_orc)
  DO_3SAME(VEOR, tcg_gen_gvec_xor)
  DO_3SAME(VSHL_S, gen_gvec_sshl)
  DO_3SAME(VSHL_U, gen_gvec_ushl)
 +DO_3SAME(VQADD_S, gen_gvec_sqadd_qc)
 +DO_3SAME(VQADD_U, gen_gvec_uqadd_qc)
 +DO_3SAME(VQSUB_S, gen_gvec_sqsub_qc)
 +DO_3SAME(VQSUB_U, gen_gvec_uqsub_qc)
  /* These insns are all gvec_bitsel but with the inputs in various orders. */
  #define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
  DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
  DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
 -#define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
 -    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
 -                                uint32_t rn_ofs, uint32_t rm_ofs,       \
 -                                uint32_t oprsz, uint32_t maxsz)         \
 -    {                                                                   \
 -        tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),           \
 -                       rn_ofs, rm_ofs, oprsz, maxsz, &OPARRAY[vece]);   \
 -    }                                                                   \
 -    DO_3SAME(INSN, gen_##INSN##_3s)
 -
 -DO_3SAME_GVEC4(VQADD_S, sqadd_op)
 -DO_3SAME_GVEC4(VQADD_U, uqadd_op)
 -DO_3SAME_GVEC4(VQSUB_S, sqsub_op)
 -DO_3SAME_GVEC4(VQSUB_U, uqsub_op)
 -
  static void gen_VMUL_p_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                             uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
  {
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
      tcg_temp_free_vec(x);
  }
--static const TCGOpcode vecop_list_uqadd[] = {
+ static Property arm_cpu_properties[] = {
--    INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+-    DEFINE_PROP_UINT32("psci-conduit", ARMCPU, psci_conduit, 0),
--};
+     DEFINE_PROP_UINT64("midr", ARMCPU, midr, 0),
--
+     DEFINE_PROP_UINT64("mp-affinity", ARMCPU,
--const GVecGen4 uqadd_op[4] = {
+                         mp_affinity, ARM64_AFFINITY_INVALID),
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_b,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_8 },
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_h,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_16 },
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_s,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_32 },
 -    { .fniv = gen_uqadd_vec,
 -      .fno = gen_helper_gvec_uqadd_d,
 -      .write_aofs = true,
 -      .opt_opc = vecop_list_uqadd,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_b,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_h,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_s,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fniv = gen_uqadd_vec,
 +          .fno = gen_helper_gvec_uqadd_d,
 +          .write_aofs = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                            TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
      tcg_temp_free_vec(x);
  }
 -static const TCGOpcode vecop_list_sqadd[] = {
 -    INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 -};
 -
 -const GVecGen4 sqadd_op[4] = {
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_b,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_8 },
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_h,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_16 },
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_s,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_32 },
 -    { .fniv = gen_sqadd_vec,
 -      .fno = gen_helper_gvec_sqadd_d,
 -      .opt_opc = vecop_list_sqadd,
 -      .write_aofs = true,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqadd_vec,
 +          .fno = gen_helper_gvec_sqadd_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                            TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
      tcg_temp_free_vec(x);
  }
 -static const TCGOpcode vecop_list_uqsub[] = {
 -    INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -};
 -
 -const GVecGen4 uqsub_op[4] = {
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_b,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_8 },
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_h,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_16 },
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_s,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_32 },
 -    { .fniv = gen_uqsub_vec,
 -      .fno = gen_helper_gvec_uqsub_d,
 -      .opt_opc = vecop_list_uqsub,
 -      .write_aofs = true,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_uqsub_vec,
 +          .fno = gen_helper_gvec_uqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                            TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
      tcg_temp_free_vec(x);
  }
 -static const TCGOpcode vecop_list_sqsub[] = {
 -    INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 -};
 -
 -const GVecGen4 sqsub_op[4] = {
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_b,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_8 },
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_h,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_16 },
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_s,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_32 },
 -    { .fniv = gen_sqsub_vec,
 -      .fno = gen_helper_gvec_sqsub_d,
 -      .opt_opc = vecop_list_sqsub,
 -      .write_aofs = true,
 -      .vece = MO_64 },
 -};
 +void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 +                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
 +    };
 +    static const GVecGen4 ops[4] = {
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_b,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_8 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_h,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_16 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_s,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_32 },
 +        { .fniv = gen_sqsub_vec,
 +          .fno = gen_helper_gvec_sqsub_d,
 +          .opt_opc = vecop_list,
 +          .write_aofs = true,
 +          .vece = MO_64 },
 +    };
 +    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
 +                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 +}
  /* Translate a NEON data processing instruction.  Return nonzero if the
     instruction is invalid.
 --
-.20.1
+.25.1

-[PULL 45/45] target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree
+[PULL 07/39] cpu.c: Make start-powered-off settable after realize
-Convert the Neon floating point VFMA and VFMS insn to decodetree.
+The CPU object's start-powered-off property is currently only
-These are the last insns in the 3-reg-same group so we can
+settable before the CPU object is realized.  For arm machines this is
-remove all the support/loop code from the old decoder.
+awkward, because we would like to decide whether the CPU should be
 powered-off based on how we are booting the guest code, which is
 something done in the machine model code and in common code called by
 the machine model, which runs much later and in completely different
 parts of the codebase from the SoC object code that is responsible
 for creating and realizing the CPU objects.
 Allow start-powered-off to be set after realize.  Since this isn't
 something that's supported by the DEFINE_PROP_* macros, we have to
 switch the property definition to use the
 object_class_property_add_bool() function.
 Note that it doesn't conceptually make sense to change the setting of
 the property after the machine has been completely initialized,
 beacuse this would mean that the behaviour of the machine when first
 started would differ from its behaviour when the system is
 subsequently reset.  (It would also require the underlying state to
 be migrated, which we don't do.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-18-peter.maydell@linaro.org
+Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Message-id: 20220127154639.2090164-3-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |   3 +
+ cpu.c | 22 +++++++++++++++++++++-
- target/arm/translate-neon.inc.c |  41 ++++++++
+file changed, 21 insertions(+), 1 deletion(-)
  target/arm/translate.c          | 176 +-------------------------------
 files changed, 46 insertions(+), 174 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/cpu.c b/cpu.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/cpu.c
-+++ b/target/arm/neon-dp.decode
++++ b/cpu.c
-@@ -XXX,XX +XXX,XX @@ SHA256H2_3s      1111 001 1 0 . 01 .... .... 1100 . 1 . 0 .... \
+@@ -XXX,XX +XXX,XX @@ static Property cpu_common_props[] = {
- SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
+     DEFINE_PROP_LINK("memory", CPUState, memory, TYPE_MEMORY_REGION,
-                  vm=%vm_dp vn=%vn_dp vd=%vd_dp
+                      MemoryRegion *),
+ #endif
-+VFMA_fp_3s       1111 001 0 0 . 0 . .... .... 1100 ... 1 .... @3same_fp
+-    DEFINE_PROP_BOOL("start-powered-off", CPUState, start_powered_off, false),
-+VFMS_fp_3s       1111 001 0 0 . 1 . .... .... 1100 ... 1 .... @3same_fp
+     DEFINE_PROP_END_OF_LIST(),
-+
+ };
- VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
++static bool cpu_get_start_powered_off(Object *obj, Error **errp)
  VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
      return do_3same(s, a, gen_VRSQRTS_fp_3s);
  }
 +static void gen_VFMA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
 +                            TCGv_ptr fpstatus)
 +{
-+    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
++    CPUState *cpu = CPU(obj);
 +    return cpu->start_powered_off;
 +}
 +
-+static bool trans_VFMA_fp_3s(DisasContext *s, arg_3same *a)
++static void cpu_set_start_powered_off(Object *obj, bool value, Error **errp)
 +{
-+    if (!dc_isar_feature(aa32_simdfmac, s)) {
++    CPUState *cpu = CPU(obj);
-+        return false;
++    cpu->start_powered_off = value;
 +    }
 +
 +    if (a->size != 0) {
 +        /* TODO fp16 support */
 +        return false;
 +    }
 +
 +    return do_3same_fp(s, a, gen_VFMA_fp_3s, true);
 +}
 +
-+static void gen_VFMS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
+ void cpu_class_init_props(DeviceClass *dc)
-+                            TCGv_ptr fpstatus)
+ {
-+{
++    ObjectClass *oc = OBJECT_CLASS(dc);
 +    gen_helper_vfp_negs(vn, vn);
 +    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
 +}
 +
-+static bool trans_VFMS_fp_3s(DisasContext *s, arg_3same *a)
+     device_class_set_props(dc, cpu_common_props);
-+{
++    /*
-+    if (!dc_isar_feature(aa32_simdfmac, s)) {
++     * We can't use DEFINE_PROP_BOOL in the Property array for this
-+        return false;
++     * property, because we want this to be settable after realize.
-+    }
++     */
-+
++    object_class_property_add_bool(oc, "start-powered-off",
-+    if (a->size != 0) {
++                                   cpu_get_start_powered_off,
-+        /* TODO fp16 support */
++                                   cpu_set_start_powered_off);
 +        return false;
 +    }
 +
 +    return do_3same_fp(s, a, gen_VFMS_fp_3s, true);
 +}
 +
  static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
  {
      /* FP operations handled pairwise 32 bits at a time */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_neon_narrow_op(int op, int u, int size,
      }
  }
--/* Symbolic constants for op fields for Neon 3-register same-length.
+ void cpu_exec_initfn(CPUState *cpu)
 - * The values correspond to bits [11:8,4]; see the ARM ARM DDI0406B
 - * table A7-9.
 - */
 -#define NEON_3R_VHADD 0
 -#define NEON_3R_VQADD 1
 -#define NEON_3R_VRHADD 2
 -#define NEON_3R_LOGIC 3 /* VAND,VBIC,VORR,VMOV,VORN,VEOR,VBIF,VBIT,VBSL */
 -#define NEON_3R_VHSUB 4
 -#define NEON_3R_VQSUB 5
 -#define NEON_3R_VCGT 6
 -#define NEON_3R_VCGE 7
 -#define NEON_3R_VSHL 8
 -#define NEON_3R_VQSHL 9
 -#define NEON_3R_VRSHL 10
 -#define NEON_3R_VQRSHL 11
 -#define NEON_3R_VMAX 12
 -#define NEON_3R_VMIN 13
 -#define NEON_3R_VABD 14
 -#define NEON_3R_VABA 15
 -#define NEON_3R_VADD_VSUB 16
 -#define NEON_3R_VTST_VCEQ 17
 -#define NEON_3R_VML 18 /* VMLA, VMLS */
 -#define NEON_3R_VMUL 19
 -#define NEON_3R_VPMAX 20
 -#define NEON_3R_VPMIN 21
 -#define NEON_3R_VQDMULH_VQRDMULH 22
 -#define NEON_3R_VPADD_VQRDMLAH 23
 -#define NEON_3R_SHA 24 /* SHA1C,SHA1P,SHA1M,SHA1SU0,SHA256H{2},SHA256SU1 */
 -#define NEON_3R_VFM_VQRDMLSH 25 /* VFMA, VFMS, VQRDMLSH */
 -#define NEON_3R_FLOAT_ARITH 26 /* float VADD, VSUB, VPADD, VABD */
 -#define NEON_3R_FLOAT_MULTIPLY 27 /* float VMLA, VMLS, VMUL */
 -#define NEON_3R_FLOAT_CMP 28 /* float VCEQ, VCGE, VCGT */
 -#define NEON_3R_FLOAT_ACMP 29 /* float VACGE, VACGT, VACLE, VACLT */
 -#define NEON_3R_FLOAT_MINMAX 30 /* float VMIN, VMAX */
 -#define NEON_3R_FLOAT_MISC 31 /* float VRECPS, VRSQRTS, VMAXNM/MINNM */
 -
 -static const uint8_t neon_3r_sizes[] = {
 -    [NEON_3R_VHADD] = 0x7,
 -    [NEON_3R_VQADD] = 0xf,
 -    [NEON_3R_VRHADD] = 0x7,
 -    [NEON_3R_LOGIC] = 0xf, /* size field encodes op type */
 -    [NEON_3R_VHSUB] = 0x7,
 -    [NEON_3R_VQSUB] = 0xf,
 -    [NEON_3R_VCGT] = 0x7,
 -    [NEON_3R_VCGE] = 0x7,
 -    [NEON_3R_VSHL] = 0xf,
 -    [NEON_3R_VQSHL] = 0xf,
 -    [NEON_3R_VRSHL] = 0xf,
 -    [NEON_3R_VQRSHL] = 0xf,
 -    [NEON_3R_VMAX] = 0x7,
 -    [NEON_3R_VMIN] = 0x7,
 -    [NEON_3R_VABD] = 0x7,
 -    [NEON_3R_VABA] = 0x7,
 -    [NEON_3R_VADD_VSUB] = 0xf,
 -    [NEON_3R_VTST_VCEQ] = 0x7,
 -    [NEON_3R_VML] = 0x7,
 -    [NEON_3R_VMUL] = 0x7,
 -    [NEON_3R_VPMAX] = 0x7,
 -    [NEON_3R_VPMIN] = 0x7,
 -    [NEON_3R_VQDMULH_VQRDMULH] = 0x6,
 -    [NEON_3R_VPADD_VQRDMLAH] = 0x7,
 -    [NEON_3R_SHA] = 0xf, /* size field encodes op type */
 -    [NEON_3R_VFM_VQRDMLSH] = 0x7, /* For VFM, size bit 1 encodes op */
 -    [NEON_3R_FLOAT_ARITH] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_MULTIPLY] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_CMP] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_ACMP] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_MINMAX] = 0x5, /* size bit 1 encodes op */
 -    [NEON_3R_FLOAT_MISC] = 0x5, /* size bit 1 encodes op */
 -};
 -
  /* Symbolic constants for op fields for Neon 2-register miscellaneous.
   * The values correspond to bits [17:16,10:7]; see the ARM ARM DDI0406B
   * table A7-13.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      rm_ofs = neon_reg_offset(rm, 0);
      if ((insn & (1 << 23)) == 0) {
 -        /* Three register same length.  */
 -        op = ((insn >> 7) & 0x1e) | ((insn >> 4) & 1);
 -        /* Catch invalid op and bad size combinations: UNDEF */
 -        if ((neon_3r_sizes[op] & (1 << size)) == 0) {
 -            return 1;
 -        }
 -        /* All insns of this form UNDEF for either this condition or the
 -         * superset of cases "Q==1"; we catch the latter later.
 -         */
 -        if (q && ((rd | rn | rm) & 1)) {
 -            return 1;
 -        }
 -        switch (op) {
 -        case NEON_3R_VFM_VQRDMLSH:
 -            if (!u) {
 -                /* VFM, VFMS */
 -                if (size == 1) {
 -                    return 1;
 -                }
 -                break;
 -            }
 -            /* VQRDMLSH : handled by decodetree */
 -            return 1;
 -
 -        case NEON_3R_VADD_VSUB:
 -        case NEON_3R_LOGIC:
 -        case NEON_3R_VMAX:
 -        case NEON_3R_VMIN:
 -        case NEON_3R_VTST_VCEQ:
 -        case NEON_3R_VCGT:
 -        case NEON_3R_VCGE:
 -        case NEON_3R_VQADD:
 -        case NEON_3R_VQSUB:
 -        case NEON_3R_VMUL:
 -        case NEON_3R_VML:
 -        case NEON_3R_VSHL:
 -        case NEON_3R_SHA:
 -        case NEON_3R_VHADD:
 -        case NEON_3R_VRHADD:
 -        case NEON_3R_VHSUB:
 -        case NEON_3R_VABD:
 -        case NEON_3R_VABA:
 -        case NEON_3R_VQSHL:
 -        case NEON_3R_VRSHL:
 -        case NEON_3R_VQRSHL:
 -        case NEON_3R_VPMAX:
 -        case NEON_3R_VPMIN:
 -        case NEON_3R_VPADD_VQRDMLAH:
 -        case NEON_3R_VQDMULH_VQRDMULH:
 -        case NEON_3R_FLOAT_ARITH:
 -        case NEON_3R_FLOAT_MULTIPLY:
 -        case NEON_3R_FLOAT_CMP:
 -        case NEON_3R_FLOAT_ACMP:
 -        case NEON_3R_FLOAT_MINMAX:
 -        case NEON_3R_FLOAT_MISC:
 -            /* Already handled by decodetree */
 -            return 1;
 -        }
 -
 -        if (size == 3) {
 -            /* 64-bit element instructions: handled by decodetree */
 -            return 1;
 -        }
 -        switch (op) {
 -        case NEON_3R_VFM_VQRDMLSH:
 -            if (!dc_isar_feature(aa32_simdfmac, s)) {
 -                return 1;
 -            }
 -            break;
 -        default:
 -            break;
 -        }
 -
 -        for (pass = 0; pass < (q ? 4 : 2); pass++) {
 -
 -        /* Elementwise.  */
 -        tmp = neon_load_reg(rn, pass);
 -        tmp2 = neon_load_reg(rm, pass);
 -        switch (op) {
 -        case NEON_3R_VFM_VQRDMLSH:
 -        {
 -            /* VFMA, VFMS: fused multiply-add */
 -            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -            TCGv_i32 tmp3 = neon_load_reg(rd, pass);
 -            if (size) {
 -                /* VFMS */
 -                gen_helper_vfp_negs(tmp, tmp);
 -            }
 -            gen_helper_vfp_muladds(tmp, tmp, tmp2, tmp3, fpstatus);
 -            tcg_temp_free_i32(tmp3);
 -            tcg_temp_free_ptr(fpstatus);
 -            break;
 -        }
 -        default:
 -            abort();
 -        }
 -        tcg_temp_free_i32(tmp2);
 -
 -        neon_store_reg(rd, pass, tmp);
 -
 -        } /* for pass */
 -        /* End of 3 register same size operations.  */
 +        /* Three register same length: handled by decodetree */
 +        return 1;
      } else if (insn & (1 << 4)) {
          if ((insn & 0x00380080) != 0) {
              /* Two registers and shift.  */
 --
-.20.1
+.25.1

-[PULL 36/45] target/arm: Convert Neon VPMAX/VPMIN 3-reg-same insns to decodetree
+[PULL 08/39] hw/arm/boot: Support setting psci-conduit based on guest EL
-Convert the Neon integer VPMAX and VPMIN 3-reg-same insns to
+Currently we expect board code to set the psci-conduit property on
-decodetree. These are 'pairwise' operations.
+CPUs and ensure that secondary CPUs are created with the
 start-powered-off property set to false, if the board wishes to use
 QEMU's builtin PSCI emulation.  This worked OK for the virt board
 where we first wanted to use it, because the virt board directly
 creates its CPUs and is in a reasonable position to set those
 properties.  For other boards which model real hardware and use a
 separate SoC object, however, it is more awkward.  Most PSCI-using
 boards just set the psci-conduit board unconditionally.
 This was never strictly speaking correct (because you would not be
 able to run EL3 guest firmware that itself provided the PSCI
 interface, as the QEMU implementation would overrule it), but mostly
 worked in practice because for non-PSCI SMC calls QEMU would emulate
 the SMC instruction as normal (by trapping to guest EL3).  However,
 we would like to make our PSCI emulation follow the part of the SMCC
 specification that mandates that SMC calls with unknown function
 identifiers return a failure code, which means that all SMC calls
 will be handled by the PSCI code and the "emulate as normal" path
 will no longer be taken.
 We tried to implement that in commit 9fcd15b9193e81
 ("arm: tcg: Adhere to SMCCC 1.3 section 5.2"), but this
 regressed attempts to run EL3 guest code on the affected boards:
  * mcimx6ul-evk, mcimx7d-sabre, orangepi, xlnx-zcu102
  * for the case only of EL3 code loaded via -kernel (and
    not via -bios or -pflash), virt and xlnx-versal-virt
 so for the 7.0 release we reverted it (in commit 4825eaae4fdd56f).
 This commit provides a mechanism that boards can use to arrange that
 psci-conduit is set if running guest code at a low enough EL but not
 if it would be running at the same EL that the conduit implies that
 the QEMU PSCI implementation is using.  (Later commits will convert
 individual board models to use this mechanism.)
 We do this by moving the setting of the psci-conduit and
 start-powered-off properties to arm_load_kernel().  Boards which want
 to potentially use emulated PSCI must set a psci_conduit field in the
 arm_boot_info struct to the type of conduit they want to use (SMC or
 HVC); arm_load_kernel() will then set the CPUs up accordingly if it
 is not going to start the guest code at the same or higher EL as the
 fake QEMU firmware would be at.
 Board/SoC code which uses this mechanism should no longer set the CPU
 psci-conduit property directly.  It should only set the
 start-powered-off property for secondaries if EL3 guest firmware
 running bare metal expects that rather than the alternative "all CPUs
 start executing the firmware at once".
 Note that when calculating whether we are going to run guest
 code at EL3, we ignore the setting of arm_boot_info::secure_board_setup,
 which might cause us to run a stub bit of guest code at EL3 which
 does some board-specific setup before dropping to EL2 or EL1 to
 run the guest kernel. This is OK because only one board that
 enables PSCI sets secure_board_setup (the highbank board), and
 the stub code it writes will behave the same way whether the
 one SMC call it makes is handled by "emulate the SMC" or by
 "PSCI default returns an error code". So we can leave that stub
 code in place until after we've changed the PSCI default behaviour;
 at that point we will remove it.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-9-peter.maydell@linaro.org
+Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Message-id: 20220127154639.2090164-4-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  9 +++++
+ include/hw/arm/boot.h | 10 +++++++++
- target/arm/translate-neon.inc.c | 71 +++++++++++++++++++++++++++++++++
+ hw/arm/boot.c         | 50 +++++++++++++++++++++++++++++++++++++++++++
- target/arm/translate.c          | 17 +-------
+files changed, 60 insertions(+)
 files changed, 82 insertions(+), 15 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/include/hw/arm/boot.h b/include/hw/arm/boot.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/include/hw/arm/boot.h
-+++ b/target/arm/neon-dp.decode
++++ b/include/hw/arm/boot.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ struct arm_boot_info {
- @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
+      * the user it should implement this hook.
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
+      */
+     void (*modify_dtb)(const struct arm_boot_info *info, void *fdt);
-+@3same_q0        .... ... . . . size:2 .... .... .... . 0 . . .... \
++    /*
-+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
++     * If a board wants to use the QEMU emulated-firmware PSCI support,
 +     * it should set this to QEMU_PSCI_CONDUIT_HVC or QEMU_PSCI_CONDUIT_SMC
 +     * as appropriate. arm_load_kernel() will set the psci-conduit and
 +     * start-powered-off properties on the CPUs accordingly.
 +     * Note that if the guest image is started at the same exception level
 +     * as the conduit specifies calls should go to (eg guest firmware booted
 +     * to EL3) then PSCI will not be enabled.
 +     */
 +    int psci_conduit;
      /* Used internally by arm_boot.c */
      int is_linux;
      hwaddr initrd_start;
 diff --git a/hw/arm/boot.c b/hw/arm/boot.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/boot.c
 +++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
  {
      CPUState *cs;
      AddressSpace *as = arm_boot_address_space(cpu, info);
 +    int boot_el;
 +    CPUARMState *env = &cpu->env;
      /*
       * CPU objects (unlike devices) are not automatically reset on system
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
          arm_setup_direct_kernel_boot(cpu, info);
      }
 +    /*
 +     * Disable the PSCI conduit if it is set up to target the same
 +     * or a lower EL than the one we're going to start the guest code in.
 +     * This logic needs to agree with the code in do_cpu_reset() which
 +     * decides whether we're going to boot the guest in the highest
 +     * supported exception level or in a lower one.
 +     */
 +
- VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
++    /* Boot into highest supported EL ... */
- VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
++    if (arm_feature(env, ARM_FEATURE_EL3)) {
- VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
++        boot_el = 3;
-@@ -XXX,XX +XXX,XX @@ VMLS_3s          1111 001 1 0 . .. .... .... 1001 . . . 0 .... @3same
++    } else if (arm_feature(env, ARM_FEATURE_EL2)) {
- VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
++        boot_el = 2;
- VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
++    } else {
++        boot_el = 1;
-+VPMAX_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 0 .... @3same_q0
++    }
-+VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
++    /* ...except that if we're booting Linux we adjust the EL we boot into */
-+
++    if (info->is_linux && !info->secure_boot) {
-+VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
++        boot_el = arm_feature(env, ARM_FEATURE_EL2) ? 2 : 1;
 +VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
 +
  VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
  SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_S, qshl_s)
  DO_3SAME_32_ENV(VQSHL_U, qshl_u)
  DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
  DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
 +
 +static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
 +{
 +    /* Operations handled pairwise 32 bits at a time */
 +    TCGv_i32 tmp, tmp2, tmp3;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return false;
 +    }
 +
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
++    if ((info->psci_conduit == QEMU_PSCI_CONDUIT_HVC && boot_el >= 2) ||
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
++        (info->psci_conduit == QEMU_PSCI_CONDUIT_SMC && boot_el == 3)) {
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
++        info->psci_conduit = QEMU_PSCI_CONDUIT_DISABLED;
 +        return false;
 +    }
 +
-+    if (a->size == 3) {
++    if (info->psci_conduit != QEMU_PSCI_CONDUIT_DISABLED) {
-+        return false;
++        for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
 +            Object *cpuobj = OBJECT(cs);
 +
 +            object_property_set_int(cpuobj, "psci-conduit", info->psci_conduit,
 +                                    &error_abort);
 +            /*
 +             * Secondary CPUs start in PSCI powered-down state. Like the
 +             * code in do_cpu_reset(), we assume first_cpu is the primary
 +             * CPU.
 +             */
 +            if (cs != first_cpu) {
 +                object_property_set_bool(cpuobj, "start-powered-off", true,
 +                                         &error_abort);
 +            }
 +        }
 +    }
 +
-+    if (!vfp_access_check(s)) {
-+        return true;
-+    }
-+
-+    assert(a->q == 0); /* enforced by decode patterns */
-+
 +    /*
-+     * Note that we have to be careful not to clobber the source operands
++     * arm_load_dtb() may add a PSCI node so it must be called after we have
-+     * in the "vm == vd" case by storing the result of the first pass too
++     * decided whether to enable PSCI and set the psci-conduit CPU properties.
 +     * early. Since Q is 0 there are always just two passes, so instead
 +     * of a complicated loop over each pass we just unroll.
 +     */
-+    tmp = neon_load_reg(a->vn, 0);
+     if (!info->skip_dtb_autoload && have_dtb(info)) {
-+    tmp2 = neon_load_reg(a->vn, 1);
+         if (arm_load_dtb(info->dtb_start, info, info->dtb_limit, as, ms) < 0) {
-+    fn(tmp, tmp, tmp2);
+             exit(1);
 +    tcg_temp_free_i32(tmp2);
 +
 +    tmp3 = neon_load_reg(a->vm, 0);
 +    tmp2 = neon_load_reg(a->vm, 1);
 +    fn(tmp3, tmp3, tmp2);
 +    tcg_temp_free_i32(tmp2);
 +
 +    neon_store_reg(a->vd, 0, tmp);
 +    neon_store_reg(a->vd, 1, tmp3);
 +    return true;
 +}
 +
 +#define DO_3SAME_PAIR(INSN, func)                                       \
 +    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
 +    {                                                                   \
 +        static NeonGenTwoOpFn * const fns[] = {                         \
 +            gen_helper_neon_##func##8,                                  \
 +            gen_helper_neon_##func##16,                                 \
 +            gen_helper_neon_##func##32,                                 \
 +        };                                                              \
 +        if (a->size > 2) {                                              \
 +            return false;                                               \
 +        }                                                               \
 +        return do_3same_pair(s, a, fns[a->size]);                       \
 +    }
 +
 +/* 32-bit pairwise ops end up the same as the elementwise versions.  */
 +#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
 +#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 +#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 +#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 +
 +DO_3SAME_PAIR(VPMAX_S, pmax_s)
 +DO_3SAME_PAIR(VPMIN_S, pmin_s)
 +DO_3SAME_PAIR(VPMAX_U, pmax_u)
 +DO_3SAME_PAIR(VPMIN_U, pmin_u)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void gen_neon_rsb(int size, TCGv_i32 t0, TCGv_i32 t1)
      }
  }
 -/* 32-bit pairwise ops end up the same as the elementwise versions.  */
 -#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
 -#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 -#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 -#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
 -
  #define GEN_NEON_INTEGER_OP_ENV(name) do { \
      switch ((size << 1) | u) { \
      case 0: \
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VQSHL:
          case NEON_3R_VRSHL:
          case NEON_3R_VQRSHL:
 +        case NEON_3R_VPMAX:
 +        case NEON_3R_VPMIN:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          pairwise = 0;
          switch (op) {
          case NEON_3R_VPADD_VQRDMLAH:
 -        case NEON_3R_VPMAX:
 -        case NEON_3R_VPMIN:
              pairwise = 1;
              break;
          case NEON_3R_FLOAT_ARITH:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tmp2 = neon_load_reg(rm, pass);
          }
          switch (op) {
 -            break;
 -        case NEON_3R_VPMAX:
 -            GEN_NEON_INTEGER_OP(pmax);
 -            break;
 -        case NEON_3R_VPMIN:
 -            GEN_NEON_INTEGER_OP(pmin);
 -            break;
          case NEON_3R_VQDMULH_VQRDMULH: /* Multiply high.  */
              if (!u) { /* VQDMULH */
                  switch (size) {
 --
-.20.1
+.25.1

-[PULL 38/45] target/arm: Convert Neon VQDMULH/VQRDMULH 3-reg-same to decodetree
+[PULL 09/39] hw/arm: imx: Don't enable PSCI conduit when booting guest in EL3
-Convert the Neon VQDMULH and VQRDMULH 3-reg-same insns to
+Change the iMX-SoC based boards to use the new boot.c functionality
-decodetree. These are the last integer operations in the
+to allow us to enable psci-conduit only if the guest is being booted
--reg-same group.
+in EL1 or EL2, so that if the user runs guest EL3 firmware code our
 PSCI emulation doesn't get in its way.
 To do this we stop setting the psci-conduit property on the CPU
 objects in the SoC code, and instead set the psci_conduit field in
 the arm_boot_info struct to tell the common boot loader code that
 we'd like PSCI if the guest is starting at an EL that it makes
 sense with.
 This affects the mcimx6ul-evk and mcimx7d-sabre boards.
 Note that for the mcimx7d board, this means that when running guest
 code at EL3 there is currently no way to power on the secondary CPUs,
 because we do not currently have a model of the system reset
 controller module which should be used to do that for the imx7 SoC,
 only for the imx6 SoC.  (Previously EL3 code which knew it was
 running on QEMU could use a PSCI call to do this.) This doesn't
 affect the imx6ul-evk board because it is uniprocessor.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-11-peter.maydell@linaro.org
+Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Acked-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220127154639.2090164-5-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  3 +++
+ hw/arm/fsl-imx6ul.c    | 2 --
- target/arm/translate-neon.inc.c | 24 ++++++++++++++++++++++++
+ hw/arm/fsl-imx7.c      | 8 ++++----
- target/arm/translate.c          | 24 +-----------------------
+ hw/arm/mcimx6ul-evk.c  | 1 +
-files changed, 28 insertions(+), 23 deletions(-)
+ hw/arm/mcimx7d-sabre.c | 1 +
 files changed, 6 insertions(+), 6 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/arm/fsl-imx6ul.c b/hw/arm/fsl-imx6ul.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/arm/fsl-imx6ul.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/arm/fsl-imx6ul.c
-@@ -XXX,XX +XXX,XX @@ VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx6ul_realize(DeviceState *dev, Error **errp)
- VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
+         return;
- VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
+     }
-+VQDMULH_3s       1111 001 0 0 . .. .... .... 1011 . . . 0 .... @3same
+-    object_property_set_int(OBJECT(&s->cpu), "psci-conduit",
-+VQRDMULH_3s      1111 001 1 0 . .. .... .... 1011 . . . 0 .... @3same
+-                            QEMU_PSCI_CONDUIT_SMC, &error_abort);
-+
+     qdev_realize(DEVICE(&s->cpu), NULL, &error_abort);
- VPADD_3s         1111 001 0 0 . .. .... .... 1011 . . . 1 .... @3same_q0
+     /*
- VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
+diff --git a/hw/arm/fsl-imx7.c b/hw/arm/fsl-imx7.c
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/hw/arm/fsl-imx7.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/hw/arm/fsl-imx7.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPMIN_S, pmin_s)
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx7_realize(DeviceState *dev, Error **errp)
- DO_3SAME_PAIR(VPMAX_U, pmax_u)
+     for (i = 0; i < smp_cpus; i++) {
- DO_3SAME_PAIR(VPMIN_U, pmin_u)
+         o = OBJECT(&s->cpu[i]);
- DO_3SAME_PAIR(VPADD, padd_u)
-+
+-        object_property_set_int(o, "psci-conduit", QEMU_PSCI_CONDUIT_SMC,
-+#define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
+-                                &error_abort);
-+    WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
+-
-+    WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
+         /* On uniprocessor, the CBAR is set to 0 */
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+         if (smp_cpus > 1) {
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+             object_property_set_int(o, "reset-cbar", FSL_IMX7_A7MPCORE_ADDR,
-+                                uint32_t oprsz, uint32_t maxsz)         \
+@@ -XXX,XX +XXX,XX @@ static void fsl_imx7_realize(DeviceState *dev, Error **errp)
-+    {                                                                   \
+         }
-+        static const GVecGen3 ops[2] = {                                \
-+            { .fni4 = gen_##INSN##_tramp16 },                           \
+         if (i) {
-+            { .fni4 = gen_##INSN##_tramp32 },                           \
+-            /* Secondary CPUs start in PSCI powered-down state */
-+        };                                                              \
++            /*
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece - 1]); \
++             * Secondary CPUs start in powered-down state (and can be
-+    }                                                                   \
++             * powered up via the SRC system reset controller)
-+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
++             */
-+    {                                                                   \
+             object_property_set_bool(o, "start-powered-off", true,
-+        if (a->size != 1 && a->size != 2) {                             \
+                                      &error_abort);
-+            return false;                                               \
+         }
-+        }                                                               \
+diff --git a/hw/arm/mcimx6ul-evk.c b/hw/arm/mcimx6ul-evk.c
 +        return do_3same(s, a, gen_##INSN##_3s);                         \
 +    }
 +
 +DO_3SAME_VQDMULH(VQDMULH, qdmulh)
 +DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/mcimx6ul-evk.c
-+++ b/target/arm/translate.c
++++ b/hw/arm/mcimx6ul-evk.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void mcimx6ul_evk_init(MachineState *machine)
-         case NEON_3R_VPMAX:
+         .board_id = -1,
-         case NEON_3R_VPMIN:
+         .ram_size = machine->ram_size,
-         case NEON_3R_VPADD_VQRDMLAH:
+         .nb_cpus = machine->smp.cpus,
-+        case NEON_3R_VQDMULH_VQRDMULH:
++        .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
-             /* Already handled by decodetree */
+     };
-             return 1;
-         }
+     s = FSL_IMX6UL(object_new(TYPE_FSL_IMX6UL));
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+diff --git a/hw/arm/mcimx7d-sabre.c b/hw/arm/mcimx7d-sabre.c
-             tmp2 = neon_load_reg(rm, pass);
+index XXXXXXX..XXXXXXX 100644
-         }
+--- a/hw/arm/mcimx7d-sabre.c
-         switch (op) {
++++ b/hw/arm/mcimx7d-sabre.c
--        case NEON_3R_VQDMULH_VQRDMULH: /* Multiply high.  */
+@@ -XXX,XX +XXX,XX @@ static void mcimx7d_sabre_init(MachineState *machine)
--            if (!u) { /* VQDMULH */
+         .board_id = -1,
--                switch (size) {
+         .ram_size = machine->ram_size,
--                case 1:
+         .nb_cpus = machine->smp.cpus,
--                    gen_helper_neon_qdmulh_s16(tmp, cpu_env, tmp, tmp2);
++        .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
--                    break;
+     };
--                case 2:
--                    gen_helper_neon_qdmulh_s32(tmp, cpu_env, tmp, tmp2);
+     s = FSL_IMX7(object_new(TYPE_FSL_IMX7));
 -                    break;
 -                default: abort();
 -                }
 -            } else { /* VQRDMULH */
 -                switch (size) {
 -                case 1:
 -                    gen_helper_neon_qrdmulh_s16(tmp, cpu_env, tmp, tmp2);
 -                    break;
 -                case 2:
 -                    gen_helper_neon_qrdmulh_s32(tmp, cpu_env, tmp, tmp2);
 -                    break;
 -                default: abort();
 -                }
 -            }
 -            break;
          case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
          {
              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 --
-.20.1
+.25.1

-[PULL 43/45] target/arm: Move 'env' argument of recps_f32 and rsqrts_f32 helpers to usual place
+[PULL 10/39] hw/arm: allwinner: Don't enable PSCI conduit when booting guest in EL3
-The usual location for the env argument in the argument list of a TCG helper
+Change the allwinner-h3 based board to use the new boot.c
-is immediately after the return-value argument. recps_f32 and rsqrts_f32
+functionality to allow us to enable psci-conduit only if the guest is
-differ in that they put it at the end.
+being booted in EL1 or EL2, so that if the user runs guest EL3
 firmware code our PSCI emulation doesn't get in its way.
-Move the env argument to its usual place; this will allow us to
+To do this we stop setting the psci-conduit property on the CPU
-more easily use these helper functions with the gvec APIs.
+objects in the SoC code, and instead set the psci_conduit field in
 the arm_boot_info struct to tell the common boot loader code that
 we'd like PSCI if the guest is starting at an EL that it makes sense
 with.
 This affects the orangepi-pc board.
 This commit leaves the secondary CPUs in the powered-down state if
 the guest is booting at EL3, which is the same behaviour as before
 this commit.  The secondaries can no longer be started by that EL3
 code making a PSCI call but can still be started via the CPU
 Configuration Module registers (which we model in
 hw/misc/allwinner-cpucfg.c).
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-16-peter.maydell@linaro.org
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Message-id: 20220127154639.2090164-6-peter.maydell@linaro.org
 ---
- target/arm/helper.h     | 4 ++--
+ hw/arm/allwinner-h3.c | 9 ++++-----
- target/arm/translate.c  | 4 ++--
+ hw/arm/orangepi.c     | 1 +
- target/arm/vfp_helper.c | 4 ++--
+files changed, 5 insertions(+), 5 deletions(-)
 files changed, 6 insertions(+), 6 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/arm/allwinner-h3.c b/hw/arm/allwinner-h3.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/arm/allwinner-h3.c
-+++ b/target/arm/helper.h
++++ b/hw/arm/allwinner-h3.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static void allwinner_h3_realize(DeviceState *dev, Error **errp)
- DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
+     /* CPUs */
- DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
+     for (i = 0; i < AW_H3_NUM_CPUS; i++) {
--DEF_HELPER_3(recps_f32, f32, f32, f32, env)
+-        /* Provide Power State Coordination Interface */
--DEF_HELPER_3(rsqrts_f32, f32, f32, f32, env)
+-        qdev_prop_set_int32(DEVICE(&s->cpus[i]), "psci-conduit",
-+DEF_HELPER_3(recps_f32, f32, env, f32, f32)
+-                            QEMU_PSCI_CONDUIT_SMC);
-+DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
+-
- DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
+-        /* Disable secondary CPUs */
- DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
++        /*
- DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
++         * Disable secondary CPUs. Guest EL3 firmware will start
-diff --git a/target/arm/translate.c b/target/arm/translate.c
++         * them via CPU reset control registers.
 +         */
          qdev_prop_set_bit(DEVICE(&s->cpus[i]), "start-powered-off",
                            i > 0);
 diff --git a/hw/arm/orangepi.c b/hw/arm/orangepi.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/arm/orangepi.c
-+++ b/target/arm/translate.c
++++ b/hw/arm/orangepi.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void orangepi_init(MachineState *machine)
-                 tcg_temp_free_ptr(fpstatus);
+     }
-             } else {
+     orangepi_binfo.loader_start = h3->memmap[AW_H3_DEV_SDRAM];
-                 if (size == 0) {
+     orangepi_binfo.ram_size = machine->ram_size;
--                    gen_helper_recps_f32(tmp, tmp, tmp2, cpu_env);
++    orangepi_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
-+                    gen_helper_recps_f32(tmp, cpu_env, tmp, tmp2);
+     arm_load_kernel(ARM_CPU(first_cpu), machine, &orangepi_binfo);
                  } else {
 -                    gen_helper_rsqrts_f32(tmp, tmp, tmp2, cpu_env);
 +                    gen_helper_rsqrts_f32(tmp, cpu_env, tmp, tmp2);
                }
              }
              break;
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
  #define float32_three make_float32(0x40400000)
  #define float32_one_point_five make_float32(0x3fc00000)
 -float32 HELPER(recps_f32)(float32 a, float32 b, CPUARMState *env)
 +float32 HELPER(recps_f32)(CPUARMState *env, float32 a, float32 b)
  {
      float_status *s = &env->vfp.standard_fp_status;
      if ((float32_is_infinity(a) && float32_is_zero_or_denormal(b)) ||
@@ -XXX,XX +XXX,XX @@ float32 HELPER(recps_f32)(float32 a, float32 b, CPUARMState *env)
      return float32_sub(float32_two, float32_mul(a, b, s), s);
  }
--float32 HELPER(rsqrts_f32)(float32 a, float32 b, CPUARMState *env)
-+float32 HELPER(rsqrts_f32)(CPUARMState *env, float32 a, float32 b)
- {
-     float_status *s = &env->vfp.standard_fp_status;
-     float32 product;
 --
-.20.1
+.25.1

-[PULL 01/45] target/arm: Use correct GDB XML for M-profile cores
+[PULL 11/39] hw/arm/xlnx-zcu102: Don't enable PSCI conduit when booting guest in EL3
-GDB's remote protocol requires M-profile cores to use the feature
+Change the Xilinx ZynqMP-based board xlnx-zcu102 to use the new
-name 'org.gnu.gdb.arm.m-profile' instead of the 'org.gnu.gdb.arm.core'
+boot.c functionality to allow us to enable psci-conduit only if
-feature used for A- and R-profile cores. We weren't doing this, which
+the guest is being booted in EL1 or EL2, so that if the user runs
-meant GDB treated our M-profile cores like A-profile ones. This mostly
+guest EL3 firmware code our PSCI emulation doesn't get in its
-doesn't matter, but for instance means that it doesn't correctly
+way.
 handle backtraces where an M-profile exception frame is involved.
-Ship a copy of GDB's arm-m-profile.xml and use it on the M-profile
+To do this we stop setting the psci-conduit property on the CPU
-cores.  The integer registers have the same offsets as the
+objects in the SoC code, and instead set the psci_conduit field in
-arm-core.xml, but register 25 is the M-profile XPSR rather than the
+the arm_boot_info struct to tell the common boot loader code that
-A-profile CPSR, so we need to update arm_cpu_gdb_read_register() and
+we'd like PSCI if the guest is starting at an EL that it makes
-arm_cpu_gdb_write_register() to handle XSPR reads and writes.
+sense with.
-Fixes: https://bugs.launchpad.net/qemu/+bug/1877136
+Note that this means that EL3 guest code will have no way
 to power on secondary cores, because we don't model any
 kind of power controller that does that on this SoC.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
+Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
-Message-id: 20200507134755.13997-1-peter.maydell@linaro.org
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Acked-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220127154639.2090164-7-peter.maydell@linaro.org
 ---
- configure                 |  4 ++--
+ hw/arm/xlnx-zcu102.c |  1 +
- target/arm/cpu_tcg.c      |  1 +
+ hw/arm/xlnx-zynqmp.c | 11 ++++++-----
- target/arm/gdbstub.c      | 22 ++++++++++++++++++----
+files changed, 7 insertions(+), 5 deletions(-)
  gdb-xml/arm-m-profile.xml | 27 +++++++++++++++++++++++++++
 files changed, 48 insertions(+), 6 deletions(-)
  create mode 100644 gdb-xml/arm-m-profile.xml
-diff --git a/configure b/configure
+diff --git a/hw/arm/xlnx-zcu102.c b/hw/arm/xlnx-zcu102.c
 index XXXXXXX..XXXXXXX 100755
 --- a/configure
 +++ b/configure
@@ -XXX,XX +XXX,XX @@ case "$target_name" in
      TARGET_SYSTBL_ABI=common,oabi
      bflt="yes"
      mttcg="yes"
 -    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
 +    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
    ;;
    aarch64|aarch64_be)
      TARGET_ARCH=aarch64
      TARGET_BASE_ARCH=arm
      bflt="yes"
      mttcg="yes"
 -    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
 +    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
    ;;
    cris)
    ;;
 diff --git a/target/arm/cpu_tcg.c b/target/arm/cpu_tcg.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/cpu_tcg.c
+--- a/hw/arm/xlnx-zcu102.c
-+++ b/target/arm/cpu_tcg.c
++++ b/hw/arm/xlnx-zcu102.c
-@@ -XXX,XX +XXX,XX @@ static void arm_v7m_class_init(ObjectClass *oc, void *data)
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zcu102_init(MachineState *machine)
- #endif
+     s->binfo.ram_size = ram_size;
+     s->binfo.loader_start = 0;
-     cc->cpu_exec_interrupt = arm_v7m_cpu_exec_interrupt;
+     s->binfo.modify_dtb = zcu102_modify_dtb;
-+    cc->gdb_core_xml_file = "arm-m-profile.xml";
++    s->binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
      arm_load_kernel(s->soc.boot_cpu_ptr, machine, &s->binfo);
  }
- static const ARMCPUInfo arm_tcg_cpus[] = {
+diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
 diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/gdbstub.c
+--- a/hw/arm/xlnx-zynqmp.c
-+++ b/target/arm/gdbstub.c
++++ b/hw/arm/xlnx-zynqmp.c
-@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_create_rpu(MachineState *ms, XlnxZynqMPState *s,
-         }
-         return gdb_get_reg32(mem_buf, 0);
+         name = object_get_canonical_path_component(OBJECT(&s->rpu_cpu[i]));
-     case 25:
+         if (strcmp(name, boot_cpu)) {
--        /* CPSR */
+-            /* Secondary CPUs start in PSCI powered-down state */
 -        return gdb_get_reg32(mem_buf, cpsr_read(env));
 +        /* CPSR, or XPSR for M-profile */
 +        if (arm_feature(env, ARM_FEATURE_M)) {
 +            return gdb_get_reg32(mem_buf, xpsr_read(env));
 +        } else {
 +            return gdb_get_reg32(mem_buf, cpsr_read(env));
 +        }
      }
      /* Unknown register.  */
      return 0;
@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
          }
          return 4;
      case 25:
 -        /* CPSR */
 -        cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
 +        /* CPSR, or XPSR for M-profile */
 +        if (arm_feature(env, ARM_FEATURE_M)) {
 +            /*
-+             * Don't allow writing to XPSR.Exception as it can cause
++             * Secondary CPUs start in powered-down state.
 +             * a transition into or out of handler mode (it's not
 +             * writeable via the MSR insn so this is a reasonable
 +             * restriction). Other fields are safe to update.
 +             */
-+            xpsr_write(env, tmp, ~XPSR_EXCP);
+             object_property_set_bool(OBJECT(&s->rpu_cpu[i]),
-+        } else {
+                                      "start-powered-off", true, &error_abort);
-+            cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
+         } else {
-+        }
+@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
-         return 4;
+     for (i = 0; i < num_apus; i++) {
-     }
+         const char *name;
-     /* Unknown register.  */
-diff --git a/gdb-xml/arm-m-profile.xml b/gdb-xml/arm-m-profile.xml
+-        object_property_set_int(OBJECT(&s->apu_cpu[i]), "psci-conduit",
-new file mode 100644
+-                                QEMU_PSCI_CONDUIT_SMC, &error_abort);
-index XXXXXXX..XXXXXXX
+-
---- /dev/null
+         name = object_get_canonical_path_component(OBJECT(&s->apu_cpu[i]));
-+++ b/gdb-xml/arm-m-profile.xml
+         if (strcmp(name, boot_cpu)) {
-@@ -XXX,XX +XXX,XX @@
+-            /* Secondary CPUs start in PSCI powered-down state */
-+<?xml version="1.0"?>
++            /*
-+<!-- Copyright (C) 2010-2020 Free Software Foundation, Inc.
++             * Secondary CPUs start in powered-down state.
-+
++             */
-+     Copying and distribution of this file, with or without modification,
+             object_property_set_bool(OBJECT(&s->apu_cpu[i]),
-+     are permitted in any medium without royalty provided the copyright
+                                      "start-powered-off", true, &error_abort);
-+     notice and this notice are preserved.  -->
+         } else {
 +
 +<!DOCTYPE feature SYSTEM "gdb-target.dtd">
 +<feature name="org.gnu.gdb.arm.m-profile">
 +  <reg name="r0" bitsize="32"/>
 +  <reg name="r1" bitsize="32"/>
 +  <reg name="r2" bitsize="32"/>
 +  <reg name="r3" bitsize="32"/>
 +  <reg name="r4" bitsize="32"/>
 +  <reg name="r5" bitsize="32"/>
 +  <reg name="r6" bitsize="32"/>
 +  <reg name="r7" bitsize="32"/>
 +  <reg name="r8" bitsize="32"/>
 +  <reg name="r9" bitsize="32"/>
 +  <reg name="r10" bitsize="32"/>
 +  <reg name="r11" bitsize="32"/>
 +  <reg name="r12" bitsize="32"/>
 +  <reg name="sp" bitsize="32" type="data_ptr"/>
 +  <reg name="lr" bitsize="32"/>
 +  <reg name="pc" bitsize="32" type="code_ptr"/>
 +  <reg name="xpsr" bitsize="32" regnum="25"/>
 +</feature>
 --
-.20.1
+.25.1

-[PULL 24/45] ACPI: Record the Generic Error Status Block address
+[PULL 12/39] hw/arm/versal: Let boot.c handle PSCI enablement
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+Instead of setting the CPU psci-conduit and start-powered-off
 properties in the xlnx-versal-virt board code, set the arm_boot_info
 psci_conduit field so that the boot.c code can do it.
-Record the GHEB address via fw_cfg file, when recording
+This will fix a corner case where we were incorrectly enabling PSCI
-a error to CPER, it will use this address to find out
+emulation when booting guest code into EL3 because it was an ELF file
-Generic Error Data Entries and write the error.
+passed to -kernel.  (EL3 guest code started via -bios, -pflash, or
 the generic loader was already being run with PSCI emulation
 disabled.)
-In order to avoid migration failure, make hardware
+Note that EL3 guest code has no way to turn on the secondary CPUs
-error table address to a part of GED device instead
+because there's no emulated power controller, but this was already
-of global variable, then this address will be migrated
+true for EL3 guest code run via -bios, -pflash, or the generic
-to target QEMU.
+loader.
-Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
-Message-id: 20200512030609.19593-7-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
+Tested-by: Cédric Le Goater <clg@kaod.org>
+Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Message-id: 20220127154639.2090164-8-peter.maydell@linaro.org
 ---
- include/hw/acpi/generic_event_device.h |  2 ++
+ include/hw/arm/xlnx-versal.h | 1 -
- include/hw/acpi/ghes.h                 |  6 ++++++
+ hw/arm/xlnx-versal-virt.c    | 6 ++++--
- hw/acpi/generic_event_device.c         | 19 +++++++++++++++++++
+ hw/arm/xlnx-versal.c         | 5 +----
- hw/acpi/ghes.c                         | 14 ++++++++++++++
+files changed, 5 insertions(+), 7 deletions(-)
  hw/arm/virt-acpi-build.c               |  8 ++++++++
 files changed, 49 insertions(+)
-diff --git a/include/hw/acpi/generic_event_device.h b/include/hw/acpi/generic_event_device.h
+diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/generic_event_device.h
+--- a/include/hw/arm/xlnx-versal.h
-+++ b/include/hw/acpi/generic_event_device.h
++++ b/include/hw/arm/xlnx-versal.h
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ struct Versal {
- #include "hw/sysbus.h"
+     struct {
- #include "hw/acpi/memory_hotplug.h"
+         MemoryRegion *mr_ddr;
-+#include "hw/acpi/ghes.h"
+-        uint32_t psci_conduit;
+     } cfg;
- #define ACPI_POWER_BUTTON_DEVICE "PWRB"
+ };
-@@ -XXX,XX +XXX,XX @@ typedef struct AcpiGedState {
+diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
      GEDState ged_state;
      uint32_t ged_event_bitmap;
      qemu_irq irq;
 +    AcpiGhesState ghes_state;
  } AcpiGedState;
  void build_ged_aml(Aml *table, const char* name, HotplugHandler *hotplug_dev,
 diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/ghes.h
+--- a/hw/arm/xlnx-versal-virt.c
-+++ b/include/hw/acpi/ghes.h
++++ b/hw/arm/xlnx-versal-virt.c
-@@ -XXX,XX +XXX,XX @@ enum {
+@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
-     ACPI_HEST_SRC_ID_RESERVED,
+      * When loading an OS, we turn on QEMU's PSCI implementation with SMC
       * as the PSCI conduit. When there's no -kernel, we assume the user
       * provides EL3 firmware to handle PSCI.
 +     *
 +     * Even if the user provides a kernel filename, arm_load_kernel()
 +     * may suppress PSCI if it's going to boot that guest code at EL3.
       */
      if (machine->kernel_filename) {
          psci_conduit = QEMU_PSCI_CONDUIT_SMC;
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
                              TYPE_XLNX_VERSAL);
      object_property_set_link(OBJECT(&s->soc), "ddr", OBJECT(machine->ram),
                               &error_abort);
 -    object_property_set_int(OBJECT(&s->soc), "psci-conduit", psci_conduit,
 -                            &error_abort);
      sysbus_realize(SYS_BUS_DEVICE(&s->soc), &error_fatal);
      fdt_create(s);
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
      s->binfo.loader_start = 0x0;
      s->binfo.get_dtb = versal_virt_get_dtb;
      s->binfo.modify_dtb = versal_virt_modify_dtb;
 +    s->binfo.psci_conduit = psci_conduit;
      if (machine->kernel_filename) {
          arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
      } else {
 diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/xlnx-versal.c
 +++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
          object_initialize_child(OBJECT(s), "apu-cpu[*]", &s->fpd.apu.cpu[i],
                                  XLNX_VERSAL_ACPU_TYPE);
          obj = OBJECT(&s->fpd.apu.cpu[i]);
 -        object_property_set_int(obj, "psci-conduit", s->cfg.psci_conduit,
 -                                &error_abort);
          if (i) {
 -            /* Secondary CPUs start in PSCI powered-down state */
 +            /* Secondary CPUs start in powered-down state */
              object_property_set_bool(obj, "start-powered-off", true,
                                       &error_abort);
          }
@@ -XXX,XX +XXX,XX @@ static void versal_init(Object *obj)
  static Property versal_properties[] = {
      DEFINE_PROP_LINK("ddr", Versal, cfg.mr_ddr, TYPE_MEMORY_REGION,
                       MemoryRegion *),
 -    DEFINE_PROP_UINT32("psci-conduit", Versal, cfg.psci_conduit, 0),
      DEFINE_PROP_END_OF_LIST()
  };
-+typedef struct AcpiGhesState {
-+    uint64_t ghes_addr_le;
-+} AcpiGhesState;
-+
- void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
- void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
-+void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
-+                          GArray *hardware_errors);
- #endif
-diff --git a/hw/acpi/generic_event_device.c b/hw/acpi/generic_event_device.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/generic_event_device.c
-+++ b/hw/acpi/generic_event_device.c
-@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_ged_state = {
-     }
- };
-+static bool ghes_needed(void *opaque)
-+{
-+    AcpiGedState *s = opaque;
-+    return s->ghes_state.ghes_addr_le;
-+}
-+
-+static const VMStateDescription vmstate_ghes_state = {
-+    .name = "acpi-ged/ghes",
-+    .version_id = 1,
-+    .minimum_version_id = 1,
-+    .needed = ghes_needed,
-+    .fields      = (VMStateField[]) {
-+        VMSTATE_STRUCT(ghes_state, AcpiGedState, 1,
-+                       vmstate_ghes_state, AcpiGhesState),
-+        VMSTATE_END_OF_LIST()
-+    }
-+};
-+
- static const VMStateDescription vmstate_acpi_ged = {
-     .name = "acpi-ged",
-     .version_id = 1,
-@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_acpi_ged = {
-     },
-     .subsections = (const VMStateDescription * []) {
-         &vmstate_memhp_state,
-+        &vmstate_ghes_state,
-         NULL
-     }
- };
-diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/ghes.c
-+++ b/hw/acpi/ghes.c
-@@ -XXX,XX +XXX,XX @@
- #include "hw/acpi/ghes.h"
- #include "hw/acpi/aml-build.h"
- #include "qemu/error-report.h"
-+#include "hw/acpi/generic_event_device.h"
-+#include "hw/nvram/fw_cfg.h"
- #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
- #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
-@@ -XXX,XX +XXX,XX @@ void acpi_build_hest(GArray *table_data, BIOSLinker *linker)
-     build_header(linker, table_data, (void *)(table_data->data + hest_start),
-         "HEST", table_data->len - hest_start, 1, NULL, NULL);
- }
-+
-+void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
-+                          GArray *hardware_error)
-+{
-+    /* Create a read-only fw_cfg file for GHES */
-+    fw_cfg_add_file(s, ACPI_GHES_ERRORS_FW_CFG_FILE, hardware_error->data,
-+                    hardware_error->len);
-+
-+    /* Create a read-write fw_cfg file for Address */
-+    fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
-+        NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
-+}
-diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
-index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt-acpi-build.c
-+++ b/hw/arm/virt-acpi-build.c
-@@ -XXX,XX +XXX,XX @@ void virt_acpi_setup(VirtMachineState *vms)
- {
-     AcpiBuildTables tables;
-     AcpiBuildState *build_state;
-+    AcpiGedState *acpi_ged_state;
-     if (!vms->fw_cfg) {
-         trace_virt_acpi_setup();
-@@ -XXX,XX +XXX,XX @@ void virt_acpi_setup(VirtMachineState *vms)
-     fw_cfg_add_file(vms->fw_cfg, ACPI_BUILD_TPMLOG_FILE, tables.tcpalog->data,
-                     acpi_data_len(tables.tcpalog));
-+    if (vms->ras) {
-+        assert(vms->acpi_dev);
-+        acpi_ged_state = ACPI_GED(vms->acpi_dev);
-+        acpi_ghes_add_fw_cfg(&acpi_ged_state->ghes_state,
-+                             vms->fw_cfg, tables.hardware_errors);
-+    }
-+
-     build_state->rsdp_mr = acpi_add_rom_blob(virt_acpi_build_update,
-                                              build_state, tables.rsdp,
-                                              ACPI_BUILD_RSDP_FILE, 0);
 --
-.20.1
+.25.1

-[PULL 20/45] hw/arm/virt: Introduce a RAS machine option
+[PULL 13/39] hw/arm/virt: Let boot.c handle PSCI enablement
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+Instead of setting the CPU psci-conduit and start-powered-off
 properties in the virt board code, set the arm_boot_info psci_conduit
 field so that the boot.c code can do it.
-RAS Virtualization feature is not supported now, so
+This will fix a corner case where we were incorrectly enabling PSCI
-add a RAS machine option and disable it by default.
+emulation when booting guest code into EL3 because it was an ELF file
 passed to -kernel or to the generic loader.  (EL3 guest code started
 via -bios or -pflash was already being run with PSCI emulation
 disabled.)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
-Reviewed-by: Jonathan Cameron <Jonathan.Cameron@huawei.com>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Message-id: 20200512030609.19593-3-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Tested-by: Cédric Le Goater <clg@kaod.org>
+Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Message-id: 20220127154639.2090164-9-peter.maydell@linaro.org
 ---
- include/hw/arm/virt.h |  1 +
+ hw/arm/virt.c | 12 +-----------
- hw/arm/virt.c         | 23 +++++++++++++++++++++++
+file changed, 1 insertion(+), 11 deletions(-)
 files changed, 24 insertions(+)
-diff --git a/include/hw/arm/virt.h b/include/hw/arm/virt.h
-index XXXXXXX..XXXXXXX 100644
---- a/include/hw/arm/virt.h
-+++ b/include/hw/arm/virt.h
-@@ -XXX,XX +XXX,XX @@ typedef struct {
-     bool highmem_ecam;
-     bool its;
-     bool virt;
-+    bool ras;
-     OnOffAuto acpi;
-     VirtGICType gic_version;
-     VirtIOMMUType iommu;
 diff --git a/hw/arm/virt.c b/hw/arm/virt.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/virt.c
 +++ b/hw/arm/virt.c
-@@ -XXX,XX +XXX,XX @@ static void virt_set_acpi(Object *obj, Visitor *v, const char *name,
+@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
-     visit_type_OnOffAuto(v, name, &vms->acpi, errp);
+             object_property_set_bool(cpuobj, "has_el2", false, NULL);
- }
+         }
-+static bool virt_get_ras(Object *obj, Error **errp)
+-        if (vms->psci_conduit != QEMU_PSCI_CONDUIT_DISABLED) {
-+{
+-            object_property_set_int(cpuobj, "psci-conduit", vms->psci_conduit,
-+    VirtMachineState *vms = VIRT_MACHINE(obj);
+-                                    NULL);
-+
+-
-+    return vms->ras;
+-            /* Secondary CPUs start in PSCI powered-down state */
-+}
+-            if (n > 0) {
-+
+-                object_property_set_bool(cpuobj, "start-powered-off", true,
-+static void virt_set_ras(Object *obj, bool value, Error **errp)
+-                                         NULL);
-+{
+-            }
-+    VirtMachineState *vms = VIRT_MACHINE(obj);
+-        }
-+
+-
-+    vms->ras = value;
+         if (vmc->kvm_no_adjvtime &&
-+}
+             object_property_find(cpuobj, "kvm-no-adjvtime")) {
-+
+             object_property_set_bool(cpuobj, "kvm-no-adjvtime", true, NULL);
- static char *virt_get_gic_version(Object *obj, Error **errp)
+@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
- {
+     vms->bootinfo.get_dtb = machvirt_dtb;
-     VirtMachineState *vms = VIRT_MACHINE(obj);
+     vms->bootinfo.skip_dtb_autoload = true;
-@@ -XXX,XX +XXX,XX @@ static void virt_instance_init(Object *obj)
+     vms->bootinfo.firmware_loaded = firmware_loaded;
-                                     "Valid values are none and smmuv3",
++    vms->bootinfo.psci_conduit = vms->psci_conduit;
-                                     NULL);
+     arm_load_kernel(ARM_CPU(first_cpu), machine, &vms->bootinfo);
-+    /* Default disallows RAS instantiation */
+     vms->machine_done.notify = virt_machine_done;
 +    vms->ras = false;
 +    object_property_add_bool(obj, "ras", virt_get_ras,
 +                             virt_set_ras, NULL);
 +    object_property_set_description(obj, "ras",
 +                                    "Set on/off to enable/disable reporting host memory errors "
 +                                    "to a KVM guest using ACPI and guest external abort exceptions",
 +                                    NULL);
 +
      vms->irqmap = a15irqmap;
      virt_flash_create(vms);
 --
-.20.1
+.25.1

-[PULL 40/45] target/arm: Convert Neon VPMIN/VPMAX/VPADD float 3-reg-same insns to decodetree
+[PULL 14/39] hw/arm: highbank: For EL3 guests, don't enable PSCI, start all cores
-Convert the Neon float VPMIN, VPMAX and VPADD 3-reg-same insns to
+Change the highbank/midway boards to use the new boot.c functionality
-decodetree. These are the only remaining 'pairwise' operations,
+to allow us to enable psci-conduit only if the guest is being booted
-so we can delete the pairwise-specific bits of the old decoder's
+in EL1 or EL2, so that if the user runs guest EL3 firmware code our
-for-each-element loop now.
+PSCI emulation doesn't get in its way.
 To do this we stop setting the psci-conduit and start-powered-off
 properties on the CPU objects in the board code, and instead set the
 psci_conduit field in the arm_boot_info struct to tell the common
 boot loader code that we'd like PSCI if the guest is starting at an
 EL that it makes sense with (in which case it will set these
 properties).
 This means that when running guest code at EL3, all the cores
 will start execution at once on poweron. This matches the
 real hardware behaviour. (A brief description of the hardware
 boot process is in the u-boot documentation for these boards:
 https://u-boot.readthedocs.io/en/latest/board/highbank/highbank.html#boot-process
  -- in theory one might run the 'a9boot'/'a15boot' secure monitor
 code in QEMU, though we probably don't emulate enough for that.)
 This affects the highbank and midway boards.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-13-peter.maydell@linaro.org
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Message-id: 20220127154639.2090164-10-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  5 +++
+ hw/arm/highbank.c | 7 +------
- target/arm/translate-neon.inc.c | 63 +++++++++++++++++++++++++++++++++
+file changed, 1 insertion(+), 6 deletions(-)
  target/arm/translate.c          | 63 +++++----------------------------
 files changed, 76 insertions(+), 55 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/arm/highbank.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/arm/highbank.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
- # For FP insns the high bit of 'size' is used as part of opcode decode
+         object_property_set_int(cpuobj, "psci-conduit", QEMU_PSCI_CONDUIT_SMC,
- @3same_fp        .... ... . . . . size:1 .... .... .... . q:1 . . .... \
+                                 &error_abort);
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
-+@3same_fp_q0     .... ... . . . . size:1 .... .... .... . 0 . . .... \
+-        if (n) {
-+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
+-            /* Secondary CPUs start in PSCI powered-down state */
+-            object_property_set_bool(cpuobj, "start-powered-off", true,
- VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
+-                                     &error_abort);
  VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
@@ -XXX,XX +XXX,XX @@ VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
  VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
  VSUB_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
 +VPADD_fp_3s      1111 001 1 0 . 0 . .... .... 1101 ... 0 .... @3same_fp_q0
  VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
 +VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
 +VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
  DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
  DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
  DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
 +
 +static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
 +{
 +    /* FP operations handled pairwise 32 bits at a time */
 +    TCGv_i32 tmp, tmp2, tmp3;
 +    TCGv_ptr fpstatus;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    assert(a->q == 0); /* enforced by decode patterns */
 +
 +    /*
 +     * Note that we have to be careful not to clobber the source operands
 +     * in the "vm == vd" case by storing the result of the first pass too
 +     * early. Since Q is 0 there are always just two passes, so instead
 +     * of a complicated loop over each pass we just unroll.
 +     */
 +    fpstatus = get_fpstatus_ptr(1);
 +    tmp = neon_load_reg(a->vn, 0);
 +    tmp2 = neon_load_reg(a->vn, 1);
 +    fn(tmp, tmp, tmp2, fpstatus);
 +    tcg_temp_free_i32(tmp2);
 +
 +    tmp3 = neon_load_reg(a->vm, 0);
 +    tmp2 = neon_load_reg(a->vm, 1);
 +    fn(tmp3, tmp3, tmp2, fpstatus);
 +    tcg_temp_free_i32(tmp2);
 +    tcg_temp_free_ptr(fpstatus);
 +
 +    neon_store_reg(a->vd, 0, tmp);
 +    neon_store_reg(a->vd, 1, tmp3);
 +    return true;
 +}
 +
 +/*
 + * For all the functions using this macro, size == 1 means fp16,
 + * which is an architecture extension we don't implement yet.
 + */
 +#define DO_3S_FP_PAIR(INSN,FUNC)                                    \
 +    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
 +    {                                                               \
 +        if (a->size != 0) {                                         \
 +            /* TODO fp16 support */                                 \
 +            return false;                                           \
 +        }                                                           \
 +        return do_3same_fp_pair(s, a, FUNC);                        \
 +    }
 +
 +DO_3S_FP_PAIR(VPADD, gen_helper_vfp_adds)
 +DO_3S_FP_PAIR(VPMAX, gen_helper_vfp_maxs)
 +DO_3S_FP_PAIR(VPMIN, gen_helper_vfp_mins)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      int shift;
      int pass;
      int count;
 -    int pairwise;
      int u;
      int vec_size;
      uint32_t imm;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VPMIN:
          case NEON_3R_VPADD_VQRDMLAH:
          case NEON_3R_VQDMULH_VQRDMULH:
 +        case NEON_3R_FLOAT_ARITH:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              /* 64-bit element instructions: handled by decodetree */
              return 1;
          }
 -        pairwise = 0;
          switch (op) {
 -        case NEON_3R_FLOAT_ARITH:
 -            pairwise = (u && size < 2); /* if VPADD (float) */
 -            if (!pairwise) {
 -                return 1; /* handled by decodetree */
 -            }
 -            break;
          case NEON_3R_FLOAT_MINMAX:
 -            pairwise = u; /* if VPMIN/VPMAX (float) */
 +            if (u) {
 +                return 1; /* VPMIN/VPMAX handled by decodetree */
 +            }
              break;
          case NEON_3R_FLOAT_CMP:
              if (!u && size) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              break;
          }
 -        if (pairwise && q) {
 -            /* All the pairwise insns UNDEF if Q is set */
 -            return 1;
 -        }
 -
-         for (pass = 0; pass < (q ? 4 : 2); pass++) {
+         if (object_property_find(cpuobj, "reset-cbar")) {
+             object_property_set_int(cpuobj, "reset-cbar", MPCORE_PERIPHBASE,
--        if (pairwise) {
+                                     &error_abort);
--            /* Pairwise.  */
+@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
--            if (pass < 1) {
+     highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
--                tmp = neon_load_reg(rn, 0);
+     highbank_binfo.write_board_setup = hb_write_board_setup;
--                tmp2 = neon_load_reg(rn, 1);
+     highbank_binfo.secure_board_setup = true;
--            } else {
++    highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
--                tmp = neon_load_reg(rm, 0);
--                tmp2 = neon_load_reg(rm, 1);
+     arm_load_kernel(ARM_CPU(first_cpu), machine, &highbank_binfo);
--            }
+ }
 -        } else {
 -            /* Elementwise.  */
 -            tmp = neon_load_reg(rn, pass);
 -            tmp2 = neon_load_reg(rm, pass);
 -        }
 +        /* Elementwise.  */
 +        tmp = neon_load_reg(rn, pass);
 +        tmp2 = neon_load_reg(rm, pass);
          switch (op) {
 -        case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
 -        {
 -            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -            switch ((u << 2) | size) {
 -            case 4: /* VPADD */
 -                gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
 -                break;
 -            default:
 -                abort();
 -            }
 -            tcg_temp_free_ptr(fpstatus);
 -            break;
 -        }
          case NEON_3R_FLOAT_MULTIPLY:
          {
              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          }
          tcg_temp_free_i32(tmp2);
 -        /* Save the result.  For elementwise operations we can put it
 -           straight into the destination register.  For pairwise operations
 -           we have to be careful to avoid clobbering the source operands.  */
 -        if (pairwise && rd == rm) {
 -            neon_store_scratch(pass, tmp);
 -        } else {
 -            neon_store_reg(rd, pass, tmp);
 -        }
 +        neon_store_reg(rd, pass, tmp);
          } /* for pass */
 -        if (pairwise && rd == rm) {
 -            for (pass = 0; pass < (q ? 4 : 2); pass++) {
 -                tmp = neon_load_scratch(pass);
 -                neon_store_reg(rd, pass, tmp);
 -            }
 -        }
          /* End of 3 register same size operations.  */
      } else if (insn & (1 << 4)) {
          if ((insn & 0x00380080) != 0) {
 --
-.20.1
+.25.1

-[PULL 23/45] ACPI: Build Hardware Error Source Table
+[PULL 15/39] arm: tcg: Adhere to SMCCC 1.3 section 5.2
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+The SMCCC 1.3 spec section 5.2 says
-This patch builds Hardware Error Source Table(HEST) via fw_cfg blobs.
+  The Unknown SMC Function Identifier is a sign-extended value of (-1)
-Now it only supports ARMv8 SEA, a type of Generic Hardware Error
+  that is returned in the R0, W0 or X0 registers. An implementation must
-Source version 2(GHESv2) error source. Afterwards, we can extend
+  return this error code when it receives:
 the supported types if needed. For the CPER section, currently it
 is memory section because kernel mainly wants userspace to handle
 the memory errors.
-This patch follows the spec ACPI 6.2 to build the Hardware Error
+    * An SMC or HVC call with an unknown Function Identifier
-Source table. For more detailed information, please refer to
+    * An SMC or HVC call for a removed Function Identifier
-document: docs/specs/acpi_hest_ghes.rst
+    * An SMC64/HVC64 call from AArch32 state
-build_ghes_hw_error_notification() helper will help to add Hardware
+To comply with these statements, let's always return -1 when we encounter
-Error Notification to ACPI tables without using packed C structures
+an unknown HVC or SMC call.
 and avoid endianness issues as API doesn't need explicit conversion.
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
+[PMM:
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
+ This is a reinstatement of commit 9fcd15b9193e819b, previously
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
+ reverted in commit 4825eaae4fdd56fba0f; we can do this now that we
-Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
+ have arranged for all the affected board models to not enable the
-Message-id: 20200512030609.19593-6-gengdongjiu@huawei.com
+ PSCI emulation if they are running guest code at EL3. This avoids
  the regressions that caused us to revert the change for 7.0.]
 Signed-off-by: Alexander Graf <agraf@csgraf.de>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/acpi/ghes.h   |  39 ++++++++++++
+ target/arm/psci.c | 35 ++++++-----------------------------
- hw/acpi/ghes.c           | 126 +++++++++++++++++++++++++++++++++++++++
+file changed, 6 insertions(+), 29 deletions(-)
  hw/arm/virt-acpi-build.c |   2 +
 files changed, 167 insertions(+)
-diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
+diff --git a/target/arm/psci.c b/target/arm/psci.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/ghes.h
+--- a/target/arm/psci.c
-+++ b/include/hw/acpi/ghes.h
++++ b/target/arm/psci.c
 @@ -XXX,XX +XXX,XX @@
- #include "hw/acpi/bios-linker-loader.h"
+ bool arm_is_psci_call(ARMCPU *cpu, int excp_type)
+ {
-+/*
+-    /* Return true if the r0/x0 value indicates a PSCI call and
-+ * Values for Hardware Error Notification Type field
+-     * the exception type matches the configured PSCI conduit. This is
-+ */
+-     * called before the SMC/HVC instruction is executed, to decide whether
-+enum AcpiGhesNotifyType {
+-     * we should treat it as a PSCI call or with the architecturally
 +    /* Polled */
 +    ACPI_GHES_NOTIFY_POLLED = 0,
 +    /* External Interrupt */
 +    ACPI_GHES_NOTIFY_EXTERNAL = 1,
 +    /* Local Interrupt */
 +    ACPI_GHES_NOTIFY_LOCAL = 2,
 +    /* SCI */
 +    ACPI_GHES_NOTIFY_SCI = 3,
 +    /* NMI */
 +    ACPI_GHES_NOTIFY_NMI = 4,
 +    /* CMCI, ACPI 5.0: 18.3.2.7, Table 18-290 */
 +    ACPI_GHES_NOTIFY_CMCI = 5,
 +    /* MCE, ACPI 5.0: 18.3.2.7, Table 18-290 */
 +    ACPI_GHES_NOTIFY_MCE = 6,
 +    /* GPIO-Signal, ACPI 6.0: 18.3.2.7, Table 18-332 */
 +    ACPI_GHES_NOTIFY_GPIO = 7,
 +    /* ARMv8 SEA, ACPI 6.1: 18.3.2.9, Table 18-345 */
 +    ACPI_GHES_NOTIFY_SEA = 8,
 +    /* ARMv8 SEI, ACPI 6.1: 18.3.2.9, Table 18-345 */
 +    ACPI_GHES_NOTIFY_SEI = 9,
 +    /* External Interrupt - GSIV, ACPI 6.1: 18.3.2.9, Table 18-345 */
 +    ACPI_GHES_NOTIFY_GSIV = 10,
 +    /* Software Delegated Exception, ACPI 6.2: 18.3.2.9, Table 18-383 */
 +    ACPI_GHES_NOTIFY_SDEI = 11,
 +    /* 12 and greater are reserved */
 +    ACPI_GHES_NOTIFY_RESERVED = 12
 +};
 +
 +enum {
 +    ACPI_HEST_SRC_ID_SEA = 0,
 +    /* future ids go here */
 +    ACPI_HEST_SRC_ID_RESERVED,
 +};
 +
  void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
 +void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
  #endif
 diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/acpi/ghes.c
 +++ b/hw/acpi/ghes.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/units.h"
  #include "hw/acpi/ghes.h"
  #include "hw/acpi/aml-build.h"
 +#include "qemu/error-report.h"
  #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
  #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
@@ -XXX,XX +XXX,XX @@
  /* Now only support ARMv8 SEA notification type error source */
  #define ACPI_GHES_ERROR_SOURCE_COUNT        1
 +/* Generic Hardware Error Source version 2 */
 +#define ACPI_GHES_SOURCE_GENERIC_ERROR_V2   10
 +
 +/* Address offset in Generic Address Structure(GAS) */
 +#define GAS_ADDR_OFFSET 4
 +
 +/*
 + * Hardware Error Notification
 + * ACPI 4.0: 17.3.2.7 Hardware Error Notification
 + * Composes dummy Hardware Error Notification descriptor of specified type
 + */
 +static void build_ghes_hw_error_notification(GArray *table, const uint8_t type)
 +{
 +    /* Type */
 +    build_append_int_noprefix(table, type, 1);
 +    /*
-+     * Length:
++     * Return true if the exception type matches the configured PSCI conduit.
-+     * Total length of the structure in bytes
++     * This is called before the SMC/HVC instruction is executed, to decide
-+     */
++     * whether we should treat it as a PSCI call or with the architecturally
-+    build_append_int_noprefix(table, 28, 1);
+      * defined behaviour for an SMC or HVC (which might be UNDEF or trap
-+    /* Configuration Write Enable */
+      * to EL2 or to EL3).
-+    build_append_int_noprefix(table, 0, 2);
+      */
-+    /* Poll Interval */
+-    CPUARMState *env = &cpu->env;
-+    build_append_int_noprefix(table, 0, 4);
+-    uint64_t param = is_a64(env) ? env->xregs[0] : env->regs[0];
-+    /* Vector */
-+    build_append_int_noprefix(table, 0, 4);
+     switch (excp_type) {
-+    /* Switch To Polling Threshold Value */
+     case EXCP_HVC:
-+    build_append_int_noprefix(table, 0, 4);
+@@ -XXX,XX +XXX,XX @@ bool arm_is_psci_call(ARMCPU *cpu, int excp_type)
-+    /* Switch To Polling Threshold Window */
+         return false;
-+    build_append_int_noprefix(table, 0, 4);
+     }
-+    /* Error Threshold Value */
-+    build_append_int_noprefix(table, 0, 4);
+-    switch (param) {
-+    /* Error Threshold Window */
+-    case QEMU_PSCI_0_2_FN_PSCI_VERSION:
-+    build_append_int_noprefix(table, 0, 4);
+-    case QEMU_PSCI_0_2_FN_MIGRATE_INFO_TYPE:
-+}
+-    case QEMU_PSCI_0_2_FN_AFFINITY_INFO:
-+
+-    case QEMU_PSCI_0_2_FN64_AFFINITY_INFO:
- /*
+-    case QEMU_PSCI_0_2_FN_SYSTEM_RESET:
-  * Build table for the hardware error fw_cfg blob.
+-    case QEMU_PSCI_0_2_FN_SYSTEM_OFF:
-  * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
+-    case QEMU_PSCI_0_1_FN_CPU_ON:
-@@ -XXX,XX +XXX,XX @@ void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker)
+-    case QEMU_PSCI_0_2_FN_CPU_ON:
-     bios_linker_loader_write_pointer(linker, ACPI_GHES_DATA_ADDR_FW_CFG_FILE,
+-    case QEMU_PSCI_0_2_FN64_CPU_ON:
-, sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE, 0);
+-    case QEMU_PSCI_0_1_FN_CPU_OFF:
 -    case QEMU_PSCI_0_2_FN_CPU_OFF:
 -    case QEMU_PSCI_0_1_FN_CPU_SUSPEND:
 -    case QEMU_PSCI_0_2_FN_CPU_SUSPEND:
 -    case QEMU_PSCI_0_2_FN64_CPU_SUSPEND:
 -    case QEMU_PSCI_0_1_FN_MIGRATE:
 -    case QEMU_PSCI_0_2_FN_MIGRATE:
 -        return true;
 -    default:
 -        return false;
 -    }
 +    return true;
  }
-+
-+/* Build Generic Hardware Error Source version 2 (GHESv2) */
+ void arm_handle_psci_call(ARMCPU *cpu)
-+static void build_ghes_v2(GArray *table_data, int source_id, BIOSLinker *linker)
+@@ -XXX,XX +XXX,XX @@ void arm_handle_psci_call(ARMCPU *cpu)
-+{
+         break;
-+    uint64_t address_offset;
+     case QEMU_PSCI_0_1_FN_MIGRATE:
-+    /*
+     case QEMU_PSCI_0_2_FN_MIGRATE:
 +     * Type:
 +     * Generic Hardware Error Source version 2(GHESv2 - Type 10)
 +     */
 +    build_append_int_noprefix(table_data, ACPI_GHES_SOURCE_GENERIC_ERROR_V2, 2);
 +    /* Source Id */
 +    build_append_int_noprefix(table_data, source_id, 2);
 +    /* Related Source Id */
 +    build_append_int_noprefix(table_data, 0xffff, 2);
 +    /* Flags */
 +    build_append_int_noprefix(table_data, 0, 1);
 +    /* Enabled */
 +    build_append_int_noprefix(table_data, 1, 1);
 +
 +    /* Number of Records To Pre-allocate */
 +    build_append_int_noprefix(table_data, 1, 4);
 +    /* Max Sections Per Record */
 +    build_append_int_noprefix(table_data, 1, 4);
 +    /* Max Raw Data Length */
 +    build_append_int_noprefix(table_data, ACPI_GHES_MAX_RAW_DATA_LENGTH, 4);
 +
 +    address_offset = table_data->len;
 +    /* Error Status Address */
 +    build_append_gas(table_data, AML_AS_SYSTEM_MEMORY, 0x40, 0,
 +                     4 /* QWord access */, 0);
 +    bios_linker_loader_add_pointer(linker, ACPI_BUILD_TABLE_FILE,
 +        address_offset + GAS_ADDR_OFFSET, sizeof(uint64_t),
 +        ACPI_GHES_ERRORS_FW_CFG_FILE, source_id * sizeof(uint64_t));
 +
 +    switch (source_id) {
 +    case ACPI_HEST_SRC_ID_SEA:
 +        /*
 +         * Notification Structure
 +         * Now only enable ARMv8 SEA notification type
 +         */
 +        build_ghes_hw_error_notification(table_data, ACPI_GHES_NOTIFY_SEA);
 +        break;
 +    default:
-+        error_report("Not support this error source");
+         ret = QEMU_PSCI_RET_NOT_SUPPORTED;
-+        abort();
+         break;
-+    }
+-    default:
-+
+-        g_assert_not_reached();
 +    /* Error Status Block Length */
 +    build_append_int_noprefix(table_data, ACPI_GHES_MAX_RAW_DATA_LENGTH, 4);
 +
 +    /*
 +     * Read Ack Register
 +     * ACPI 6.1: 18.3.2.8 Generic Hardware Error Source
 +     * version 2 (GHESv2 - Type 10)
 +     */
 +    address_offset = table_data->len;
 +    build_append_gas(table_data, AML_AS_SYSTEM_MEMORY, 0x40, 0,
 +                     4 /* QWord access */, 0);
 +    bios_linker_loader_add_pointer(linker, ACPI_BUILD_TABLE_FILE,
 +        address_offset + GAS_ADDR_OFFSET,
 +        sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE,
 +        (ACPI_GHES_ERROR_SOURCE_COUNT + source_id) * sizeof(uint64_t));
 +
 +    /*
 +     * Read Ack Preserve field
 +     * We only provide the first bit in Read Ack Register to OSPM to write
 +     * while the other bits are preserved.
 +     */
 +    build_append_int_noprefix(table_data, ~0x1ULL, 8);
 +    /* Read Ack Write */
 +    build_append_int_noprefix(table_data, 0x1, 8);
 +}
 +
 +/* Build Hardware Error Source Table */
 +void acpi_build_hest(GArray *table_data, BIOSLinker *linker)
 +{
 +    uint64_t hest_start = table_data->len;
 +
 +    /* Hardware Error Source Table header*/
 +    acpi_data_push(table_data, sizeof(AcpiTableHeader));
 +
 +    /* Error Source Count */
 +    build_append_int_noprefix(table_data, ACPI_GHES_ERROR_SOURCE_COUNT, 4);
 +
 +    build_ghes_v2(table_data, ACPI_HEST_SRC_ID_SEA, linker);
 +
 +    build_header(linker, table_data, (void *)(table_data->data + hest_start),
 +        "HEST", table_data->len - hest_start, 1, NULL, NULL);
 +}
 diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/virt-acpi-build.c
 +++ b/hw/arm/virt-acpi-build.c
@@ -XXX,XX +XXX,XX @@ void virt_acpi_build(VirtMachineState *vms, AcpiBuildTables *tables)
      if (vms->ras) {
          build_ghes_error_table(tables->hardware_errors, tables->linker);
 +        acpi_add_table(table_offsets, tables_blob);
 +        acpi_build_hest(tables_blob, tables->linker);
      }
-     if (ms->numa_state->num_nodes > 0) {
+ err:
 --
-.20.1
+.25.1

-[PULL 34/45] target/arm: Convert Neon VRHADD, VHSUB 3-reg-same insns to decodetree
+[PULL 16/39] hw/arm/highbank: Drop use of secure_board_setup
-Convert the Neon VRHADD and VHSUB 3-reg-same insns to decodetree.
+Guest code on highbank may make non-PSCI SMC calls in order to
-(These are all the other insns in 3-reg-same which were using
+enable/disable the L2x0 cache controller (see the Linux kernel's
-GEN_NEON_INTEGER_OP() and which are not pairwise or
+arch/arm/mach-highbank/highbank.c highbank_l2c310_write_sec()
-reversed-operands.)
+function).  The ABI for this is documented in kernel commit
 e56130dcb as being borrowed from the OMAP44xx ROM.  The OMAP44xx TRM
 documents this function ID as having no return value and potentially
 trashing all guest registers except SP and PC. For QEMU's purposes
 (where our L2x0 model is a stub and enabling or disabling it doesn't
 affect the guest behaviour) a simple "do nothing" SMC is fine.
 We currently implement this NOP behaviour using a little bit of
 Secure code we run before jumping to the guest kernel, which is
 written by arm_write_secure_board_setup_dummy_smc().  The code sets
 up a set of Secure vectors where the SMC entry point returns without
 doing anything.
 Now that the PSCI SMC emulation handles all SMC calls (setting r0 to
 an error code if the input r0 function identifier is not recognized),
 we can use that default behaviour as sufficient for the highbank
 cache controller call.  (Because the guest code assumes r0 has no
 interesting value on exit it doesn't matter that we set it to the
 error code).  We can therefore delete the highbank board code that
 sets secure_board_setup to true and writes the secure-code bootstub.
 (Note that because the OMAP44xx ABI puts function-identifiers in
 r12 and PSCI uses r0, we only avoid a clash because Linux's code
 happens to put the function-identifier in both registers. But this
 is true also when the kernel is running on real firmware that
 implements both ABIs as far as I can see.)
 This change fixes in passing booting on the 'midway' board model,
 which has been completely broken since we added support for Hyp
 mode to the Cortex-A15 CPU. When we did that boot.c was made to
 start running the guest code in Hyp mode; this includes the
 board_setup hook, which instantly UNDEFs because the NSACR is
 not accessible from Hyp. (Put another way, we never made the
 secure_board_setup hook support cope with Hyp mode.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-7-peter.maydell@linaro.org
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Message-id: 20220127154639.2090164-12-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       | 6 ++++++
+ hw/arm/highbank.c | 8 --------
- target/arm/translate-neon.inc.c | 4 ++++
+file changed, 8 deletions(-)
  target/arm/translate.c          | 8 ++------
 files changed, 12 insertions(+), 6 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/arm/highbank.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/arm/highbank.c
-@@ -XXX,XX +XXX,XX @@ VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
+@@ -XXX,XX +XXX,XX @@
- VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
- VQADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 1 .... @3same
+ /* Board init.  */
-+VRHADD_S_3s      1111 001 0 0 . .. .... .... 0001 . . . 0 .... @3same
+-static void hb_write_board_setup(ARMCPU *cpu,
-+VRHADD_U_3s      1111 001 1 0 . .. .... .... 0001 . . . 0 .... @3same
+-                                 const struct arm_boot_info *info)
-+
+-{
- @3same_logic     .... ... . . . .. .... .... .... . q:1 .. .... \
+-    arm_write_secure_board_setup_dummy_smc(cpu, info, MVBAR_ADDR);
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp size=0
+-}
+-
-@@ -XXX,XX +XXX,XX @@ VBSL_3s          1111 001 1 0 . 01 .... .... 0001 ... 1 .... @3same_logic
+ static void hb_write_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
- VBIT_3s          1111 001 1 0 . 10 .... .... 0001 ... 1 .... @3same_logic
+ {
- VBIF_3s          1111 001 1 0 . 11 .... .... 0001 ... 1 .... @3same_logic
+     int n;
+@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
-+VHSUB_S_3s       1111 001 0 0 . .. .... .... 0010 . . . 0 .... @3same
+     highbank_binfo.write_secondary_boot = hb_write_secondary;
-+VHSUB_U_3s       1111 001 1 0 . .. .... .... 0010 . . . 0 .... @3same
+     highbank_binfo.secondary_cpu_reset_hook = hb_reset_secondary;
-+
+     highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
- VQSUB_S_3s       1111 001 0 0 . .. .... .... 0010 . . . 1 .... @3same
+-    highbank_binfo.write_board_setup = hb_write_board_setup;
- VQSUB_U_3s       1111 001 1 0 . .. .... .... 0010 . . . 1 .... @3same
+-    highbank_binfo.secure_board_setup = true;
+     highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
+     arm_load_kernel(ARM_CPU(first_cpu), machine, &highbank_binfo);
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
  DO_3SAME_32(VHADD_S, hadd_s)
  DO_3SAME_32(VHADD_U, hadd_u)
 +DO_3SAME_32(VHSUB_S, hsub_s)
 +DO_3SAME_32(VHSUB_U, hsub_u)
 +DO_3SAME_32(VRHADD_S, rhadd_s)
 +DO_3SAME_32(VRHADD_U, rhadd_u)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VSHL:
          case NEON_3R_SHA:
          case NEON_3R_VHADD:
 +        case NEON_3R_VRHADD:
 +        case NEON_3R_VHSUB:
          case NEON_3R_VABD:
          case NEON_3R_VABA:
              /* Already handled by decodetree */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tmp2 = neon_load_reg(rm, pass);
          }
          switch (op) {
 -        case NEON_3R_VRHADD:
 -            GEN_NEON_INTEGER_OP(rhadd);
 -            break;
 -        case NEON_3R_VHSUB:
 -            GEN_NEON_INTEGER_OP(hsub);
 -            break;
          case NEON_3R_VQSHL:
              GEN_NEON_INTEGER_OP_ENV(qshl);
              break;
 --
-.20.1
+.25.1

-[PULL 33/45] target/arm: Convert Neon VABA/VABD 3-reg-same to decodetree
+[PULL 17/39] hw/arm/boot: Prevent setting both psci_conduit and secure_board_setup
-Convert the Neon VABA and VABD insns in the 3-reg-same group to
+Now that we have dealt with the one special case (highbank) that needed
-decodetree.
+to set both psci_conduit and secure_board_setup, we don't need to
 allow that combination any more. It doesn't make sense in general,
 so use an assertion to ensure we don't add new boards that do it
 by accident without thinking through the consequences.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-6-peter.maydell@linaro.org
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Message-id: 20220127154639.2090164-13-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  6 ++++++
+ hw/arm/boot.c | 10 ++++++++++
- target/arm/translate-neon.inc.c |  4 ++++
+file changed, 10 insertions(+)
  target/arm/translate.c          | 22 ++--------------------
 files changed, 12 insertions(+), 20 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/arm/boot.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/arm/boot.c
-@@ -XXX,XX +XXX,XX @@ VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
+@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
- VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
+      * supported exception level or in a lower one.
- VMIN_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 1 .... @3same
+      */
-+VABD_S_3s        1111 001 0 0 . .. .... .... 0111 . . . 0 .... @3same
++    /*
-+VABD_U_3s        1111 001 1 0 . .. .... .... 0111 . . . 0 .... @3same
++     * If PSCI is enabled, then SMC calls all go to the PSCI handler and
 +     * are never emulated to trap into guest code. It therefore does not
 +     * make sense for the board to have a setup code fragment that runs
 +     * in Secure, because this will probably need to itself issue an SMC of some
 +     * kind as part of its operation.
 +     */
 +    assert(info->psci_conduit == QEMU_PSCI_CONDUIT_DISABLED ||
 +           !info->secure_board_setup);
 +
-+VABA_S_3s        1111 001 0 0 . .. .... .... 0111 . . . 1 .... @3same
+     /* Boot into highest supported EL ... */
-+VABA_U_3s        1111 001 1 0 . .. .... .... 0111 . . . 1 .... @3same
+     if (arm_feature(env, ARM_FEATURE_EL3)) {
-+
+         boot_el = 3;
  VADD_3s          1111 001 0 0 . .. .... .... 1000 . . . 0 .... @3same
  VSUB_3s          1111 001 1 0 . .. .... .... 1000 . . . 0 .... @3same
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
  DO_3SAME_NO_SZ_3(VMLA, gen_gvec_mla)
  DO_3SAME_NO_SZ_3(VMLS, gen_gvec_mls)
  DO_3SAME_NO_SZ_3(VTST, gen_gvec_cmtst)
 +DO_3SAME_NO_SZ_3(VABD_S, gen_gvec_sabd)
 +DO_3SAME_NO_SZ_3(VABA_S, gen_gvec_saba)
 +DO_3SAME_NO_SZ_3(VABD_U, gen_gvec_uabd)
 +DO_3SAME_NO_SZ_3(VABA_U, gen_gvec_uaba)
  #define DO_3SAME_CMP(INSN, COND)                                        \
      static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              /* VQRDMLSH : handled by decodetree */
              return 1;
 -        case NEON_3R_VABD:
 -            if (u) {
 -                gen_gvec_uabd(size, rd_ofs, rn_ofs, rm_ofs,
 -                              vec_size, vec_size);
 -            } else {
 -                gen_gvec_sabd(size, rd_ofs, rn_ofs, rm_ofs,
 -                              vec_size, vec_size);
 -            }
 -            return 0;
 -
 -        case NEON_3R_VABA:
 -            if (u) {
 -                gen_gvec_uaba(size, rd_ofs, rn_ofs, rm_ofs,
 -                              vec_size, vec_size);
 -            } else {
 -                gen_gvec_saba(size, rd_ofs, rn_ofs, rm_ofs,
 -                              vec_size, vec_size);
 -            }
 -            return 0;
 -
          case NEON_3R_VADD_VSUB:
          case NEON_3R_LOGIC:
          case NEON_3R_VMAX:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VSHL:
          case NEON_3R_SHA:
          case NEON_3R_VHADD:
 +        case NEON_3R_VABD:
 +        case NEON_3R_VABA:
              /* Already handled by decodetree */
              return 1;
          }
 --
-.20.1
+.25.1

-[PULL 35/45] target/arm: Convert Neon VQSHL, VRSHL, VQRSHL 3-reg-same insns to decodetree
+[PULL 18/39] hw/arm/boot: Don't write secondary boot stub if using PSCI
-Convert the VQSHL, VRSHL and VQRSHL insns in the 3-reg-same
+If we're using PSCI emulation to start secondary CPUs, there is no
-group to decodetree. We have already implemented the size==0b11
+point in writing the "secondary boot" stub code, because it will
-case of these insns; this commit handles the remaining sizes.
+never be used -- secondary CPUs start powered-off, and when powered
 on are set to begin execution at the address specified by the guest's
 power-on PSCI call, not at the stub.
 Move the call to the hook that writes the secondary boot stub code so
 that we can do it only if we're starting a Linux kernel and not using
 PSCI.
 (None of the users of the hook care about the ordering of its call
 relative to anything else: they only use it to write a rom blob to
 guest memory.)
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-8-peter.maydell@linaro.org
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Message-id: 20220127154639.2090164-14-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       | 30 ++++++++++++++++++-----
+ include/hw/arm/boot.h |  3 +++
- target/arm/translate-neon.inc.c | 43 +++++++++++++++++++++++++++++++++
+ hw/arm/boot.c         | 35 ++++++++++++++++++++++++-----------
- target/arm/translate.c          | 22 +++--------------
+files changed, 27 insertions(+), 11 deletions(-)
 files changed, 70 insertions(+), 25 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/include/hw/arm/boot.h b/include/hw/arm/boot.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/include/hw/arm/boot.h
-+++ b/target/arm/neon-dp.decode
++++ b/include/hw/arm/boot.h
-@@ -XXX,XX +XXX,XX @@ VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
+@@ -XXX,XX +XXX,XX @@ struct arm_boot_info {
- @3same_64_rev    .... ... . . . 11 .... .... .... . q:1 . . .... \
+      * boot loader/boot ROM code, and secondary_cpu_reset_hook() should
-                  &3same vm=%vn_dp vn=%vm_dp vd=%vd_dp size=3
+      * perform any necessary CPU reset handling and set the PC for the
+      * secondary CPUs to point at this boot blob.
--VQSHL_S64_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
++     *
--VQSHL_U64_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
++     * These hooks won't be called if secondary CPUs are booting via
--VRSHL_S64_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
++     * emulated PSCI (see psci_conduit below).
--VRSHL_U64_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
+      */
--VQRSHL_S64_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
+     void (*write_secondary_boot)(ARMCPU *cpu,
--VQRSHL_U64_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
+                                  const struct arm_boot_info *info);
-+{
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
 +  VQSHL_S64_3s   1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
 +  VQSHL_S_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_rev
 +}
 +{
 +  VQSHL_U64_3s   1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
 +  VQSHL_U_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_rev
 +}
 +{
 +  VRSHL_S64_3s   1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
 +  VRSHL_S_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_rev
 +}
 +{
 +  VRSHL_U64_3s   1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
 +  VRSHL_U_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_rev
 +}
 +{
 +  VQRSHL_S64_3s  1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
 +  VQRSHL_S_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_rev
 +}
 +{
 +  VQRSHL_U64_3s  1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
 +  VQRSHL_U_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_rev
 +}
  VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
  VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/hw/arm/boot.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/hw/arm/boot.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
+@@ -XXX,XX +XXX,XX @@ static void do_cpu_reset(void *opaque)
-         return do_3same(s, a, gen_##INSN##_3s);                         \
+                         set_kernel_args(info, as);
                      }
                  }
 -            } else {
 +            } else if (info->secondary_cpu_reset_hook) {
                  info->secondary_cpu_reset_hook(cpu, info);
              }
          }
@@ -XXX,XX +XXX,XX @@ static void arm_setup_direct_kernel_boot(ARMCPU *cpu,
          elf_machine = EM_ARM;
      }
-+/*
+-    if (!info->secondary_cpu_reset_hook) {
-+ * Some helper functions need to be passed the cpu_env. In order
+-        info->secondary_cpu_reset_hook = default_reset_secondary;
-+ * to use those with the gvec APIs like tcg_gen_gvec_3() we need
+-    }
-+ * to create wrapper functions whose prototype is a NeonGenTwoOpFn()
+-    if (!info->write_secondary_boot) {
-+ * and which call a NeonGenTwoOpEnvFn().
+-        info->write_secondary_boot = default_write_secondary;
-+ */
+-    }
-+#define WRAP_ENV_FN(WRAPNAME, FUNC)                                     \
+-
-+    static void WRAPNAME(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m)            \
+     if (info->nb_cpus == 0)
-+    {                                                                   \
+         info->nb_cpus = 1;
-+        FUNC(d, cpu_env, n, m);                                         \
@@ -XXX,XX +XXX,XX @@ static void arm_setup_direct_kernel_boot(ARMCPU *cpu,
          write_bootloader("bootloader", info->loader_start,
                           primary_loader, fixupcontext, as);
 -        if (info->nb_cpus > 1) {
 -            info->write_secondary_boot(cpu, info);
 -        }
          if (info->write_board_setup) {
              info->write_board_setup(cpu, info);
          }
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
          }
      }
 +    if (info->psci_conduit == QEMU_PSCI_CONDUIT_DISABLED &&
 +        info->is_linux && info->nb_cpus > 1) {
 +        /*
 +         * We're booting Linux but not using PSCI, so for SMP we need
 +         * to write a custom secondary CPU boot loader stub, and arrange
 +         * for the secondary CPU reset to make the accompanying initialization.
 +         */
 +        if (!info->secondary_cpu_reset_hook) {
 +            info->secondary_cpu_reset_hook = default_reset_secondary;
 +        }
 +        if (!info->write_secondary_boot) {
 +            info->write_secondary_boot = default_write_secondary;
 +        }
 +        info->write_secondary_boot(cpu, info);
 +    } else {
 +        /*
 +         * No secondary boot stub; don't use the reset hook that would
 +         * have set the CPU up to call it
 +         */
 +        info->write_secondary_boot = NULL;
 +        info->secondary_cpu_reset_hook = NULL;
 +    }
 +
-+#define DO_3SAME_32_ENV(INSN, FUNC)                                     \
+     /*
-+    WRAP_ENV_FN(gen_##INSN##_tramp8, gen_helper_neon_##FUNC##8);        \
+      * arm_load_dtb() may add a PSCI node so it must be called after we have
-+    WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##16);      \
+      * decided whether to enable PSCI and set the psci-conduit CPU properties.
 +    WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##32);      \
 +    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
 +                                uint32_t rn_ofs, uint32_t rm_ofs,       \
 +                                uint32_t oprsz, uint32_t maxsz)         \
 +    {                                                                   \
 +        static const GVecGen3 ops[4] = {                                \
 +            { .fni4 = gen_##INSN##_tramp8 },                            \
 +            { .fni4 = gen_##INSN##_tramp16 },                           \
 +            { .fni4 = gen_##INSN##_tramp32 },                           \
 +            { 0 },                                                      \
 +        };                                                              \
 +        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece]); \
 +    }                                                                   \
 +    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
 +    {                                                                   \
 +        if (a->size > 2) {                                              \
 +            return false;                                               \
 +        }                                                               \
 +        return do_3same(s, a, gen_##INSN##_3s);                         \
 +    }
 +
  DO_3SAME_32(VHADD_S, hadd_s)
  DO_3SAME_32(VHADD_U, hadd_u)
  DO_3SAME_32(VHSUB_S, hsub_s)
  DO_3SAME_32(VHSUB_U, hsub_u)
  DO_3SAME_32(VRHADD_S, rhadd_s)
  DO_3SAME_32(VRHADD_U, rhadd_u)
 +DO_3SAME_32(VRSHL_S, rshl_s)
 +DO_3SAME_32(VRSHL_U, rshl_u)
 +
 +DO_3SAME_32_ENV(VQSHL_S, qshl_s)
 +DO_3SAME_32_ENV(VQSHL_U, qshl_u)
 +DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
 +DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VHSUB:
          case NEON_3R_VABD:
          case NEON_3R_VABA:
 +        case NEON_3R_VQSHL:
 +        case NEON_3R_VRSHL:
 +        case NEON_3R_VQRSHL:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          }
          pairwise = 0;
          switch (op) {
 -        case NEON_3R_VQSHL:
 -        case NEON_3R_VRSHL:
 -        case NEON_3R_VQRSHL:
 -            {
 -                int rtmp;
 -                /* Shift instruction operands are reversed.  */
 -                rtmp = rn;
 -                rn = rm;
 -                rm = rtmp;
 -            }
 -            break;
          case NEON_3R_VPADD_VQRDMLAH:
          case NEON_3R_VPMAX:
          case NEON_3R_VPMIN:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tmp2 = neon_load_reg(rm, pass);
          }
          switch (op) {
 -        case NEON_3R_VQSHL:
 -            GEN_NEON_INTEGER_OP_ENV(qshl);
 -            break;
 -        case NEON_3R_VRSHL:
 -            GEN_NEON_INTEGER_OP(rshl);
 -            break;
 -        case NEON_3R_VQRSHL:
 -            GEN_NEON_INTEGER_OP_ENV(qrshl);
              break;
          case NEON_3R_VPMAX:
              GEN_NEON_INTEGER_OP(pmax);
 --
-.20.1
+.25.1

-[PULL 07/45] target/arm: Create gen_gvec_{ceq,clt,cle,cgt,cge}0
+[PULL 19/39] hw/arm/highbank: Drop unused secondary boot stub code
-From: Richard Henderson <richard.henderson@linaro.org>
+The highbank and midway board code includes boot-stub code for
 handling secondary CPU boot which keeps the secondaries in a pen
 until the primary writes to a known location with the address they
 should jump to.
-Provide a functional interface for the vector expansion.
+This code is never used, because the boards enable QEMU's PSCI
-This fits better with the existing set of helpers that
+emulation, so secondary CPUs are kept powered off until the PSCI call
-we provide for other operations.
+which turns them on, and then start execution from the address given
 by the guest in that PSCI call.  Delete the unreachable code.
-Macro-ize the 5 nearly identical comparisons.
+(The code was wrong for midway in any case -- on the Cortex-A15 the
 GIC CPU interface registers are at a different offset from PERIPHBASE
 compared to the Cortex-A9, and the code baked-in the offsets for
 highbank's A9.)
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Note that this commit implicitly depends on the preceding "Don't
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+write secondary boot stub if using PSCI" commit -- the default
-Message-id: 20200513163245.17915-7-richard.henderson@linaro.org
+secondary-boot stub code overlaps with one of the highbank-specific
 bootcode rom blobs, so we must suppress the secondary-boot
 stub code entirely, not merely replace the highbank-specific
 version with the default.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Tested-by: Cédric Le Goater <clg@kaod.org>
+Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Message-id: 20220127154639.2090164-15-peter.maydell@linaro.org
 ---
- target/arm/translate.h     |  16 ++-
+ hw/arm/highbank.c | 56 -----------------------------------------------
- target/arm/translate-a64.c |  22 ++--
+file changed, 56 deletions(-)
  target/arm/translate.c     | 254 ++++++++-----------------------------
 files changed, 74 insertions(+), 218 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
+diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
+--- a/hw/arm/highbank.c
-+++ b/target/arm/translate.h
++++ b/hw/arm/highbank.c
-@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
+@@ -XXX,XX +XXX,XX @@
- uint64_t vfp_expand_imm(int size, uint8_t imm8);
+ /* Board init.  */
- /* Vector operations shared between ARM and AArch64.  */
--extern const GVecGen2 ceq0_op[4];
+-static void hb_write_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
 -extern const GVecGen2 clt0_op[4];
 -extern const GVecGen2 cgt0_op[4];
 -extern const GVecGen2 cle0_op[4];
 -extern const GVecGen2 cge0_op[4];
 +void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_clt0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_cgt0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_cle0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_cge0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   uint32_t opr_sz, uint32_t max_sz);
 +
  extern const GVecGen3 mla_op[4];
  extern const GVecGen3 mls_op[4];
  extern const GVecGen3 cmtst_op[4];
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
              is_q ? 16 : 8, vec_full_reg_size(s));
  }
 -/* Expand a 2-operand AdvSIMD vector operation using an op descriptor. */
 -static void gen_gvec_op2(DisasContext *s, bool is_q, int rd,
 -                         int rn, const GVecGen2 *gvec_op)
 -{
--    tcg_gen_gvec_2(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
+-    int n;
--                   is_q ? 16 : 8, vec_full_reg_size(s), gvec_op);
+-    uint32_t smpboot[] = {
 -        0xee100fb0, /* mrc p15, 0, r0, c0, c0, 5 - read current core id */
 -        0xe210000f, /* ands r0, r0, #0x0f */
 -        0xe3a03040, /* mov r3, #0x40 - jump address is 0x40 + 0x10 * core id */
 -        0xe0830200, /* add r0, r3, r0, lsl #4 */
 -        0xe59f2024, /* ldr r2, privbase */
 -        0xe3a01001, /* mov r1, #1 */
 -        0xe5821100, /* str r1, [r2, #256] - set GICC_CTLR.Enable */
 -        0xe3a010ff, /* mov r1, #0xff */
 -        0xe5821104, /* str r1, [r2, #260] - set GICC_PMR.Priority to 0xff */
 -        0xf57ff04f, /* dsb */
 -        0xe320f003, /* wfi */
 -        0xe5901000, /* ldr     r1, [r0] */
 -        0xe1110001, /* tst     r1, r1 */
 -        0x0afffffb, /* beq     <wfi> */
 -        0xe12fff11, /* bx      r1 */
 -        MPCORE_PERIPHBASE   /* privbase: MPCore peripheral base address.  */
 -    };
 -    for (n = 0; n < ARRAY_SIZE(smpboot); n++) {
 -        smpboot[n] = tswap32(smpboot[n]);
 -    }
 -    rom_add_blob_fixed_as("smpboot", smpboot, sizeof(smpboot), SMP_BOOT_ADDR,
 -                          arm_boot_address_space(cpu, info));
 -}
 -
- /* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
+-static void hb_reset_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
  static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
                           int rn, int rm, const GVecGen3 *gvec_op)
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
          }
          break;
      case 0x8: /* CMGT, CMGE */
 -        gen_gvec_op2(s, is_q, rd, rn, u ? &cge0_op[size] : &cgt0_op[size]);
 +        if (u) {
 +            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cge0, size);
 +        } else {
 +            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cgt0, size);
 +        }
          return;
      case 0x9: /* CMEQ, CMLE */
 -        gen_gvec_op2(s, is_q, rd, rn, u ? &cle0_op[size] : &ceq0_op[size]);
 +        if (u) {
 +            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cle0, size);
 +        } else {
 +            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_ceq0, size);
 +        }
          return;
      case 0xa: /* CMLT */
 -        gen_gvec_op2(s, is_q, rd, rn, &clt0_op[size]);
 +        gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_clt0, size);
          return;
      case 0xb:
          if (u) { /* ABS, NEG */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
      return 1;
  }
 -static void gen_ceq0_i32(TCGv_i32 d, TCGv_i32 a)
 -{
--    tcg_gen_setcondi_i32(TCG_COND_EQ, d, a, 0);
+-    CPUARMState *env = &cpu->env;
--    tcg_gen_neg_i32(d, d);
+-
 -    switch (info->nb_cpus) {
 -    case 4:
 -        address_space_stl_notdirty(&address_space_memory,
 -                                   SMP_BOOT_REG + 0x30, 0,
 -                                   MEMTXATTRS_UNSPECIFIED, NULL);
 -        /* fallthrough */
 -    case 3:
 -        address_space_stl_notdirty(&address_space_memory,
 -                                   SMP_BOOT_REG + 0x20, 0,
 -                                   MEMTXATTRS_UNSPECIFIED, NULL);
 -        /* fallthrough */
 -    case 2:
 -        address_space_stl_notdirty(&address_space_memory,
 -                                   SMP_BOOT_REG + 0x10, 0,
 -                                   MEMTXATTRS_UNSPECIFIED, NULL);
 -        env->regs[15] = SMP_BOOT_ADDR;
 -        break;
 -    default:
 -        break;
 -    }
 -}
 -
--static void gen_ceq0_i64(TCGv_i64 d, TCGv_i64 a)
+ #define NUM_REGS      0x200
--{
+ static void hb_regs_write(void *opaque, hwaddr offset,
--    tcg_gen_setcondi_i64(TCG_COND_EQ, d, a, 0);
+                           uint64_t value, unsigned size)
--    tcg_gen_neg_i64(d, d);
+@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
--}
+     highbank_binfo.board_id = -1;
--
+     highbank_binfo.nb_cpus = smp_cpus;
--static void gen_ceq0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
+     highbank_binfo.loader_start = 0;
--{
+-    highbank_binfo.write_secondary_boot = hb_write_secondary;
--    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
+-    highbank_binfo.secondary_cpu_reset_hook = hb_reset_secondary;
--    tcg_gen_cmp_vec(TCG_COND_EQ, vece, d, a, zero);
+     highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
--    tcg_temp_free_vec(zero);
+     highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
--}
 +#define GEN_CMP0(NAME, COND)                                            \
 +    static void gen_##NAME##0_i32(TCGv_i32 d, TCGv_i32 a)               \
 +    {                                                                   \
 +        tcg_gen_setcondi_i32(COND, d, a, 0);                            \
 +        tcg_gen_neg_i32(d, d);                                          \
 +    }                                                                   \
 +    static void gen_##NAME##0_i64(TCGv_i64 d, TCGv_i64 a)               \
 +    {                                                                   \
 +        tcg_gen_setcondi_i64(COND, d, a, 0);                            \
 +        tcg_gen_neg_i64(d, d);                                          \
 +    }                                                                   \
 +    static void gen_##NAME##0_vec(unsigned vece, TCGv_vec d, TCGv_vec a) \
 +    {                                                                   \
 +        TCGv_vec zero = tcg_const_zeros_vec_matching(d);                \
 +        tcg_gen_cmp_vec(COND, vece, d, a, zero);                        \
 +        tcg_temp_free_vec(zero);                                        \
 +    }                                                                   \
 +    void gen_gvec_##NAME##0(unsigned vece, uint32_t d, uint32_t m,      \
 +                            uint32_t opr_sz, uint32_t max_sz)           \
 +    {                                                                   \
 +        const GVecGen2 op[4] = {                                        \
 +            { .fno = gen_helper_gvec_##NAME##0_b,                       \
 +              .fniv = gen_##NAME##0_vec,                                \
 +              .opt_opc = vecop_list_cmp,                                \
 +              .vece = MO_8 },                                           \
 +            { .fno = gen_helper_gvec_##NAME##0_h,                       \
 +              .fniv = gen_##NAME##0_vec,                                \
 +              .opt_opc = vecop_list_cmp,                                \
 +              .vece = MO_16 },                                          \
 +            { .fni4 = gen_##NAME##0_i32,                                \
 +              .fniv = gen_##NAME##0_vec,                                \
 +              .opt_opc = vecop_list_cmp,                                \
 +              .vece = MO_32 },                                          \
 +            { .fni8 = gen_##NAME##0_i64,                                \
 +              .fniv = gen_##NAME##0_vec,                                \
 +              .opt_opc = vecop_list_cmp,                                \
 +              .prefer_i64 = TCG_TARGET_REG_BITS == 64,                  \
 +              .vece = MO_64 },                                          \
 +        };                                                              \
 +        tcg_gen_gvec_2(d, m, opr_sz, max_sz, &op[vece]);                \
 +    }
  static const TCGOpcode vecop_list_cmp[] = {
      INDEX_op_cmp_vec, 0
  };
 -const GVecGen2 ceq0_op[4] = {
 -    { .fno = gen_helper_gvec_ceq0_b,
 -      .fniv = gen_ceq0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_8 },
 -    { .fno = gen_helper_gvec_ceq0_h,
 -      .fniv = gen_ceq0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_16 },
 -    { .fni4 = gen_ceq0_i32,
 -      .fniv = gen_ceq0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_32 },
 -    { .fni8 = gen_ceq0_i64,
 -      .fniv = gen_ceq0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .vece = MO_64 },
 -};
 +GEN_CMP0(ceq, TCG_COND_EQ)
 +GEN_CMP0(cle, TCG_COND_LE)
 +GEN_CMP0(cge, TCG_COND_GE)
 +GEN_CMP0(clt, TCG_COND_LT)
 +GEN_CMP0(cgt, TCG_COND_GT)
 -static void gen_cle0_i32(TCGv_i32 d, TCGv_i32 a)
 -{
 -    tcg_gen_setcondi_i32(TCG_COND_LE, d, a, 0);
 -    tcg_gen_neg_i32(d, d);
 -}
 -
 -static void gen_cle0_i64(TCGv_i64 d, TCGv_i64 a)
 -{
 -    tcg_gen_setcondi_i64(TCG_COND_LE, d, a, 0);
 -    tcg_gen_neg_i64(d, d);
 -}
 -
 -static void gen_cle0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
 -{
 -    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
 -    tcg_gen_cmp_vec(TCG_COND_LE, vece, d, a, zero);
 -    tcg_temp_free_vec(zero);
 -}
 -
 -const GVecGen2 cle0_op[4] = {
 -    { .fno = gen_helper_gvec_cle0_b,
 -      .fniv = gen_cle0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_8 },
 -    { .fno = gen_helper_gvec_cle0_h,
 -      .fniv = gen_cle0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_16 },
 -    { .fni4 = gen_cle0_i32,
 -      .fniv = gen_cle0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_32 },
 -    { .fni8 = gen_cle0_i64,
 -      .fniv = gen_cle0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .vece = MO_64 },
 -};
 -
 -static void gen_cge0_i32(TCGv_i32 d, TCGv_i32 a)
 -{
 -    tcg_gen_setcondi_i32(TCG_COND_GE, d, a, 0);
 -    tcg_gen_neg_i32(d, d);
 -}
 -
 -static void gen_cge0_i64(TCGv_i64 d, TCGv_i64 a)
 -{
 -    tcg_gen_setcondi_i64(TCG_COND_GE, d, a, 0);
 -    tcg_gen_neg_i64(d, d);
 -}
 -
 -static void gen_cge0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
 -{
 -    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
 -    tcg_gen_cmp_vec(TCG_COND_GE, vece, d, a, zero);
 -    tcg_temp_free_vec(zero);
 -}
 -
 -const GVecGen2 cge0_op[4] = {
 -    { .fno = gen_helper_gvec_cge0_b,
 -      .fniv = gen_cge0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_8 },
 -    { .fno = gen_helper_gvec_cge0_h,
 -      .fniv = gen_cge0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_16 },
 -    { .fni4 = gen_cge0_i32,
 -      .fniv = gen_cge0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_32 },
 -    { .fni8 = gen_cge0_i64,
 -      .fniv = gen_cge0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .vece = MO_64 },
 -};
 -
 -static void gen_clt0_i32(TCGv_i32 d, TCGv_i32 a)
 -{
 -    tcg_gen_setcondi_i32(TCG_COND_LT, d, a, 0);
 -    tcg_gen_neg_i32(d, d);
 -}
 -
 -static void gen_clt0_i64(TCGv_i64 d, TCGv_i64 a)
 -{
 -    tcg_gen_setcondi_i64(TCG_COND_LT, d, a, 0);
 -    tcg_gen_neg_i64(d, d);
 -}
 -
 -static void gen_clt0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
 -{
 -    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
 -    tcg_gen_cmp_vec(TCG_COND_LT, vece, d, a, zero);
 -    tcg_temp_free_vec(zero);
 -}
 -
 -const GVecGen2 clt0_op[4] = {
 -    { .fno = gen_helper_gvec_clt0_b,
 -      .fniv = gen_clt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_8 },
 -    { .fno = gen_helper_gvec_clt0_h,
 -      .fniv = gen_clt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_16 },
 -    { .fni4 = gen_clt0_i32,
 -      .fniv = gen_clt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_32 },
 -    { .fni8 = gen_clt0_i64,
 -      .fniv = gen_clt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .vece = MO_64 },
 -};
 -
 -static void gen_cgt0_i32(TCGv_i32 d, TCGv_i32 a)
 -{
 -    tcg_gen_setcondi_i32(TCG_COND_GT, d, a, 0);
 -    tcg_gen_neg_i32(d, d);
 -}
 -
 -static void gen_cgt0_i64(TCGv_i64 d, TCGv_i64 a)
 -{
 -    tcg_gen_setcondi_i64(TCG_COND_GT, d, a, 0);
 -    tcg_gen_neg_i64(d, d);
 -}
 -
 -static void gen_cgt0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
 -{
 -    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
 -    tcg_gen_cmp_vec(TCG_COND_GT, vece, d, a, zero);
 -    tcg_temp_free_vec(zero);
 -}
 -
 -const GVecGen2 cgt0_op[4] = {
 -    { .fno = gen_helper_gvec_cgt0_b,
 -      .fniv = gen_cgt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_8 },
 -    { .fno = gen_helper_gvec_cgt0_h,
 -      .fniv = gen_cgt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_16 },
 -    { .fni4 = gen_cgt0_i32,
 -      .fniv = gen_cgt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .vece = MO_32 },
 -    { .fni8 = gen_cgt0_i64,
 -      .fniv = gen_cgt0_vec,
 -      .opt_opc = vecop_list_cmp,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .vece = MO_64 },
 -};
 +#undef GEN_CMP0
  static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      break;
                  case NEON_2RM_VCEQ0:
 -                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
 -                                   vec_size, &ceq0_op[size]);
 +                    gen_gvec_ceq0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                      break;
                  case NEON_2RM_VCGT0:
 -                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
 -                                   vec_size, &cgt0_op[size]);
 +                    gen_gvec_cgt0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                      break;
                  case NEON_2RM_VCLE0:
 -                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
 -                                   vec_size, &cle0_op[size]);
 +                    gen_gvec_cle0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                      break;
                  case NEON_2RM_VCGE0:
 -                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
 -                                   vec_size, &cge0_op[size]);
 +                    gen_gvec_cge0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                      break;
                  case NEON_2RM_VCLT0:
 -                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
 -                                   vec_size, &clt0_op[size]);
 +                    gen_gvec_clt0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                      break;
                  default:
 --
-.20.1
+.25.1

-[PULL 18/45] aspeed: Add support for the sonorapass-bmc board
+[PULL 20/39] hw/arm/boot: Drop nb_cpus field from arm_boot_info
-From: Patrick Williams <patrick@stwcx.xyz>
+We use the arm_boot_info::nb_cpus field in only one place, and that
+place can easily get the number of CPUs locally rather than relying
-Sonora Pass is a 2 socket x86 motherboard designed by Facebook
+on the board code to have set the field correctly.  (At least one
-and supported by OpenBMC.  Strapping configuration was obtained
+board, xlnx-versal-virt, does not set the field despite having more
-from hardware and i2c configuration is based on dts found at:
+than one CPU.)
 https://github.com/facebook/openbmc-linux/blob/1633c87b8ba7c162095787c988979b748ba65dc8/arch/arm/boot/dts/aspeed-bmc-facebook-sonorapass.dts
 Booted a test image of http://github.com/facebook/openbmc to login
 prompt.
 Signed-off-by: Patrick Williams <patrick@stwcx.xyz>
 Reviewed-by: Amithash Prasad <amithash@fb.com>
 Reviewed-by: Cédric Le Goater <clg@kaod.org>
 [PMM: fixed block comment style nit]
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Tested-by: Cédric Le Goater <clg@kaod.org>
+Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
+Message-id: 20220127154639.2090164-16-peter.maydell@linaro.org
 ---
- hw/arm/aspeed.c | 78 +++++++++++++++++++++++++++++++++++++++++++++++++
+ include/hw/arm/boot.h   | 1 -
-file changed, 78 insertions(+)
+ hw/arm/aspeed.c         | 1 -
+ hw/arm/boot.c           | 7 +++----
  hw/arm/exynos4_boards.c | 1 -
  hw/arm/highbank.c       | 1 -
  hw/arm/imx25_pdk.c      | 3 +--
  hw/arm/kzm.c            | 1 -
  hw/arm/mcimx6ul-evk.c   | 1 -
  hw/arm/mcimx7d-sabre.c  | 1 -
  hw/arm/npcm7xx.c        | 3 ---
  hw/arm/orangepi.c       | 4 +---
  hw/arm/raspi.c          | 1 -
  hw/arm/realview.c       | 1 -
  hw/arm/sabrelite.c      | 1 -
  hw/arm/sbsa-ref.c       | 1 -
  hw/arm/vexpress.c       | 1 -
  hw/arm/virt.c           | 1 -
  hw/arm/xilinx_zynq.c    | 1 -
 files changed, 5 insertions(+), 26 deletions(-)
 diff --git a/include/hw/arm/boot.h b/include/hw/arm/boot.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/arm/boot.h
 +++ b/include/hw/arm/boot.h
@@ -XXX,XX +XXX,XX @@ struct arm_boot_info {
      hwaddr smp_loader_start;
      hwaddr smp_bootreg_addr;
      hwaddr gic_cpu_if_addr;
 -    int nb_cpus;
      int board_id;
      /* ARM machines that support the ARM Security Extensions use this field to
       * control whether Linux is booted as secure(true) or non-secure(false).
 diff --git a/hw/arm/aspeed.c b/hw/arm/aspeed.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/aspeed.c
 +++ b/hw/arm/aspeed.c
-@@ -XXX,XX +XXX,XX @@ struct AspeedBoardState {
+@@ -XXX,XX +XXX,XX @@ static void aspeed_machine_init(MachineState *machine)
-         SCU_AST2500_HW_STRAP_ACPI_ENABLE |                              \
-         SCU_HW_STRAP_SPI_MODE(SCU_HW_STRAP_SPI_MASTER))
+     aspeed_board_binfo.ram_size = machine->ram_size;
+     aspeed_board_binfo.loader_start = sc->memmap[ASPEED_DEV_SDRAM];
-+/* Sonorapass hardware value: 0xF100D216 */
+-    aspeed_board_binfo.nb_cpus = sc->num_cpus;
-+#define SONORAPASS_BMC_HW_STRAP1 (                                      \
-+        SCU_AST2500_HW_STRAP_SPI_AUTOFETCH_ENABLE |                     \
+     if (amc->i2c_init) {
-+        SCU_AST2500_HW_STRAP_GPIO_STRAP_ENABLE |                        \
+         amc->i2c_init(bmc);
-+        SCU_AST2500_HW_STRAP_UART_DEBUG |                               \
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
-+        SCU_AST2500_HW_STRAP_RESERVED28 |                               \
+index XXXXXXX..XXXXXXX 100644
-+        SCU_AST2500_HW_STRAP_DDR4_ENABLE |                              \
+--- a/hw/arm/boot.c
-+        SCU_HW_STRAP_VGA_CLASS_CODE |                                   \
++++ b/hw/arm/boot.c
-+        SCU_HW_STRAP_LPC_RESET_PIN |                                    \
+@@ -XXX,XX +XXX,XX @@ static void arm_setup_direct_kernel_boot(ARMCPU *cpu,
-+        SCU_HW_STRAP_SPI_MODE(SCU_HW_STRAP_SPI_MASTER) |                \
+         elf_machine = EM_ARM;
-+        SCU_AST2500_HW_STRAP_SET_AXI_AHB_RATIO(AXI_AHB_RATIO_2_1) |     \
+     }
-+        SCU_HW_STRAP_VGA_BIOS_ROM |                                     \
-+        SCU_HW_STRAP_VGA_SIZE_SET(VGA_16M_DRAM) |                       \
+-    if (info->nb_cpus == 0)
-+        SCU_AST2500_HW_STRAP_RESERVED1)
+-        info->nb_cpus = 1;
-+
+-
- /* Swift hardware value: 0xF11AD206 */
+     /* Assume that raw images are linux kernels, and ELF images are not.  */
- #define SWIFT_BMC_HW_STRAP1 (                                           \
+     kernel_size = arm_load_elf(info, &elf_entry, &image_low_addr,
-         AST2500_HW_STRAP1_DEFAULTS |                                    \
+                                &image_high_addr, elf_machine, as);
-@@ -XXX,XX +XXX,XX @@ static void swift_bmc_i2c_init(AspeedBoardState *bmc)
+@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
-     i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 12), "tmp105", 0x4a);
+     AddressSpace *as = arm_boot_address_space(cpu, info);
      int boot_el;
      CPUARMState *env = &cpu->env;
 +    int nb_cpus = 0;
      /*
       * CPU objects (unlike devices) are not automatically reset on system
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
       */
      for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
          qemu_register_reset(do_cpu_reset, ARM_CPU(cs));
 +        nb_cpus++;
      }
      /*
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
      }
      if (info->psci_conduit == QEMU_PSCI_CONDUIT_DISABLED &&
 -        info->is_linux && info->nb_cpus > 1) {
 +        info->is_linux && nb_cpus > 1) {
          /*
           * We're booting Linux but not using PSCI, so for SMP we need
           * to write a custom secondary CPU boot loader stub, and arrange
 diff --git a/hw/arm/exynos4_boards.c b/hw/arm/exynos4_boards.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/exynos4_boards.c
 +++ b/hw/arm/exynos4_boards.c
@@ -XXX,XX +XXX,XX @@ static unsigned long exynos4_board_ram_size[EXYNOS4_NUM_OF_BOARDS] = {
  static struct arm_boot_info exynos4_board_binfo = {
      .loader_start     = EXYNOS4210_BASE_BOOT_ADDR,
      .smp_loader_start = EXYNOS4210_SMP_BOOT_ADDR,
 -    .nb_cpus          = EXYNOS4210_NCPUS,
      .write_secondary_boot = exynos4210_write_secondary,
  };
 diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/highbank.c
 +++ b/hw/arm/highbank.c
@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
       * clear that the value is meaningless.
       */
      highbank_binfo.board_id = -1;
 -    highbank_binfo.nb_cpus = smp_cpus;
      highbank_binfo.loader_start = 0;
      highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
      highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
 diff --git a/hw/arm/imx25_pdk.c b/hw/arm/imx25_pdk.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/imx25_pdk.c
 +++ b/hw/arm/imx25_pdk.c
@@ -XXX,XX +XXX,XX @@ static void imx25_pdk_init(MachineState *machine)
      imx25_pdk_binfo.ram_size = machine->ram_size;
      imx25_pdk_binfo.loader_start = FSL_IMX25_SDRAM0_ADDR;
 -    imx25_pdk_binfo.board_id = 1771,
 -    imx25_pdk_binfo.nb_cpus = 1;
 +    imx25_pdk_binfo.board_id = 1771;
      for (i = 0; i < FSL_IMX25_NUM_ESDHCS; i++) {
          BusState *bus;
 diff --git a/hw/arm/kzm.c b/hw/arm/kzm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/kzm.c
 +++ b/hw/arm/kzm.c
@@ -XXX,XX +XXX,XX @@ static void kzm_init(MachineState *machine)
      }
      kzm_binfo.ram_size = machine->ram_size;
 -    kzm_binfo.nb_cpus = 1;
      if (!qtest_enabled()) {
          arm_load_kernel(&s->soc.cpu, machine, &kzm_binfo);
 diff --git a/hw/arm/mcimx6ul-evk.c b/hw/arm/mcimx6ul-evk.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/mcimx6ul-evk.c
 +++ b/hw/arm/mcimx6ul-evk.c
@@ -XXX,XX +XXX,XX @@ static void mcimx6ul_evk_init(MachineState *machine)
          .loader_start = FSL_IMX6UL_MMDC_ADDR,
          .board_id = -1,
          .ram_size = machine->ram_size,
 -        .nb_cpus = machine->smp.cpus,
          .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
      };
 diff --git a/hw/arm/mcimx7d-sabre.c b/hw/arm/mcimx7d-sabre.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/mcimx7d-sabre.c
 +++ b/hw/arm/mcimx7d-sabre.c
@@ -XXX,XX +XXX,XX @@ static void mcimx7d_sabre_init(MachineState *machine)
          .loader_start = FSL_IMX7_MMDC_ADDR,
          .board_id = -1,
          .ram_size = machine->ram_size,
 -        .nb_cpus = machine->smp.cpus,
          .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
      };
 diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/npcm7xx.c
 +++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ static struct arm_boot_info npcm7xx_binfo = {
  void npcm7xx_load_kernel(MachineState *machine, NPCM7xxState *soc)
  {
 -    NPCM7xxClass *sc = NPCM7XX_GET_CLASS(soc);
 -
      npcm7xx_binfo.ram_size = machine->ram_size;
 -    npcm7xx_binfo.nb_cpus = sc->num_cpus;
      arm_load_kernel(&soc->cpu[0], machine, &npcm7xx_binfo);
  }
+diff --git a/hw/arm/orangepi.c b/hw/arm/orangepi.c
-+static void sonorapass_bmc_i2c_init(AspeedBoardState *bmc)
+index XXXXXXX..XXXXXXX 100644
-+{
+--- a/hw/arm/orangepi.c
-+    AspeedSoCState *soc = &bmc->soc;
++++ b/hw/arm/orangepi.c
-+
+@@ -XXX,XX +XXX,XX @@
-+    /* bus 2 : */
+ #include "hw/qdev-properties.h"
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 2), "tmp105", 0x48);
+ #include "hw/arm/allwinner-h3.h"
-+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 2), "tmp105", 0x49);
-+    /* bus 2 : pca9546 @ 0x73 */
+-static struct arm_boot_info orangepi_binfo = {
-+
+-    .nb_cpus = AW_H3_NUM_CPUS,
-+    /* bus 3 : pca9548 @ 0x70 */
+-};
-+
++static struct arm_boot_info orangepi_binfo;
-+    /* bus 4 : */
-+    uint8_t *eeprom4_54 = g_malloc0(8 * 1024);
+ static void orangepi_init(MachineState *machine)
 +    smbus_eeprom_init_one(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), 0x54,
 +                          eeprom4_54);
 +    /* PCA9539 @ 0x76, but PCA9552 is compatible */
 +    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), "pca9552", 0x76);
 +    /* PCA9539 @ 0x77, but PCA9552 is compatible */
 +    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), "pca9552", 0x77);
 +
 +    /* bus 6 : */
 +    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 6), "tmp105", 0x48);
 +    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 6), "tmp105", 0x49);
 +    /* bus 6 : pca9546 @ 0x73 */
 +
 +    /* bus 8 : */
 +    uint8_t *eeprom8_56 = g_malloc0(8 * 1024);
 +    smbus_eeprom_init_one(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), 0x56,
 +                          eeprom8_56);
 +    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), "pca9552", 0x60);
 +    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), "pca9552", 0x61);
 +    /* bus 8 : adc128d818 @ 0x1d */
 +    /* bus 8 : adc128d818 @ 0x1f */
 +
 +    /*
 +     * bus 13 : pca9548 @ 0x71
 +     *      - channel 3:
 +     *          - tmm421 @ 0x4c
 +     *          - tmp421 @ 0x4e
 +     *          - tmp421 @ 0x4f
 +     */
 +
 +}
 +
  static void witherspoon_bmc_i2c_init(AspeedBoardState *bmc)
  {
-     AspeedSoCState *soc = &bmc->soc;
+diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
-@@ -XXX,XX +XXX,XX @@ static void aspeed_machine_romulus_class_init(ObjectClass *oc, void *data)
+index XXXXXXX..XXXXXXX 100644
-     mc->default_ram_size       = 512 * MiB;
+--- a/hw/arm/raspi.c
- };
++++ b/hw/arm/raspi.c
+@@ -XXX,XX +XXX,XX @@ static void setup_boot(MachineState *machine, RaspiProcessorId processor_id,
-+static void aspeed_machine_sonorapass_class_init(ObjectClass *oc, void *data)
-+{
+     s->binfo.board_id = MACH_TYPE_BCM2708;
-+    MachineClass *mc = MACHINE_CLASS(oc);
+     s->binfo.ram_size = ram_size;
-+    AspeedMachineClass *amc = ASPEED_MACHINE_CLASS(oc);
+-    s->binfo.nb_cpus = machine->smp.cpus;
-+
-+    mc->desc       = "OCP SonoraPass BMC (ARM1176)";
+     if (processor_id <= PROCESSOR_ID_BCM2836) {
-+    amc->soc_name  = "ast2500-a1";
+         /*
-+    amc->hw_strap1 = SONORAPASS_BMC_HW_STRAP1;
+diff --git a/hw/arm/realview.c b/hw/arm/realview.c
-+    amc->fmc_model = "mx66l1g45g";
+index XXXXXXX..XXXXXXX 100644
-+    amc->spi_model = "mx66l1g45g";
+--- a/hw/arm/realview.c
-+    amc->num_cs    = 2;
++++ b/hw/arm/realview.c
-+    amc->i2c_init  = sonorapass_bmc_i2c_init;
+@@ -XXX,XX +XXX,XX @@ static void realview_init(MachineState *machine,
-+    mc->default_ram_size       = 512 * MiB;
+     memory_region_add_subregion(sysmem, SMP_BOOT_ADDR, ram_hack);
-+};
-+
+     realview_binfo.ram_size = ram_size;
- static void aspeed_machine_swift_class_init(ObjectClass *oc, void *data)
+-    realview_binfo.nb_cpus = smp_cpus;
- {
+     realview_binfo.board_id = realview_board_id[board_type];
-     MachineClass *mc = MACHINE_CLASS(oc);
+     realview_binfo.loader_start = (board_type == BOARD_PB_A8 ? 0x70000000 : 0);
-@@ -XXX,XX +XXX,XX @@ static const TypeInfo aspeed_machine_types[] = {
+     arm_load_kernel(ARM_CPU(first_cpu), machine, &realview_binfo);
-         .name          = MACHINE_TYPE_NAME("swift-bmc"),
+diff --git a/hw/arm/sabrelite.c b/hw/arm/sabrelite.c
-         .parent        = TYPE_ASPEED_MACHINE,
+index XXXXXXX..XXXXXXX 100644
-         .class_init    = aspeed_machine_swift_class_init,
+--- a/hw/arm/sabrelite.c
-+    }, {
++++ b/hw/arm/sabrelite.c
-+        .name          = MACHINE_TYPE_NAME("sonorapass-bmc"),
+@@ -XXX,XX +XXX,XX @@ static void sabrelite_init(MachineState *machine)
-+        .parent        = TYPE_ASPEED_MACHINE,
+     }
-+        .class_init    = aspeed_machine_sonorapass_class_init,
-     }, {
+     sabrelite_binfo.ram_size = machine->ram_size;
-         .name          = MACHINE_TYPE_NAME("witherspoon-bmc"),
+-    sabrelite_binfo.nb_cpus = machine->smp.cpus;
-         .parent        = TYPE_ASPEED_MACHINE,
+     sabrelite_binfo.secure_boot = true;
      sabrelite_binfo.write_secondary_boot = sabrelite_write_secondary;
      sabrelite_binfo.secondary_cpu_reset_hook = sabrelite_reset_secondary;
 diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/sbsa-ref.c
 +++ b/hw/arm/sbsa-ref.c
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
      create_secure_ec(secure_sysmem);
      sms->bootinfo.ram_size = machine->ram_size;
 -    sms->bootinfo.nb_cpus = smp_cpus;
      sms->bootinfo.board_id = -1;
      sms->bootinfo.loader_start = sbsa_ref_memmap[SBSA_MEM].base;
      sms->bootinfo.get_dtb = sbsa_ref_dtb;
 diff --git a/hw/arm/vexpress.c b/hw/arm/vexpress.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/vexpress.c
 +++ b/hw/arm/vexpress.c
@@ -XXX,XX +XXX,XX @@ static void vexpress_common_init(MachineState *machine)
      }
      daughterboard->bootinfo.ram_size = machine->ram_size;
 -    daughterboard->bootinfo.nb_cpus = machine->smp.cpus;
      daughterboard->bootinfo.board_id = VEXPRESS_BOARD_ID;
      daughterboard->bootinfo.loader_start = daughterboard->loader_start;
      daughterboard->bootinfo.smp_loader_start = map[VE_SRAM];
 diff --git a/hw/arm/virt.c b/hw/arm/virt.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/virt.c
 +++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
      }
      vms->bootinfo.ram_size = machine->ram_size;
 -    vms->bootinfo.nb_cpus = smp_cpus;
      vms->bootinfo.board_id = -1;
      vms->bootinfo.loader_start = vms->memmap[VIRT_MEM].base;
      vms->bootinfo.get_dtb = machvirt_dtb;
 diff --git a/hw/arm/xilinx_zynq.c b/hw/arm/xilinx_zynq.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/arm/xilinx_zynq.c
 +++ b/hw/arm/xilinx_zynq.c
@@ -XXX,XX +XXX,XX @@ static void zynq_init(MachineState *machine)
      sysbus_mmio_map(busdev, 0, 0xF8007000);
      zynq_binfo.ram_size = machine->ram_size;
 -    zynq_binfo.nb_cpus = 1;
      zynq_binfo.board_id = 0xd32;
      zynq_binfo.loader_start = 0;
      zynq_binfo.board_setup_addr = BOARD_SETUP_ADDR;
 --
-.20.1
+.25.1

-[PULL 32/45] target/arm: Convert Neon VHADD 3-reg-same insns
+[PULL 21/39] hw/arm/boot: Drop existing dtb /psci node rather than retaining it
-Convert the Neon VHADD insns in the 3-reg-same group to decodetree.
+If we're using PSCI emulation, we add a /psci node to the device tree
 we pass to the guest.  At the moment, if the dtb already has a /psci
 node in it, we retain it, rather than replacing it. (This behaviour
 was added in commit c39770cd637765 in 2018.)
 This is a problem if the existing node doesn't match our PSCI
 emulation.  In particular, it might specify the wrong method (HVC vs
 SMC), or wrong function IDs for cpu_suspend/cpu_off/etc, in which
 case the guest will not get the behaviour it wants when it makes PSCI
 calls.
 An example of this is trying to boot the highbank or midway board
 models using the device tree supplied in the kernel sources: this
 device tree includes a /psci node that specifies function IDs that
 don't match the (PSCI 0.2 compliant) IDs that QEMU uses.  The dtb
 cpu_suspend function ID happens to match the PSCI 0.2 cpu_off ID, so
 the guest hangs after booting when the kernel tries to idle the CPU
 and instead it gets turned off.
 Instead of retaining an existing /psci node, delete it entirely
 and replace it with a node whose properties match QEMU's PSCI
 emulation behaviour. This matches the way we handle /memory nodes,
 where we also delete any existing nodes and write in ones that
 match the way QEMU is going to behave.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-5-peter.maydell@linaro.org
+Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Tested-by: Cédric Le Goater <clg@kaod.org>
 Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
 Message-id: 20220127154639.2090164-17-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  2 ++
+ hw/arm/boot.c | 7 ++++---
- target/arm/translate-neon.inc.c | 24 ++++++++++++++++++++++++
+file changed, 4 insertions(+), 3 deletions(-)
  target/arm/translate.c          |  4 +---
 files changed, 27 insertions(+), 3 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/arm/boot.c b/hw/arm/boot.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/arm/boot.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/arm/boot.c
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ static void fdt_add_psci_node(void *fdt)
- @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
+     }
-                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
+     /*
-+VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
+-     * If /psci node is present in provided DTB, assume that no fixup
-+VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
+-     * is necessary and all PSCI configuration should be taken as-is
- VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
++     * A pre-existing /psci node might specify function ID values
- VQADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 1 .... @3same
++     * that don't match QEMU's PSCI implementation. Delete the whole
++     * node and put our own in instead.
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+      */
-index XXXXXXX..XXXXXXX 100644
+     rc = fdt_path_offset(fdt, "/psci");
---- a/target/arm/translate-neon.inc.c
+     if (rc >= 0) {
-+++ b/target/arm/translate-neon.inc.c
+-        return;
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQSHL_S64, gen_helper_neon_qshl_s64)
++        qemu_fdt_nop_node(fdt, "/psci");
- DO_3SAME_64_ENV(VQSHL_U64, gen_helper_neon_qshl_u64)
+     }
- DO_3SAME_64_ENV(VQRSHL_S64, gen_helper_neon_qrshl_s64)
- DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
+     qemu_fdt_add_subnode(fdt, "/psci");
 +
 +#define DO_3SAME_32(INSN, FUNC)                                         \
 +    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
 +                                uint32_t rn_ofs, uint32_t rm_ofs,       \
 +                                uint32_t oprsz, uint32_t maxsz)         \
 +    {                                                                   \
 +        static const GVecGen3 ops[4] = {                                \
 +            { .fni4 = gen_helper_neon_##FUNC##8 },                      \
 +            { .fni4 = gen_helper_neon_##FUNC##16 },                     \
 +            { .fni4 = gen_helper_neon_##FUNC##32 },                     \
 +            { 0 },                                                      \
 +        };                                                              \
 +        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece]); \
 +    }                                                                   \
 +    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
 +    {                                                                   \
 +        if (a->size > 2) {                                              \
 +            return false;                                               \
 +        }                                                               \
 +        return do_3same(s, a, gen_##INSN##_3s);                         \
 +    }
 +
 +DO_3SAME_32(VHADD_S, hadd_s)
 +DO_3SAME_32(VHADD_U, hadd_u)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VML:
          case NEON_3R_VSHL:
          case NEON_3R_SHA:
 +        case NEON_3R_VHADD:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              tmp2 = neon_load_reg(rm, pass);
          }
          switch (op) {
 -        case NEON_3R_VHADD:
 -            GEN_NEON_INTEGER_OP(hadd);
 -            break;
          case NEON_3R_VRHADD:
              GEN_NEON_INTEGER_OP(rhadd);
              break;
 --
-.20.1
+.25.1

-[PULL 19/45] acpi: nvdimm: change NVDIMM_UUID_LE to a common macro
+[PULL 22/39] hw/arm: versal-virt: Always call arm_load_kernel()
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>
-The little end UUID is used in many places, so make
+Always call arm_load_kernel() regardless of kernel_filename being
-NVDIMM_UUID_LE to a common macro to convert the UUID
+set. This is needed because arm_load_kernel() sets up reset for
-to a little end array.
+the CPUs.
-Reviewed-by: Xiang Zheng <zhengxiang9@huawei.com>
+Fixes: 6f16da53ff (hw/arm: versal: Add a virtual Xilinx Versal board)
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
+Reported-by: Peter Maydell <peter.maydell@linaro.org>
-Message-id: 20200512030609.19593-2-gengdongjiu@huawei.com
+Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
 Message-id: 20220130110313.4045351-2-edgar.iglesias@gmail.com
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/qemu/uuid.h | 27 +++++++++++++++++++++++++++
+ hw/arm/xlnx-versal-virt.c | 11 ++---------
- hw/acpi/nvdimm.c    | 10 +++-------
+file changed, 2 insertions(+), 9 deletions(-)
 files changed, 30 insertions(+), 7 deletions(-)
-diff --git a/include/qemu/uuid.h b/include/qemu/uuid.h
+diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/qemu/uuid.h
+--- a/hw/arm/xlnx-versal-virt.c
-+++ b/include/qemu/uuid.h
++++ b/hw/arm/xlnx-versal-virt.c
-@@ -XXX,XX +XXX,XX @@ typedef struct {
+@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
-     };
+     s->binfo.get_dtb = versal_virt_get_dtb;
- } QemuUUID;
+     s->binfo.modify_dtb = versal_virt_modify_dtb;
+     s->binfo.psci_conduit = psci_conduit;
-+/**
+-    if (machine->kernel_filename) {
-+ * UUID_LE - converts the fields of UUID to little-endian array,
+-        arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
-+ * each of parameters is the filed of UUID.
+-    } else {
-+ *
+-        AddressSpace *as = arm_boot_address_space(&s->soc.fpd.apu.cpu[0],
-+ * @time_low: The low field of the timestamp
+-                                                  &s->binfo);
-+ * @time_mid: The middle field of the timestamp
++    if (!machine->kernel_filename) {
-+ * @time_hi_and_version: The high field of the timestamp
+         /* Some boot-loaders (e.g u-boot) don't like blobs at address 0 (NULL).
-+ *                       multiplexed with the version number
+          * Offset things by 4K.  */
-+ * @clock_seq_hi_and_reserved: The high field of the clock
+         s->binfo.loader_start = 0x1000;
-+ *                             sequence multiplexed with the variant
+         s->binfo.dtb_limit = 0x1000000;
-+ * @clock_seq_low: The low field of the clock sequence
+-        if (arm_load_dtb(s->binfo.loader_start,
-+ * @node0: The spatially unique node0 identifier
+-                         &s->binfo, s->binfo.dtb_limit, as, machine) < 0) {
-+ * @node1: The spatially unique node1 identifier
+-            exit(EXIT_FAILURE);
-+ * @node2: The spatially unique node2 identifier
+-        }
-+ * @node3: The spatially unique node3 identifier
+     }
-+ * @node4: The spatially unique node4 identifier
++    arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
-+ * @node5: The spatially unique node5 identifier
-+ */
+     for (i = 0; i < XLNX_VERSAL_NUM_OSPI_FLASH; i++) {
-+#define UUID_LE(time_low, time_mid, time_hi_and_version,                    \
+         BusState *spi_bus;
 +  clock_seq_hi_and_reserved, clock_seq_low, node0, node1, node2,            \
 +  node3, node4, node5)                                                      \
 +  { (time_low) & 0xff, ((time_low) >> 8) & 0xff, ((time_low) >> 16) & 0xff, \
 +    ((time_low) >> 24) & 0xff, (time_mid) & 0xff, ((time_mid) >> 8) & 0xff, \
 +    (time_hi_and_version) & 0xff, ((time_hi_and_version) >> 8) & 0xff,      \
 +    (clock_seq_hi_and_reserved), (clock_seq_low), (node0), (node1), (node2),\
 +    (node3), (node4), (node5) }
 +
  #define UUID_FMT "%02hhx%02hhx%02hhx%02hhx-" \
                   "%02hhx%02hhx-%02hhx%02hhx-" \
                   "%02hhx%02hhx-" \
 diff --git a/hw/acpi/nvdimm.c b/hw/acpi/nvdimm.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/acpi/nvdimm.c
 +++ b/hw/acpi/nvdimm.c
@@ -XXX,XX +XXX,XX @@
   */
  #include "qemu/osdep.h"
 +#include "qemu/uuid.h"
  #include "hw/acpi/acpi.h"
  #include "hw/acpi/aml-build.h"
  #include "hw/acpi/bios-linker-loader.h"
@@ -XXX,XX +XXX,XX @@
  #include "hw/mem/nvdimm.h"
  #include "qemu/nvdimm-utils.h"
 -#define NVDIMM_UUID_LE(a, b, c, d0, d1, d2, d3, d4, d5, d6, d7)             \
 -   { (a) & 0xff, ((a) >> 8) & 0xff, ((a) >> 16) & 0xff, ((a) >> 24) & 0xff, \
 -     (b) & 0xff, ((b) >> 8) & 0xff, (c) & 0xff, ((c) >> 8) & 0xff,          \
 -     (d0), (d1), (d2), (d3), (d4), (d5), (d6), (d7) }
 -
  /*
   * define Byte Addressable Persistent Memory (PM) Region according to
   * ACPI 6.0: 5.2.25.1 System Physical Address Range Structure.
   */
  static const uint8_t nvdimm_nfit_spa_uuid[] =
 -      NVDIMM_UUID_LE(0x66f0d379, 0xb4f3, 0x4074, 0xac, 0x43, 0x0d, 0x33,
 -                     0x18, 0xb7, 0x8c, 0xdb);
 +      UUID_LE(0x66f0d379, 0xb4f3, 0x4074, 0xac, 0x43, 0x0d, 0x33,
 +              0x18, 0xb7, 0x8c, 0xdb);
  /*
   * NVDIMM Firmware Interface Table
 --
-.20.1
+.25.1

-[PULL 15/45] target/arm: Clear tail in gvec_fmul_idx_*, gvec_fmla_idx_*
+[PULL 23/39] arm: force flag recalculation when messing with DAIF
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Alex Bennée <alex.bennee@linaro.org>
-Must clear the tail for AdvSIMD when SVE is enabled.
+The recently introduced debug tests in kvm-unit-tests exposed an error
 in our handling of singlestep cause by stale hflags. This is caught by
 --enable-debug-tcg when running the tests.
-Fixes: ca40a6e6e39
+Signed-off-by: Alex Bennée <alex.bennee@linaro.org>
-Cc: qemu-stable@nongnu.org
+Reported-by: Andrew Jones <drjones@redhat.com>
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Tested-by: Andrew Jones <drjones@redhat.com>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-15-richard.henderson@linaro.org
+Message-id: 20220202122353.457084-1-alex.bennee@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/vec_helper.c | 2 ++
+ target/arm/helper-a64.c | 2 ++
 file changed, 2 insertions(+)
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
+diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/vec_helper.c
+--- a/target/arm/helper-a64.c
-+++ b/target/arm/vec_helper.c
++++ b/target/arm/helper-a64.c
-@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
+@@ -XXX,XX +XXX,XX @@ void HELPER(msr_i_daifset)(CPUARMState *env, uint32_t imm)
-             d[i + j] = TYPE##_mul(n[i + j], mm, stat);                     \
+ {
-         }                                                                  \
+     daif_check(env, 0x1e, imm, GETPC());
-     }                                                                      \
+     env->daif |= (imm << 6) & PSTATE_DAIF;
-+    clear_tail(d, oprsz, simd_maxsz(desc));                                \
++    arm_rebuild_hflags(env);
  }
- DO_MUL_IDX(gvec_fmul_idx_h, float16, H2)
+ void HELPER(msr_i_daifclear)(CPUARMState *env, uint32_t imm)
-@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
+ {
-                                      mm, a[i + j], 0, stat);               \
+     daif_check(env, 0x1f, imm, GETPC());
-         }                                                                  \
+     env->daif &= ~((imm << 6) & PSTATE_DAIF);
-     }                                                                      \
++    arm_rebuild_hflags(env);
 +    clear_tail(d, oprsz, simd_maxsz(desc));                                \
  }
- DO_FMLA_IDX(gvec_fmla_idx_h, float16, H2)
+ /* Convert a softfloat float_relation_ (as returned by
 --
-.20.1
+.25.1

-[PULL 26/45] ACPI: Record Generic Error Status Block(GESB) table
+[PULL 24/39] hw/timer/armv7m_systick: Update clock source before enabling timer
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: Richard Petri <git@rpls.de>
-kvm_arch_on_sigbus_vcpu() error injection uses source_id as
+Starting the SysTick timer and changing the clock source a the same time
-index in etc/hardware_errors to find out Error Status Data
+will result in an error, if the previous clock period was zero. For exmaple,
-Block entry corresponding to error source. So supported source_id
+on the mps2-tz platforms, no refclk is present. Right after reset, the
-values should be assigned here and not be changed afterwards to
+configured ptimer period is zero, and trying to enabling it will turn it off
-make sure that guest will write error into expected Error Status
+right away. E.g., code running on the platform setting
 Data Block.
-Before QEMU writes a new error to ACPI table, it will check whether
+    SysTick->CTRL  = SysTick_CTRL_CLKSOURCE_Msk | SysTick_CTRL_ENABLE_Msk;
 previous error has been acknowledged. If not acknowledged, the new
 errors will be ignored and not be recorded. For the errors section
 type, QEMU simulate it to memory section error.
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
+should change the clock source and enable the timer on real hardware, but
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
+resulted in an error in qemu.
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
+Signed-off-by: Richard Petri <git@rpls.de>
-Message-id: 20200512030609.19593-9-gengdongjiu@huawei.com
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Message-id: 20220201192650.289584-1-git@rpls.de
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- include/hw/acpi/ghes.h |   1 +
+ hw/timer/armv7m_systick.c | 8 ++++----
- hw/acpi/ghes.c         | 219 +++++++++++++++++++++++++++++++++++++++++
+file changed, 4 insertions(+), 4 deletions(-)
 files changed, 220 insertions(+)
-diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
+diff --git a/hw/timer/armv7m_systick.c b/hw/timer/armv7m_systick.c
 index XXXXXXX..XXXXXXX 100644
---- a/include/hw/acpi/ghes.h
+--- a/hw/timer/armv7m_systick.c
-+++ b/include/hw/acpi/ghes.h
++++ b/hw/timer/armv7m_systick.c
-@@ -XXX,XX +XXX,XX @@ void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
+@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_write(void *opaque, hwaddr addr,
- void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
+         s->control &= 0xfffffff8;
- void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
+         s->control |= value & 7;
-                           GArray *hardware_errors);
-+int acpi_ghes_record_errors(uint8_t notify, uint64_t error_physical_addr);
++        if ((oldval ^ value) & SYSTICK_CLKSOURCE) {
- #endif
++            systick_set_period_from_clock(s);
 diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/acpi/ghes.c
 +++ b/hw/acpi/ghes.c
@@ -XXX,XX +XXX,XX @@
  #include "qemu/error-report.h"
  #include "hw/acpi/generic_event_device.h"
  #include "hw/nvram/fw_cfg.h"
 +#include "qemu/uuid.h"
  #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
  #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
@@ -XXX,XX +XXX,XX @@
  /* Address offset in Generic Address Structure(GAS) */
  #define GAS_ADDR_OFFSET 4
 +/*
 + * The total size of Generic Error Data Entry
 + * ACPI 6.1/6.2: 18.3.2.7.1 Generic Error Data,
 + * Table 18-343 Generic Error Data Entry
 + */
 +#define ACPI_GHES_DATA_LENGTH               72
 +
 +/* The memory section CPER size, UEFI 2.6: N.2.5 Memory Error Section */
 +#define ACPI_GHES_MEM_CPER_LENGTH           80
 +
 +/* Masks for block_status flags */
 +#define ACPI_GEBS_UNCORRECTABLE         1
 +
 +/*
 + * Total size for Generic Error Status Block except Generic Error Data Entries
 + * ACPI 6.2: 18.3.2.7.1 Generic Error Data,
 + * Table 18-380 Generic Error Status Block
 + */
 +#define ACPI_GHES_GESB_SIZE                 20
 +
 +/*
 + * Values for error_severity field
 + */
 +enum AcpiGenericErrorSeverity {
 +    ACPI_CPER_SEV_RECOVERABLE = 0,
 +    ACPI_CPER_SEV_FATAL = 1,
 +    ACPI_CPER_SEV_CORRECTED = 2,
 +    ACPI_CPER_SEV_NONE = 3,
 +};
 +
  /*
   * Hardware Error Notification
   * ACPI 4.0: 17.3.2.7 Hardware Error Notification
@@ -XXX,XX +XXX,XX @@ static void build_ghes_hw_error_notification(GArray *table, const uint8_t type)
      build_append_int_noprefix(table, 0, 4);
  }
 +/*
 + * Generic Error Data Entry
 + * ACPI 6.1: 18.3.2.7.1 Generic Error Data
 + */
 +static void acpi_ghes_generic_error_data(GArray *table,
 +                const uint8_t *section_type, uint32_t error_severity,
 +                uint8_t validation_bits, uint8_t flags,
 +                uint32_t error_data_length, QemuUUID fru_id,
 +                uint64_t time_stamp)
 +{
 +    const uint8_t fru_text[20] = {0};
 +
 +    /* Section Type */
 +    g_array_append_vals(table, section_type, 16);
 +
 +    /* Error Severity */
 +    build_append_int_noprefix(table, error_severity, 4);
 +    /* Revision */
 +    build_append_int_noprefix(table, 0x300, 2);
 +    /* Validation Bits */
 +    build_append_int_noprefix(table, validation_bits, 1);
 +    /* Flags */
 +    build_append_int_noprefix(table, flags, 1);
 +    /* Error Data Length */
 +    build_append_int_noprefix(table, error_data_length, 4);
 +
 +    /* FRU Id */
 +    g_array_append_vals(table, fru_id.data, ARRAY_SIZE(fru_id.data));
 +
 +    /* FRU Text */
 +    g_array_append_vals(table, fru_text, sizeof(fru_text));
 +
 +    /* Timestamp */
 +    build_append_int_noprefix(table, time_stamp, 8);
 +}
 +
 +/*
 + * Generic Error Status Block
 + * ACPI 6.1: 18.3.2.7.1 Generic Error Data
 + */
 +static void acpi_ghes_generic_error_status(GArray *table, uint32_t block_status,
 +                uint32_t raw_data_offset, uint32_t raw_data_length,
 +                uint32_t data_length, uint32_t error_severity)
 +{
 +    /* Block Status */
 +    build_append_int_noprefix(table, block_status, 4);
 +    /* Raw Data Offset */
 +    build_append_int_noprefix(table, raw_data_offset, 4);
 +    /* Raw Data Length */
 +    build_append_int_noprefix(table, raw_data_length, 4);
 +    /* Data Length */
 +    build_append_int_noprefix(table, data_length, 4);
 +    /* Error Severity */
 +    build_append_int_noprefix(table, error_severity, 4);
 +}
 +
 +/* UEFI 2.6: N.2.5 Memory Error Section */
 +static void acpi_ghes_build_append_mem_cper(GArray *table,
 +                                            uint64_t error_physical_addr)
 +{
 +    /*
 +     * Memory Error Record
 +     */
 +
 +    /* Validation Bits */
 +    build_append_int_noprefix(table,
 +                              (1ULL << 14) | /* Type Valid */
 +                              (1ULL << 1) /* Physical Address Valid */,
 +                              8);
 +    /* Error Status */
 +    build_append_int_noprefix(table, 0, 8);
 +    /* Physical Address */
 +    build_append_int_noprefix(table, error_physical_addr, 8);
 +    /* Skip all the detailed information normally found in such a record */
 +    build_append_int_noprefix(table, 0, 48);
 +    /* Memory Error Type */
 +    build_append_int_noprefix(table, 0 /* Unknown error */, 1);
 +    /* Skip all the detailed information normally found in such a record */
 +    build_append_int_noprefix(table, 0, 7);
 +}
 +
 +static int acpi_ghes_record_mem_error(uint64_t error_block_address,
 +                                      uint64_t error_physical_addr)
 +{
 +    GArray *block;
 +
 +    /* Memory Error Section Type */
 +    const uint8_t uefi_cper_mem_sec[] =
 +          UUID_LE(0xA5BC1114, 0x6F64, 0x4EDE, 0xB8, 0x63, 0x3E, 0x83, \
 +                  0xED, 0x7C, 0x83, 0xB1);
 +
 +    /* invalid fru id: ACPI 4.0: 17.3.2.6.1 Generic Error Data,
 +     * Table 17-13 Generic Error Data Entry
 +     */
 +    QemuUUID fru_id = {};
 +    uint32_t data_length;
 +
 +    block = g_array_new(false, true /* clear */, 1);
 +
 +    /* This is the length if adding a new generic error data entry*/
 +    data_length = ACPI_GHES_DATA_LENGTH + ACPI_GHES_MEM_CPER_LENGTH;
 +
 +    /*
 +     * Check whether it will run out of the preallocated memory if adding a new
 +     * generic error data entry
 +     */
 +    if ((data_length + ACPI_GHES_GESB_SIZE) > ACPI_GHES_MAX_RAW_DATA_LENGTH) {
 +        error_report("Not enough memory to record new CPER!!!");
 +        g_array_free(block, true);
 +        return -1;
 +    }
 +
 +    /* Build the new generic error status block header */
 +    acpi_ghes_generic_error_status(block, ACPI_GEBS_UNCORRECTABLE,
 +        0, 0, data_length, ACPI_CPER_SEV_RECOVERABLE);
 +
 +    /* Build this new generic error data entry header */
 +    acpi_ghes_generic_error_data(block, uefi_cper_mem_sec,
 +        ACPI_CPER_SEV_RECOVERABLE, 0, 0,
 +        ACPI_GHES_MEM_CPER_LENGTH, fru_id, 0);
 +
 +    /* Build the memory section CPER for above new generic error data entry */
 +    acpi_ghes_build_append_mem_cper(block, error_physical_addr);
 +
 +    /* Write the generic error data entry into guest memory */
 +    cpu_physical_memory_write(error_block_address, block->data, block->len);
 +
 +    g_array_free(block, true);
 +
 +    return 0;
 +}
 +
  /*
   * Build table for the hardware error fw_cfg blob.
   * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
@@ -XXX,XX +XXX,XX @@ void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
      fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
          NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
  }
 +
 +int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
 +{
 +    uint64_t error_block_addr, read_ack_register_addr, read_ack_register = 0;
 +    uint64_t start_addr;
 +    bool ret = -1;
 +    AcpiGedState *acpi_ged_state;
 +    AcpiGhesState *ags;
 +
 +    assert(source_id < ACPI_HEST_SRC_ID_RESERVED);
 +
 +    acpi_ged_state = ACPI_GED(object_resolve_path_type("", TYPE_ACPI_GED,
 +                                                       NULL));
 +    g_assert(acpi_ged_state);
 +    ags = &acpi_ged_state->ghes_state;
 +
 +    start_addr = le64_to_cpu(ags->ghes_addr_le);
 +
 +    if (physical_address) {
 +
 +        if (source_id < ACPI_HEST_SRC_ID_RESERVED) {
 +            start_addr += source_id * sizeof(uint64_t);
 +        }
 +
-+        cpu_physical_memory_read(start_addr, &error_block_addr,
+         if ((oldval ^ value) & SYSTICK_ENABLE) {
-+                                 sizeof(error_block_addr));
+             if (value & SYSTICK_ENABLE) {
-+
+                 ptimer_run(s->ptimer, 0);
-+        error_block_addr = le64_to_cpu(error_block_addr);
+@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_write(void *opaque, hwaddr addr,
-+
+                 ptimer_stop(s->ptimer);
-+        read_ack_register_addr = start_addr +
+             }
-+            ACPI_GHES_ERROR_SOURCE_COUNT * sizeof(uint64_t);
+         }
-+
+-
-+        cpu_physical_memory_read(read_ack_register_addr,
+-        if ((oldval ^ value) & SYSTICK_CLKSOURCE) {
-+                                 &read_ack_register, sizeof(read_ack_register));
+-            systick_set_period_from_clock(s);
-+
+-        }
-+        /* zero means OSPM does not acknowledge the error */
+         ptimer_transaction_commit(s->ptimer);
-+        if (!read_ack_register) {
+         break;
-+            error_report("OSPM does not acknowledge previous error,"
+     }
 +                " so can not record CPER for current error anymore");
 +        } else if (error_block_addr) {
 +            read_ack_register = cpu_to_le64(0);
 +            /*
 +             * Clear the Read Ack Register, OSPM will write it to 1 when
 +             * it acknowledges this error.
 +             */
 +            cpu_physical_memory_write(read_ack_register_addr,
 +                &read_ack_register, sizeof(uint64_t));
 +
 +            ret = acpi_ghes_record_mem_error(error_block_addr,
 +                                             physical_address);
 +        } else
 +            error_report("can not find Generic Error Status Block");
 +    }
 +
 +    return ret;
 +}
 --
-.20.1
+.25.1

-[PULL 12/45] target/arm: Remove fp_status from helper_{recpe, rsqrte}_u32
+[PULL 25/39] hw/arm/smmuv3: Fix device reset
-From: Richard Henderson <richard.henderson@linaro.org>
+From: Eric Auger <eric.auger@redhat.com>
-These operations do not touch fp_status.
+We currently miss a bunch of register resets in the device reset
 function. This sometimes prevents the guest from rebooting after
 a system_reset (with virtio-blk-pci). For instance, we may get
 the following errors:
+invalid STE
+smmuv3-iommu-memory-region-0-0 translation failed for iova=0x13a9d2000(SMMU_EVT_C_BAD_STE)
+Invalid read at addr 0x13A9D2000, size 2, region '(null)', reason: rejected
+invalid STE
+smmuv3-iommu-memory-region-0-0 translation failed for iova=0x13a9d2000(SMMU_EVT_C_BAD_STE)
+Invalid write at addr 0x13A9D2000, size 2, region '(null)', reason: rejected
+invalid STE
+Signed-off-by: Eric Auger <eric.auger@redhat.com>
+Message-id: 20220202111602.627429-1-eric.auger@redhat.com
+Fixes: 10a83cb988 ("hw/arm/smmuv3: Skeleton")
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-12-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- target/arm/helper.h        |  4 ++--
+ hw/arm/smmuv3.c | 6 ++++++
- target/arm/translate-a64.c |  5 ++---
+file changed, 6 insertions(+)
  target/arm/translate.c     | 12 ++----------
  target/arm/vfp_helper.c    |  5 ++---
 files changed, 8 insertions(+), 18 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/arm/smmuv3.c
-+++ b/target/arm/helper.h
++++ b/hw/arm/smmuv3.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
+@@ -XXX,XX +XXX,XX @@ static void smmuv3_init_regs(SMMUv3State *s)
- DEF_HELPER_FLAGS_2(rsqrte_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
+     s->features = 0;
- DEF_HELPER_FLAGS_2(rsqrte_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
+     s->sid_split = 0;
- DEF_HELPER_FLAGS_2(rsqrte_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
+     s->aidr = 0x1;
--DEF_HELPER_2(recpe_u32, i32, i32, ptr)
++    s->cr[0] = 0;
--DEF_HELPER_FLAGS_2(rsqrte_u32, TCG_CALL_NO_RWG, i32, i32, ptr)
++    s->cr0ack = 0;
-+DEF_HELPER_FLAGS_1(recpe_u32, TCG_CALL_NO_RWG, i32, i32)
++    s->irq_ctrl = 0;
-+DEF_HELPER_FLAGS_1(rsqrte_u32, TCG_CALL_NO_RWG, i32, i32)
++    s->gerror = 0;
- DEF_HELPER_FLAGS_4(neon_tbl, TCG_CALL_NO_RWG, i32, i32, i32, ptr, i32)
++    s->gerrorn = 0;
++    s->statusr = 0;
  DEF_HELPER_3(shl_cc, i32, env, i32, i32)
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_2misc_reciprocal(DisasContext *s, int opcode,
              switch (opcode) {
              case 0x3c: /* URECPE */
 -                gen_helper_recpe_u32(tcg_res, tcg_op, fpst);
 +                gen_helper_recpe_u32(tcg_res, tcg_op);
                  break;
              case 0x3d: /* FRECPE */
                  gen_helper_recpe_f32(tcg_res, tcg_op, fpst);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                  unallocated_encoding(s);
                  return;
              }
 -            need_fpstatus = true;
              break;
          case 0x1e: /* FRINT32Z */
          case 0x1f: /* FRINT64Z */
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
                      gen_helper_rints_exact(tcg_res, tcg_op, tcg_fpstatus);
                      break;
                  case 0x7c: /* URSQRTE */
 -                    gen_helper_rsqrte_u32(tcg_res, tcg_op, tcg_fpstatus);
 +                    gen_helper_rsqrte_u32(tcg_res, tcg_op);
                      break;
                  case 0x1e: /* FRINT32Z */
                  case 0x5e: /* FRINT32X */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              break;
                          }
                          case NEON_2RM_VRECPE:
 -                        {
 -                            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -                            gen_helper_recpe_u32(tmp, tmp, fpstatus);
 -                            tcg_temp_free_ptr(fpstatus);
 +                            gen_helper_recpe_u32(tmp, tmp);
                              break;
 -                        }
                          case NEON_2RM_VRSQRTE:
 -                        {
 -                            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -                            gen_helper_rsqrte_u32(tmp, tmp, fpstatus);
 -                            tcg_temp_free_ptr(fpstatus);
 +                            gen_helper_rsqrte_u32(tmp, tmp);
                              break;
 -                        }
                          case NEON_2RM_VRECPE_F:
                          {
                              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vfp_helper.c
 +++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ float64 HELPER(rsqrte_f64)(float64 input, void *fpstp)
      return make_float64(val);
  }
--uint32_t HELPER(recpe_u32)(uint32_t a, void *fpstp)
+ static int smmu_get_ste(SMMUv3State *s, dma_addr_t addr, STE *buf,
 +uint32_t HELPER(recpe_u32)(uint32_t a)
  {
 -    /* float_status *s = fpstp; */
      int input, estimate;
      if ((a & 0x80000000) == 0) {
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(recpe_u32)(uint32_t a, void *fpstp)
      return deposit32(0, (32 - 9), 9, estimate);
  }
 -uint32_t HELPER(rsqrte_u32)(uint32_t a, void *fpstp)
 +uint32_t HELPER(rsqrte_u32)(uint32_t a)
  {
      int estimate;
 --
-.20.1
+.25.1

-[PULL 14/45] target/arm: Pass pointer to qc to qrdmla/qrdmls
+[PULL 26/39] hw/intc/arm_gicv3_its: Use address_space_map() to access command queue packets
-From: Richard Henderson <richard.henderson@linaro.org>
+Currently the ITS accesses each 8-byte doubleword in a 4-doubleword
+command packet with a separate address_space_ldq_le() call.  This is
-Pass a pointer directly to env->vfp.qc[0], rather than env.
+awkward because the individual command processing functions have
-This will allow SVE2, which does not modify QC, to pass a
+ended up with code to handle "load more doublewords out of the
-pointer to dummy storage.
+packet", which is both unwieldy and also a potential source of bugs
+because it's not obvious when looking at a line that pulls a field
-Change the return type of inl_qrdml.h_s16 to match the
+out of the 'value' variable which of the 4 doublewords that variable
-sense of the operation: signed.
+currently holds.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+Switch to using address_space_map() to map the whole command packet
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+at once and fish the four doublewords out of it.  Then each process_*
-Message-id: 20200513163245.17915-14-richard.henderson@linaro.org
+function can start with a few lines of code that extract the fields
 it cares about.
 This requires us to split out the guts of process_its_cmd() into a
 new do_process_its_cmd(), because we were previously overloading the
 value and offset arguments as a backdoor way to directly pass the
 devid and eventid from a write to GITS_TRANSLATER.  The new
 do_process_its_cmd() takes those arguments directly, and
 process_its_cmd() is just a wrapper that does the "read fields from
 command packet" part.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20220201193207.2771604-2-peter.maydell@linaro.org
 ---
- target/arm/translate.c  | 18 ++++++++---
+ hw/intc/gicv3_internal.h |   4 +-
- target/arm/vec_helper.c | 70 +++++++++++++++++++++++------------------
+ hw/intc/arm_gicv3_its.c  | 208 +++++++++++----------------------------
-files changed, 54 insertions(+), 34 deletions(-)
+files changed, 62 insertions(+), 150 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+diff --git a/hw/intc/gicv3_internal.h b/hw/intc/gicv3_internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
+--- a/hw/intc/gicv3_internal.h
-+++ b/target/arm/translate.c
++++ b/hw/intc/gicv3_internal.h
-@@ -XXX,XX +XXX,XX @@ static const uint8_t neon_2rm_sizes[] = {
+@@ -XXX,XX +XXX,XX @@ FIELD(GITS_TYPER, CIL, 36, 1)
-     [NEON_2RM_VCVT_UF] = 0x4,
+ #define LPI_CTE_ENABLED          TABLE_ENTRY_VALID_MASK
- };
+ #define LPI_PRIORITY_MASK         0xfc
-+static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+-#define GITS_CMDQ_ENTRY_SIZE               32
-+                            uint32_t opr_sz, uint32_t max_sz,
+-#define NUM_BYTES_IN_DW                     8
-+                            gen_helper_gvec_3_ptr *fn)
++#define GITS_CMDQ_ENTRY_WORDS 4
 +#define GITS_CMDQ_ENTRY_SIZE  (GITS_CMDQ_ENTRY_WORDS * sizeof(uint64_t))
  #define CMD_MASK                  0xff
 diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
 --- a/hw/intc/arm_gicv3_its.c
 +++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static uint64_t get_dte(GICv3ITSState *s, uint32_t devid, MemTxResult *res)
   * 3. handling of ITS CLEAR command
   * 4. handling of ITS DISCARD command
   */
 -static ItsCmdResult process_its_cmd(GICv3ITSState *s, uint64_t value,
 -                                    uint32_t offset, ItsCmdType cmd)
 +static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
 +                                       uint32_t eventid, ItsCmdType cmd)
  {
 -    AddressSpace *as = &s->gicv3->dma_as;
 -    uint32_t devid, eventid;
      MemTxResult res = MEMTX_OK;
      bool dte_valid;
      uint64_t dte = 0;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd(GICv3ITSState *s, uint64_t value,
      bool cte_valid = false;
      uint64_t rdbase;
 -    if (cmd == NONE) {
 -        devid = offset;
 -    } else {
 -        devid = ((value & DEVID_MASK) >> DEVID_SHIFT);
 -
 -        offset += NUM_BYTES_IN_DW;
 -        value = address_space_ldq_le(as, s->cq.base_addr + offset,
 -                                     MEMTXATTRS_UNSPECIFIED, &res);
 -    }
 -
 -    if (res != MEMTX_OK) {
 -        return CMD_STALL;
 -    }
 -
 -    eventid = (value & EVENTID_MASK);
 -
      if (devid >= s->dt.num_entries) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes: devid %d>=%d",
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd(GICv3ITSState *s, uint64_t value,
      }
      return CMD_CONTINUE;
  }
 -
 -static ItsCmdResult process_mapti(GICv3ITSState *s, uint64_t value,
 -                                  uint32_t offset, bool ignore_pInt)
 +static ItsCmdResult process_its_cmd(GICv3ITSState *s, const uint64_t *cmdpkt,
 +                                    ItsCmdType cmd)
 +{
-+    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
++    uint32_t devid, eventid;
 +
-+    tcg_gen_addi_ptr(qc_ptr, cpu_env, offsetof(CPUARMState, vfp.qc));
++    devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
-+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
++    eventid = cmdpkt[1] & EVENTID_MASK;
-+                       opr_sz, max_sz, 0, fn);
++    return do_process_its_cmd(s, devid, eventid, cmd);
 +    tcg_temp_free_ptr(qc_ptr);
 +}
 +
- void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
-                           uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
++                                  bool ignore_pInt)
  {
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-    AddressSpace *as = &s->gicv3->dma_as;
-         gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
+     uint32_t devid, eventid;
-     };
+     uint32_t pIntid = 0;
-     tcg_debug_assert(vece >= 1 && vece <= 2);
+     uint64_t num_eventids;
--    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, uint64_t value,
--                       opr_sz, max_sz, 0, fns[vece - 1]);
+     uint64_t dte = 0;
-+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+     IteEntry ite = {};
 -    devid = ((value & DEVID_MASK) >> DEVID_SHIFT);
 -    offset += NUM_BYTES_IN_DW;
 -    value = address_space_ldq_le(as, s->cq.base_addr + offset,
 -                                 MEMTXATTRS_UNSPECIFIED, &res);
 -
 -    if (res != MEMTX_OK) {
 -        return CMD_STALL;
 -    }
 -
 -    eventid = (value & EVENTID_MASK);
 +    devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
 +    eventid = cmdpkt[1] & EVENTID_MASK;
      if (ignore_pInt) {
          pIntid = eventid;
      } else {
 -        pIntid = ((value & pINTID_MASK) >> pINTID_SHIFT);
 +        pIntid = (cmdpkt[1] & pINTID_MASK) >> pINTID_SHIFT;
      }
 -    offset += NUM_BYTES_IN_DW;
 -    value = address_space_ldq_le(as, s->cq.base_addr + offset,
 -                                 MEMTXATTRS_UNSPECIFIED, &res);
 -
 -    if (res != MEMTX_OK) {
 -        return CMD_STALL;
 -    }
 -
 -    icid = value & ICID_MASK;
 +    icid = cmdpkt[2] & ICID_MASK;
      if (devid >= s->dt.num_entries) {
          qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
      return res == MEMTX_OK;
  }
- void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+-static ItsCmdResult process_mapc(GICv3ITSState *s, uint32_t offset)
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
++static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
-         gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
+ {
-     };
+-    AddressSpace *as = &s->gicv3->dma_as;
-     tcg_debug_assert(vece >= 1 && vece <= 2);
+     uint16_t icid;
--    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
+     uint64_t rdbase;
--                       opr_sz, max_sz, 0, fns[vece - 1]);
+     bool valid;
-+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
+-    MemTxResult res = MEMTX_OK;
 -    uint64_t value;
 -    offset += NUM_BYTES_IN_DW;
 -    offset += NUM_BYTES_IN_DW;
 +    icid = cmdpkt[2] & ICID_MASK;
 -    value = address_space_ldq_le(as, s->cq.base_addr + offset,
 -                                 MEMTXATTRS_UNSPECIFIED, &res);
 -
 -    if (res != MEMTX_OK) {
 -        return CMD_STALL;
 -    }
 -
 -    icid = value & ICID_MASK;
 -
 -    rdbase = (value & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
 +    rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
      rdbase &= RDBASE_PROCNUM_MASK;
 -    valid = (value & CMD_FIELD_VALID_MASK);
 +    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
      if ((icid >= s->ct.num_entries) || (rdbase >= s->gicv3->num_cpu)) {
          qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, bool valid,
      return res == MEMTX_OK;
  }
- #define GEN_CMP0(NAME, COND)                                            \
+-static ItsCmdResult process_mapd(GICv3ITSState *s, uint64_t value,
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
+-                                 uint32_t offset)
-index XXXXXXX..XXXXXXX 100644
++static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
---- a/target/arm/vec_helper.c
+ {
-+++ b/target/arm/vec_helper.c
+-    AddressSpace *as = &s->gicv3->dma_as;
-@@ -XXX,XX +XXX,XX @@
+     uint32_t devid;
- #define H4(x)  (x)
+     uint8_t size;
- #endif
+     uint64_t itt_addr;
+     bool valid;
--#define SET_QC() env->vfp.qc[0] = 1
+-    MemTxResult res = MEMTX_OK;
--
- static void clear_tail(void *vd, uintptr_t opr_sz, uintptr_t max_sz)
+-    devid = ((value & DEVID_MASK) >> DEVID_SHIFT);
- {
+-
-     uint64_t *d = vd + opr_sz;
+-    offset += NUM_BYTES_IN_DW;
-@@ -XXX,XX +XXX,XX @@ static void clear_tail(void *vd, uintptr_t opr_sz, uintptr_t max_sz)
+-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
 -                                 MEMTXATTRS_UNSPECIFIED, &res);
 -
 -    if (res != MEMTX_OK) {
 -        return CMD_STALL;
 -    }
 -
 -    size = (value & SIZE_MASK);
 -
 -    offset += NUM_BYTES_IN_DW;
 -    value = address_space_ldq_le(as, s->cq.base_addr + offset,
 -                                 MEMTXATTRS_UNSPECIFIED, &res);
 -
 -    if (res != MEMTX_OK) {
 -        return CMD_STALL;
 -    }
 -
 -    itt_addr = (value & ITTADDR_MASK) >> ITTADDR_SHIFT;
 -
 -    valid = (value & CMD_FIELD_VALID_MASK);
 +    devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
 +    size = cmdpkt[1] & SIZE_MASK;
 +    itt_addr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
 +    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
      if ((devid >= s->dt.num_entries) ||
          (size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapd(GICv3ITSState *s, uint64_t value,
      return update_dte(s, devid, valid, size, itt_addr) ? CMD_CONTINUE : CMD_STALL;
  }
- /* Signed saturating rounding doubling multiply-accumulate high half, 16-bit */
+-static ItsCmdResult process_movall(GICv3ITSState *s, uint64_t value,
--static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
+-                                   uint32_t offset)
--                                int16_t src2, int16_t src3)
++static ItsCmdResult process_movall(GICv3ITSState *s, const uint64_t *cmdpkt)
-+static int16_t inl_qrdmlah_s16(int16_t src1, int16_t src2,
+ {
-+                               int16_t src3, uint32_t *sat)
+-    AddressSpace *as = &s->gicv3->dma_as;
- {
+-    MemTxResult res = MEMTX_OK;
-     /* Simplify:
+     uint64_t rd1, rd2;
-      * = ((a3 << 16) + ((e1 * e2) << 1) + (1 << 15)) >> 16
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
+-    /* No fields in dwords 0 or 1 */
-     ret = ((int32_t)src3 << 15) + ret + (1 << 14);
+-    offset += NUM_BYTES_IN_DW;
-     ret >>= 15;
+-    offset += NUM_BYTES_IN_DW;
-     if (ret != (int16_t)ret) {
+-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
--        SET_QC();
+-                                 MEMTXATTRS_UNSPECIFIED, &res);
-+        *sat = 1;
+-    if (res != MEMTX_OK) {
-         ret = (ret < 0 ? -0x8000 : 0x7fff);
+-        return CMD_STALL;
 -    }
 +    rd1 = FIELD_EX64(cmdpkt[2], MOVALL_2, RDBASE1);
 +    rd2 = FIELD_EX64(cmdpkt[3], MOVALL_3, RDBASE2);
 -    rd1 = FIELD_EX64(value, MOVALL_2, RDBASE1);
      if (rd1 >= s->gicv3->num_cpu) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: RDBASE1 %" PRId64
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movall(GICv3ITSState *s, uint64_t value,
                        __func__, rd1, s->gicv3->num_cpu);
          return CMD_CONTINUE;
      }
-     return ret;
+-
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
+-    offset += NUM_BYTES_IN_DW;
- uint32_t HELPER(neon_qrdmlah_s16)(CPUARMState *env, uint32_t src1,
+-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                   uint32_t src2, uint32_t src3)
+-                                 MEMTXATTRS_UNSPECIFIED, &res);
- {
+-    if (res != MEMTX_OK) {
--    uint16_t e1 = inl_qrdmlah_s16(env, src1, src2, src3);
+-        return CMD_STALL;
--    uint16_t e2 = inl_qrdmlah_s16(env, src1 >> 16, src2 >> 16, src3 >> 16);
+-    }
-+    uint32_t *sat = &env->vfp.qc[0];
+-
-+    uint16_t e1 = inl_qrdmlah_s16(src1, src2, src3, sat);
+-    rd2 = FIELD_EX64(value, MOVALL_3, RDBASE2);
-+    uint16_t e2 = inl_qrdmlah_s16(src1 >> 16, src2 >> 16, src3 >> 16, sat);
+     if (rd2 >= s->gicv3->num_cpu) {
-     return deposit32(e1, 16, 16, e2);
+         qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: RDBASE2 %" PRId64
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movall(GICv3ITSState *s, uint64_t value,
      return CMD_CONTINUE;
  }
- void HELPER(gvec_qrdmlah_s16)(void *vd, void *vn, void *vm,
+-static ItsCmdResult process_movi(GICv3ITSState *s, uint64_t value,
--                              void *ve, uint32_t desc)
+-                                 uint32_t offset)
-+                              void *vq, uint32_t desc)
++static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
-     uintptr_t opr_sz = simd_oprsz(desc);
+-    AddressSpace *as = &s->gicv3->dma_as;
-     int16_t *d = vd;
+     MemTxResult res = MEMTX_OK;
-     int16_t *n = vn;
+     uint32_t devid, eventid, intid;
-     int16_t *m = vm;
+     uint16_t old_icid, new_icid;
--    CPUARMState *env = ve;
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, uint64_t value,
-     uintptr_t i;
+     uint64_t num_eventids;
+     IteEntry ite = {};
-     for (i = 0; i < opr_sz / 2; ++i) {
--        d[i] = inl_qrdmlah_s16(env, n[i], m[i], d[i]);
+-    devid = FIELD_EX64(value, MOVI_0, DEVICEID);
-+        d[i] = inl_qrdmlah_s16(n[i], m[i], d[i], vq);
+-
-     }
+-    offset += NUM_BYTES_IN_DW;
-     clear_tail(d, opr_sz, simd_maxsz(desc));
+-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
- }
+-                                 MEMTXATTRS_UNSPECIFIED, &res);
+-    if (res != MEMTX_OK) {
- /* Signed saturating rounding doubling multiply-subtract high half, 16-bit */
+-        return CMD_STALL;
--static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
+-    }
--                                int16_t src2, int16_t src3)
+-    eventid = FIELD_EX64(value, MOVI_1, EVENTID);
-+static int16_t inl_qrdmlsh_s16(int16_t src1, int16_t src2,
+-
-+                               int16_t src3, uint32_t *sat)
+-    offset += NUM_BYTES_IN_DW;
- {
+-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-     /* Similarly, using subtraction:
+-                                 MEMTXATTRS_UNSPECIFIED, &res);
-      * = ((a3 << 16) - ((e1 * e2) << 1) + (1 << 15)) >> 16
+-    if (res != MEMTX_OK) {
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
+-        return CMD_STALL;
-     ret = ((int32_t)src3 << 15) - ret + (1 << 14);
+-    }
-     ret >>= 15;
+-    new_icid = FIELD_EX64(value, MOVI_2, ICID);
-     if (ret != (int16_t)ret) {
++    devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
--        SET_QC();
++    eventid = FIELD_EX64(cmdpkt[1], MOVI_1, EVENTID);
-+        *sat = 1;
++    new_icid = FIELD_EX64(cmdpkt[2], MOVI_2, ICID);
-         ret = (ret < 0 ? -0x8000 : 0x7fff);
-     }
+     if (devid >= s->dt.num_entries) {
-     return ret;
+         qemu_log_mask(LOG_GUEST_ERROR,
-@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
+@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
- uint32_t HELPER(neon_qrdmlsh_s16)(CPUARMState *env, uint32_t src1,
+     uint32_t wr_offset = 0;
-                                   uint32_t src2, uint32_t src3)
+     uint32_t rd_offset = 0;
- {
+     uint32_t cq_offset = 0;
--    uint16_t e1 = inl_qrdmlsh_s16(env, src1, src2, src3);
+-    uint64_t data;
--    uint16_t e2 = inl_qrdmlsh_s16(env, src1 >> 16, src2 >> 16, src3 >> 16);
+     AddressSpace *as = &s->gicv3->dma_as;
-+    uint32_t *sat = &env->vfp.qc[0];
+-    MemTxResult res = MEMTX_OK;
-+    uint16_t e1 = inl_qrdmlsh_s16(src1, src2, src3, sat);
+     uint8_t cmd;
-+    uint16_t e2 = inl_qrdmlsh_s16(src1 >> 16, src2 >> 16, src3 >> 16, sat);
+     int i;
-     return deposit32(e1, 16, 16, e2);
- }
+@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
- void HELPER(gvec_qrdmlsh_s16)(void *vd, void *vn, void *vm,
+     while (wr_offset != rd_offset) {
--                              void *ve, uint32_t desc)
+         ItsCmdResult result = CMD_CONTINUE;
-+                              void *vq, uint32_t desc)
++        void *hostmem;
- {
++        hwaddr buflen;
-     uintptr_t opr_sz = simd_oprsz(desc);
++        uint64_t cmdpkt[GITS_CMDQ_ENTRY_WORDS];
-     int16_t *d = vd;
-     int16_t *n = vn;
+         cq_offset = (rd_offset * GITS_CMDQ_ENTRY_SIZE);
-     int16_t *m = vm;
+-        data = address_space_ldq_le(as, s->cq.base_addr + cq_offset,
--    CPUARMState *env = ve;
+-                                    MEMTXATTRS_UNSPECIFIED, &res);
-     uintptr_t i;
+-        if (res != MEMTX_OK) {
      for (i = 0; i < opr_sz / 2; ++i) {
 -        d[i] = inl_qrdmlsh_s16(env, n[i], m[i], d[i]);
 +        d[i] = inl_qrdmlsh_s16(n[i], m[i], d[i], vq);
      }
      clear_tail(d, opr_sz, simd_maxsz(desc));
  }
  /* Signed saturating rounding doubling multiply-accumulate high half, 32-bit */
 -uint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
 -                                  int32_t src2, int32_t src3)
 +static int32_t inl_qrdmlah_s32(int32_t src1, int32_t src2,
 +                               int32_t src3, uint32_t *sat)
  {
      /* Simplify similarly to int_qrdmlah_s16 above.  */
      int64_t ret = (int64_t)src1 * src2;
      ret = ((int64_t)src3 << 31) + ret + (1 << 30);
      ret >>= 31;
      if (ret != (int32_t)ret) {
 -        SET_QC();
 +        *sat = 1;
          ret = (ret < 0 ? INT32_MIN : INT32_MAX);
      }
      return ret;
  }
 +uint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
 +                                  int32_t src2, int32_t src3)
 +{
 +    uint32_t *sat = &env->vfp.qc[0];
 +    return inl_qrdmlah_s32(src1, src2, src3, sat);
 +}
 +
- void HELPER(gvec_qrdmlah_s32)(void *vd, void *vn, void *vm,
++        buflen = GITS_CMDQ_ENTRY_SIZE;
--                              void *ve, uint32_t desc)
++        hostmem = address_space_map(as, s->cq.base_addr + cq_offset,
-+                              void *vq, uint32_t desc)
++                                    &buflen, false, MEMTXATTRS_UNSPECIFIED);
- {
++        if (!hostmem || buflen != GITS_CMDQ_ENTRY_SIZE) {
-     uintptr_t opr_sz = simd_oprsz(desc);
++            if (hostmem) {
-     int32_t *d = vd;
++                address_space_unmap(as, hostmem, buflen, false, 0);
-     int32_t *n = vn;
++            }
-     int32_t *m = vm;
+             s->creadr = FIELD_DP64(s->creadr, GITS_CREADR, STALLED, 1);
--    CPUARMState *env = ve;
+             qemu_log_mask(LOG_GUEST_ERROR,
-     uintptr_t i;
+                           "%s: could not read command at 0x%" PRIx64 "\n",
+                           __func__, s->cq.base_addr + cq_offset);
-     for (i = 0; i < opr_sz / 4; ++i) {
+             break;
--        d[i] = helper_neon_qrdmlah_s32(env, n[i], m[i], d[i]);
+         }
-+        d[i] = inl_qrdmlah_s32(n[i], m[i], d[i], vq);
++        for (i = 0; i < ARRAY_SIZE(cmdpkt); i++) {
-     }
++            cmdpkt[i] = ldq_le_p(hostmem + i * sizeof(uint64_t));
-     clear_tail(d, opr_sz, simd_maxsz(desc));
++        }
- }
++        address_space_unmap(as, hostmem, buflen, false, 0);
- /* Signed saturating rounding doubling multiply-subtract high half, 32-bit */
+-        cmd = (data & CMD_MASK);
--uint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
++        cmd = cmdpkt[0] & CMD_MASK;
--                                  int32_t src2, int32_t src3)
-+static int32_t inl_qrdmlsh_s32(int32_t src1, int32_t src2,
+         trace_gicv3_its_process_command(rd_offset, cmd);
-+                               int32_t src3, uint32_t *sat)
- {
+         switch (cmd) {
-     /* Simplify similarly to int_qrdmlsh_s16 above.  */
+         case GITS_CMD_INT:
-     int64_t ret = (int64_t)src1 * src2;
+-            result = process_its_cmd(s, data, cq_offset, INTERRUPT);
-     ret = ((int64_t)src3 << 31) - ret + (1 << 30);
++            result = process_its_cmd(s, cmdpkt, INTERRUPT);
-     ret >>= 31;
+             break;
-     if (ret != (int32_t)ret) {
+         case GITS_CMD_CLEAR:
--        SET_QC();
+-            result = process_its_cmd(s, data, cq_offset, CLEAR);
-+        *sat = 1;
++            result = process_its_cmd(s, cmdpkt, CLEAR);
-         ret = (ret < 0 ? INT32_MIN : INT32_MAX);
+             break;
-     }
+         case GITS_CMD_SYNC:
-     return ret;
+             /*
- }
+@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
+              */
-+uint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
+             break;
-+                                  int32_t src2, int32_t src3)
+         case GITS_CMD_MAPD:
-+{
+-            result = process_mapd(s, data, cq_offset);
-+    uint32_t *sat = &env->vfp.qc[0];
++            result = process_mapd(s, cmdpkt);
-+    return inl_qrdmlsh_s32(src1, src2, src3, sat);
+             break;
-+}
+         case GITS_CMD_MAPC:
-+
+-            result = process_mapc(s, cq_offset);
- void HELPER(gvec_qrdmlsh_s32)(void *vd, void *vn, void *vm,
++            result = process_mapc(s, cmdpkt);
--                              void *ve, uint32_t desc)
+             break;
-+                              void *vq, uint32_t desc)
+         case GITS_CMD_MAPTI:
- {
+-            result = process_mapti(s, data, cq_offset, false);
-     uintptr_t opr_sz = simd_oprsz(desc);
++            result = process_mapti(s, cmdpkt, false);
-     int32_t *d = vd;
+             break;
-     int32_t *n = vn;
+         case GITS_CMD_MAPI:
-     int32_t *m = vm;
+-            result = process_mapti(s, data, cq_offset, true);
--    CPUARMState *env = ve;
++            result = process_mapti(s, cmdpkt, true);
-     uintptr_t i;
+             break;
+         case GITS_CMD_DISCARD:
-     for (i = 0; i < opr_sz / 4; ++i) {
+-            result = process_its_cmd(s, data, cq_offset, DISCARD);
--        d[i] = helper_neon_qrdmlsh_s32(env, n[i], m[i], d[i]);
++            result = process_its_cmd(s, cmdpkt, DISCARD);
-+        d[i] = inl_qrdmlsh_s32(n[i], m[i], d[i], vq);
+             break;
-     }
+         case GITS_CMD_INV:
-     clear_tail(d, opr_sz, simd_maxsz(desc));
+         case GITS_CMD_INVALL:
- }
+@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
              }
              break;
          case GITS_CMD_MOVI:
 -            result = process_movi(s, data, cq_offset);
 +            result = process_movi(s, cmdpkt);
              break;
          case GITS_CMD_MOVALL:
 -            result = process_movall(s, data, cq_offset);
 +            result = process_movall(s, cmdpkt);
              break;
          default:
              break;
@@ -XXX,XX +XXX,XX @@ static MemTxResult gicv3_its_translation_write(void *opaque, hwaddr offset,
  {
      GICv3ITSState *s = (GICv3ITSState *)opaque;
      bool result = true;
 -    uint32_t devid = 0;
      trace_gicv3_its_translation_write(offset, data, size, attrs.requester_id);
      switch (offset) {
      case GITS_TRANSLATER:
          if (s->ctlr & R_GITS_CTLR_ENABLED_MASK) {
 -            devid = attrs.requester_id;
 -            result = process_its_cmd(s, data, devid, NONE);
 +            result = do_process_its_cmd(s, attrs.requester_id, data, NONE);
          }
          break;
      default:
 --
-.20.1
+.25.1

-[PULL 41/45] target/arm: Convert Neon fp VMUL, VMLA, VMLS 3-reg-same insns to decodetree
+[PULL 27/39] hw/intc/arm_gicv3_its: Keep DTEs as a struct, not a raw uint64_t
-Convert the Neon integer VMUL, VMLA, and VMLS 3-reg-same inssn to
+In the ITS, a DTE is an entry in the device table, which contains
-decodetree.
+multiple fields. Currently the function get_dte() which reads one
+entry from the device table returns it as a raw 64-bit integer,
-We don't have a gvec helper for multiply-accumulate, so VMLA and VMLS
+which we then pass around in that form, only extracting fields
-need a loop function do_3same_fp().  This takes a reads_vd parameter
+from it as we need them.
-to do_3same_fp() which tells it to load the old value into vd before
-calling the callback function, in the same way that the do_vfp_3op_sp()
+Create a real C struct with the same fields as the DTE, and
-and do_vfp_3op_dp() functions in translate-vfp.inc.c work. (The
+populate it in get_dte(), so that that function and update_dte()
-only uses in this patch pass reads_vd == true, but later commits
+are the only ones that need to care about the in-guest-memory
-will use reads_vd == false.)
+format of the DTE.
 This conversion fixes in passing an underdecoding for VMUL
 (originally reported by Fredrik Strupe <fredrik@strupe.net>): bit 1
 of the 'size' field must be 0.  The old decoder didn't enforce this,
 but the decodetree pattern does.
 The gen_VMLA_fp_reg() function performs the addition operation
 with the operands in the opposite order to the old decoder:
 since Neon sets 'default NaN mode' float32_add operations are
 commutative so there is no behaviour difference, but putting
 them this way around matches the Arm ARM pseudocode and the
 required operation order for the subtraction in gen_VMLS_fp_reg().
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-14-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-3-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  3 ++
+ hw/intc/arm_gicv3_its.c | 111 ++++++++++++++++++++--------------------
- target/arm/translate-neon.inc.c | 81 +++++++++++++++++++++++++++++++++
+file changed, 56 insertions(+), 55 deletions(-)
- target/arm/translate.c          | 17 +------
-files changed, 85 insertions(+), 16 deletions(-)
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
+@@ -XXX,XX +XXX,XX @@ typedef struct {
- VSUB_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
+     uint64_t itel;
- VPADD_fp_3s      1111 001 1 0 . 0 . .... .... 1101 ... 0 .... @3same_fp_q0
+ } IteEntry;
- VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
-+VMLA_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
++typedef struct DTEntry {
-+VMLS_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 1 .... @3same_fp
++    bool valid;
-+VMUL_fp_3s       1111 001 1 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
++    unsigned size;
- VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
++    uint64_t ittaddr;
- VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
++} DTEntry;
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPADD, padd_u)
  DO_3SAME_VQDMULH(VQDMULH, qdmulh)
  DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
 +static bool do_3same_fp(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn,
 +                        bool reads_vd)
 +{
 +    /*
 +     * FP operations handled elementwise 32 bits at a time.
 +     * If reads_vd is true then the old value of Vd will be
 +     * loaded before calling the callback function. This is
 +     * used for multiply-accumulate type operations.
 +     */
 +    TCGv_i32 tmp, tmp2;
 +    int pass;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & a->q) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 +    for (pass = 0; pass < (a->q ? 4 : 2); pass++) {
 +        tmp = neon_load_reg(a->vn, pass);
 +        tmp2 = neon_load_reg(a->vm, pass);
 +        if (reads_vd) {
 +            TCGv_i32 tmp_rd = neon_load_reg(a->vd, pass);
 +            fn(tmp_rd, tmp, tmp2, fpstatus);
 +            neon_store_reg(a->vd, pass, tmp_rd);
 +            tcg_temp_free_i32(tmp);
 +        } else {
 +            fn(tmp, tmp, tmp2, fpstatus);
 +            neon_store_reg(a->vd, pass, tmp);
 +        }
 +        tcg_temp_free_i32(tmp2);
 +    }
 +    tcg_temp_free_ptr(fpstatus);
 +    return true;
 +}
 +
  /*
-  * For all the functions using this macro, size == 1 means fp16,
+  * The ITS spec permits a range of CONSTRAINED UNPREDICTABLE options
-  * which is an architecture extension we don't implement yet.
+  * if a command parameter is not correct. These include both "stall
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
+@@ -XXX,XX +XXX,XX @@ static bool get_cte(GICv3ITSState *s, uint16_t icid, uint64_t *cte,
- DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
+     return FIELD_EX64(*cte, CTE, VALID);
- DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
+ }
- DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
-+DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s)
+-static bool update_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
-+
++static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
                         IteEntry ite)
  {
      AddressSpace *as = &s->gicv3->dma_as;
 -    uint64_t itt_addr;
      MemTxResult res = MEMTX_OK;
 -    itt_addr = FIELD_EX64(dte, DTE, ITTADDR);
 -    itt_addr <<= ITTADDR_SHIFT; /* 256 byte aligned */
 -
 -    address_space_stq_le(as, itt_addr + (eventid * (sizeof(uint64_t) +
 +    address_space_stq_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
                           sizeof(uint32_t))), ite.itel, MEMTXATTRS_UNSPECIFIED,
                           &res);
      if (res == MEMTX_OK) {
 -        address_space_stl_le(as, itt_addr + (eventid * (sizeof(uint64_t) +
 +        address_space_stl_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
                               sizeof(uint32_t))) + sizeof(uint32_t), ite.iteh,
                               MEMTXATTRS_UNSPECIFIED, &res);
      }
@@ -XXX,XX +XXX,XX @@ static bool update_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
      }
  }
 -static bool get_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
 +static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
                      uint16_t *icid, uint32_t *pIntid, MemTxResult *res)
  {
      AddressSpace *as = &s->gicv3->dma_as;
 -    uint64_t itt_addr;
      bool status = false;
      IteEntry ite = {};
 -    itt_addr = FIELD_EX64(dte, DTE, ITTADDR);
 -    itt_addr <<= ITTADDR_SHIFT; /* 256 byte aligned */
 -
 -    ite.itel = address_space_ldq_le(as, itt_addr +
 +    ite.itel = address_space_ldq_le(as, dte->ittaddr +
                                      (eventid * (sizeof(uint64_t) +
                                      sizeof(uint32_t))), MEMTXATTRS_UNSPECIFIED,
                                      res);
      if (*res == MEMTX_OK) {
 -        ite.iteh = address_space_ldl_le(as, itt_addr +
 +        ite.iteh = address_space_ldl_le(as, dte->ittaddr +
                                          (eventid * (sizeof(uint64_t) +
                                          sizeof(uint32_t))) + sizeof(uint32_t),
                                          MEMTXATTRS_UNSPECIFIED, res);
@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
      return status;
  }
 -static uint64_t get_dte(GICv3ITSState *s, uint32_t devid, MemTxResult *res)
 +/*
-+ * For all the functions using this macro, size == 1 means fp16,
++ * Read the Device Table entry at index @devid. On success (including
-+ * which is an architecture extension we don't implement yet.
++ * successfully determining that there is no valid DTE for this index),
 + * we return MEMTX_OK and populate the DTEntry struct accordingly.
 + * If there is an error reading memory then we return the error code.
 + */
-+#define DO_3S_FP(INSN,FUNC,READS_VD)                                \
++static MemTxResult get_dte(GICv3ITSState *s, uint32_t devid, DTEntry *dte)
-+    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
+ {
-+    {                                                               \
++    MemTxResult res = MEMTX_OK;
-+        if (a->size != 0) {                                         \
+     AddressSpace *as = &s->gicv3->dma_as;
-+            /* TODO fp16 support */                                 \
+-    uint64_t entry_addr = table_entry_addr(s, &s->dt, devid, res);
-+            return false;                                           \
++    uint64_t entry_addr = table_entry_addr(s, &s->dt, devid, &res);
-+        }                                                           \
++    uint64_t dteval;
-+        return do_3same_fp(s, a, FUNC, READS_VD);                   \
      if (entry_addr == -1) {
 -        return 0; /* a DTE entry with the Valid bit clear */
 +        /* No L2 table entry, i.e. no valid DTE, or a memory error */
 +        dte->valid = false;
 +        return res;
      }
 -    return address_space_ldq_le(as, entry_addr, MEMTXATTRS_UNSPECIFIED, res);
 +    dteval = address_space_ldq_le(as, entry_addr, MEMTXATTRS_UNSPECIFIED, &res);
 +    if (res != MEMTX_OK) {
 +        return res;
 +    }
-+
++    dte->valid = FIELD_EX64(dteval, DTE, VALID);
-+static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
++    dte->size = FIELD_EX64(dteval, DTE, SIZE);
-+                            TCGv_ptr fpstatus)
++    /* DTE word field stores bits [51:8] of the ITT address */
-+{
++    dte->ittaddr = FIELD_EX64(dteval, DTE, ITTADDR) << ITTADDR_SHIFT;
-+    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
++    return MEMTX_OK;
-+    gen_helper_vfp_adds(vd, vd, vn, fpstatus);
+ }
-+}
-+
+ /*
-+static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
-+                            TCGv_ptr fpstatus)
+                                        uint32_t eventid, ItsCmdType cmd)
 +{
 +    gen_helper_vfp_muls(vn, vn, vm, fpstatus);
 +    gen_helper_vfp_subs(vd, vd, vn, fpstatus);
 +}
 +
 +DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
 +DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
  static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
  {
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+     MemTxResult res = MEMTX_OK;
-index XXXXXXX..XXXXXXX 100644
+-    bool dte_valid;
---- a/target/arm/translate.c
+-    uint64_t dte = 0;
-+++ b/target/arm/translate.c
+     uint64_t num_eventids;
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+     uint16_t icid = 0;
-         case NEON_3R_VPADD_VQRDMLAH:
+     uint32_t pIntid = 0;
-         case NEON_3R_VQDMULH_VQRDMULH:
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
-         case NEON_3R_FLOAT_ARITH:
+     uint64_t cte = 0;
-+        case NEON_3R_FLOAT_MULTIPLY:
+     bool cte_valid = false;
-             /* Already handled by decodetree */
+     uint64_t rdbase;
-             return 1;
++    DTEntry dte;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+     if (devid >= s->dt.num_entries) {
-         tmp = neon_load_reg(rn, pass);
+         qemu_log_mask(LOG_GUEST_ERROR,
-         tmp2 = neon_load_reg(rm, pass);
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
-         switch (op) {
+         return CMD_CONTINUE;
--        case NEON_3R_FLOAT_MULTIPLY:
+     }
--        {
--            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
+-    dte = get_dte(s, devid, &res);
--            gen_helper_vfp_muls(tmp, tmp, tmp2, fpstatus);
+-
--            if (!u) {
+-    if (res != MEMTX_OK) {
--                tcg_temp_free_i32(tmp2);
++    if (get_dte(s, devid, &dte) != MEMTX_OK) {
--                tmp2 = neon_load_reg(rd, pass);
+         return CMD_STALL;
--                if (size == 0) {
+     }
--                    gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
+-    dte_valid = FIELD_EX64(dte, DTE, VALID);
--                } else {
+-
--                    gen_helper_vfp_subs(tmp, tmp2, tmp, fpstatus);
+-    if (!dte_valid) {
--                }
++    if (!dte.valid) {
--            }
+         qemu_log_mask(LOG_GUEST_ERROR,
--            tcg_temp_free_ptr(fpstatus);
+                       "%s: invalid command attributes: "
--            break;
+-                      "invalid dte: %"PRIx64" for %d\n",
--        }
+-                      __func__, dte, devid);
-         case NEON_3R_FLOAT_CMP:
++                      "invalid dte for %d\n", __func__, devid);
-         {
+         return CMD_CONTINUE;
-             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
+     }
 -    num_eventids = 1ULL << (FIELD_EX64(dte, DTE, SIZE) + 1);
 -
 +    num_eventids = 1ULL << (dte.size + 1);
      if (eventid >= num_eventids) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes: eventid %d >= %"
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
          return CMD_CONTINUE;
      }
 -    ite_valid = get_ite(s, eventid, dte, &icid, &pIntid, &res);
 +    ite_valid = get_ite(s, eventid, &dte, &icid, &pIntid, &res);
      if (res != MEMTX_OK) {
          return CMD_STALL;
      }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
      if (cmd == DISCARD) {
          IteEntry ite = {};
          /* remove mapping from interrupt translation table */
 -        return update_ite(s, eventid, dte, ite) ? CMD_CONTINUE : CMD_STALL;
 +        return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
      }
      return CMD_CONTINUE;
  }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
      uint32_t pIntid = 0;
      uint64_t num_eventids;
      uint32_t num_intids;
 -    bool dte_valid;
 -    MemTxResult res = MEMTX_OK;
      uint16_t icid = 0;
 -    uint64_t dte = 0;
      IteEntry ite = {};
 +    DTEntry dte;
      devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
      eventid = cmdpkt[1] & EVENTID_MASK;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
          return CMD_CONTINUE;
      }
 -    dte = get_dte(s, devid, &res);
 -
 -    if (res != MEMTX_OK) {
 +    if (get_dte(s, devid, &dte) != MEMTX_OK) {
          return CMD_STALL;
      }
 -    dte_valid = FIELD_EX64(dte, DTE, VALID);
 -    num_eventids = 1ULL << (FIELD_EX64(dte, DTE, SIZE) + 1);
 +    num_eventids = 1ULL << (dte.size + 1);
      num_intids = 1ULL << (GICD_TYPER_IDBITS + 1);
      if ((icid >= s->ct.num_entries)
 -            || !dte_valid || (eventid >= num_eventids) ||
 +            || !dte.valid || (eventid >= num_eventids) ||
              (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)) &&
               (pIntid != INTID_SPURIOUS))) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes "
                        "icid %d or eventid %d or pIntid %d or"
                        "unmapped dte %d\n", __func__, icid, eventid,
 -                      pIntid, dte_valid);
 +                      pIntid, dte.valid);
          /*
           * in this implementation, in case of error
           * we ignore this command and move onto the next
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
      }
      /* add ite entry to interrupt translation table */
 -    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, dte_valid);
 +    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, true);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, pIntid);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
      ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, icid);
 -    return update_ite(s, eventid, dte, ite) ? CMD_CONTINUE : CMD_STALL;
 +    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
  }
  static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
      uint16_t old_icid, new_icid;
      uint64_t old_cte, new_cte;
      uint64_t old_rdbase, new_rdbase;
 -    uint64_t dte;
 -    bool dte_valid, ite_valid, cte_valid;
 +    bool ite_valid, cte_valid;
      uint64_t num_eventids;
      IteEntry ite = {};
 +    DTEntry dte;
      devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
      eventid = FIELD_EX64(cmdpkt[1], MOVI_1, EVENTID);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
                        __func__, devid, s->dt.num_entries);
          return CMD_CONTINUE;
      }
 -    dte = get_dte(s, devid, &res);
 -    if (res != MEMTX_OK) {
 +    if (get_dte(s, devid, &dte) != MEMTX_OK) {
          return CMD_STALL;
      }
 -    dte_valid = FIELD_EX64(dte, DTE, VALID);
 -    if (!dte_valid) {
 +    if (!dte.valid) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes: "
 -                      "invalid dte: %"PRIx64" for %d\n",
 -                      __func__, dte, devid);
 +                      "invalid dte for %d\n", __func__, devid);
          return CMD_CONTINUE;
      }
 -    num_eventids = 1ULL << (FIELD_EX64(dte, DTE, SIZE) + 1);
 +    num_eventids = 1ULL << (dte.size + 1);
      if (eventid >= num_eventids) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes: eventid %d >= %"
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
          return CMD_CONTINUE;
      }
 -    ite_valid = get_ite(s, eventid, dte, &old_icid, &intid, &res);
 +    ite_valid = get_ite(s, eventid, &dte, &old_icid, &intid, &res);
      if (res != MEMTX_OK) {
          return CMD_STALL;
      }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
      ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, intid);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
      ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, new_icid);
 -    return update_ite(s, eventid, dte, ite) ? CMD_CONTINUE : CMD_STALL;
 +    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
  }
  /*
 --
-.20.1
+.25.1

-[PULL 04/45] target/arm: Create gen_gvec_{sri,sli}
+[PULL 28/39] hw/intc/arm_gicv3_its: Pass DTEntry to update_dte()
-From: Richard Henderson <richard.henderson@linaro.org>
+Make update_dte() take a DTEntry struct rather than all the fields of
 the new DTE as separate arguments.
-The functions eliminate duplication of the special cases for
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-this operation.  They match up with the GVecGen2iFn typedef.
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20220201193207.2771604-4-peter.maydell@linaro.org
 ---
  hw/intc/arm_gicv3_its.c | 35 ++++++++++++++++++-----------------
 file changed, 18 insertions(+), 17 deletions(-)
-Add out-of-line helpers.  We got away with only having inline
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 expanders because the neon vector size is only 16 bytes, and
 we know that the inline expansion will always succeed.
 When we reuse this for SVE, tcg-gvec-op may decide to use an
 out-of-line helper due to longer vector lengths.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20200513163245.17915-4-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  target/arm/helper.h        |  10 ++
  target/arm/translate.h     |   7 +-
  target/arm/translate-a64.c |  20 +---
  target/arm/translate.c     | 186 +++++++++++++++++++++----------------
  target/arm/vec_helper.c    |  38 ++++++++
 files changed, 160 insertions(+), 101 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/helper.h
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(gvec_ursra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
- DEF_HELPER_FLAGS_3(gvec_ursra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+     return update_cte(s, icid, valid, rdbase) ? CMD_CONTINUE : CMD_STALL;
  DEF_HELPER_FLAGS_3(gvec_ursra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_sri_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_sri_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_sri_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_sri_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
 +DEF_HELPER_FLAGS_3(gvec_sli_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_sli_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_sli_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_sli_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "helper-a64.h"
  #include "helper-sve.h"
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ extern const GVecGen3 mls_op[4];
  extern const GVecGen3 cmtst_op[4];
  extern const GVecGen3 sshl_op[4];
  extern const GVecGen3 ushl_op[4];
 -extern const GVecGen2i sri_op[4];
 -extern const GVecGen2i sli_op[4];
  extern const GVecGen4 uqadd_op[4];
  extern const GVecGen4 sqadd_op[4];
  extern const GVecGen4 uqsub_op[4];
@@ -XXX,XX +XXX,XX @@ void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
  void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                      int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
   * Forward to the isar_feature_* tests given a DisasContext pointer.
   */
 diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_gvec_op2(DisasContext *s, bool is_q, int rd,
                     is_q ? 16 : 8, vec_full_reg_size(s), gvec_op);
  }
--/* Expand a 2-operand + immediate AdvSIMD vector operation using
+-static bool update_dte(GICv3ITSState *s, uint32_t devid, bool valid,
-- * an op descriptor.
+-                       uint8_t size, uint64_t itt_addr)
-- */
++/*
--static void gen_gvec_op2i(DisasContext *s, bool is_q, int rd,
++ * Update the Device Table entry for @devid to @dte. Returns true
--                          int rn, int64_t imm, const GVecGen2i *gvec_op)
++ * on success, false if there was a memory access error.
--{
++ */
--    tcg_gen_gvec_2i(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
++static bool update_dte(GICv3ITSState *s, uint32_t devid, const DTEntry *dte)
--                    is_q ? 16 : 8, vec_full_reg_size(s), imm, gvec_op);
+ {
--}
+     AddressSpace *as = &s->gicv3->dma_as;
--
+     uint64_t entry_addr;
- /* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
+-    uint64_t dte = 0;
- static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
++    uint64_t dteval = 0;
-                          int rn, int rm, const GVecGen3 *gvec_op)
+     MemTxResult res = MEMTX_OK;
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
-         gen_gvec_fn2i(s, is_q, rd, rn, shift,
+     if (s->dt.valid) {
-                       is_u ? gen_gvec_usra : gen_gvec_ssra, size);
+-        if (valid) {
-         return;
++        if (dte->valid) {
-+
+             /* add mapping entry to device table */
-     case 0x08: /* SRI */
+-            dte = FIELD_DP64(dte, DTE, VALID, 1);
--        /* Shift count same as element size is valid but does nothing.  */
+-            dte = FIELD_DP64(dte, DTE, SIZE, size);
--        if (shift == 8 << size) {
+-            dte = FIELD_DP64(dte, DTE, ITTADDR, itt_addr);
--            goto done;
++            dteval = FIELD_DP64(dteval, DTE, VALID, 1);
--        }
++            dteval = FIELD_DP64(dteval, DTE, SIZE, dte->size);
--        gen_gvec_op2i(s, is_q, rd, rn, shift, &sri_op[size]);
++            dteval = FIELD_DP64(dteval, DTE, ITTADDR, dte->ittaddr);
-+        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sri, size);
+         }
-         return;
+     } else {
+         return true;
-     case 0x00: /* SSHR / USHR */
+@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, bool valid,
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
+         /* No L2 table for this index: discard write and continue */
          return true;
      }
-     tcg_temp_free_i64(tcg_round);
+-    address_space_stq_le(as, entry_addr, dte, MEMTXATTRS_UNSPECIFIED, &res);
++    address_space_stq_le(as, entry_addr, dteval, MEMTXATTRS_UNSPECIFIED, &res);
-- done:
+     return res == MEMTX_OK;
      clear_vec_high(s, is_q, rd);
  }
-@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shli(DisasContext *s, bool is_q, bool insert,
+ static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
      uint32_t devid;
 -    uint8_t size;
 -    uint64_t itt_addr;
 -    bool valid;
 +    DTEntry dte;
      devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
 -    size = cmdpkt[1] & SIZE_MASK;
 -    itt_addr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
 -    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
 +    dte.size = cmdpkt[1] & SIZE_MASK;
 +    dte.ittaddr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
 +    dte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
      if ((devid >= s->dt.num_entries) ||
 -        (size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
 +        (dte.size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "ITS MAPD: invalid device table attributes "
 -                      "devid %d or size %d\n", devid, size);
 +                      "devid %d or size %d\n", devid, dte.size);
          /*
           * in this implementation, in case of error
           * we ignore this command and move onto the next
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
          return CMD_CONTINUE;
      }
-     if (insert) {
+-    return update_dte(s, devid, valid, size, itt_addr) ? CMD_CONTINUE : CMD_STALL;
--        gen_gvec_op2i(s, is_q, rd, rn, shift, &sli_op[size]);
++    return update_dte(s, devid, &dte) ? CMD_CONTINUE : CMD_STALL;
 +        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sli, size);
      } else {
          gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shli, size);
      }
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_shr64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  static void gen_shr_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
  {
 -    if (sh == 0) {
 -        tcg_gen_mov_vec(d, a);
 -    } else {
 -        TCGv_vec t = tcg_temp_new_vec_matching(d);
 -        TCGv_vec m = tcg_temp_new_vec_matching(d);
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
 -        tcg_gen_shri_vec(vece, t, a, sh);
 -        tcg_gen_and_vec(vece, d, d, m);
 -        tcg_gen_or_vec(vece, d, d, t);
 +    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK((8 << vece) - sh, sh));
 +    tcg_gen_shri_vec(vece, t, a, sh);
 +    tcg_gen_and_vec(vece, d, d, m);
 +    tcg_gen_or_vec(vece, d, d, t);
 -        tcg_temp_free_vec(t);
 -        tcg_temp_free_vec(m);
 -    }
 +    tcg_temp_free_vec(t);
 +    tcg_temp_free_vec(m);
  }
--static const TCGOpcode vecop_list_sri[] = { INDEX_op_shri_vec, 0 };
+ static ItsCmdResult process_movall(GICv3ITSState *s, const uint64_t *cmdpkt)
 +void gen_gvec_sri(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_shri_vec, 0 };
 +    const GVecGen2i ops[4] = {
 +        { .fni8 = gen_shr8_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_shr16_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_shr32_ins_i32,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_shr64_ins_i64,
 +          .fniv = gen_shr_ins_vec,
 +          .fno = gen_helper_gvec_sri_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 -const GVecGen2i sri_op[4] = {
 -    { .fni8 = gen_shr8_ins_i64,
 -      .fniv = gen_shr_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sri,
 -      .vece = MO_8 },
 -    { .fni8 = gen_shr16_ins_i64,
 -      .fniv = gen_shr_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sri,
 -      .vece = MO_16 },
 -    { .fni4 = gen_shr32_ins_i32,
 -      .fniv = gen_shr_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sri,
 -      .vece = MO_32 },
 -    { .fni8 = gen_shr64_ins_i64,
 -      .fniv = gen_shr_ins_vec,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sri,
 -      .vece = MO_64 },
 -};
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /* Shift of esize leaves destination unchanged. */
 +    if (shift < (8 << vece)) {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    } else {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    }
 +}
  static void gen_shl8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
@@ -XXX,XX +XXX,XX @@ static void gen_shl64_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  static void gen_shl_ins_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
  {
 -    if (sh == 0) {
 -        tcg_gen_mov_vec(d, a);
 -    } else {
 -        TCGv_vec t = tcg_temp_new_vec_matching(d);
 -        TCGv_vec m = tcg_temp_new_vec_matching(d);
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec m = tcg_temp_new_vec_matching(d);
 -        tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 -        tcg_gen_shli_vec(vece, t, a, sh);
 -        tcg_gen_and_vec(vece, d, d, m);
 -        tcg_gen_or_vec(vece, d, d, t);
 +    tcg_gen_shli_vec(vece, t, a, sh);
 +    tcg_gen_dupi_vec(vece, m, MAKE_64BIT_MASK(0, sh));
 +    tcg_gen_and_vec(vece, d, d, m);
 +    tcg_gen_or_vec(vece, d, d, t);
 -        tcg_temp_free_vec(t);
 -        tcg_temp_free_vec(m);
 -    }
 +    tcg_temp_free_vec(t);
 +    tcg_temp_free_vec(m);
  }
 -static const TCGOpcode vecop_list_sli[] = { INDEX_op_shli_vec, 0 };
 +void gen_gvec_sli(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                  int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = { INDEX_op_shli_vec, 0 };
 +    const GVecGen2i ops[4] = {
 +        { .fni8 = gen_shl8_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_shl16_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_shl32_ins_i32,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_shl64_ins_i64,
 +          .fniv = gen_shl_ins_vec,
 +          .fno = gen_helper_gvec_sli_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 -const GVecGen2i sli_op[4] = {
 -    { .fni8 = gen_shl8_ins_i64,
 -      .fniv = gen_shl_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_8 },
 -    { .fni8 = gen_shl16_ins_i64,
 -      .fniv = gen_shl_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_16 },
 -    { .fni4 = gen_shl32_ins_i32,
 -      .fniv = gen_shl_ins_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_32 },
 -    { .fni8 = gen_shl64_ins_i64,
 -      .fniv = gen_shl_ins_vec,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_sli,
 -      .vece = MO_64 },
 -};
 +    /* tszimm encoding produces immediates in the range [0..esize-1]. */
 +    tcg_debug_assert(shift >= 0);
 +    tcg_debug_assert(shift < (8 << vece));
 +
 +    if (shift == 0) {
 +        tcg_gen_gvec_mov(vece, rd_ofs, rm_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
  static void gen_mla8_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
  {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                      }
                      /* Right shift comes here negative.  */
                      shift = -shift;
 -                    /* Shift out of range leaves destination unchanged.  */
 -                    if (shift < 8 << size) {
 -                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
 -                                        shift, &sri_op[size]);
 -                    }
 +                    gen_gvec_sri(size, rd_ofs, rm_ofs, shift,
 +                                 vec_size, vec_size);
                      return 0;
                  case 5: /* VSHL, VSLI */
                      if (u) { /* VSLI */
 -                        /* Shift out of range leaves destination unchanged.  */
 -                        if (shift < 8 << size) {
 -                            tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size,
 -                                            vec_size, shift, &sli_op[size]);
 -                        }
 +                        gen_gvec_sli(size, rd_ofs, rm_ofs, shift,
 +                                     vec_size, vec_size);
                      } else { /* VSHL */
                          /* Shifts larger than the element size are
                           * architecturally valid and results in zero.
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_RSRA(gvec_ursra_d, uint64_t)
  #undef DO_RSRA
 +#define DO_SRI(NAME, TYPE)                              \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        d[i] = deposit64(d[i], 0, sizeof(TYPE) * 8 - shift, n[i] >> shift); \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_SRI(gvec_sri_b, uint8_t)
 +DO_SRI(gvec_sri_h, uint16_t)
 +DO_SRI(gvec_sri_s, uint32_t)
 +DO_SRI(gvec_sri_d, uint64_t)
 +
 +#undef DO_SRI
 +
 +#define DO_SLI(NAME, TYPE)                              \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        d[i] = deposit64(d[i], shift, sizeof(TYPE) * 8 - shift, n[i]); \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_SLI(gvec_sli_b, uint8_t)
 +DO_SLI(gvec_sli_h, uint16_t)
 +DO_SLI(gvec_sli_s, uint32_t)
 +DO_SLI(gvec_sli_d, uint64_t)
 +
 +#undef DO_SLI
 +
  /*
   * Convert float16 to float32, raising no exceptions and
   * preserving exceptional values, including SNaN.
 --
-.20.1
+.25.1

-[PULL 02/45] target/arm: Create gen_gvec_[us]sra
+[PULL 29/39] hw/intc/arm_gicv3_its: Keep CTEs as a struct, not a raw uint64_t
-From: Richard Henderson <richard.henderson@linaro.org>
+In the ITS, a CTE is an entry in the collection table, which contains
+multiple fields. Currently the function get_cte() which reads one
-The functions eliminate duplication of the special cases for
+entry from the device table returns a success/failure boolean and
-this operation.  They match up with the GVecGen2iFn typedef.
+passes back the raw 64-bit integer CTE value via a pointer argument.
+We then extract fields from the CTE as we need them.
-Add out-of-line helpers.  We got away with only having inline
-expanders because the neon vector size is only 16 bytes, and
+Create a real C struct with the same fields as the CTE, and
-we know that the inline expansion will always succeed.
+populate it in get_cte(), so that that function and update_cte()
-When we reuse this for SVE, tcg-gvec-op may decide to use an
+are the only ones which need to care about the in-guest-memory
-out-of-line helper due to longer vector lengths.
+format of the CTE.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
+This brings get_cte()'s API into line with get_dte().
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
 Message-id: 20200513163245.17915-2-richard.henderson@linaro.org
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20220201193207.2771604-5-peter.maydell@linaro.org
 ---
- target/arm/helper.h        |  10 +++
+ hw/intc/arm_gicv3_its.c | 96 ++++++++++++++++++++++-------------------
- target/arm/translate.h     |   7 +-
+file changed, 52 insertions(+), 44 deletions(-)
- target/arm/translate-a64.c |  15 +---
- target/arm/translate.c     | 161 ++++++++++++++++++++++---------------
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
  target/arm/vec_helper.c    |  25 ++++++
 files changed, 139 insertions(+), 79 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/helper.h
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_pmull_q, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ typedef struct DTEntry {
+     uint64_t ittaddr;
- DEF_HELPER_FLAGS_4(neon_pmull_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+ } DTEntry;
-+DEF_HELPER_FLAGS_3(gvec_ssra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++typedef struct CTEntry {
-+DEF_HELPER_FLAGS_3(gvec_ssra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++    bool valid;
-+DEF_HELPER_FLAGS_3(gvec_ssra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++    uint32_t rdbase;
-+DEF_HELPER_FLAGS_3(gvec_ssra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++} CTEntry;
 +
 +DEF_HELPER_FLAGS_3(gvec_usra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_usra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_usra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_3(gvec_usra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 +
  #ifdef TARGET_AARCH64
  #include "helper-a64.h"
  #include "helper-sve.h"
 diff --git a/target/arm/translate.h b/target/arm/translate.h
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.h
 +++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ extern const GVecGen3 mls_op[4];
  extern const GVecGen3 cmtst_op[4];
  extern const GVecGen3 sshl_op[4];
  extern const GVecGen3 ushl_op[4];
 -extern const GVecGen2i ssra_op[4];
 -extern const GVecGen2i usra_op[4];
  extern const GVecGen2i sri_op[4];
  extern const GVecGen2i sli_op[4];
  extern const GVecGen4 uqadd_op[4];
@@ -XXX,XX +XXX,XX @@ void gen_sshl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
  void gen_ushl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
  void gen_sshl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 +void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 +void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                   int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
-  * Forward to the isar_feature_* tests given a DisasContext pointer.
+  * The ITS spec permits a range of CONSTRAINED UNPREDICTABLE options
-  */
+  * if a command parameter is not correct. These include both "stall
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static uint64_t table_entry_addr(GICv3ITSState *s, TableDesc *td,
-index XXXXXXX..XXXXXXX 100644
+     return (l2 & ((1ULL << 51) - 1)) + (idx % num_l2_entries) * td->entry_sz;
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
      switch (opcode) {
      case 0x02: /* SSRA / USRA (accumulate) */
 -        if (is_u) {
 -            /* Shift count same as element size produces zero to add.  */
 -            if (shift == 8 << size) {
 -                goto done;
 -            }
 -            gen_gvec_op2i(s, is_q, rd, rn, shift, &usra_op[size]);
 -        } else {
 -            /* Shift count same as element size produces all sign to add.  */
 -            if (shift == 8 << size) {
 -                shift -= 1;
 -            }
 -            gen_gvec_op2i(s, is_q, rd, rn, shift, &ssra_op[size]);
 -        }
 +        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 +                      is_u ? gen_gvec_usra : gen_gvec_ssra, size);
          return;
      case 0x08: /* SRI */
          /* Shift count same as element size is valid but does nothing.  */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_ssra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
      tcg_gen_add_vec(vece, d, d, a);
  }
--static const TCGOpcode vecop_list_ssra[] = {
+-static bool get_cte(GICv3ITSState *s, uint16_t icid, uint64_t *cte,
--    INDEX_op_sari_vec, INDEX_op_add_vec, 0
+-                    MemTxResult *res)
--};
++/*
-+void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
++ * Read the Collection Table entry at index @icid. On success (including
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
++ * successfully determining that there is no valid CTE for this index),
-+{
++ * we return MEMTX_OK and populate the CTEntry struct @cte accordingly.
-+    static const TCGOpcode vecop_list[] = {
++ * If there is an error reading memory then we return the error code.
-+        INDEX_op_sari_vec, INDEX_op_add_vec, 0
++ */
-+    };
++static MemTxResult get_cte(GICv3ITSState *s, uint16_t icid, CTEntry *cte)
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_ssra8_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_b,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_ssra16_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_h,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ssra32_i32,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_s,
 +          .load_dest = true,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ssra64_i64,
 +          .fniv = gen_ssra_vec,
 +          .fno = gen_helper_gvec_ssra_b,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 -const GVecGen2i ssra_op[4] = {
 -    { .fni8 = gen_ssra8_i64,
 -      .fniv = gen_ssra_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_ssra,
 -      .vece = MO_8 },
 -    { .fni8 = gen_ssra16_i64,
 -      .fniv = gen_ssra_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_ssra,
 -      .vece = MO_16 },
 -    { .fni4 = gen_ssra32_i32,
 -      .fniv = gen_ssra_vec,
 -      .load_dest = true,
 -      .opt_opc = vecop_list_ssra,
 -      .vece = MO_32 },
 -    { .fni8 = gen_ssra64_i64,
 -      .fniv = gen_ssra_vec,
 -      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 -      .opt_opc = vecop_list_ssra,
 -      .load_dest = true,
 -      .vece = MO_64 },
 -};
 +    /* tszimm encoding produces immediates in the range [1..esize]. */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.
 +     */
 +    shift = MIN(shift, (8 << vece) - 1);
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
  static void gen_usra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
-@@ -XXX,XX +XXX,XX @@ static void gen_usra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+     AddressSpace *as = &s->gicv3->dma_as;
-     tcg_gen_add_vec(vece, d, d, a);
+-    uint64_t entry_addr = table_entry_addr(s, &s->ct, icid, res);
 +    MemTxResult res = MEMTX_OK;
 +    uint64_t entry_addr = table_entry_addr(s, &s->ct, icid, &res);
 +    uint64_t cteval;
      if (entry_addr == -1) {
 -        return false; /* not valid */
 +        /* No L2 table entry, i.e. no valid CTE, or a memory error */
 +        cte->valid = false;
 +        return res;
      }
 -    *cte = address_space_ldq_le(as, entry_addr, MEMTXATTRS_UNSPECIFIED, res);
 -    return FIELD_EX64(*cte, CTE, VALID);
 +    cteval = address_space_ldq_le(as, entry_addr, MEMTXATTRS_UNSPECIFIED, &res);
 +    if (res != MEMTX_OK) {
 +        return res;
 +    }
 +    cte->valid = FIELD_EX64(cteval, CTE, VALID);
 +    cte->rdbase = FIELD_EX64(cteval, CTE, RDBASE);
 +    return MEMTX_OK;
  }
--static const TCGOpcode vecop_list_usra[] = {
+ static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
--    INDEX_op_shri_vec, INDEX_op_add_vec, 0
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
--};
+     uint16_t icid = 0;
-+void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+     uint32_t pIntid = 0;
-+                   int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+     bool ite_valid = false;
-+{
+-    uint64_t cte = 0;
-+    static const TCGOpcode vecop_list[] = {
+-    bool cte_valid = false;
-+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+-    uint64_t rdbase;
-+    };
+     DTEntry dte;
-+    static const GVecGen2i ops[4] = {
++    CTEntry cte;
-+        { .fni8 = gen_usra8_i64,
-+          .fniv = gen_usra_vec,
+     if (devid >= s->dt.num_entries) {
-+          .fno = gen_helper_gvec_usra_b,
+         qemu_log_mask(LOG_GUEST_ERROR,
-+          .load_dest = true,
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
-+          .opt_opc = vecop_list,
+         return CMD_CONTINUE;
-+          .vece = MO_8, },
+     }
-+        { .fni8 = gen_usra16_i64,
-+          .fniv = gen_usra_vec,
+-    cte_valid = get_cte(s, icid, &cte, &res);
-+          .fno = gen_helper_gvec_usra_h,
+-    if (res != MEMTX_OK) {
-+          .load_dest = true,
++    if (get_cte(s, icid, &cte) != MEMTX_OK) {
-+          .opt_opc = vecop_list,
+         return CMD_STALL;
-+          .vece = MO_16, },
+     }
-+        { .fni4 = gen_usra32_i32,
+-    if (!cte_valid) {
-+          .fniv = gen_usra_vec,
++    if (!cte.valid) {
-+          .fno = gen_helper_gvec_usra_s,
+         qemu_log_mask(LOG_GUEST_ERROR,
-+          .load_dest = true,
+-                      "%s: invalid command attributes: "
-+          .opt_opc = vecop_list,
+-                      "invalid cte: %"PRIx64"\n",
-+          .vece = MO_32, },
+-                      __func__, cte);
-+        { .fni8 = gen_usra64_i64,
++                      "%s: invalid command attributes: invalid CTE\n",
-+          .fniv = gen_usra_vec,
++                      __func__);
-+          .fno = gen_helper_gvec_usra_d,
+         return CMD_CONTINUE;
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+     }
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
-+          .vece = MO_64, },
+      * Current implementation only supports rdbase == procnum
-+    };
+      * Hence rdbase physical address is ignored
+      */
--const GVecGen2i usra_op[4] = {
+-    rdbase = FIELD_EX64(cte, CTE, RDBASE);
--    { .fni8 = gen_usra8_i64,
+-
--      .fniv = gen_usra_vec,
+-    if (rdbase >= s->gicv3->num_cpu) {
--      .load_dest = true,
++    if (cte.rdbase >= s->gicv3->num_cpu) {
--      .opt_opc = vecop_list_usra,
+         return CMD_CONTINUE;
--      .vece = MO_8, },
+     }
--    { .fni8 = gen_usra16_i64,
--      .fniv = gen_usra_vec,
+     if ((cmd == CLEAR) || (cmd == DISCARD)) {
--      .load_dest = true,
+-        gicv3_redist_process_lpi(&s->gicv3->cpu[rdbase], pIntid, 0);
--      .opt_opc = vecop_list_usra,
++        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], pIntid, 0);
--      .vece = MO_16, },
+     } else {
--    { .fni4 = gen_usra32_i32,
+-        gicv3_redist_process_lpi(&s->gicv3->cpu[rdbase], pIntid, 1);
--      .fniv = gen_usra_vec,
++        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], pIntid, 1);
--      .load_dest = true,
+     }
--      .opt_opc = vecop_list_usra,
--      .vece = MO_32, },
+     if (cmd == DISCARD) {
--    { .fni8 = gen_usra64_i64,
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
--      .fniv = gen_usra_vec,
+     MemTxResult res = MEMTX_OK;
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+     uint32_t devid, eventid, intid;
--      .load_dest = true,
+     uint16_t old_icid, new_icid;
--      .opt_opc = vecop_list_usra,
+-    uint64_t old_cte, new_cte;
--      .vece = MO_64, },
+-    uint64_t old_rdbase, new_rdbase;
--};
+-    bool ite_valid, cte_valid;
-+    /* tszimm encoding produces immediates in the range [1..esize]. */
++    bool ite_valid;
-+    tcg_debug_assert(shift > 0);
+     uint64_t num_eventids;
-+    tcg_debug_assert(shift <= (8 << vece));
+     IteEntry ite = {};
-+
+     DTEntry dte;
-+    /*
++    CTEntry old_cte, new_cte;
-+     * Shifts larger than the element size are architecturally valid.
-+     * Unsigned results in all zeros as input to accumulate: nop.
+     devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
-+     */
+     eventid = FIELD_EX64(cmdpkt[1], MOVI_1, EVENTID);
-+    if (shift < (8 << vece)) {
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
-+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+         return CMD_CONTINUE;
-+    } else {
+     }
-+        /* Nop, but we do need to clear the tail. */
-+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+-    cte_valid = get_cte(s, old_icid, &old_cte, &res);
-+    }
+-    if (res != MEMTX_OK) {
-+}
++    if (get_cte(s, old_icid, &old_cte) != MEMTX_OK) {
+         return CMD_STALL;
- static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
+     }
- {
+-    if (!cte_valid) {
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
++    if (!old_cte.valid) {
-                 case 1:  /* VSRA */
+         qemu_log_mask(LOG_GUEST_ERROR,
-                     /* Right shift comes here negative.  */
+                       "%s: invalid command attributes: "
-                     shift = -shift;
+-                      "invalid cte: %"PRIx64"\n",
--                    /* Shifts larger than the element size are architecturally
+-                      __func__, old_cte);
--                     * valid.  Unsigned results in all zeros; signed results
++                      "invalid CTE for old ICID 0x%x\n",
--                     * in all sign bits.
++                      __func__, old_icid);
--                     */
+         return CMD_CONTINUE;
--                    if (!u) {
+     }
--                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
--                                        MIN(shift, (8 << size) - 1),
+-    cte_valid = get_cte(s, new_icid, &new_cte, &res);
--                                        &ssra_op[size]);
+-    if (res != MEMTX_OK) {
--                    } else if (shift >= 8 << size) {
++    if (get_cte(s, new_icid, &new_cte) != MEMTX_OK) {
--                        /* rd += 0 */
+         return CMD_STALL;
-+                    if (u) {
+     }
-+                        gen_gvec_usra(size, rd_ofs, rm_ofs, shift,
+-    if (!cte_valid) {
-+                                      vec_size, vec_size);
++    if (!new_cte.valid) {
-                     } else {
+         qemu_log_mask(LOG_GUEST_ERROR,
--                        tcg_gen_gvec_2i(rd_ofs, rm_ofs, vec_size, vec_size,
+                       "%s: invalid command attributes: "
--                                        shift, &usra_op[size]);
+-                      "invalid cte: %"PRIx64"\n",
-+                        gen_gvec_ssra(size, rd_ofs, rm_ofs, shift,
+-                      __func__, new_cte);
-+                                      vec_size, vec_size);
++                      "invalid CTE for new ICID 0x%x\n",
-                     }
++                      __func__, new_icid);
-                     return 0;
+         return CMD_CONTINUE;
+     }
-diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
-index XXXXXXX..XXXXXXX 100644
+-    old_rdbase = FIELD_EX64(old_cte, CTE, RDBASE);
---- a/target/arm/vec_helper.c
+-    if (old_rdbase >= s->gicv3->num_cpu) {
-+++ b/target/arm/vec_helper.c
++    if (old_cte.rdbase >= s->gicv3->num_cpu) {
-@@ -XXX,XX +XXX,XX @@ void HELPER(gvec_sqsub_d)(void *vd, void *vq, void *vn,
+         qemu_log_mask(LOG_GUEST_ERROR,
-     clear_tail(d, oprsz, simd_maxsz(desc));
+-                      "%s: CTE has invalid rdbase 0x%"PRIx64"\n",
- }
+-                      __func__, old_rdbase);
++                      "%s: CTE has invalid rdbase 0x%x\n",
-+
++                      __func__, old_cte.rdbase);
-+#define DO_SRA(NAME, TYPE)                              \
+         return CMD_CONTINUE;
-+void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
+     }
-+{                                                       \
-+    intptr_t i, oprsz = simd_oprsz(desc);               \
+-    new_rdbase = FIELD_EX64(new_cte, CTE, RDBASE);
-+    int shift = simd_data(desc);                        \
+-    if (new_rdbase >= s->gicv3->num_cpu) {
-+    TYPE *d = vd, *n = vn;                              \
++    if (new_cte.rdbase >= s->gicv3->num_cpu) {
-+    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
+         qemu_log_mask(LOG_GUEST_ERROR,
-+        d[i] += n[i] >> shift;                          \
+-                      "%s: CTE has invalid rdbase 0x%"PRIx64"\n",
-+    }                                                   \
+-                      __func__, new_rdbase);
-+    clear_tail(d, oprsz, simd_maxsz(desc));             \
++                      "%s: CTE has invalid rdbase 0x%x\n",
-+}
++                      __func__, new_cte.rdbase);
-+
+         return CMD_CONTINUE;
-+DO_SRA(gvec_ssra_b, int8_t)
+     }
-+DO_SRA(gvec_ssra_h, int16_t)
-+DO_SRA(gvec_ssra_s, int32_t)
+-    if (old_rdbase != new_rdbase) {
-+DO_SRA(gvec_ssra_d, int64_t)
++    if (old_cte.rdbase != new_cte.rdbase) {
-+
+         /* Move the LPI from the old redistributor to the new one */
-+DO_SRA(gvec_usra_b, uint8_t)
+-        gicv3_redist_mov_lpi(&s->gicv3->cpu[old_rdbase],
-+DO_SRA(gvec_usra_h, uint16_t)
+-                             &s->gicv3->cpu[new_rdbase],
-+DO_SRA(gvec_usra_s, uint32_t)
++        gicv3_redist_mov_lpi(&s->gicv3->cpu[old_cte.rdbase],
-+DO_SRA(gvec_usra_d, uint64_t)
++                             &s->gicv3->cpu[new_cte.rdbase],
-+
+                              intid);
-+#undef DO_SRA
+     }
-+
  /*
   * Convert float16 to float32, raising no exceptions and
   * preserving exceptional values, including SNaN.
 --
-.20.1
+.25.1

-[PULL 39/45] target/arm: Convert Neon VADD, VSUB, VABD 3-reg-same insns to decodetree
+[PULL 30/39] hw/intc/arm_gicv3_its: Pass CTEntry to update_cte()
-Convert the Neon VADD, VSUB, VABD 3-reg-same insns to decodetree.
+Make update_cte() take a CTEntry struct rather than all the fields
-We already have gvec helpers for addition and subtraction, but must
+of the new CTE as separate arguments.
-add one for fabd.
 This brings it into line with the update_dte() API.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-12-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-6-peter.maydell@linaro.org
 ---
- target/arm/helper.h             |  3 ++-
+ hw/intc/arm_gicv3_its.c | 32 +++++++++++++++++---------------
- target/arm/neon-dp.decode       |  8 ++++++++
+file changed, 17 insertions(+), 15 deletions(-)
  target/arm/neon_helper.c        |  7 -------
  target/arm/translate-neon.inc.c | 28 ++++++++++++++++++++++++++++
  target/arm/translate.c          | 10 +++-------
  target/arm/vec_helper.c         |  7 +++++++
 files changed, 48 insertions(+), 15 deletions(-)
-diff --git a/target/arm/helper.h b/target/arm/helper.h
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/helper.h
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_2(neon_qneg_s16, TCG_CALL_NO_RWG, i32, env, i32)
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
- DEF_HELPER_FLAGS_2(neon_qneg_s32, TCG_CALL_NO_RWG, i32, env, i32)
+     return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
  DEF_HELPER_FLAGS_2(neon_qneg_s64, TCG_CALL_NO_RWG, i64, env, i64)
 -DEF_HELPER_3(neon_abd_f32, i32, i32, i32, ptr)
  DEF_HELPER_3(neon_ceq_f32, i32, i32, i32, ptr)
  DEF_HELPER_3(neon_cge_f32, i32, i32, i32, ptr)
  DEF_HELPER_3(neon_cgt_f32, i32, i32, i32, ptr)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_5(gvec_fmul_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmul_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_fmul_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +DEF_HELPER_FLAGS_5(gvec_fabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, ptr, i32)
 +
  DEF_HELPER_FLAGS_5(gvec_ftsmul_h, TCG_CALL_NO_RWG,
                     void, ptr, ptr, ptr, ptr, i32)
  DEF_HELPER_FLAGS_5(gvec_ftsmul_s, TCG_CALL_NO_RWG,
 diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/neon-dp.decode
 +++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
  @3same_q0        .... ... . . . size:2 .... .... .... . 0 . . .... \
                   &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
 +# For FP insns the high bit of 'size' is used as part of opcode decode
 +@3same_fp        .... ... . . . . size:1 .... .... .... . q:1 . . .... \
 +                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +
  VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
  VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
  VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
@@ -XXX,XX +XXX,XX @@ SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
                   vm=%vm_dp vn=%vn_dp vd=%vd_dp
  VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
 +
 +VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
 +VSUB_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
 +VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
 diff --git a/target/arm/neon_helper.c b/target/arm/neon_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/neon_helper.c
 +++ b/target/arm/neon_helper.c
@@ -XXX,XX +XXX,XX @@ uint64_t HELPER(neon_qneg_s64)(CPUARMState *env, uint64_t x)
  }
- /* NEON Float helpers.  */
+-static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
--uint32_t HELPER(neon_abd_f32)(uint32_t a, uint32_t b, void *fpstp)
+-                       uint64_t rdbase)
 -{
 -    float_status *fpst = fpstp;
 -    float32 f0 = make_float32(a);
 -    float32 f1 = make_float32(b);
 -    return float32_val(float32_abs(float32_sub(f0, f1, fpst)));
 -}
  /* Floating point comparisons produce an integer result.
   * Note that EQ doesn't signal InvalidOp for QNaNs but GE and GT do.
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPADD, padd_u)
  DO_3SAME_VQDMULH(VQDMULH, qdmulh)
  DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
 +
 +/*
-+ * For all the functions using this macro, size == 1 means fp16,
++ * Update the Collection Table entry for @icid to @cte. Returns true
-+ * which is an architecture extension we don't implement yet.
++ * on success, false if there was a memory access error.
 + */
-+#define DO_3S_FP_GVEC(INSN,FUNC)                                        \
++static bool update_cte(GICv3ITSState *s, uint16_t icid, const CTEntry *cte)
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+ {
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+     AddressSpace *as = &s->gicv3->dma_as;
-+                                uint32_t oprsz, uint32_t maxsz)         \
+     uint64_t entry_addr;
-+    {                                                                   \
+-    uint64_t cte = 0;
-+        TCGv_ptr fpst = get_fpstatus_ptr(1);                            \
++    uint64_t cteval = 0;
-+        tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, fpst,                \
+     MemTxResult res = MEMTX_OK;
-+                           oprsz, maxsz, 0, FUNC);                      \
-+        tcg_temp_free_ptr(fpst);                                        \
+     if (!s->ct.valid) {
-+    }                                                                   \
+         return true;
-+    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a)     \
+     }
-+    {                                                                   \
-+        if (a->size != 0) {                                             \
+-    if (valid) {
-+            /* TODO fp16 support */                                     \
++    if (cte->valid) {
-+            return false;                                               \
+         /* add mapping entry to collection table */
-+        }                                                               \
+-        cte = FIELD_DP64(cte, CTE, VALID, 1);
-+        return do_3same(s, a, gen_##INSN##_3s);                         \
+-        cte = FIELD_DP64(cte, CTE, RDBASE, rdbase);
-+    }
++        cteval = FIELD_DP64(cteval, CTE, VALID, 1);
-+
++        cteval = FIELD_DP64(cteval, CTE, RDBASE, cte->rdbase);
-+
+     }
-+DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
-+DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
+     entry_addr = table_entry_addr(s, &s->ct, icid, &res);
-+DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
+@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+         return true;
-index XXXXXXX..XXXXXXX 100644
+     }
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
+-    address_space_stq_le(as, entry_addr, cte, MEMTXATTRS_UNSPECIFIED, &res);
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
++    address_space_stq_le(as, entry_addr, cteval, MEMTXATTRS_UNSPECIFIED, &res);
-         switch (op) {
+     return res == MEMTX_OK;
          case NEON_3R_FLOAT_ARITH:
              pairwise = (u && size < 2); /* if VPADD (float) */
 +            if (!pairwise) {
 +                return 1; /* handled by decodetree */
 +            }
              break;
          case NEON_3R_FLOAT_MINMAX:
              pairwise = u; /* if VPMIN/VPMAX (float) */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          {
              TCGv_ptr fpstatus = get_fpstatus_ptr(1);
              switch ((u << 2) | size) {
 -            case 0: /* VADD */
              case 4: /* VPADD */
                  gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
                  break;
 -            case 2: /* VSUB */
 -                gen_helper_vfp_subs(tmp, tmp, tmp2, fpstatus);
 -                break;
 -            case 6: /* VABD */
 -                gen_helper_neon_abd_f32(tmp, tmp, tmp2, fpstatus);
 -                break;
              default:
                  abort();
              }
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ static float64 float64_ftsmul(float64 op1, uint64_t op2, float_status *stat)
      return result;
  }
-+static float32 float32_abd(float32 op1, float32 op2, float_status *stat)
+ static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
-+{
+ {
-+    return float32_abs(float32_sub(op1, op2, stat));
+     uint16_t icid;
-+}
+-    uint64_t rdbase;
-+
+-    bool valid;
- #define DO_3OP(NAME, FUNC, TYPE) \
++    CTEntry cte;
- void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
- {                                                                          \
+     icid = cmdpkt[2] & ICID_MASK;
-@@ -XXX,XX +XXX,XX @@ DO_3OP(gvec_ftsmul_h, float16_ftsmul, float16)
- DO_3OP(gvec_ftsmul_s, float32_ftsmul, float32)
+-    rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
- DO_3OP(gvec_ftsmul_d, float64_ftsmul, float64)
+-    rdbase &= RDBASE_PROCNUM_MASK;
++    cte.rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
-+DO_3OP(gvec_fabd_s, float32_abd, float32)
++    cte.rdbase &= RDBASE_PROCNUM_MASK;
-+
- #ifdef TARGET_AARCH64
+-    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
++    cte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
- DO_3OP(gvec_recps_h, helper_recpsf_f16, float16)
 -    if ((icid >= s->ct.num_entries) || (rdbase >= s->gicv3->num_cpu)) {
 +    if ((icid >= s->ct.num_entries) || (cte.rdbase >= s->gicv3->num_cpu)) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "ITS MAPC: invalid collection table attributes "
 -                      "icid %d rdbase %" PRIu64 "\n",  icid, rdbase);
 +                      "icid %d rdbase %u\n",  icid, cte.rdbase);
          /*
           * in this implementation, in case of error
           * we ignore this command and move onto the next
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
          return CMD_CONTINUE;
      }
 -    return update_cte(s, icid, valid, rdbase) ? CMD_CONTINUE : CMD_STALL;
 +    return update_cte(s, icid, &cte) ? CMD_CONTINUE : CMD_STALL;
  }
  /*
 --
-.20.1
+.25.1

-[PULL 37/45] target/arm: Convert Neon VPADD 3-reg-same insns to decodetree
+[PULL 31/39] hw/intc/arm_gicv3_its: Fix address calculation in get_ite() and update_ite()
-Convert the Neon integer VPADD 3-reg-same insns to decodetree.  These
+In get_ite() and update_ite() we work with a 12-byte in-guest-memory
-are 'pairwise' operations.  (Note that VQRDMLAH, which shares the
+table entry, which we intend to handle as an 8-byte value followed by
-same primary opcode but has U=1, has already been converted.)
+a 4-byte value.  Unfortunately the calculation of the address of the
 -byte value is wrong, because we write it as:
  table_base_address + (index * entrysize) + 4
 (obfuscated by the way the expression has been written)
 when it should be + 8.  This bug meant that we overwrote the top
 bytes of the 8-byte value with the 4-byte value.  There are no
 guest-visible effects because the top half of the 8-byte value
 contains only the doorbell interrupt field, which is used only in
 GICv4, and the two bugs in the "write ITE" and "read ITE" codepaths
 cancel each other out.
 We can't simply change the calculation, because this would break
 migration of a (TCG) guest from the old version of QEMU which had
 in-guest-memory interrupt tables written using the buggy version of
 update_ite().  We must also at the same time change the layout of the
 fields within the ITE_L and ITE_H values so that the in-memory
 locations of the fields we care about (VALID, INTTYPE, INTID and
 ICID) stay the same.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-10-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-7-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  2 ++
+ hw/intc/gicv3_internal.h | 19 ++++++++++---------
- target/arm/translate-neon.inc.c |  2 ++
+ hw/intc/arm_gicv3_its.c  | 28 +++++++++++-----------------
- target/arm/translate.c          | 19 +------------------
+files changed, 21 insertions(+), 26 deletions(-)
 files changed, 5 insertions(+), 18 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/intc/gicv3_internal.h b/hw/intc/gicv3_internal.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/intc/gicv3_internal.h
-+++ b/target/arm/neon-dp.decode
++++ b/hw/intc/gicv3_internal.h
-@@ -XXX,XX +XXX,XX @@ VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
+@@ -XXX,XX +XXX,XX @@ FIELD(MOVI_2, ICID, 0, 16)
- VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
+  * 12 bytes Interrupt translation Table Entry size
- VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
+  * as per Table 5.3 in GICv3 spec
+  * ITE Lower 8 Bytes
-+VPADD_3s         1111 001 0 0 . .. .... .... 1011 . . . 1 .... @3same_q0
+- *   Bits:    | 49 ... 26 | 25 ... 2 |   1     |   0    |
-+
+- *   Values:  |  Doorbell |  IntNum  | IntType |  Valid |
- VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
++ *   Bits:    | 63 ... 48 | 47 ... 32 | 31 ... 26 | 25 ... 2 |   1     |  0    |
++ *   Values:  | vPEID     | ICID      | unused    |  IntNum  | IntType | Valid |
- SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
+  * ITE Higher 4 Bytes
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+- *   Bits:    | 31 ... 16 | 15 ...0 |
 - *   Values:  |  vPEID    |  ICID   |
 - * (When Doorbell is unused, as it always is in GICv3, it is 1023)
 + *   Bits:    | 31 ... 25 | 24 ... 0 |
 + *   Values:  | unused    | Doorbell |
 + * (When Doorbell is unused, as it always is for INTYPE_PHYSICAL,
 + * the value of that field in memory cannot be relied upon -- older
 + * versions of QEMU did not correctly write to that memory.)
   */
  #define ITS_ITT_ENTRY_SIZE            0xC
  FIELD(ITE_L, VALID, 0, 1)
  FIELD(ITE_L, INTTYPE, 1, 1)
  FIELD(ITE_L, INTID, 2, 24)
 -FIELD(ITE_L, DOORBELL, 26, 24)
 -
 -FIELD(ITE_H, ICID, 0, 16)
 -FIELD(ITE_H, VPEID, 16, 16)
 +FIELD(ITE_L, ICID, 32, 16)
 +FIELD(ITE_L, VPEID, 48, 16)
 +FIELD(ITE_H, DOORBELL, 0, 24)
  /* Possible values for ITE_L INTTYPE */
  #define ITE_INTTYPE_VIRTUAL 0
 diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
+@@ -XXX,XX +XXX,XX @@ static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
- #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
+ {
- #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
+     AddressSpace *as = &s->gicv3->dma_as;
- #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
+     MemTxResult res = MEMTX_OK;
-+#define gen_helper_neon_padd_u32  tcg_gen_add_i32
++    hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
- DO_3SAME_PAIR(VPMAX_S, pmax_s)
+-    address_space_stq_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
- DO_3SAME_PAIR(VPMIN_S, pmin_s)
+-                         sizeof(uint32_t))), ite.itel, MEMTXATTRS_UNSPECIFIED,
- DO_3SAME_PAIR(VPMAX_U, pmax_u)
+-                         &res);
- DO_3SAME_PAIR(VPMIN_U, pmin_u)
++    address_space_stq_le(as, iteaddr, ite.itel, MEMTXATTRS_UNSPECIFIED, &res);
-+DO_3SAME_PAIR(VPADD, padd_u)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
+     if (res == MEMTX_OK) {
-index XXXXXXX..XXXXXXX 100644
+-        address_space_stl_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
---- a/target/arm/translate.c
+-                             sizeof(uint32_t))) + sizeof(uint32_t), ite.iteh,
-+++ b/target/arm/translate.c
++        address_space_stl_le(as, iteaddr + 8, ite.iteh,
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+                              MEMTXATTRS_UNSPECIFIED, &res);
-             return 1;
+     }
-         }
+     if (res != MEMTX_OK) {
-         switch (op) {
+@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
--        case NEON_3R_VPADD_VQRDMLAH:
+     AddressSpace *as = &s->gicv3->dma_as;
--            if (!u) {
+     bool status = false;
--                break;  /* VPADD */
+     IteEntry ite = {};
--            }
++    hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
--            /* VQRDMLAH : handled by decodetree */
--            return 1;
+-    ite.itel = address_space_ldq_le(as, dte->ittaddr +
--
+-                                    (eventid * (sizeof(uint64_t) +
-         case NEON_3R_VFM_VQRDMLSH:
+-                                    sizeof(uint32_t))), MEMTXATTRS_UNSPECIFIED,
-             if (!u) {
+-                                    res);
-                 /* VFM, VFMS */
++    ite.itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, res);
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VQRSHL:
+     if (*res == MEMTX_OK) {
-         case NEON_3R_VPMAX:
+-        ite.iteh = address_space_ldl_le(as, dte->ittaddr +
-         case NEON_3R_VPMIN:
+-                                        (eventid * (sizeof(uint64_t) +
-+        case NEON_3R_VPADD_VQRDMLAH:
+-                                        sizeof(uint32_t))) + sizeof(uint32_t),
-             /* Already handled by decodetree */
++        ite.iteh = address_space_ldl_le(as, iteaddr + 8,
-             return 1;
+                                         MEMTXATTRS_UNSPECIFIED, res);
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+         if (*res == MEMTX_OK) {
-         }
+@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
-         pairwise = 0;
+                 int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
-         switch (op) {
+                 if (inttype == ITE_INTTYPE_PHYSICAL) {
--        case NEON_3R_VPADD_VQRDMLAH:
+                     *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
--            pairwise = 1;
+-                    *icid = FIELD_EX32(ite.iteh, ITE_H, ICID);
--            break;
++                    *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
-         case NEON_3R_FLOAT_ARITH:
+                     status = true;
              pairwise = (u && size < 2); /* if VPADD (float) */
              break;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  }
              }
-             break;
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
--        case NEON_3R_VPADD_VQRDMLAH:
+     ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, true);
--            switch (size) {
+     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
--            case 0: gen_helper_neon_padd_u8(tmp, tmp, tmp2); break;
+     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, pIntid);
--            case 1: gen_helper_neon_padd_u16(tmp, tmp, tmp2); break;
+-    ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
--            case 2: tcg_gen_add_i32(tmp, tmp, tmp2); break;
+-    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, icid);
--            default: abort();
++    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, icid);
--            }
++    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
--            break;
-         case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
+     return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
-         {
+ }
-             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
      ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, 1);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, intid);
 -    ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
 -    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, new_icid);
 +    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, new_icid);
 +    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
      return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
  }
 --
-.20.1
+.25.1

-[PULL 30/45] target/arm: Convert Neon 3-reg-same SHA to decodetree
+[PULL 32/39] hw/intc/arm_gicv3_its: Avoid nested ifs in get_ite()
-Convert the Neon SHA instructions in the 3-reg-same group
+The get_ite() code has some awkward nested if statements; clean
-to decodetree.
+them up by returning early if the memory accesses fail.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-3-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-8-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  10 +++
+ hw/intc/arm_gicv3_its.c | 26 ++++++++++++++------------
- target/arm/translate-neon.inc.c | 139 ++++++++++++++++++++++++++++++++
+file changed, 14 insertions(+), 12 deletions(-)
  target/arm/translate.c          |  46 +----------
 files changed, 151 insertions(+), 44 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
+@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
- VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
+     hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
- VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
+     ite.itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, res);
-+
++    if (*res != MEMTX_OK) {
 +SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
 +                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +SHA256H_3s       1111 001 1 0 . 00 .... .... 1100 . 1 . 0 .... \
 +                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +SHA256H2_3s      1111 001 1 0 . 01 .... .... 1100 . 1 . 0 .... \
 +                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
 +                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
 +
  VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-neon.inc.c
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
  DO_VQRDMLAH(VQRDMLAH, gen_gvec_sqrdmlah_qc)
  DO_VQRDMLAH(VQRDMLSH, gen_gvec_sqrdmlsh_qc)
 +
 +static bool trans_SHA1_3s(DisasContext *s, arg_SHA1_3s *a)
 +{
 +    TCGv_ptr ptr1, ptr2, ptr3;
 +    TCGv_i32 tmp;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha1, s)) {
 +        return false;
 +    }
-+
-+    /* UNDEF accesses to D16-D31 if they don't exist. */
+-    if (*res == MEMTX_OK) {
-+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+-        ite.iteh = address_space_ldl_le(as, iteaddr + 8,
-+        ((a->vd | a->vn | a->vm) & 0x10)) {
+-                                        MEMTXATTRS_UNSPECIFIED, res);
 +    ite.iteh = address_space_ldl_le(as, iteaddr + 8,
 +                                    MEMTXATTRS_UNSPECIFIED, res);
 +    if (*res != MEMTX_OK) {
 +        return false;
 +    }
-+
-+    if ((a->vn | a->vm | a->vd) & 1) {
+-        if (*res == MEMTX_OK) {
-+        return false;
+-            if (FIELD_EX64(ite.itel, ITE_L, VALID)) {
-+    }
+-                int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
-+
+-                if (inttype == ITE_INTTYPE_PHYSICAL) {
-+    if (!vfp_access_check(s)) {
+-                    *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
-+        return true;
+-                    *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
-+    }
+-                    status = true;
 +
 +    ptr1 = vfp_reg_ptr(true, a->vd);
 +    ptr2 = vfp_reg_ptr(true, a->vn);
 +    ptr3 = vfp_reg_ptr(true, a->vm);
 +    tmp = tcg_const_i32(a->optype);
 +    gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp);
 +    tcg_temp_free_i32(tmp);
 +    tcg_temp_free_ptr(ptr1);
 +    tcg_temp_free_ptr(ptr2);
 +    tcg_temp_free_ptr(ptr3);
 +
 +    return true;
 +}
 +
 +static bool trans_SHA256H_3s(DisasContext *s, arg_SHA256H_3s *a)
 +{
 +    TCGv_ptr ptr1, ptr2, ptr3;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha2, s)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    ptr1 = vfp_reg_ptr(true, a->vd);
 +    ptr2 = vfp_reg_ptr(true, a->vn);
 +    ptr3 = vfp_reg_ptr(true, a->vm);
 +    gen_helper_crypto_sha256h(ptr1, ptr2, ptr3);
 +    tcg_temp_free_ptr(ptr1);
 +    tcg_temp_free_ptr(ptr2);
 +    tcg_temp_free_ptr(ptr3);
 +
 +    return true;
 +}
 +
 +static bool trans_SHA256H2_3s(DisasContext *s, arg_SHA256H2_3s *a)
 +{
 +    TCGv_ptr ptr1, ptr2, ptr3;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha2, s)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    ptr1 = vfp_reg_ptr(true, a->vd);
 +    ptr2 = vfp_reg_ptr(true, a->vn);
 +    ptr3 = vfp_reg_ptr(true, a->vm);
 +    gen_helper_crypto_sha256h2(ptr1, ptr2, ptr3);
 +    tcg_temp_free_ptr(ptr1);
 +    tcg_temp_free_ptr(ptr2);
 +    tcg_temp_free_ptr(ptr3);
 +
 +    return true;
 +}
 +
 +static bool trans_SHA256SU1_3s(DisasContext *s, arg_SHA256SU1_3s *a)
 +{
 +    TCGv_ptr ptr1, ptr2, ptr3;
 +
 +    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
 +        !dc_isar_feature(aa32_sha2, s)) {
 +        return false;
 +    }
 +
 +    /* UNDEF accesses to D16-D31 if they don't exist. */
 +    if (!dc_isar_feature(aa32_simd_r32, s) &&
 +        ((a->vd | a->vn | a->vm) & 0x10)) {
 +        return false;
 +    }
 +
 +    if ((a->vn | a->vm | a->vd) & 1) {
 +        return false;
 +    }
 +
 +    if (!vfp_access_check(s)) {
 +        return true;
 +    }
 +
 +    ptr1 = vfp_reg_ptr(true, a->vd);
 +    ptr2 = vfp_reg_ptr(true, a->vn);
 +    ptr3 = vfp_reg_ptr(true, a->vm);
 +    gen_helper_crypto_sha256su1(ptr1, ptr2, ptr3);
 +    tcg_temp_free_ptr(ptr1);
 +    tcg_temp_free_ptr(ptr2);
 +    tcg_temp_free_ptr(ptr3);
 +
 +    return true;
 +}
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
      int vec_size;
      uint32_t imm;
      TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
 -    TCGv_ptr ptr1, ptr2, ptr3;
 +    TCGv_ptr ptr1, ptr2;
      TCGv_i64 tmp64;
      if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              return 1;
          }
          switch (op) {
 -        case NEON_3R_SHA:
 -            /* The SHA-1/SHA-256 3-register instructions require special
 -             * treatment here, as their size field is overloaded as an
 -             * op type selector, and they all consume their input in a
 -             * single pass.
 -             */
 -            if (!q) {
 -                return 1;
 -            }
 -            if (!u) { /* SHA-1 */
 -                if (!dc_isar_feature(aa32_sha1, s)) {
 -                    return 1;
 -                }
 -                ptr1 = vfp_reg_ptr(true, rd);
 -                ptr2 = vfp_reg_ptr(true, rn);
 -                ptr3 = vfp_reg_ptr(true, rm);
 -                tmp4 = tcg_const_i32(size);
 -                gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp4);
 -                tcg_temp_free_i32(tmp4);
 -            } else { /* SHA-256 */
 -                if (!dc_isar_feature(aa32_sha2, s) || size == 3) {
 -                    return 1;
 -                }
 -                ptr1 = vfp_reg_ptr(true, rd);
 -                ptr2 = vfp_reg_ptr(true, rn);
 -                ptr3 = vfp_reg_ptr(true, rm);
 -                switch (size) {
 -                case 0:
 -                    gen_helper_crypto_sha256h(ptr1, ptr2, ptr3);
 -                    break;
 -                case 1:
 -                    gen_helper_crypto_sha256h2(ptr1, ptr2, ptr3);
 -                    break;
 -                case 2:
 -                    gen_helper_crypto_sha256su1(ptr1, ptr2, ptr3);
 -                    break;
 -                }
 -            }
--            tcg_temp_free_ptr(ptr1);
++    if (FIELD_EX64(ite.itel, ITE_L, VALID)) {
--            tcg_temp_free_ptr(ptr2);
++        int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
--            tcg_temp_free_ptr(ptr3);
++        if (inttype == ITE_INTTYPE_PHYSICAL) {
--            return 0;
++            *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
--
++            *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
-         case NEON_3R_VPADD_VQRDMLAH:
++            status = true;
              if (!u) {
                  break;  /* VPADD */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_VMUL:
          case NEON_3R_VML:
          case NEON_3R_VSHL:
 +        case NEON_3R_SHA:
              /* Already handled by decodetree */
              return 1;
          }
+     }
+     return status;
 --
-.20.1
+.25.1

-[PULL 03/45] target/arm: Create gen_gvec_{u,s}{rshr,rsra}
+[PULL 33/39] hw/intc/arm_gicv3_its: Pass ITE values back from get_ite() via a struct
-From: Richard Henderson <richard.henderson@linaro.org>
+In get_ite() we currently return the caller some of the fields of an
+Interrupt Table Entry via a set of pointer arguments, and validate
-Create vectorized versions of handle_shri_with_rndacc
+some of them internally (interrupt type and valid bit) to return a
-for shift+round and shift+round+accumulate.  Add out-of-line
+simple true/false 'valid' indication. Define a new ITEntry struct
-helpers in preparation for longer vector lengths from SVE.
+which has all the fields that the in-memory ITE has, and bring the
+get_ite() function in to line with get_dte() and get_cte().
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
+This paves the way for handling virtual interrupts, which will want
-Message-id: 20200513163245.17915-3-richard.henderson@linaro.org
+a different subset of the fields in the ITE. Handling them under
 the old "lots of pointer arguments" scheme would have meant a
 confusingly large set of arguments for this function.
 The new struct ITEntry is obviously confusably similar to the
 existing IteEntry struct, whose fields are the raw 12 bytes
 of the in-memory ITE. In the next commit we will make update_ite()
 use ITEntry instead of IteEntry, which will allow us to delete
 the IteEntry struct and remove the confusion.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
+Message-id: 20220201193207.2771604-9-peter.maydell@linaro.org
 ---
- target/arm/helper.h        |  20 ++
+ hw/intc/arm_gicv3_its.c | 102 ++++++++++++++++++++++------------------
- target/arm/translate.h     |   9 +
+file changed, 55 insertions(+), 47 deletions(-)
- target/arm/translate-a64.c |  11 +-
- target/arm/translate.c     | 463 +++++++++++++++++++++++++++++++++++--
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
  target/arm/vec_helper.c    |  50 ++++
 files changed, 527 insertions(+), 26 deletions(-)
 diff --git a/target/arm/helper.h b/target/arm/helper.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/helper.h
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/helper.h
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(gvec_usra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+@@ -XXX,XX +XXX,XX @@ typedef struct CTEntry {
- DEF_HELPER_FLAGS_3(gvec_usra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+     uint32_t rdbase;
- DEF_HELPER_FLAGS_3(gvec_usra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+ } CTEntry;
-+DEF_HELPER_FLAGS_3(gvec_srshr_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++typedef struct ITEntry {
-+DEF_HELPER_FLAGS_3(gvec_srshr_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++    bool valid;
-+DEF_HELPER_FLAGS_3(gvec_srshr_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++    int inttype;
-+DEF_HELPER_FLAGS_3(gvec_srshr_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
++    uint32_t intid;
 +    uint32_t doorbell;
 +    uint32_t icid;
 +    uint32_t vpeid;
 +} ITEntry;
 +
-+DEF_HELPER_FLAGS_3(gvec_urshr_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_urshr_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_urshr_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_urshr_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_3(gvec_srsra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_srsra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_srsra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_srsra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+
-+DEF_HELPER_FLAGS_3(gvec_ursra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_ursra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_ursra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+DEF_HELPER_FLAGS_3(gvec_ursra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
-+
- #ifdef TARGET_AARCH64
- #include "helper-a64.h"
- #include "helper-sve.h"
-diff --git a/target/arm/translate.h b/target/arm/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
- void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 +
  /*
-  * Forward to the isar_feature_* tests given a DisasContext pointer.
+  * The ITS spec permits a range of CONSTRAINED UNPREDICTABLE options
-  */
+  * if a command parameter is not correct. These include both "stall
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
+@@ -XXX,XX +XXX,XX @@ static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate-a64.c
 +++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
          return;
      case 0x04: /* SRSHR / URSHR (rounding) */
 -        break;
 +        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 +                      is_u ? gen_gvec_urshr : gen_gvec_srshr, size);
 +        return;
 +
      case 0x06: /* SRSRA / URSRA (accum + rounding) */
 -        accumulate = true;
 -        break;
 +        gen_gvec_fn2i(s, is_q, rd, rn, shift,
 +                      is_u ? gen_gvec_ursra : gen_gvec_srsra, size);
 +        return;
 +
      default:
          g_assert_not_reached();
      }
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
      }
  }
+-static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
+-                    uint16_t *icid, uint32_t *pIntid, MemTxResult *res)
 +/*
-+ * Shift one less than the requested amount, and the low bit is
++ * Read the Interrupt Table entry at index @eventid from the table specified
-+ * the rounding bit.  For the 8 and 16-bit operations, because we
++ * by the DTE @dte. On success, we return MEMTX_OK and populate the ITEntry
-+ * mask the low bit, we can perform a normal integer shift instead
++ * struct @ite accordingly. If there is an error reading memory then we return
-+ * of a vector shift.
++ * the error code.
 + */
-+static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
++static MemTxResult get_ite(GICv3ITSState *s, uint32_t eventid,
-+{
++                           const DTEntry *dte, ITEntry *ite)
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 +    tcg_gen_vec_sar8i_i64(d, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 +    tcg_gen_vec_sar16i_i64(d, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_extract_i32(t, a, sh - 1, 1);
 +    tcg_gen_sari_i32(d, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_extract_i64(t, a, sh - 1, 1);
 +    tcg_gen_sari_i64(d, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shri_vec(vece, t, a, sh - 1);
 +    tcg_gen_dupi_vec(vece, ones, 1);
 +    tcg_gen_and_vec(vece, t, t, ones);
 +    tcg_gen_sari_vec(vece, d, a, sh);
 +    tcg_gen_add_vec(vece, d, d, t);
 +
 +    tcg_temp_free_vec(t);
 +    tcg_temp_free_vec(ones);
 +}
 +
 +void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_srshr8_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_srshr16_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_srshr32_i32,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_srshr64_i64,
 +          .fniv = gen_srshr_vec,
 +          .fno = gen_helper_gvec_srshr_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Signed results in all sign bits.  With rounding, this produces
 +         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +         * I.e. always zero.
 +         */
 +        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr8_i64(t, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr16_i64(t, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    gen_srshr32_i32(t, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    gen_srshr64_i64(t, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    gen_srshr_vec(vece, t, a, sh);
 +    tcg_gen_add_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_srsra8_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_srsra16_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_srsra32_i32,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_srsra64_i64,
 +          .fniv = gen_srsra_vec,
 +          .fno = gen_helper_gvec_srsra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    /*
 +     * Shifts larger than the element size are architecturally valid.
 +     * Signed results in all sign bits.  With rounding, this produces
 +     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
 +     * I.e. always zero.  With accumulation, this leaves D unchanged.
 +     */
 +    if (shift == (8 << vece)) {
 +        /* Nop, but we do need to clear the tail. */
 +        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
 +    tcg_gen_vec_shr8i_i64(d, a, sh);
 +    tcg_gen_vec_add8_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_shri_i64(t, a, sh - 1);
 +    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
 +    tcg_gen_vec_shr16i_i64(d, a, sh);
 +    tcg_gen_vec_add16_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    tcg_gen_extract_i32(t, a, sh - 1, 1);
 +    tcg_gen_shri_i32(d, a, sh);
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    tcg_gen_extract_i64(t, a, sh - 1, 1);
 +    tcg_gen_shri_i64(d, a, sh);
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +    TCGv_vec ones = tcg_temp_new_vec_matching(d);
 +
 +    tcg_gen_shri_vec(vece, t, a, shift - 1);
 +    tcg_gen_dupi_vec(vece, ones, 1);
 +    tcg_gen_and_vec(vece, t, t, ones);
 +    tcg_gen_shri_vec(vece, d, a, shift);
 +    tcg_gen_add_vec(vece, d, d, t);
 +
 +    tcg_temp_free_vec(t);
 +    tcg_temp_free_vec(ones);
 +}
 +
 +void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_urshr8_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_b,
 +          .opt_opc = vecop_list,
 +          .vece = MO_8 },
 +        { .fni8 = gen_urshr16_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_h,
 +          .opt_opc = vecop_list,
 +          .vece = MO_16 },
 +        { .fni4 = gen_urshr32_i32,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_s,
 +          .opt_opc = vecop_list,
 +          .vece = MO_32 },
 +        { .fni8 = gen_urshr64_i64,
 +          .fniv = gen_urshr_vec,
 +          .fno = gen_helper_gvec_urshr_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    if (shift == (8 << vece)) {
 +        /*
 +         * Shifts larger than the element size are architecturally valid.
 +         * Unsigned results in zero.  With rounding, this produces a
 +         * copy of the most significant bit.
 +         */
 +        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
 +    } else {
 +        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +    }
 +}
 +
 +static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 8) {
 +        tcg_gen_vec_shr8i_i64(t, a, 7);
 +    } else {
 +        gen_urshr8_i64(t, a, sh);
 +    }
 +    tcg_gen_vec_add8_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 16) {
 +        tcg_gen_vec_shr16i_i64(t, a, 15);
 +    } else {
 +        gen_urshr16_i64(t, a, sh);
 +    }
 +    tcg_gen_vec_add16_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
 +{
 +    TCGv_i32 t = tcg_temp_new_i32();
 +
 +    if (sh == 32) {
 +        tcg_gen_shri_i32(t, a, 31);
 +    } else {
 +        gen_urshr32_i32(t, a, sh);
 +    }
 +    tcg_gen_add_i32(d, d, t);
 +    tcg_temp_free_i32(t);
 +}
 +
 +static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
 +{
 +    TCGv_i64 t = tcg_temp_new_i64();
 +
 +    if (sh == 64) {
 +        tcg_gen_shri_i64(t, a, 63);
 +    } else {
 +        gen_urshr64_i64(t, a, sh);
 +    }
 +    tcg_gen_add_i64(d, d, t);
 +    tcg_temp_free_i64(t);
 +}
 +
 +static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
 +{
 +    TCGv_vec t = tcg_temp_new_vec_matching(d);
 +
 +    if (sh == (8 << vece)) {
 +        tcg_gen_shri_vec(vece, t, a, sh - 1);
 +    } else {
 +        gen_urshr_vec(vece, t, a, sh);
 +    }
 +    tcg_gen_add_vec(vece, d, d, t);
 +    tcg_temp_free_vec(t);
 +}
 +
 +void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 +                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
 +{
 +    static const TCGOpcode vecop_list[] = {
 +        INDEX_op_shri_vec, INDEX_op_add_vec, 0
 +    };
 +    static const GVecGen2i ops[4] = {
 +        { .fni8 = gen_ursra8_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_b,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_8 },
 +        { .fni8 = gen_ursra16_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_h,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_16 },
 +        { .fni4 = gen_ursra32_i32,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_s,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_32 },
 +        { .fni8 = gen_ursra64_i64,
 +          .fniv = gen_ursra_vec,
 +          .fno = gen_helper_gvec_ursra_d,
 +          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
 +          .opt_opc = vecop_list,
 +          .load_dest = true,
 +          .vece = MO_64 },
 +    };
 +
 +    /* tszimm encoding produces immediates in the range [1..esize] */
 +    tcg_debug_assert(shift > 0);
 +    tcg_debug_assert(shift <= (8 << vece));
 +
 +    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
 +}
 +
  static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
  {
-     uint64_t mask = dup_const(MO_8, 0xff >> shift);
+     AddressSpace *as = &s->gicv3->dma_as;
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+-    bool status = false;
-                     }
+-    IteEntry ite = {};
-                     return 0;
++    MemTxResult res = MEMTX_OK;
++    uint64_t itel;
-+                case 2: /* VRSHR */
++    uint32_t iteh;
-+                    /* Right shift comes here negative.  */
+     hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
-+                    shift = -shift;
-+                    if (u) {
+-    ite.itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, res);
-+                        gen_gvec_urshr(size, rd_ofs, rm_ofs, shift,
+-    if (*res != MEMTX_OK) {
-+                                       vec_size, vec_size);
+-        return false;
-+                    } else {
++    itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, &res);
-+                        gen_gvec_srshr(size, rd_ofs, rm_ofs, shift,
++    if (res != MEMTX_OK) {
-+                                       vec_size, vec_size);
++        return res;
-+                    }
+     }
-+                    return 0;
-+
+-    ite.iteh = address_space_ldl_le(as, iteaddr + 8,
-+                case 3: /* VRSRA */
+-                                    MEMTXATTRS_UNSPECIFIED, res);
-+                    /* Right shift comes here negative.  */
+-    if (*res != MEMTX_OK) {
-+                    shift = -shift;
+-        return false;
-+                    if (u) {
++    iteh = address_space_ldl_le(as, iteaddr + 8, MEMTXATTRS_UNSPECIFIED, &res);
-+                        gen_gvec_ursra(size, rd_ofs, rm_ofs, shift,
++    if (res != MEMTX_OK) {
-+                                       vec_size, vec_size);
++        return res;
-+                    } else {
+     }
-+                        gen_gvec_srsra(size, rd_ofs, rm_ofs, shift,
-+                                       vec_size, vec_size);
+-    if (FIELD_EX64(ite.itel, ITE_L, VALID)) {
-+                    }
+-        int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
-+                    return 0;
+-        if (inttype == ITE_INTTYPE_PHYSICAL) {
-+
+-            *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
-                 case 4: /* VSRI */
+-            *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
-                     if (!u) {
+-            status = true;
-                         return 1;
+-        }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+-    }
-                         neon_load_reg64(cpu_V0, rm + pass);
+-    return status;
-                         tcg_gen_movi_i64(cpu_V1, imm);
++    ite->valid = FIELD_EX64(itel, ITE_L, VALID);
-                         switch (op) {
++    ite->inttype = FIELD_EX64(itel, ITE_L, INTTYPE);
--                        case 2: /* VRSHR */
++    ite->intid = FIELD_EX64(itel, ITE_L, INTID);
--                        case 3: /* VRSRA */
++    ite->icid = FIELD_EX64(itel, ITE_L, ICID);
--                            if (u)
++    ite->vpeid = FIELD_EX64(itel, ITE_L, VPEID);
--                                gen_helper_neon_rshl_u64(cpu_V0, cpu_V0, cpu_V1);
++    ite->doorbell = FIELD_EX64(iteh, ITE_H, DOORBELL);
--                            else
++    return MEMTX_OK;
--                                gen_helper_neon_rshl_s64(cpu_V0, cpu_V0, cpu_V1);
+ }
--                            break;
                          case 6: /* VQSHLU */
                              gen_helper_neon_qshlu_s64(cpu_V0, cpu_env,
                                                        cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          default:
                              g_assert_not_reached();
                          }
 -                        if (op == 3) {
 -                            /* Accumulate.  */
 -                            neon_load_reg64(cpu_V1, rd + pass);
 -                            tcg_gen_add_i64(cpu_V0, cpu_V0, cpu_V1);
 -                        }
                          neon_store_reg64(cpu_V0, rd + pass);
                      } else { /* size < 3 */
                          /* Operands in T0 and T1.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                          tmp2 = tcg_temp_new_i32();
                          tcg_gen_movi_i32(tmp2, imm);
                          switch (op) {
 -                        case 2: /* VRSHR */
 -                        case 3: /* VRSRA */
 -                            GEN_NEON_INTEGER_OP(rshl);
 -                            break;
                          case 6: /* VQSHLU */
                              switch (size) {
                              case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                              g_assert_not_reached();
                          }
                          tcg_temp_free_i32(tmp2);
 -
 -                        if (op == 3) {
 -                            /* Accumulate.  */
 -                            tmp2 = neon_load_reg(rd, pass);
 -                            gen_neon_add(size, tmp, tmp2);
 -                            tcg_temp_free_i32(tmp2);
 -                        }
                          neon_store_reg(rd, pass, tmp);
                      }
                  } /* for pass */
 diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/vec_helper.c
 +++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_SRA(gvec_usra_d, uint64_t)
  #undef DO_SRA
 +#define DO_RSHR(NAME, TYPE)                             \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        TYPE tmp = n[i] >> (shift - 1);                 \
 +        d[i] = (tmp >> 1) + (tmp & 1);                  \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_RSHR(gvec_srshr_b, int8_t)
 +DO_RSHR(gvec_srshr_h, int16_t)
 +DO_RSHR(gvec_srshr_s, int32_t)
 +DO_RSHR(gvec_srshr_d, int64_t)
 +
 +DO_RSHR(gvec_urshr_b, uint8_t)
 +DO_RSHR(gvec_urshr_h, uint16_t)
 +DO_RSHR(gvec_urshr_s, uint32_t)
 +DO_RSHR(gvec_urshr_d, uint64_t)
 +
 +#undef DO_RSHR
 +
 +#define DO_RSRA(NAME, TYPE)                             \
 +void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
 +{                                                       \
 +    intptr_t i, oprsz = simd_oprsz(desc);               \
 +    int shift = simd_data(desc);                        \
 +    TYPE *d = vd, *n = vn;                              \
 +    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
 +        TYPE tmp = n[i] >> (shift - 1);                 \
 +        d[i] += (tmp >> 1) + (tmp & 1);                 \
 +    }                                                   \
 +    clear_tail(d, oprsz, simd_maxsz(desc));             \
 +}
 +
 +DO_RSRA(gvec_srsra_b, int8_t)
 +DO_RSRA(gvec_srsra_h, int16_t)
 +DO_RSRA(gvec_srsra_s, int32_t)
 +DO_RSRA(gvec_srsra_d, int64_t)
 +
 +DO_RSRA(gvec_ursra_b, uint8_t)
 +DO_RSRA(gvec_ursra_h, uint16_t)
 +DO_RSRA(gvec_ursra_s, uint32_t)
 +DO_RSRA(gvec_ursra_d, uint64_t)
 +
 +#undef DO_RSRA
 +
  /*
-  * Convert float16 to float32, raising no exceptions and
+@@ -XXX,XX +XXX,XX @@ static MemTxResult get_dte(GICv3ITSState *s, uint32_t devid, DTEntry *dte)
-  * preserving exceptional values, including SNaN.
+ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
                                         uint32_t eventid, ItsCmdType cmd)
  {
 -    MemTxResult res = MEMTX_OK;
      uint64_t num_eventids;
 -    uint16_t icid = 0;
 -    uint32_t pIntid = 0;
 -    bool ite_valid = false;
      DTEntry dte;
      CTEntry cte;
 +    ITEntry ite;
      if (devid >= s->dt.num_entries) {
          qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
          return CMD_CONTINUE;
      }
 -    ite_valid = get_ite(s, eventid, &dte, &icid, &pIntid, &res);
 -    if (res != MEMTX_OK) {
 +    if (get_ite(s, eventid, &dte, &ite) != MEMTX_OK) {
          return CMD_STALL;
      }
 -    if (!ite_valid) {
 +    if (!ite.valid || ite.inttype != ITE_INTTYPE_PHYSICAL) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes: invalid ITE\n",
                        __func__);
          return CMD_CONTINUE;
      }
 -    if (icid >= s->ct.num_entries) {
 +    if (ite.icid >= s->ct.num_entries) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid ICID 0x%x in ITE (table corrupted?)\n",
 -                      __func__, icid);
 +                      __func__, ite.icid);
          return CMD_CONTINUE;
      }
 -    if (get_cte(s, icid, &cte) != MEMTX_OK) {
 +    if (get_cte(s, ite.icid, &cte) != MEMTX_OK) {
          return CMD_STALL;
      }
      if (!cte.valid) {
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
      }
      if ((cmd == CLEAR) || (cmd == DISCARD)) {
 -        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], pIntid, 0);
 +        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], ite.intid, 0);
      } else {
 -        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], pIntid, 1);
 +        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], ite.intid, 1);
      }
      if (cmd == DISCARD) {
 -        IteEntry ite = {};
 +        IteEntry itee = {};
          /* remove mapping from interrupt translation table */
 -        return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 +        return update_ite(s, eventid, &dte, itee) ? CMD_CONTINUE : CMD_STALL;
      }
      return CMD_CONTINUE;
  }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movall(GICv3ITSState *s, const uint64_t *cmdpkt)
  static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
  {
 -    MemTxResult res = MEMTX_OK;
 -    uint32_t devid, eventid, intid;
 -    uint16_t old_icid, new_icid;
 -    bool ite_valid;
 +    uint32_t devid, eventid;
 +    uint16_t new_icid;
      uint64_t num_eventids;
      IteEntry ite = {};
      DTEntry dte;
      CTEntry old_cte, new_cte;
 +    ITEntry old_ite;
      devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
      eventid = FIELD_EX64(cmdpkt[1], MOVI_1, EVENTID);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
          return CMD_CONTINUE;
      }
 -    ite_valid = get_ite(s, eventid, &dte, &old_icid, &intid, &res);
 -    if (res != MEMTX_OK) {
 +    if (get_ite(s, eventid, &dte, &old_ite) != MEMTX_OK) {
          return CMD_STALL;
      }
 -    if (!ite_valid) {
 +    if (!old_ite.valid || old_ite.inttype != ITE_INTTYPE_PHYSICAL) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes: invalid ITE\n",
                        __func__);
          return CMD_CONTINUE;
      }
 -    if (old_icid >= s->ct.num_entries) {
 +    if (old_ite.icid >= s->ct.num_entries) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid ICID 0x%x in ITE (table corrupted?)\n",
 -                      __func__, old_icid);
 +                      __func__, old_ite.icid);
          return CMD_CONTINUE;
      }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
          return CMD_CONTINUE;
      }
 -    if (get_cte(s, old_icid, &old_cte) != MEMTX_OK) {
 +    if (get_cte(s, old_ite.icid, &old_cte) != MEMTX_OK) {
          return CMD_STALL;
      }
      if (!old_cte.valid) {
          qemu_log_mask(LOG_GUEST_ERROR,
                        "%s: invalid command attributes: "
                        "invalid CTE for old ICID 0x%x\n",
 -                      __func__, old_icid);
 +                      __func__, old_ite.icid);
          return CMD_CONTINUE;
      }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
          /* Move the LPI from the old redistributor to the new one */
          gicv3_redist_mov_lpi(&s->gicv3->cpu[old_cte.rdbase],
                               &s->gicv3->cpu[new_cte.rdbase],
 -                             intid);
 +                             old_ite.intid);
      }
      /* Update the ICID field in the interrupt translation table entry */
      ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, 1);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
 -    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, intid);
 +    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, old_ite.intid);
      ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, new_icid);
      ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
      return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 --
-.20.1
+.25.1

-[PULL 05/45] target/arm: Remove unnecessary range check for VSHL
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-In 1dc8425e551, while converting to gvec, I added an extra range check
-against the shift count.  This was unnecessary because the encoding of
-the shift count produces 0 to the element size - 1.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-5-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.c | 12 ++----------
-file changed, 2 insertions(+), 10 deletions(-)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                         gen_gvec_sli(size, rd_ofs, rm_ofs, shift,
-                                      vec_size, vec_size);
-                     } else { /* VSHL */
--                        /* Shifts larger than the element size are
--                         * architecturally valid and results in zero.
--                         */
--                        if (shift >= 8 << size) {
--                            tcg_gen_gvec_dup_imm(size, rd_ofs,
--                                                 vec_size, vec_size, 0);
--                        } else {
--                            tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
--                                              vec_size, vec_size);
--                        }
-+                        tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
-+                                          vec_size, vec_size);
-                     }
-                     return 0;
-                 }
---
-.20.1

-[PULL 08/45] target/arm: Create gen_gvec_{mla,mls}
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Provide a functional interface for the vector expansion.
-This fits better with the existing set of helpers that
-we provide for other operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-8-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.h          |   7 +-
- target/arm/translate-a64.c      |   4 +-
- target/arm/translate-neon.inc.c |  16 +----
- target/arm/translate.c          | 117 +++++++++++++++++---------------
-files changed, 71 insertions(+), 73 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_cle0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
- void gen_gvec_cge0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
-                    uint32_t opr_sz, uint32_t max_sz);
--extern const GVecGen3 mla_op[4];
--extern const GVecGen3 mls_op[4];
-+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+
- extern const GVecGen3 cmtst_op[4];
- extern const GVecGen3 sshl_op[4];
- extern const GVecGen3 ushl_op[4];
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
-         return;
-     case 0x12: /* MLA, MLS */
-         if (u) {
--            gen_gvec_op3(s, is_q, rd, rn, rm, &mls_op[size]);
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mls, size);
-         } else {
--            gen_gvec_op3(s, is_q, rd, rn, rm, &mla_op[size]);
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_mla, size);
-         }
-         return;
-     case 0x11:
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMAX_U, tcg_gen_gvec_umax)
- DO_3SAME_NO_SZ_3(VMIN_S, tcg_gen_gvec_smin)
- DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
- DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
-+DO_3SAME_NO_SZ_3(VMLA, gen_gvec_mla)
-+DO_3SAME_NO_SZ_3(VMLS, gen_gvec_mls)
- #define DO_3SAME_CMP(INSN, COND)                                        \
-     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
-     return do_3same(s, a, gen_VMUL_p_3s);
- }
--#define DO_3SAME_GVEC3_NO_SZ_3(INSN, OPARRAY)                           \
--    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
--                                uint32_t rn_ofs, uint32_t rm_ofs,       \
--                                uint32_t oprsz, uint32_t maxsz)         \
--    {                                                                   \
--        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
--                       oprsz, maxsz, &OPARRAY[vece]);                   \
--    }                                                                   \
--    DO_3SAME_NO_SZ_3(INSN, gen_##INSN##_3s)
--
--
--DO_3SAME_GVEC3_NO_SZ_3(VMLA, mla_op)
--DO_3SAME_GVEC3_NO_SZ_3(VMLS, mls_op)
--
- #define DO_3SAME_GVEC3_SHIFT(INSN, OPARRAY)                             \
-     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-                                 uint32_t rn_ofs, uint32_t rm_ofs,       \
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_mls_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
- /* Note that while NEON does not support VMLA and VMLS as 64-bit ops,
-  * these tables are shared with AArch64 which does support them.
-  */
-+void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static const TCGOpcode vecop_list[] = {
-+        INDEX_op_mul_vec, INDEX_op_add_vec, 0
-+    };
-+    static const GVecGen3 ops[4] = {
-+        { .fni4 = gen_mla8_i32,
-+          .fniv = gen_mla_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_8 },
-+        { .fni4 = gen_mla16_i32,
-+          .fniv = gen_mla_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_16 },
-+        { .fni4 = gen_mla32_i32,
-+          .fniv = gen_mla_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_32 },
-+        { .fni8 = gen_mla64_i64,
-+          .fniv = gen_mla_vec,
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_64 },
-+    };
-+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-+}
--static const TCGOpcode vecop_list_mla[] = {
--    INDEX_op_mul_vec, INDEX_op_add_vec, 0
--};
--
--static const TCGOpcode vecop_list_mls[] = {
--    INDEX_op_mul_vec, INDEX_op_sub_vec, 0
--};
--
--const GVecGen3 mla_op[4] = {
--    { .fni4 = gen_mla8_i32,
--      .fniv = gen_mla_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_8 },
--    { .fni4 = gen_mla16_i32,
--      .fniv = gen_mla_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_16 },
--    { .fni4 = gen_mla32_i32,
--      .fniv = gen_mla_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_32 },
--    { .fni8 = gen_mla64_i64,
--      .fniv = gen_mla_vec,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .load_dest = true,
--      .opt_opc = vecop_list_mla,
--      .vece = MO_64 },
--};
--
--const GVecGen3 mls_op[4] = {
--    { .fni4 = gen_mls8_i32,
--      .fniv = gen_mls_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_8 },
--    { .fni4 = gen_mls16_i32,
--      .fniv = gen_mls_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_16 },
--    { .fni4 = gen_mls32_i32,
--      .fniv = gen_mls_vec,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_32 },
--    { .fni8 = gen_mls64_i64,
--      .fniv = gen_mls_vec,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .load_dest = true,
--      .opt_opc = vecop_list_mls,
--      .vece = MO_64 },
--};
-+void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                  uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static const TCGOpcode vecop_list[] = {
-+        INDEX_op_mul_vec, INDEX_op_sub_vec, 0
-+    };
-+    static const GVecGen3 ops[4] = {
-+        { .fni4 = gen_mls8_i32,
-+          .fniv = gen_mls_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_8 },
-+        { .fni4 = gen_mls16_i32,
-+          .fniv = gen_mls_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_16 },
-+        { .fni4 = gen_mls32_i32,
-+          .fniv = gen_mls_vec,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_32 },
-+        { .fni8 = gen_mls64_i64,
-+          .fniv = gen_mls_vec,
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-+          .load_dest = true,
-+          .opt_opc = vecop_list,
-+          .vece = MO_64 },
-+    };
-+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-+}
- /* CMTST : test is "if (X & Y != 0)". */
- static void gen_cmtst_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
---
-.20.1

-[PULL 09/45] target/arm: Swap argument order for VSHL during decode
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Rather than perform the argument swap during code generation,
-perform it during decode.  This means it doesn't have to be
-special cased later, and we can share code with aarch64 code
-generation.  Hopefully the decode comment addresses any confusion
-that might arise in between.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-9-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/neon-dp.decode       | 17 +++++++++++++++--
- target/arm/translate-neon.inc.c |  3 +--
-files changed, 16 insertions(+), 4 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
-+++ b/target/arm/neon-dp.decode
-@@ -XXX,XX +XXX,XX @@ VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
- VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
- VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
--VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same
--VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same
-+# The _rev suffix indicates that Vn and Vm are reversed. This is
-+# the case for shifts. In the Arm ARM these insns are documented
-+# with the Vm and Vn fields in their usual places, but in the
-+# assembly the operands are listed "backwards", ie in the order
-+# Dd, Dm, Dn where other insns use Dd, Dn, Dm. For QEMU we choose
-+# to consider Vm and Vn as being in different fields in the insn,
-+# which allows us to avoid special-casing shifts in the trans_
-+# function code. We would otherwise need to manually swap the operands
-+# over to call Neon helper functions that are shared with AArch64,
-+# which does not have this odd reversed-operand situation.
-+@3same_rev       .... ... . . . size:2 .... .... .... . q:1 . . .... \
-+                 &3same vn=%vm_dp vm=%vn_dp vd=%vd_dp
-+
-+VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same_rev
-+VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
- VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
- VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
-                                 uint32_t rn_ofs, uint32_t rm_ofs,       \
-                                 uint32_t oprsz, uint32_t maxsz)         \
-     {                                                                   \
--        /* Note the operation is vshl vd,vm,vn */                       \
--        tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs,                          \
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
-                        oprsz, maxsz, &OPARRAY[vece]);                   \
-     }                                                                   \
-     DO_3SAME(INSN, gen_##INSN##_3s)
---
-.20.1

-[PULL 10/45] target/arm: Create gen_gvec_{cmtst,ushl,sshl}
+Deleted patch
-From: Richard Henderson <richard.henderson@linaro.org>
-Provide a functional interface for the vector expansion.
-This fits better with the existing set of helpers that
-we provide for other operations.
-Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
-Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200513163245.17915-10-richard.henderson@linaro.org
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- target/arm/translate.h          |  10 ++-
- target/arm/translate-a64.c      |  18 ++--
- target/arm/translate-neon.inc.c |  23 +----
- target/arm/translate.c          | 146 +++++++++++++++++---------------
-files changed, 95 insertions(+), 102 deletions(-)
-diff --git a/target/arm/translate.h b/target/arm/translate.h
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.h
-+++ b/target/arm/translate.h
-@@ -XXX,XX +XXX,XX @@ void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
- void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
--extern const GVecGen3 cmtst_op[4];
--extern const GVecGen3 sshl_op[4];
--extern const GVecGen3 ushl_op[4];
-+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
-+
- extern const GVecGen4 uqadd_op[4];
- extern const GVecGen4 sqadd_op[4];
- extern const GVecGen4 uqsub_op[4];
-diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-a64.c
-+++ b/target/arm/translate-a64.c
-@@ -XXX,XX +XXX,XX @@ static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
-             is_q ? 16 : 8, vec_full_reg_size(s));
- }
--/* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
--static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
--                         int rn, int rm, const GVecGen3 *gvec_op)
--{
--    tcg_gen_gvec_3(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
--                   vec_full_reg_offset(s, rm), is_q ? 16 : 8,
--                   vec_full_reg_size(s), gvec_op);
--}
--
- /* Expand a 3-operand operation using an out-of-line helper.  */
- static void gen_gvec_op3_ool(DisasContext *s, bool is_q, int rd,
-                              int rn, int rm, int data, gen_helper_gvec_3 *fn)
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
-                        (u ? uqsub_op : sqsub_op) + size);
-         return;
-     case 0x08: /* SSHL, USHL */
--        gen_gvec_op3(s, is_q, rd, rn, rm,
--                     u ? &ushl_op[size] : &sshl_op[size]);
-+        if (u) {
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_ushl, size);
-+        } else {
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sshl, size);
-+        }
-         return;
-     case 0x0c: /* SMAX, UMAX */
-         if (u) {
-@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
-         return;
-     case 0x11:
-         if (!u) { /* CMTST */
--            gen_gvec_op3(s, is_q, rd, rn, rm, &cmtst_op[size]);
-+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_cmtst, size);
-             return;
-         }
-         /* else CMEQ */
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
-+++ b/target/arm/translate-neon.inc.c
-@@ -XXX,XX +XXX,XX @@ DO_3SAME(VBIC, tcg_gen_gvec_andc)
- DO_3SAME(VORR, tcg_gen_gvec_or)
- DO_3SAME(VORN, tcg_gen_gvec_orc)
- DO_3SAME(VEOR, tcg_gen_gvec_xor)
-+DO_3SAME(VSHL_S, gen_gvec_sshl)
-+DO_3SAME(VSHL_U, gen_gvec_ushl)
- /* These insns are all gvec_bitsel but with the inputs in various orders. */
- #define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
- DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
- DO_3SAME_NO_SZ_3(VMLA, gen_gvec_mla)
- DO_3SAME_NO_SZ_3(VMLS, gen_gvec_mls)
-+DO_3SAME_NO_SZ_3(VTST, gen_gvec_cmtst)
- #define DO_3SAME_CMP(INSN, COND)                                        \
-     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-@@ -XXX,XX +XXX,XX @@ DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
- DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
- DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
--static void gen_VTST_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
--                         uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
--{
--    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &cmtst_op[vece]);
--}
--DO_3SAME_NO_SZ_3(VTST, gen_VTST_3s)
--
- #define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
-     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-                                 uint32_t rn_ofs, uint32_t rm_ofs,       \
-@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
-     }
-     return do_3same(s, a, gen_VMUL_p_3s);
- }
--
--#define DO_3SAME_GVEC3_SHIFT(INSN, OPARRAY)                             \
--    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
--                                uint32_t rn_ofs, uint32_t rm_ofs,       \
--                                uint32_t oprsz, uint32_t maxsz)         \
--    {                                                                   \
--        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
--                       oprsz, maxsz, &OPARRAY[vece]);                   \
--    }                                                                   \
--    DO_3SAME(INSN, gen_##INSN##_3s)
--
--DO_3SAME_GVEC3_SHIFT(VSHL_S, sshl_op)
--DO_3SAME_GVEC3_SHIFT(VSHL_U, ushl_op)
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
-     tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
- }
--static const TCGOpcode vecop_list_cmtst[] = { INDEX_op_cmp_vec, 0 };
--
--const GVecGen3 cmtst_op[4] = {
--    { .fni4 = gen_helper_neon_tst_u8,
--      .fniv = gen_cmtst_vec,
--      .opt_opc = vecop_list_cmtst,
--      .vece = MO_8 },
--    { .fni4 = gen_helper_neon_tst_u16,
--      .fniv = gen_cmtst_vec,
--      .opt_opc = vecop_list_cmtst,
--      .vece = MO_16 },
--    { .fni4 = gen_cmtst_i32,
--      .fniv = gen_cmtst_vec,
--      .opt_opc = vecop_list_cmtst,
--      .vece = MO_32 },
--    { .fni8 = gen_cmtst_i64,
--      .fniv = gen_cmtst_vec,
--      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
--      .opt_opc = vecop_list_cmtst,
--      .vece = MO_64 },
--};
-+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
-+    static const GVecGen3 ops[4] = {
-+        { .fni4 = gen_helper_neon_tst_u8,
-+          .fniv = gen_cmtst_vec,
-+          .opt_opc = vecop_list,
-+          .vece = MO_8 },
-+        { .fni4 = gen_helper_neon_tst_u16,
-+          .fniv = gen_cmtst_vec,
-+          .opt_opc = vecop_list,
-+          .vece = MO_16 },
-+        { .fni4 = gen_cmtst_i32,
-+          .fniv = gen_cmtst_vec,
-+          .opt_opc = vecop_list,
-+          .vece = MO_32 },
-+        { .fni8 = gen_cmtst_i64,
-+          .fniv = gen_cmtst_vec,
-+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-+          .opt_opc = vecop_list,
-+          .vece = MO_64 },
-+    };
-+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-+}
- void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
- {
-@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
-     tcg_temp_free_vec(rsh);
- }
--static const TCGOpcode ushl_list[] = {
--    INDEX_op_neg_vec, INDEX_op_shlv_vec,
--    INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
--};
--
--const GVecGen3 ushl_op[4] = {
--    { .fniv = gen_ushl_vec,
--      .fno = gen_helper_gvec_ushl_b,
--      .opt_opc = ushl_list,
--      .vece = MO_8 },
--    { .fniv = gen_ushl_vec,
--      .fno = gen_helper_gvec_ushl_h,
--      .opt_opc = ushl_list,
--      .vece = MO_16 },
--    { .fni4 = gen_ushl_i32,
--      .fniv = gen_ushl_vec,
--      .opt_opc = ushl_list,
--      .vece = MO_32 },
--    { .fni8 = gen_ushl_i64,
--      .fniv = gen_ushl_vec,
--      .opt_opc = ushl_list,
--      .vece = MO_64 },
--};
-+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static const TCGOpcode vecop_list[] = {
-+        INDEX_op_neg_vec, INDEX_op_shlv_vec,
-+        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
-+    };
-+    static const GVecGen3 ops[4] = {
-+        { .fniv = gen_ushl_vec,
-+          .fno = gen_helper_gvec_ushl_b,
-+          .opt_opc = vecop_list,
-+          .vece = MO_8 },
-+        { .fniv = gen_ushl_vec,
-+          .fno = gen_helper_gvec_ushl_h,
-+          .opt_opc = vecop_list,
-+          .vece = MO_16 },
-+        { .fni4 = gen_ushl_i32,
-+          .fniv = gen_ushl_vec,
-+          .opt_opc = vecop_list,
-+          .vece = MO_32 },
-+        { .fni8 = gen_ushl_i64,
-+          .fniv = gen_ushl_vec,
-+          .opt_opc = vecop_list,
-+          .vece = MO_64 },
-+    };
-+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-+}
- void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
- {
-@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
-     tcg_temp_free_vec(tmp);
- }
--static const TCGOpcode sshl_list[] = {
--    INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
--    INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
--};
--
--const GVecGen3 sshl_op[4] = {
--    { .fniv = gen_sshl_vec,
--      .fno = gen_helper_gvec_sshl_b,
--      .opt_opc = sshl_list,
--      .vece = MO_8 },
--    { .fniv = gen_sshl_vec,
--      .fno = gen_helper_gvec_sshl_h,
--      .opt_opc = sshl_list,
--      .vece = MO_16 },
--    { .fni4 = gen_sshl_i32,
--      .fniv = gen_sshl_vec,
--      .opt_opc = sshl_list,
--      .vece = MO_32 },
--    { .fni8 = gen_sshl_i64,
--      .fniv = gen_sshl_vec,
--      .opt_opc = sshl_list,
--      .vece = MO_64 },
--};
-+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
-+{
-+    static const TCGOpcode vecop_list[] = {
-+        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
-+        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
-+    };
-+    static const GVecGen3 ops[4] = {
-+        { .fniv = gen_sshl_vec,
-+          .fno = gen_helper_gvec_sshl_b,
-+          .opt_opc = vecop_list,
-+          .vece = MO_8 },
-+        { .fniv = gen_sshl_vec,
-+          .fno = gen_helper_gvec_sshl_h,
-+          .opt_opc = vecop_list,
-+          .vece = MO_16 },
-+        { .fni4 = gen_sshl_i32,
-+          .fniv = gen_sshl_vec,
-+          .opt_opc = vecop_list,
-+          .vece = MO_32 },
-+        { .fni8 = gen_sshl_i64,
-+          .fniv = gen_sshl_vec,
-+          .opt_opc = vecop_list,
-+          .vece = MO_64 },
-+    };
-+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
-+}
- static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
-                           TCGv_vec a, TCGv_vec b)
---
-.20.1

-[PULL 21/45] docs: APEI GHES generation and CPER record description
+Deleted patch
-From: Dongjiu Geng <gengdongjiu@huawei.com>
-Add APEI/GHES detailed design document
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
-Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
-Reviewed-by: Igor Mammedov <imammedo@redhat.com>
-Message-id: 20200512030609.19593-4-gengdongjiu@huawei.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- docs/specs/acpi_hest_ghes.rst | 110 ++++++++++++++++++++++++++++++++++
- docs/specs/index.rst          |   1 +
-files changed, 111 insertions(+)
- create mode 100644 docs/specs/acpi_hest_ghes.rst
-diff --git a/docs/specs/acpi_hest_ghes.rst b/docs/specs/acpi_hest_ghes.rst
-new file mode 100644
-index XXXXXXX..XXXXXXX
---- /dev/null
-+++ b/docs/specs/acpi_hest_ghes.rst
-@@ -XXX,XX +XXX,XX @@
-+APEI tables generating and CPER record
-+======================================
-+
-+..
-+   Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
-+
-+   This work is licensed under the terms of the GNU GPL, version 2 or later.
-+   See the COPYING file in the top-level directory.
-+
-+Design Details
-+--------------
-+
-+::
-+
-+         etc/acpi/tables                           etc/hardware_errors
-+      ====================                   ===============================
-+  + +--------------------------+            +----------------------------+
-+  | | HEST                     | +--------->|    error_block_address1    |------+
-+  | +--------------------------+ |          +----------------------------+      |
-+  | | GHES1                    | | +------->|    error_block_address2    |------+-+
-+  | +--------------------------+ | |        +----------------------------+      | |
-+  | | .................        | | |        |      ..............        |      | |
-+  | | error_status_address-----+-+ |        -----------------------------+      | |
-+  | | .................        |   |   +--->|    error_block_addressN    |------+-+---+
-+  | | read_ack_register--------+-+ |   |    +----------------------------+      | |   |
-+  | | read_ack_preserve        | +-+---+--->|     read_ack_register1     |      | |   |
-+  | | read_ack_write           |   |   |    +----------------------------+      | |   |
-+  + +--------------------------+   | +-+--->|     read_ack_register2     |      | |   |
-+  | | GHES2                    |   | | |    +----------------------------+      | |   |
-+  + +--------------------------+   | | |    |       .............        |      | |   |
-+  | | .................        |   | | |    +----------------------------+      | |   |
-+  | | error_status_address-----+---+ | | +->|     read_ack_registerN     |      | |   |
-+  | | .................        |     | | |  +----------------------------+      | |   |
-+  | | read_ack_register--------+-----+ | |  |Generic Error Status Block 1|<-----+ |   |
-+  | | read_ack_preserve        |       | |  |-+------------------------+-+        |   |
-+  | | read_ack_write           |       | |  | |          CPER          | |        |   |
-+  + +--------------------------|       | |  | |          CPER          | |        |   |
-+  | | ...............          |       | |  | |          ....          | |        |   |
-+  + +--------------------------+       | |  | |          CPER          | |        |   |
-+  | | GHESN                    |       | |  |-+------------------------+-|        |   |
-+  + +--------------------------+       | |  |Generic Error Status Block 2|<-------+   |
-+  | | .................        |       | |  |-+------------------------+-+            |
-+  | | error_status_address-----+-------+ |  | |           CPER         | |            |
-+  | | .................        |         |  | |           CPER         | |            |
-+  | | read_ack_register--------+---------+  | |           ....         | |            |
-+  | | read_ack_preserve        |            | |           CPER         | |            |
-+  | | read_ack_write           |            +-+------------------------+-+            |
-+  + +--------------------------+            |         ..........         |            |
-+                                            |----------------------------+            |
-+                                            |Generic Error Status Block N |<----------+
-+                                            |-+-------------------------+-+
-+                                            | |          CPER           | |
-+                                            | |          CPER           | |
-+                                            | |          ....           | |
-+                                            | |          CPER           | |
-+                                            +-+-------------------------+-+
-+
-+
-+(1) QEMU generates the ACPI HEST table. This table goes in the current
-+    "etc/acpi/tables" fw_cfg blob. Each error source has different
-+    notification types.
-+
-+(2) A new fw_cfg blob called "etc/hardware_errors" is introduced. QEMU
-+    also needs to populate this blob. The "etc/hardware_errors" fw_cfg blob
-+    contains an address registers table and an Error Status Data Block table.
-+
-+(3) The address registers table contains N Error Block Address entries
-+    and N Read Ack Register entries. The size for each entry is 8-byte.
-+    The Error Status Data Block table contains N Error Status Data Block
-+    entries. The size for each entry is 4096(0x1000) bytes. The total size
-+    for the "etc/hardware_errors" fw_cfg blob is (N * 8 * 2 + N * 4096) bytes.
-+    N is the number of the kinds of hardware error sources.
-+
-+(4) QEMU generates the ACPI linker/loader script for the firmware. The
-+    firmware pre-allocates memory for "etc/acpi/tables", "etc/hardware_errors"
-+    and copies blob contents there.
-+
-+(5) QEMU generates N ADD_POINTER commands, which patch addresses in the
-+    "error_status_address" fields of the HEST table with a pointer to the
-+    corresponding "address registers" in the "etc/hardware_errors" blob.
-+
-+(6) QEMU generates N ADD_POINTER commands, which patch addresses in the
-+    "read_ack_register" fields of the HEST table with a pointer to the
-+    corresponding "read_ack_register" within the "etc/hardware_errors" blob.
-+
-+(7) QEMU generates N ADD_POINTER commands for the firmware, which patch
-+    addresses in the "error_block_address" fields with a pointer to the
-+    respective "Error Status Data Block" in the "etc/hardware_errors" blob.
-+
-+(8) QEMU defines a third and write-only fw_cfg blob which is called
-+    "etc/hardware_errors_addr". Through that blob, the firmware can send back
-+    the guest-side allocation addresses to QEMU. The "etc/hardware_errors_addr"
-+    blob contains a 8-byte entry. QEMU generates a single WRITE_POINTER command
-+    for the firmware. The firmware will write back the start address of
-+    "etc/hardware_errors" blob to the fw_cfg file "etc/hardware_errors_addr".
-+
-+(9) When QEMU gets a SIGBUS from the kernel, QEMU writes CPER into corresponding
-+    "Error Status Data Block", guest memory, and then injects platform specific
-+    interrupt (in case of arm/virt machine it's Synchronous External Abort) as a
-+    notification which is necessary for notifying the guest.
-+
-+(10) This notification (in virtual hardware) will be handled by the guest
-+     kernel, on receiving notification, guest APEI driver could read the CPER error
-+     and take appropriate action.
-+
-+(11) kvm_arch_on_sigbus_vcpu() uses source_id as index in "etc/hardware_errors" to
-+     find out "Error Status Data Block" entry corresponding to error source. So supported
-+     source_id values should be assigned here and not be changed afterwards to make sure
-+     that guest will write error into expected "Error Status Data Block" even if guest was
-+     migrated to a newer QEMU.
-diff --git a/docs/specs/index.rst b/docs/specs/index.rst
-index XXXXXXX..XXXXXXX 100644
---- a/docs/specs/index.rst
-+++ b/docs/specs/index.rst
-@@ -XXX,XX +XXX,XX @@ Contents:
-    ppc-spapr-xive
-    acpi_hw_reduced_hotplug
-    tpm
-+   acpi_hest_ghes
---
-.20.1

-[PULL 25/45] KVM: Move hwpoison page related functions into kvm-all.c
+[PULL 34/39] hw/intc/arm_gicv3_its: Make update_ite() use ITEntry
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+Make the update_ite() struct use the new ITEntry struct, so that
 callers don't need to assemble the in-memory ITE data themselves, and
 only get_ite() and update_ite() need to care about that in-memory
 layout.  We can then drop the no-longer-used IteEntry struct
 definition.
-kvm_hwpoison_page_add() and kvm_unpoison_all() will both
+Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
-be used by X86 and ARM platforms, so moving them into
+Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-"accel/kvm/kvm-all.c" to avoid duplicate code.
+Message-id: 20220201193207.2771604-10-peter.maydell@linaro.org
 ---
  hw/intc/arm_gicv3_its.c | 62 +++++++++++++++++++++--------------------
 file changed, 32 insertions(+), 30 deletions(-)
-For architectures that don't use the poison-list functionality
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 the reset handler will harmlessly do nothing, so let's register
 the kvm_unpoison_all() function in the generic kvm_init() function.
 Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
 Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
 Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
 Message-id: 20200512030609.19593-8-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
  include/sysemu/kvm_int.h | 12 ++++++++++++
  accel/kvm/kvm-all.c      | 36 ++++++++++++++++++++++++++++++++++++
  target/i386/kvm.c        | 36 ------------------------------------
 files changed, 48 insertions(+), 36 deletions(-)
 diff --git a/include/sysemu/kvm_int.h b/include/sysemu/kvm_int.h
 index XXXXXXX..XXXXXXX 100644
---- a/include/sysemu/kvm_int.h
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/include/sysemu/kvm_int.h
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ void kvm_memory_listener_register(KVMState *s, KVMMemoryListener *kml,
+@@ -XXX,XX +XXX,XX @@ typedef enum ItsCmdType {
-                                   AddressSpace *as, int as_id);
+     INTERRUPT = 3,
+ } ItsCmdType;
- void kvm_set_max_memslot_size(hwaddr max_slot_size);
 -typedef struct {
 -    uint32_t iteh;
 -    uint64_t itel;
 -} IteEntry;
 -
  typedef struct DTEntry {
      bool valid;
      unsigned size;
@@ -XXX,XX +XXX,XX @@ static MemTxResult get_cte(GICv3ITSState *s, uint16_t icid, CTEntry *cte)
      return MEMTX_OK;
  }
 +/*
 + * Update the Interrupt Table entry at index @evinted in the table specified
 + * by the dte @dte. Returns true on success, false if there was a memory
 + * access error.
 + */
  static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
 -                       IteEntry ite)
 +                       const ITEntry *ite)
  {
      AddressSpace *as = &s->gicv3->dma_as;
      MemTxResult res = MEMTX_OK;
      hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
 +    uint64_t itel = 0;
 +    uint32_t iteh = 0;
 -    address_space_stq_le(as, iteaddr, ite.itel, MEMTXATTRS_UNSPECIFIED, &res);
 -
 -    if (res == MEMTX_OK) {
 -        address_space_stl_le(as, iteaddr + 8, ite.iteh,
 -                             MEMTXATTRS_UNSPECIFIED, &res);
 +    if (ite->valid) {
 +        itel = FIELD_DP64(itel, ITE_L, VALID, 1);
 +        itel = FIELD_DP64(itel, ITE_L, INTTYPE, ite->inttype);
 +        itel = FIELD_DP64(itel, ITE_L, INTID, ite->intid);
 +        itel = FIELD_DP64(itel, ITE_L, ICID, ite->icid);
 +        itel = FIELD_DP64(itel, ITE_L, VPEID, ite->vpeid);
 +        iteh = FIELD_DP32(iteh, ITE_H, DOORBELL, ite->doorbell);
      }
 +
-+/**
++    address_space_stq_le(as, iteaddr, itel, MEMTXATTRS_UNSPECIFIED, &res);
-+ * kvm_hwpoison_page_add:
+     if (res != MEMTX_OK) {
-+ *
+         return false;
-+ * Parameters:
+-    } else {
-+ *  @ram_addr: the address in the RAM for the poisoned page
+-        return true;
-+ *
+     }
-+ * Add a poisoned page to the list
++    address_space_stl_le(as, iteaddr + 8, iteh, MEMTXATTRS_UNSPECIFIED, &res);
-+ *
++    return res == MEMTX_OK;
 + * Return: None.
 + */
 +void kvm_hwpoison_page_add(ram_addr_t ram_addr);
  #endif
 diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
 index XXXXXXX..XXXXXXX 100644
 --- a/accel/kvm/kvm-all.c
 +++ b/accel/kvm/kvm-all.c
@@ -XXX,XX +XXX,XX @@
  #include "qapi/visitor.h"
  #include "qapi/qapi-types-common.h"
  #include "qapi/qapi-visit-common.h"
 +#include "sysemu/reset.h"
  #include "hw/boards.h"
@@ -XXX,XX +XXX,XX @@ int kvm_vm_check_extension(KVMState *s, unsigned int extension)
      return ret;
  }
-+typedef struct HWPoisonPage {
+ /*
-+    ram_addr_t ram_addr;
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
 +    QLIST_ENTRY(HWPoisonPage) list;
 +} HWPoisonPage;
 +
 +static QLIST_HEAD(, HWPoisonPage) hwpoison_page_list =
 +    QLIST_HEAD_INITIALIZER(hwpoison_page_list);
 +
 +static void kvm_unpoison_all(void *param)
 +{
 +    HWPoisonPage *page, *next_page;
 +
 +    QLIST_FOREACH_SAFE(page, &hwpoison_page_list, list, next_page) {
 +        QLIST_REMOVE(page, list);
 +        qemu_ram_remap(page->ram_addr, TARGET_PAGE_SIZE);
 +        g_free(page);
 +    }
 +}
 +
 +void kvm_hwpoison_page_add(ram_addr_t ram_addr)
 +{
 +    HWPoisonPage *page;
 +
 +    QLIST_FOREACH(page, &hwpoison_page_list, list) {
 +        if (page->ram_addr == ram_addr) {
 +            return;
 +        }
 +    }
 +    page = g_new(HWPoisonPage, 1);
 +    page->ram_addr = ram_addr;
 +    QLIST_INSERT_HEAD(&hwpoison_page_list, page, list);
 +}
 +
  static uint32_t adjust_ioeventfd_endianness(uint32_t val, uint32_t size)
  {
  #if defined(HOST_WORDS_BIGENDIAN) != defined(TARGET_WORDS_BIGENDIAN)
@@ -XXX,XX +XXX,XX @@ static int kvm_init(MachineState *ms)
          s->kernel_irqchip_split = mc->default_kernel_irqchip_split ? ON_OFF_AUTO_ON : ON_OFF_AUTO_OFF;
      }
-+    qemu_register_reset(kvm_unpoison_all, NULL);
+     if (cmd == DISCARD) {
-+
+-        IteEntry itee = {};
-     if (s->kernel_irqchip_allowed) {
++        ITEntry ite = {};
-         kvm_irqchip_create(s);
+         /* remove mapping from interrupt translation table */
 -        return update_ite(s, eventid, &dte, itee) ? CMD_CONTINUE : CMD_STALL;
 +        ite.valid = false;
 +        return update_ite(s, eventid, &dte, &ite) ? CMD_CONTINUE : CMD_STALL;
      }
-diff --git a/target/i386/kvm.c b/target/i386/kvm.c
+     return CMD_CONTINUE;
-index XXXXXXX..XXXXXXX 100644
+ }
---- a/target/i386/kvm.c
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
-+++ b/target/i386/kvm.c
+     uint64_t num_eventids;
-@@ -XXX,XX +XXX,XX @@
+     uint32_t num_intids;
- #include "sysemu/sysemu.h"
+     uint16_t icid = 0;
- #include "sysemu/hw_accel.h"
+-    IteEntry ite = {};
- #include "sysemu/kvm_int.h"
+     DTEntry dte;
--#include "sysemu/reset.h"
++    ITEntry ite;
- #include "sysemu/runstate.h"
- #include "kvm_i386.h"
+     devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
- #include "hyperv.h"
+     eventid = cmdpkt[1] & EVENTID_MASK;
-@@ -XXX,XX +XXX,XX @@ uint64_t kvm_arch_get_supported_msr_feature(KVMState *s, uint32_t index)
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
      }
+     /* add ite entry to interrupt translation table */
+-    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, true);
+-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
+-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, pIntid);
+-    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, icid);
+-    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
+-
+-    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
++    ite.valid = true;
++    ite.inttype = ITE_INTTYPE_PHYSICAL;
++    ite.intid = pIntid;
++    ite.icid = icid;
++    ite.doorbell = INTID_SPURIOUS;
++    ite.vpeid = 0;
++    return update_ite(s, eventid, &dte, &ite) ? CMD_CONTINUE : CMD_STALL;
  }
--
+ /*
--typedef struct HWPoisonPage {
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
--    ram_addr_t ram_addr;
+     uint32_t devid, eventid;
--    QLIST_ENTRY(HWPoisonPage) list;
+     uint16_t new_icid;
--} HWPoisonPage;
+     uint64_t num_eventids;
--
+-    IteEntry ite = {};
--static QLIST_HEAD(, HWPoisonPage) hwpoison_page_list =
+     DTEntry dte;
--    QLIST_HEAD_INITIALIZER(hwpoison_page_list);
+     CTEntry old_cte, new_cte;
--
+     ITEntry old_ite;
--static void kvm_unpoison_all(void *param)
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
 -{
 -    HWPoisonPage *page, *next_page;
 -
 -    QLIST_FOREACH_SAFE(page, &hwpoison_page_list, list, next_page) {
 -        QLIST_REMOVE(page, list);
 -        qemu_ram_remap(page->ram_addr, TARGET_PAGE_SIZE);
 -        g_free(page);
 -    }
 -}
 -
 -static void kvm_hwpoison_page_add(ram_addr_t ram_addr)
 -{
 -    HWPoisonPage *page;
 -
 -    QLIST_FOREACH(page, &hwpoison_page_list, list) {
 -        if (page->ram_addr == ram_addr) {
 -            return;
 -        }
 -    }
 -    page = g_new(HWPoisonPage, 1);
 -    page->ram_addr = ram_addr;
 -    QLIST_INSERT_HEAD(&hwpoison_page_list, page, list);
 -}
 -
  static int kvm_get_mce_cap_supported(KVMState *s, uint64_t *mce_cap,
                                       int *max_banks)
  {
@@ -XXX,XX +XXX,XX @@ int kvm_arch_init(MachineState *ms, KVMState *s)
          fprintf(stderr, "e820_add_entry() table is full\n");
          return ret;
      }
--    qemu_register_reset(kvm_unpoison_all, NULL);
+     /* Update the ICID field in the interrupt translation table entry */
-     shadow_mem = object_property_get_int(OBJECT(s), "kvm-shadow-mem", &error_abort);
+-    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, 1);
-     if (shadow_mem != -1) {
+-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
 -    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, old_ite.intid);
 -    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, new_icid);
 -    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
 -    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 +    old_ite.icid = new_icid;
 +    return update_ite(s, eventid, &dte, &old_ite) ? CMD_CONTINUE : CMD_STALL;
  }
  /*
 --
-.20.1
+.25.1

-[PULL 31/45] target/arm: Convert Neon 64-bit element 3-reg-same insns
+[PULL 35/39] hw/intc/arm_gicv3_its: Drop TableDesc and CmdQDesc valid fields
-Convert the 64-bit element insns in the 3-reg-same group
+Currently we track in the TableDesc and CmdQDesc structs the state of
-to decodetree. This covers VQSHL, VRSHL and VQRSHL where
+the GITS_BASER<n> and GITS_CBASER Valid bits.  However we aren't very
-size==0b11.
+consistent abut checking the valid field: we test it in update_cte()
 and update_dte(), but not anywhere else we look things up in tables.
 The GIC specification says that it is UNPREDICTABLE if a guest fails
 to set any of these Valid bits before enabling the ITS via
 GITS_CTLR.Enabled.  So we can choose to handle Valid == 0 as
 equivalent to a zero-length table.  This is in fact how we're already
 catching this case in most of the table-access paths: when Valid is 0
 we leave the num_entries fields in TableDesc or CmdQDesc set to zero,
 and then the out-of-bounds check "index >= num_entries" that we have
 to do anyway before doing any of these table lookups will always be
 true, catching the no-valid-table case without any extra code.
 So we can remove the checks on the valid field from update_cte()
 and update_dte(): since these happen after the bounds check there
 was never any case when the test could fail. That means the valid
 fields would be entirely unused, so just remove them.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-4-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-11-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       | 13 +++++++++++
+ include/hw/intc/arm_gicv3_its_common.h |  2 --
- target/arm/translate-neon.inc.c | 24 +++++++++++++++++++++
+ hw/intc/arm_gicv3_its.c                | 31 ++++++++++++--------------
- target/arm/translate.c          | 38 ++-------------------------------
+files changed, 14 insertions(+), 19 deletions(-)
 files changed, 39 insertions(+), 36 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/include/hw/intc/arm_gicv3_its_common.h b/include/hw/intc/arm_gicv3_its_common.h
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/include/hw/intc/arm_gicv3_its_common.h
-+++ b/target/arm/neon-dp.decode
++++ b/include/hw/intc/arm_gicv3_its_common.h
-@@ -XXX,XX +XXX,XX @@ VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
+@@ -XXX,XX +XXX,XX @@
- VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same_rev
+ #define GITS_TRANSLATER  0x0040
- VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
+ typedef struct {
-+# Insns operating on 64-bit elements (size!=0b11 handled elsewhere)
+-    bool valid;
-+# The _rev suffix indicates that Vn and Vm are reversed (as explained
+     bool indirect;
-+# by the comment for the @3same_rev format).
+     uint16_t entry_sz;
-+@3same_64_rev    .... ... . . . 11 .... .... .... . q:1 . . .... \
+     uint32_t page_sz;
-+                 &3same vm=%vn_dp vn=%vm_dp vd=%vd_dp size=3
+@@ -XXX,XX +XXX,XX @@ typedef struct {
-+
+ } TableDesc;
-+VQSHL_S64_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
-+VQSHL_U64_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
+ typedef struct {
-+VRSHL_S64_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
+-    bool valid;
-+VRSHL_U64_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
+     uint32_t num_entries;
-+VQRSHL_S64_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
+     uint64_t base_addr;
-+VQRSHL_U64_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
+ } CmdQDesc;
-+
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
  VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
  VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
  VMIN_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 1 .... @3same
 diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate-neon.inc.c
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/translate-neon.inc.c
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ static bool trans_SHA256SU1_3s(DisasContext *s, arg_SHA256SU1_3s *a)
+@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, const CTEntry *cte)
+     uint64_t cteval = 0;
-     return true;
+     MemTxResult res = MEMTX_OK;
- }
-+
+-    if (!s->ct.valid) {
-+#define DO_3SAME_64(INSN, FUNC)                                         \
+-        return true;
-+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+-    }
-+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+-
-+                                uint32_t oprsz, uint32_t maxsz)         \
+     if (cte->valid) {
-+    {                                                                   \
+         /* add mapping entry to collection table */
-+        static const GVecGen3 op = { .fni8 = FUNC };                    \
+         cteval = FIELD_DP64(cteval, CTE, VALID, 1);
-+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &op);      \
+@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, const DTEntry *dte)
-+    }                                                                   \
+     uint64_t dteval = 0;
-+    DO_3SAME(INSN, gen_##INSN##_3s)
+     MemTxResult res = MEMTX_OK;
-+
-+#define DO_3SAME_64_ENV(INSN, FUNC)                                     \
+-    if (s->dt.valid) {
-+    static void gen_##INSN##_elt(TCGv_i64 d, TCGv_i64 n, TCGv_i64 m)    \
+-        if (dte->valid) {
-+    {                                                                   \
+-            /* add mapping entry to device table */
-+        FUNC(d, cpu_env, n, m);                                         \
+-            dteval = FIELD_DP64(dteval, DTE, VALID, 1);
-+    }                                                                   \
+-            dteval = FIELD_DP64(dteval, DTE, SIZE, dte->size);
-+    DO_3SAME_64(INSN, gen_##INSN##_elt)
+-            dteval = FIELD_DP64(dteval, DTE, ITTADDR, dte->ittaddr);
-+
+-        }
-+DO_3SAME_64(VRSHL_S64, gen_helper_neon_rshl_s64)
+-    } else {
-+DO_3SAME_64(VRSHL_U64, gen_helper_neon_rshl_u64)
+-        return true;
-+DO_3SAME_64_ENV(VQSHL_S64, gen_helper_neon_qshl_s64)
++    if (dte->valid) {
-+DO_3SAME_64_ENV(VQSHL_U64, gen_helper_neon_qshl_u64)
++        /* add mapping entry to device table */
-+DO_3SAME_64_ENV(VQRSHL_S64, gen_helper_neon_qrshl_s64)
++        dteval = FIELD_DP64(dteval, DTE, VALID, 1);
-+DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
++        dteval = FIELD_DP64(dteval, DTE, SIZE, dte->size);
-diff --git a/target/arm/translate.c b/target/arm/translate.c
++        dteval = FIELD_DP64(dteval, DTE, ITTADDR, dte->ittaddr);
-index XXXXXXX..XXXXXXX 100644
+     }
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
+     entry_addr = table_entry_addr(s, &s->dt, devid, &res);
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
+@@ -XXX,XX +XXX,XX @@ static void extract_table_params(GICv3ITSState *s)
          }
-         if (size == 3) {
+         memset(td, 0, sizeof(*td));
--            /* 64-bit element instructions. */
+-        td->valid = FIELD_EX64(value, GITS_BASER, VALID);
--            for (pass = 0; pass < (q ? 2 : 1); pass++) {
+         /*
--                neon_load_reg64(cpu_V0, rn + pass);
+          * If GITS_BASER<n>.Valid is 0 for any <n> then we will not process
--                neon_load_reg64(cpu_V1, rm + pass);
+          * interrupts. (GITS_TYPER.HCC is 0 for this implementation, so we
--                switch (op) {
+@@ -XXX,XX +XXX,XX @@ static void extract_table_params(GICv3ITSState *s)
--                case NEON_3R_VQSHL:
+          * for the register corresponding to the Collection table but we
--                    if (u) {
+          * still have to process interrupts using non-memory-backed
--                        gen_helper_neon_qshl_u64(cpu_V0, cpu_env,
+          * Collection table entries.)
--                                                 cpu_V1, cpu_V0);
++         * The specification makes it UNPREDICTABLE to enable the ITS without
--                    } else {
++         * marking each BASER<n> as valid. We choose to handle these as if
--                        gen_helper_neon_qshl_s64(cpu_V0, cpu_env,
++         * the table was zero-sized, so commands using the table will fail
--                                                 cpu_V1, cpu_V0);
++         * and interrupts requested via GITS_TRANSLATER writes will be ignored.
--                    }
++         * This happens automatically by leaving the num_entries field at
--                    break;
++         * zero, which will be caught by the bounds checks we have before
--                case NEON_3R_VRSHL:
++         * every table lookup anyway.
--                    if (u) {
+          */
--                        gen_helper_neon_rshl_u64(cpu_V0, cpu_V1, cpu_V0);
+-        if (!td->valid) {
--                    } else {
++        if (!FIELD_EX64(value, GITS_BASER, VALID)) {
--                        gen_helper_neon_rshl_s64(cpu_V0, cpu_V1, cpu_V0);
+             continue;
 -                    }
 -                    break;
 -                case NEON_3R_VQRSHL:
 -                    if (u) {
 -                        gen_helper_neon_qrshl_u64(cpu_V0, cpu_env,
 -                                                  cpu_V1, cpu_V0);
 -                    } else {
 -                        gen_helper_neon_qrshl_s64(cpu_V0, cpu_env,
 -                                                  cpu_V1, cpu_V0);
 -                    }
 -                    break;
 -                default:
 -                    abort();
 -                }
 -                neon_store_reg64(cpu_V0, rd + pass);
 -            }
 -            return 0;
 +            /* 64-bit element instructions: handled by decodetree */
 +            return 1;
          }
-         pairwise = 0;
+         td->page_sz = page_sz;
-         switch (op) {
+@@ -XXX,XX +XXX,XX @@ static void extract_cmdq_params(GICv3ITSState *s)
      num_pages = FIELD_EX64(value, GITS_CBASER, SIZE) + 1;
      memset(&s->cq, 0 , sizeof(s->cq));
 -    s->cq.valid = FIELD_EX64(value, GITS_CBASER, VALID);
 -    if (s->cq.valid) {
 +    if (FIELD_EX64(value, GITS_CBASER, VALID)) {
          s->cq.num_entries = (num_pages * GITS_PAGE_SIZE_4K) /
                               GITS_CMDQ_ENTRY_SIZE;
          s->cq.base_addr = FIELD_EX64(value, GITS_CBASER, PHYADDR);
 --
-.20.1
+.25.1

-[PULL 42/45] target/arm: Convert Neon 3-reg-same compare insns to decodetree
+[PULL 36/39] hw/intc/arm_gicv3_its: In MAPC with V=0, don't check rdbase field
-Convert the Neon integer 3-reg-same compare insns VCGE, VCGT,
+In the MAPC command, if V=0 this is a request to delete a collection
-VCEQ, VACGE and VACGT to decodetree.
+table entry and the rdbase field of the command packet will not be
 used.  In particular, the specification says that the "UNPREDICTABLE
 if rdbase is not valid" only applies for V=1.
 We were doing a check-and-log-guest-error on rdbase regardless of
 whether the V bit was set, and also (harmlessly but confusingly)
 storing the contents of the rdbase field into the updated collection
 table entry.  Update the code so that if V=0 we don't check or use
 the rdbase field value.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-15-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-12-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  5 +++++
+ hw/intc/arm_gicv3_its.c | 24 ++++++++++++------------
- target/arm/translate-neon.inc.c |  6 +++++
+file changed, 12 insertions(+), 12 deletions(-)
  target/arm/translate.c          | 39 ++-------------------------------
 files changed, 13 insertions(+), 37 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
- VMLA_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
+     CTEntry cte;
- VMLS_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 1 .... @3same_fp
- VMUL_fp_3s       1111 001 1 0 . 0 . .... .... 1101 ... 1 .... @3same_fp
+     icid = cmdpkt[2] & ICID_MASK;
-+VCEQ_fp_3s       1111 001 0 0 . 0 . .... .... 1110 ... 0 .... @3same_fp
+-
-+VCGE_fp_3s       1111 001 1 0 . 0 . .... .... 1110 ... 0 .... @3same_fp
+-    cte.rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
-+VACGE_fp_3s      1111 001 1 0 . 0 . .... .... 1110 ... 1 .... @3same_fp
+-    cte.rdbase &= RDBASE_PROCNUM_MASK;
-+VCGT_fp_3s       1111 001 1 0 . 1 . .... .... 1110 ... 0 .... @3same_fp
+-
-+VACGT_fp_3s      1111 001 1 0 . 1 . .... .... 1110 ... 1 .... @3same_fp
+     cte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
- VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
++    if (cte.valid) {
- VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
++        cte.rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
++        cte.rdbase &= RDBASE_PROCNUM_MASK;
-index XXXXXXX..XXXXXXX 100644
++    } else {
---- a/target/arm/translate-neon.inc.c
++        cte.rdbase = 0;
-+++ b/target/arm/translate-neon.inc.c
++    }
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP_GVEC(VMUL, gen_helper_gvec_fmul_s)
-         return do_3same_fp(s, a, FUNC, READS_VD);                   \
+-    if ((icid >= s->ct.num_entries) || (cte.rdbase >= s->gicv3->num_cpu)) {
 +    if (icid >= s->ct.num_entries) {
 +        qemu_log_mask(LOG_GUEST_ERROR, "ITS MAPC: invalid ICID 0x%d", icid);
 +        return CMD_CONTINUE;
 +    }
 +    if (cte.valid && cte.rdbase >= s->gicv3->num_cpu) {
          qemu_log_mask(LOG_GUEST_ERROR,
 -                      "ITS MAPC: invalid collection table attributes "
 -                      "icid %d rdbase %u\n",  icid, cte.rdbase);
 -        /*
 -         * in this implementation, in case of error
 -         * we ignore this command and move onto the next
 -         * command in the queue
 -         */
 +                      "ITS MAPC: invalid RDBASE %u ", cte.rdbase);
          return CMD_CONTINUE;
      }
-+DO_3S_FP(VCEQ, gen_helper_neon_ceq_f32, false)
-+DO_3S_FP(VCGE, gen_helper_neon_cge_f32, false)
-+DO_3S_FP(VCGT, gen_helper_neon_cgt_f32, false)
-+DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
-+DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
-+
- static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
-                             TCGv_ptr fpstatus)
- {
-diff --git a/target/arm/translate.c b/target/arm/translate.c
-index XXXXXXX..XXXXXXX 100644
---- a/target/arm/translate.c
-+++ b/target/arm/translate.c
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         case NEON_3R_VQDMULH_VQRDMULH:
-         case NEON_3R_FLOAT_ARITH:
-         case NEON_3R_FLOAT_MULTIPLY:
-+        case NEON_3R_FLOAT_CMP:
-+        case NEON_3R_FLOAT_ACMP:
-             /* Already handled by decodetree */
-             return 1;
-         }
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-                 return 1; /* VPMIN/VPMAX handled by decodetree */
-             }
-             break;
--        case NEON_3R_FLOAT_CMP:
--            if (!u && size) {
--                /* no encoding for U=0 C=1x */
--                return 1;
--            }
--            break;
--        case NEON_3R_FLOAT_ACMP:
--            if (!u) {
--                return 1;
--            }
--            break;
-         case NEON_3R_FLOAT_MISC:
-             /* VMAXNM/VMINNM in ARMv8 */
-             if (u && !arm_dc_feature(s, ARM_FEATURE_V8)) {
-@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
-         tmp = neon_load_reg(rn, pass);
-         tmp2 = neon_load_reg(rm, pass);
-         switch (op) {
--        case NEON_3R_FLOAT_CMP:
--        {
--            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
--            if (!u) {
--                gen_helper_neon_ceq_f32(tmp, tmp, tmp2, fpstatus);
--            } else {
--                if (size == 0) {
--                    gen_helper_neon_cge_f32(tmp, tmp, tmp2, fpstatus);
--                } else {
--                    gen_helper_neon_cgt_f32(tmp, tmp, tmp2, fpstatus);
--                }
--            }
--            tcg_temp_free_ptr(fpstatus);
--            break;
--        }
--        case NEON_3R_FLOAT_ACMP:
--        {
--            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
--            if (size == 0) {
--                gen_helper_neon_acge_f32(tmp, tmp, tmp2, fpstatus);
--            } else {
--                gen_helper_neon_acgt_f32(tmp, tmp, tmp2, fpstatus);
--            }
--            tcg_temp_free_ptr(fpstatus);
--            break;
--        }
-         case NEON_3R_FLOAT_MINMAX:
-         {
-             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 --
-.20.1
+.25.1

-[PULL 29/45] target/arm: Convert Neon 3-reg-same VQRDMLAH/VQRDMLSH to decodetree
+[PULL 37/39] hw/intc/arm_gicv3_its: Don't allow intid 1023 in MAPI/MAPTI
-Convert the Neon VQRDMLAH and VQRDMLSH insns in the 3-reg-same group
+When handling MAPI/MAPTI, we allow the supplied interrupt ID to be
-to decodetree.  These don't use do_3same() because they want to
+either 1023 or something in the valid LPI range.  This is a mistake:
-operate on VFP double registers, whose offsets are different from the
+only a real valid LPI is allowed.  (The general behaviour of the ITS
-neon_reg_offset() calculations do_3same does.
+is that most interrupt ID fields require a value in the LPI range;
 the exception is that fields specifying a doorbell value, which are
 all in GICv4 commands, allow also 1023 to mean "no doorbell".)
 Remove the condition that incorrectly allows 1023 here.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-2-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-13-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  3 +++
+ hw/intc/arm_gicv3_its.c | 3 +--
- target/arm/translate-neon.inc.c | 15 +++++++++++++++
+file changed, 1 insertion(+), 2 deletions(-)
  target/arm/translate.c          | 14 ++------------
 files changed, 20 insertions(+), 12 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ VMLS_3s          1111 001 1 0 . .. .... .... 1001 . . . 0 .... @3same
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
- VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
+     if ((icid >= s->ct.num_entries)
- VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
+             || !dte.valid || (eventid >= num_eventids) ||
-+
+-            (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)) &&
-+VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
+-             (pIntid != INTID_SPURIOUS))) {
-+VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
++            (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)))) {
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+         qemu_log_mask(LOG_GUEST_ERROR,
-index XXXXXXX..XXXXXXX 100644
+                       "%s: invalid command attributes "
---- a/target/arm/translate-neon.inc.c
+                       "icid %d or eventid %d or pIntid %d or"
 +++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
      }
      return do_3same(s, a, gen_VMUL_p_3s);
  }
 +
 +#define DO_VQRDMLAH(INSN, FUNC)                                         \
 +    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
 +    {                                                                   \
 +        if (!dc_isar_feature(aa32_rdm, s)) {                            \
 +            return false;                                               \
 +        }                                                               \
 +        if (a->size != 1 && a->size != 2) {                             \
 +            return false;                                               \
 +        }                                                               \
 +        return do_3same(s, a, FUNC);                                    \
 +    }
 +
 +DO_VQRDMLAH(VQRDMLAH, gen_gvec_sqrdmlah_qc)
 +DO_VQRDMLAH(VQRDMLSH, gen_gvec_sqrdmlsh_qc)
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              if (!u) {
                  break;  /* VPADD */
              }
 -            /* VQRDMLAH */
 -            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
 -                gen_gvec_sqrdmlah_qc(size, rd_ofs, rn_ofs, rm_ofs,
 -                                     vec_size, vec_size);
 -                return 0;
 -            }
 +            /* VQRDMLAH : handled by decodetree */
              return 1;
          case NEON_3R_VFM_VQRDMLSH:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                  }
                  break;
              }
 -            /* VQRDMLSH */
 -            if (dc_isar_feature(aa32_rdm, s) && (size == 1 || size == 2)) {
 -                gen_gvec_sqrdmlsh_qc(size, rd_ofs, rn_ofs, rm_ofs,
 -                                     vec_size, vec_size);
 -                return 0;
 -            }
 +            /* VQRDMLSH : handled by decodetree */
              return 1;
          case NEON_3R_VABD:
 --
-.20.1
+.25.1

-[PULL 44/45] target/arm: Convert Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS to decodetree
+[PULL 38/39] hw/intc/arm_gicv3_its: Split error checks
-Convert the Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS 3-reg-same
+In most of the ITS command processing, we check different error
-insns to decodetree. (These are all the remaining non-accumulation
+possibilities one at a time and log them appropriately. In
-instructions in this group.)
+process_mapti() and process_mapd() we have code which checks
 multiple error cases at once, which means the logging is less
 specific than it could be. Split those cases up.
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
-Message-id: 20200512163904.10918-17-peter.maydell@linaro.org
+Message-id: 20220201193207.2771604-14-peter.maydell@linaro.org
 ---
- target/arm/neon-dp.decode       |  6 +++
+ hw/intc/arm_gicv3_its.c | 52 ++++++++++++++++++++++++-----------------
- target/arm/translate-neon.inc.c | 70 +++++++++++++++++++++++++++++++++
+file changed, 31 insertions(+), 21 deletions(-)
  target/arm/translate.c          | 42 +-------------------
 files changed, 78 insertions(+), 40 deletions(-)
-diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
+diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
 index XXXXXXX..XXXXXXX 100644
---- a/target/arm/neon-dp.decode
+--- a/hw/intc/arm_gicv3_its.c
-+++ b/target/arm/neon-dp.decode
++++ b/hw/intc/arm_gicv3_its.c
-@@ -XXX,XX +XXX,XX @@ VCGE_fp_3s       1111 001 1 0 . 0 . .... .... 1110 ... 0 .... @3same_fp
+@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
- VACGE_fp_3s      1111 001 1 0 . 0 . .... .... 1110 ... 1 .... @3same_fp
+     num_eventids = 1ULL << (dte.size + 1);
- VCGT_fp_3s       1111 001 1 0 . 1 . .... .... 1110 ... 0 .... @3same_fp
+     num_intids = 1ULL << (GICD_TYPER_IDBITS + 1);
- VACGT_fp_3s      1111 001 1 0 . 1 . .... .... 1110 ... 1 .... @3same_fp
-+VMAX_fp_3s       1111 001 0 0 . 0 . .... .... 1111 ... 0 .... @3same_fp
+-    if ((icid >= s->ct.num_entries)
-+VMIN_fp_3s       1111 001 0 0 . 1 . .... .... 1111 ... 0 .... @3same_fp
+-            || !dte.valid || (eventid >= num_eventids) ||
- VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
+-            (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)))) {
- VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
++    if (icid >= s->ct.num_entries) {
-+VRECPS_fp_3s     1111 001 0 0 . 0 . .... .... 1111 ... 1 .... @3same_fp
+         qemu_log_mask(LOG_GUEST_ERROR,
-+VRSQRTS_fp_3s    1111 001 0 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
+-                      "%s: invalid command attributes "
-+VMAXNM_fp_3s     1111 001 1 0 . 0 . .... .... 1111 ... 1 .... @3same_fp
+-                      "icid %d or eventid %d or pIntid %d or"
-+VMINNM_fp_3s     1111 001 1 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
+-                      "unmapped dte %d\n", __func__, icid, eventid,
-diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
+-                      pIntid, dte.valid);
-index XXXXXXX..XXXXXXX 100644
+-        /*
---- a/target/arm/translate-neon.inc.c
+-         * in this implementation, in case of error
-+++ b/target/arm/translate-neon.inc.c
+-         * we ignore this command and move onto the next
-@@ -XXX,XX +XXX,XX @@ DO_3S_FP(VCGE, gen_helper_neon_cge_f32, false)
+-         * command in the queue
- DO_3S_FP(VCGT, gen_helper_neon_cgt_f32, false)
+-         */
- DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
++                      "%s: invalid ICID 0x%x >= 0x%x\n",
- DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
++                      __func__, icid, s->ct.num_entries);
-+DO_3S_FP(VMAX, gen_helper_vfp_maxs, false)
++        return CMD_CONTINUE;
 +DO_3S_FP(VMIN, gen_helper_vfp_mins, false)
  static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
                              TCGv_ptr fpstatus)
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
  DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
  DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
 +static bool trans_VMAXNM_fp_3s(DisasContext *s, arg_3same *a)
 +{
 +    if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
 +        return false;
 +    }
 +
-+    if (a->size != 0) {
++    if (!dte.valid) {
-+        /* TODO fp16 support */
++        qemu_log_mask(LOG_GUEST_ERROR,
-+        return false;
++                      "%s: no valid DTE for devid 0x%x\n", __func__, devid);
 +        return CMD_CONTINUE;
 +    }
 +
-+    return do_3same_fp(s, a, gen_helper_vfp_maxnums, false);
++    if (eventid >= num_eventids) {
-+}
++        qemu_log_mask(LOG_GUEST_ERROR,
-+
++                      "%s: invalid event ID 0x%x >= 0x%" PRIx64 "\n",
-+static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
++                      __func__, eventid, num_eventids);
-+{
++        return CMD_CONTINUE;
 +    if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
 +        return false;
 +    }
 +
-+    if (a->size != 0) {
++    if (pIntid < GICV3_LPI_INTID_START || pIntid >= num_intids) {
-+        /* TODO fp16 support */
++        qemu_log_mask(LOG_GUEST_ERROR,
-+        return false;
++                      "%s: invalid interrupt ID 0x%x\n", __func__, pIntid);
          return CMD_CONTINUE;
      }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
      dte.ittaddr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
      dte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
 -    if ((devid >= s->dt.num_entries) ||
 -        (dte.size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
 +    if (devid >= s->dt.num_entries) {
          qemu_log_mask(LOG_GUEST_ERROR,
 -                      "ITS MAPD: invalid device table attributes "
 -                      "devid %d or size %d\n", devid, dte.size);
 -        /*
 -         * in this implementation, in case of error
 -         * we ignore this command and move onto the next
 -         * command in the queue
 -         */
 +                      "ITS MAPD: invalid device ID field 0x%x >= 0x%x\n",
 +                      devid, s->dt.num_entries);
 +        return CMD_CONTINUE;
 +    }
 +
-+    return do_3same_fp(s, a, gen_helper_vfp_minnums, false);
++    if (dte.size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS)) {
-+}
++        qemu_log_mask(LOG_GUEST_ERROR,
-+
++                      "ITS MAPD: invalid size %d\n", dte.size);
-+WRAP_ENV_FN(gen_VRECPS_tramp, gen_helper_recps_f32)
+         return CMD_CONTINUE;
-+
+     }
-+static void gen_VRECPS_fp_3s(unsigned vece, uint32_t rd_ofs,
 +                             uint32_t rn_ofs, uint32_t rm_ofs,
 +                             uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen3 ops = { .fni4 = gen_VRECPS_tramp };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
 +}
 +
 +static bool trans_VRECPS_fp_3s(DisasContext *s, arg_3same *a)
 +{
 +    if (a->size != 0) {
 +        /* TODO fp16 support */
 +        return false;
 +    }
 +
 +    return do_3same(s, a, gen_VRECPS_fp_3s);
 +}
 +
 +WRAP_ENV_FN(gen_VRSQRTS_tramp, gen_helper_rsqrts_f32)
 +
 +static void gen_VRSQRTS_fp_3s(unsigned vece, uint32_t rd_ofs,
 +                              uint32_t rn_ofs, uint32_t rm_ofs,
 +                              uint32_t oprsz, uint32_t maxsz)
 +{
 +    static const GVecGen3 ops = { .fni4 = gen_VRSQRTS_tramp };
 +    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
 +}
 +
 +static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
 +{
 +    if (a->size != 0) {
 +        /* TODO fp16 support */
 +        return false;
 +    }
 +
 +    return do_3same(s, a, gen_VRSQRTS_fp_3s);
 +}
 +
  static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
  {
      /* FP operations handled pairwise 32 bits at a time */
 diff --git a/target/arm/translate.c b/target/arm/translate.c
 index XXXXXXX..XXXXXXX 100644
 --- a/target/arm/translate.c
 +++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          case NEON_3R_FLOAT_MULTIPLY:
          case NEON_3R_FLOAT_CMP:
          case NEON_3R_FLOAT_ACMP:
 +        case NEON_3R_FLOAT_MINMAX:
 +        case NEON_3R_FLOAT_MISC:
              /* Already handled by decodetree */
              return 1;
          }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
              return 1;
          }
          switch (op) {
 -        case NEON_3R_FLOAT_MINMAX:
 -            if (u) {
 -                return 1; /* VPMIN/VPMAX handled by decodetree */
 -            }
 -            break;
 -        case NEON_3R_FLOAT_MISC:
 -            /* VMAXNM/VMINNM in ARMv8 */
 -            if (u && !arm_dc_feature(s, ARM_FEATURE_V8)) {
 -                return 1;
 -            }
 -            break;
          case NEON_3R_VFM_VQRDMLSH:
              if (!dc_isar_feature(aa32_simdfmac, s)) {
                  return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
          tmp = neon_load_reg(rn, pass);
          tmp2 = neon_load_reg(rm, pass);
          switch (op) {
 -        case NEON_3R_FLOAT_MINMAX:
 -        {
 -            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -            if (size == 0) {
 -                gen_helper_vfp_maxs(tmp, tmp, tmp2, fpstatus);
 -            } else {
 -                gen_helper_vfp_mins(tmp, tmp, tmp2, fpstatus);
 -            }
 -            tcg_temp_free_ptr(fpstatus);
 -            break;
 -        }
 -        case NEON_3R_FLOAT_MISC:
 -            if (u) {
 -                /* VMAXNM/VMINNM */
 -                TCGv_ptr fpstatus = get_fpstatus_ptr(1);
 -                if (size == 0) {
 -                    gen_helper_vfp_maxnums(tmp, tmp, tmp2, fpstatus);
 -                } else {
 -                    gen_helper_vfp_minnums(tmp, tmp, tmp2, fpstatus);
 -                }
 -                tcg_temp_free_ptr(fpstatus);
 -            } else {
 -                if (size == 0) {
 -                    gen_helper_recps_f32(tmp, cpu_env, tmp, tmp2);
 -                } else {
 -                    gen_helper_rsqrts_f32(tmp, cpu_env, tmp, tmp2);
 -              }
 -            }
 -            break;
          case NEON_3R_VFM_VQRDMLSH:
          {
              /* VFMA, VFMS: fused multiply-add */
 --
-.20.1
+.25.1

-[PULL 22/45] ACPI: Build related register address fields via hardware error fw_cfg blob
+[PULL 39/39] hw/sensor: Add lsm303dlhc magnetometer device
-From: Dongjiu Geng <gengdongjiu@huawei.com>
+From: Kevin Townsend <kevin.townsend@linaro.org>
-This patch builds error_block_address and read_ack_register fields
+This commit adds emulation of the magnetometer on the LSM303DLHC.
-in hardware errors table , the error_block_address points to Generic
+It allows the magnetometer's X, Y and Z outputs to be set via the
-Error Status Block(GESB) via bios_linker. The max size for one GESB
+mag-x, mag-y and mag-z properties, as well as the 12-bit
-is 1kb, For more detailed information, please refer to
+temperature output via the temperature property. Sensor can be
-document: docs/specs/acpi_hest_ghes.rst
+enabled with 'CONFIG_LSM303DLHC_MAG=y'.
-Now we only support one Error source, if necessary, we can extend to
+Signed-off-by: Kevin Townsend <kevin.townsend@linaro.org>
-support more.
+Message-id: 20220130095032.35392-1-kevin.townsend@linaro.org
+Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
 Suggested-by: Laszlo Ersek <lersek@redhat.com>
 Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
 Reviewed-by: Jonathan Cameron <Jonathan.Cameron@huawei.com>
 Reviewed-by: Igor Mammedov <imammedo@redhat.com>
 Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
 Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
 Message-id: 20200512030609.19593-5-gengdongjiu@huawei.com
 Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
 ---
- default-configs/arm-softmmu.mak |  1 +
+ hw/sensor/lsm303dlhc_mag.c        | 556 ++++++++++++++++++++++++++++++
- include/hw/acpi/aml-build.h     |  1 +
+ tests/qtest/lsm303dlhc-mag-test.c | 148 ++++++++
- include/hw/acpi/ghes.h          | 28 +++++++++++
+ hw/sensor/Kconfig                 |   4 +
- hw/acpi/aml-build.c             |  2 +
+ hw/sensor/meson.build             |   1 +
- hw/acpi/ghes.c                  | 89 +++++++++++++++++++++++++++++++++
+ tests/qtest/meson.build           |   1 +
- hw/arm/virt-acpi-build.c        |  5 ++
+files changed, 710 insertions(+)
- hw/acpi/Kconfig                 |  4 ++
+ create mode 100644 hw/sensor/lsm303dlhc_mag.c
- hw/acpi/Makefile.objs           |  1 +
+ create mode 100644 tests/qtest/lsm303dlhc-mag-test.c
 files changed, 131 insertions(+)
  create mode 100644 include/hw/acpi/ghes.h
  create mode 100644 hw/acpi/ghes.c
-diff --git a/default-configs/arm-softmmu.mak b/default-configs/arm-softmmu.mak
+diff --git a/hw/sensor/lsm303dlhc_mag.c b/hw/sensor/lsm303dlhc_mag.c
 index XXXXXXX..XXXXXXX 100644
 --- a/default-configs/arm-softmmu.mak
 +++ b/default-configs/arm-softmmu.mak
@@ -XXX,XX +XXX,XX @@ CONFIG_FSL_IMX7=y
  CONFIG_FSL_IMX6UL=y
  CONFIG_SEMIHOSTING=y
  CONFIG_ALLWINNER_H3=y
 +CONFIG_ACPI_APEI=y
 diff --git a/include/hw/acpi/aml-build.h b/include/hw/acpi/aml-build.h
 index XXXXXXX..XXXXXXX 100644
 --- a/include/hw/acpi/aml-build.h
 +++ b/include/hw/acpi/aml-build.h
@@ -XXX,XX +XXX,XX @@ struct AcpiBuildTables {
      GArray *rsdp;
      GArray *tcpalog;
      GArray *vmgenid;
 +    GArray *hardware_errors;
      BIOSLinker *linker;
  } AcpiBuildTables;
 diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/include/hw/acpi/ghes.h
++++ b/hw/sensor/lsm303dlhc_mag.c
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Support for generating APEI tables and recording CPER for Guests
++ * LSM303DLHC I2C magnetometer.
 + *
-+ * Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
++ * Copyright (C) 2021 Linaro Ltd.
 + * Written by Kevin Townsend <kevin.townsend@linaro.org>
 + *
-+ * Author: Dongjiu Geng <gengdongjiu@huawei.com>
++ * Based on: https://www.st.com/resource/en/datasheet/lsm303dlhc.pdf
 + *
-+ * This program is free software; you can redistribute it and/or modify
++ * SPDX-License-Identifier: GPL-2.0-or-later
-+ * it under the terms of the GNU General Public License as published by
++ */
-+ * the Free Software Foundation; either version 2 of the License, or
++
-+ * (at your option) any later version.
++/*
-+
++ * The I2C address associated with this device is set on the command-line when
-+ * This program is distributed in the hope that it will be useful,
++ * initialising the machine, but the following address is standard: 0x1E.
-+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
++ *
-+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
++ * Get and set functions for 'mag-x', 'mag-y' and 'mag-z' assume that
-+ * GNU General Public License for more details.
++ * 1 = 0.001 uT. (NOTE the 1 gauss = 100 uT, so setting a value of 100,000
-+
++ * would be equal to 1 gauss or 100 uT.)
-+ * You should have received a copy of the GNU General Public License along
++ *
-+ * with this program; if not, see <http://www.gnu.org/licenses/>.
++ * Get and set functions for 'temperature' assume that 1 = 0.001 C, so 23.6 C
-+ */
++ * would be equal to 23600.
-+
++ */
-+#ifndef ACPI_GHES_H
++
-+#define ACPI_GHES_H
++#include "qemu/osdep.h"
-+
++#include "hw/i2c/i2c.h"
-+#include "hw/acpi/bios-linker-loader.h"
++#include "migration/vmstate.h"
-+
++#include "qapi/error.h"
-+void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
++#include "qapi/visitor.h"
-+#endif
++#include "qemu/module.h"
-diff --git a/hw/acpi/aml-build.c b/hw/acpi/aml-build.c
++#include "qemu/log.h"
-index XXXXXXX..XXXXXXX 100644
++#include "qemu/bswap.h"
---- a/hw/acpi/aml-build.c
++
-+++ b/hw/acpi/aml-build.c
++enum LSM303DLHCMagReg {
-@@ -XXX,XX +XXX,XX @@ void acpi_build_tables_init(AcpiBuildTables *tables)
++    LSM303DLHC_MAG_REG_CRA          = 0x00,
-     tables->table_data = g_array_new(false, true /* clear */, 1);
++    LSM303DLHC_MAG_REG_CRB          = 0x01,
-     tables->tcpalog = g_array_new(false, true /* clear */, 1);
++    LSM303DLHC_MAG_REG_MR           = 0x02,
-     tables->vmgenid = g_array_new(false, true /* clear */, 1);
++    LSM303DLHC_MAG_REG_OUT_X_H      = 0x03,
-+    tables->hardware_errors = g_array_new(false, true /* clear */, 1);
++    LSM303DLHC_MAG_REG_OUT_X_L      = 0x04,
-     tables->linker = bios_linker_loader_init();
++    LSM303DLHC_MAG_REG_OUT_Z_H      = 0x05,
- }
++    LSM303DLHC_MAG_REG_OUT_Z_L      = 0x06,
++    LSM303DLHC_MAG_REG_OUT_Y_H      = 0x07,
-@@ -XXX,XX +XXX,XX @@ void acpi_build_tables_cleanup(AcpiBuildTables *tables, bool mfre)
++    LSM303DLHC_MAG_REG_OUT_Y_L      = 0x08,
-     g_array_free(tables->table_data, true);
++    LSM303DLHC_MAG_REG_SR           = 0x09,
-     g_array_free(tables->tcpalog, mfre);
++    LSM303DLHC_MAG_REG_IRA          = 0x0A,
-     g_array_free(tables->vmgenid, mfre);
++    LSM303DLHC_MAG_REG_IRB          = 0x0B,
-+    g_array_free(tables->hardware_errors, mfre);
++    LSM303DLHC_MAG_REG_IRC          = 0x0C,
- }
++    LSM303DLHC_MAG_REG_TEMP_OUT_H   = 0x31,
++    LSM303DLHC_MAG_REG_TEMP_OUT_L   = 0x32
- /*
++};
-diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
++
 +typedef struct LSM303DLHCMagState {
 +    I2CSlave parent_obj;
 +    uint8_t cra;
 +    uint8_t crb;
 +    uint8_t mr;
 +    int16_t x;
 +    int16_t z;
 +    int16_t y;
 +    int16_t x_lock;
 +    int16_t z_lock;
 +    int16_t y_lock;
 +    uint8_t sr;
 +    uint8_t ira;
 +    uint8_t irb;
 +    uint8_t irc;
 +    int16_t temperature;
 +    int16_t temperature_lock;
 +    uint8_t len;
 +    uint8_t buf;
 +    uint8_t pointer;
 +} LSM303DLHCMagState;
 +
 +#define TYPE_LSM303DLHC_MAG "lsm303dlhc_mag"
 +OBJECT_DECLARE_SIMPLE_TYPE(LSM303DLHCMagState, LSM303DLHC_MAG)
 +
 +/*
 + * Conversion factor from Gauss to sensor values for each GN gain setting,
 + * in units "lsb per Gauss" (see data sheet table 3). There is no documented
 + * behaviour if the GN setting in CRB is incorrectly set to 0b000;
 + * we arbitrarily make it the same as 0b001.
 + */
 +uint32_t xy_gain[] = { 1100, 1100, 855, 670, 450, 400, 330, 230 };
 +uint32_t z_gain[] = { 980, 980, 760, 600, 400, 355, 295, 205 };
 +
 +static void lsm303dlhc_mag_get_x(Object *obj, Visitor *v, const char *name,
 +                                 void *opaque, Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int gm = extract32(s->crb, 5, 3);
 +
 +    /* Convert to uT where 1000 = 1 uT. Conversion factor depends on gain. */
 +    int64_t value = muldiv64(s->x, 100000, xy_gain[gm]);
 +    visit_type_int(v, name, &value, errp);
 +}
 +
 +static void lsm303dlhc_mag_get_y(Object *obj, Visitor *v, const char *name,
 +                                 void *opaque, Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int gm = extract32(s->crb, 5, 3);
 +
 +    /* Convert to uT where 1000 = 1 uT. Conversion factor depends on gain. */
 +    int64_t value = muldiv64(s->y, 100000, xy_gain[gm]);
 +    visit_type_int(v, name, &value, errp);
 +}
 +
 +static void lsm303dlhc_mag_get_z(Object *obj, Visitor *v, const char *name,
 +                                 void *opaque, Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int gm = extract32(s->crb, 5, 3);
 +
 +    /* Convert to uT where 1000 = 1 uT. Conversion factor depends on gain. */
 +    int64_t value = muldiv64(s->z, 100000, z_gain[gm]);
 +    visit_type_int(v, name, &value, errp);
 +}
 +
 +static void lsm303dlhc_mag_set_x(Object *obj, Visitor *v, const char *name,
 +                                 void *opaque, Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int64_t value;
 +    int64_t reg;
 +    int gm = extract32(s->crb, 5, 3);
 +
 +    if (!visit_type_int(v, name, &value, errp)) {
 +        return;
 +    }
 +
 +    reg = muldiv64(value, xy_gain[gm], 100000);
 +
 +    /* Make sure we are within a 12-bit limit. */
 +    if (reg > 2047 || reg < -2048) {
 +        error_setg(errp, "value %" PRId64 " out of register's range", value);
 +        return;
 +    }
 +
 +    s->x = (int16_t)reg;
 +}
 +
 +static void lsm303dlhc_mag_set_y(Object *obj, Visitor *v, const char *name,
 +                                 void *opaque, Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int64_t value;
 +    int64_t reg;
 +    int gm = extract32(s->crb, 5, 3);
 +
 +    if (!visit_type_int(v, name, &value, errp)) {
 +        return;
 +    }
 +
 +    reg = muldiv64(value, xy_gain[gm], 100000);
 +
 +    /* Make sure we are within a 12-bit limit. */
 +    if (reg > 2047 || reg < -2048) {
 +        error_setg(errp, "value %" PRId64 " out of register's range", value);
 +        return;
 +    }
 +
 +    s->y = (int16_t)reg;
 +}
 +
 +static void lsm303dlhc_mag_set_z(Object *obj, Visitor *v, const char *name,
 +                                 void *opaque, Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int64_t value;
 +    int64_t reg;
 +    int gm = extract32(s->crb, 5, 3);
 +
 +    if (!visit_type_int(v, name, &value, errp)) {
 +        return;
 +    }
 +
 +    reg = muldiv64(value, z_gain[gm], 100000);
 +
 +    /* Make sure we are within a 12-bit limit. */
 +    if (reg > 2047 || reg < -2048) {
 +        error_setg(errp, "value %" PRId64 " out of register's range", value);
 +        return;
 +    }
 +
 +    s->z = (int16_t)reg;
 +}
 +
 +/*
 + * Get handler for the temperature property.
 + */
 +static void lsm303dlhc_mag_get_temperature(Object *obj, Visitor *v,
 +                                           const char *name, void *opaque,
 +                                           Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int64_t value;
 +
 +    /* Convert to 1 lsb = 0.125 C to 1 = 0.001 C for 'temperature' property. */
 +    value = s->temperature * 125;
 +
 +    visit_type_int(v, name, &value, errp);
 +}
 +
 +/*
 + * Set handler for the temperature property.
 + */
 +static void lsm303dlhc_mag_set_temperature(Object *obj, Visitor *v,
 +                                           const char *name, void *opaque,
 +                                           Error **errp)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
 +    int64_t value;
 +
 +    if (!visit_type_int(v, name, &value, errp)) {
 +        return;
 +    }
 +
 +    /* Input temperature is in 0.001 C units. Convert to 1 lsb = 0.125 C. */
 +    value /= 125;
 +
 +    if (value > 2047 || value < -2048) {
 +        error_setg(errp, "value %" PRId64 " lsb is out of range", value);
 +        return;
 +    }
 +
 +    s->temperature = (int16_t)value;
 +}
 +
 +/*
 + * Callback handler whenever a 'I2C_START_RECV' (read) event is received.
 + */
 +static void lsm303dlhc_mag_read(LSM303DLHCMagState *s)
 +{
 +    /*
 +     * Set the LOCK bit whenever a new read attempt is made. This will be
 +     * cleared in I2C_FINISH. Note that DRDY is always set to 1 in this driver.
 +     */
 +    s->sr = 0x3;
 +
 +    /*
 +     * Copy the current X/Y/Z and temp. values into the locked registers so
 +     * that 'mag-x', 'mag-y', 'mag-z' and 'temperature' can continue to be
 +     * updated via QOM, etc., without corrupting the current read event.
 +     */
 +    s->x_lock = s->x;
 +    s->z_lock = s->z;
 +    s->y_lock = s->y;
 +    s->temperature_lock = s->temperature;
 +}
 +
 +/*
 + * Callback handler whenever a 'I2C_FINISH' event is received.
 + */
 +static void lsm303dlhc_mag_finish(LSM303DLHCMagState *s)
 +{
 +    /*
 +     * Clear the LOCK bit when the read attempt terminates.
 +     * This bit is initially set in the I2C_START_RECV handler.
 +     */
 +    s->sr = 0x1;
 +}
 +
 +/*
 + * Callback handler when a device attempts to write to a register.
 + */
 +static void lsm303dlhc_mag_write(LSM303DLHCMagState *s)
 +{
 +    switch (s->pointer) {
 +    case LSM303DLHC_MAG_REG_CRA:
 +        s->cra = s->buf;
 +        break;
 +    case LSM303DLHC_MAG_REG_CRB:
 +        /* Make sure gain is at least 1, falling back to 1 on an error. */
 +        if (s->buf >> 5 == 0) {
 +            s->buf = 1 << 5;
 +        }
 +        s->crb = s->buf;
 +        break;
 +    case LSM303DLHC_MAG_REG_MR:
 +        s->mr = s->buf;
 +        break;
 +    case LSM303DLHC_MAG_REG_SR:
 +        s->sr = s->buf;
 +        break;
 +    case LSM303DLHC_MAG_REG_IRA:
 +        s->ira = s->buf;
 +        break;
 +    case LSM303DLHC_MAG_REG_IRB:
 +        s->irb = s->buf;
 +        break;
 +    case LSM303DLHC_MAG_REG_IRC:
 +        s->irc = s->buf;
 +        break;
 +    default:
 +        qemu_log_mask(LOG_GUEST_ERROR, "reg is read-only: 0x%02X", s->buf);
 +        break;
 +    }
 +}
 +
 +/*
 + * Low-level master-to-slave transaction handler.
 + */
 +static int lsm303dlhc_mag_send(I2CSlave *i2c, uint8_t data)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
 +
 +    if (s->len == 0) {
 +        /* First byte is the reg pointer */
 +        s->pointer = data;
 +        s->len++;
 +    } else if (s->len == 1) {
 +        /* Second byte is the new register value. */
 +        s->buf = data;
 +        lsm303dlhc_mag_write(s);
 +    } else {
 +        g_assert_not_reached();
 +    }
 +
 +    return 0;
 +}
 +
 +/*
 + * Low-level slave-to-master transaction handler (read attempts).
 + */
 +static uint8_t lsm303dlhc_mag_recv(I2CSlave *i2c)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
 +    uint8_t resp;
 +
 +    switch (s->pointer) {
 +    case LSM303DLHC_MAG_REG_CRA:
 +        resp = s->cra;
 +        break;
 +    case LSM303DLHC_MAG_REG_CRB:
 +        resp = s->crb;
 +        break;
 +    case LSM303DLHC_MAG_REG_MR:
 +        resp = s->mr;
 +        break;
 +    case LSM303DLHC_MAG_REG_OUT_X_H:
 +        resp = (uint8_t)(s->x_lock >> 8);
 +        break;
 +    case LSM303DLHC_MAG_REG_OUT_X_L:
 +        resp = (uint8_t)(s->x_lock);
 +        break;
 +    case LSM303DLHC_MAG_REG_OUT_Z_H:
 +        resp = (uint8_t)(s->z_lock >> 8);
 +        break;
 +    case LSM303DLHC_MAG_REG_OUT_Z_L:
 +        resp = (uint8_t)(s->z_lock);
 +        break;
 +    case LSM303DLHC_MAG_REG_OUT_Y_H:
 +        resp = (uint8_t)(s->y_lock >> 8);
 +        break;
 +    case LSM303DLHC_MAG_REG_OUT_Y_L:
 +        resp = (uint8_t)(s->y_lock);
 +        break;
 +    case LSM303DLHC_MAG_REG_SR:
 +        resp = s->sr;
 +        break;
 +    case LSM303DLHC_MAG_REG_IRA:
 +        resp = s->ira;
 +        break;
 +    case LSM303DLHC_MAG_REG_IRB:
 +        resp = s->irb;
 +        break;
 +    case LSM303DLHC_MAG_REG_IRC:
 +        resp = s->irc;
 +        break;
 +    case LSM303DLHC_MAG_REG_TEMP_OUT_H:
 +        /* Check if the temperature sensor is enabled or not (CRA & 0x80). */
 +        if (s->cra & 0x80) {
 +            resp = (uint8_t)(s->temperature_lock >> 8);
 +        } else {
 +            resp = 0;
 +        }
 +        break;
 +    case LSM303DLHC_MAG_REG_TEMP_OUT_L:
 +        if (s->cra & 0x80) {
 +            resp = (uint8_t)(s->temperature_lock & 0xff);
 +        } else {
 +            resp = 0;
 +        }
 +        break;
 +    default:
 +        resp = 0;
 +        break;
 +    }
 +
 +    /*
 +     * The address pointer on the LSM303DLHC auto-increments whenever a byte
 +     * is read, without the master device having to request the next address.
 +     *
 +     * The auto-increment process has the following logic:
 +     *
 +     *   - if (s->pointer == 8) then s->pointer = 3
 +     *   - else: if (s->pointer == 12) then s->pointer = 0
 +     *   - else: s->pointer += 1
 +     *
 +     * Reading an invalid address return 0.
 +     */
 +    if (s->pointer == LSM303DLHC_MAG_REG_OUT_Y_L) {
 +        s->pointer = LSM303DLHC_MAG_REG_OUT_X_H;
 +    } else if (s->pointer == LSM303DLHC_MAG_REG_IRC) {
 +        s->pointer = LSM303DLHC_MAG_REG_CRA;
 +    } else {
 +        s->pointer++;
 +    }
 +
 +    return resp;
 +}
 +
 +/*
 + * Bus state change handler.
 + */
 +static int lsm303dlhc_mag_event(I2CSlave *i2c, enum i2c_event event)
 +{
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
 +
 +    switch (event) {
 +    case I2C_START_SEND:
 +        break;
 +    case I2C_START_RECV:
 +        lsm303dlhc_mag_read(s);
 +        break;
 +    case I2C_FINISH:
 +        lsm303dlhc_mag_finish(s);
 +        break;
 +    case I2C_NACK:
 +        break;
 +    }
 +
 +    s->len = 0;
 +    return 0;
 +}
 +
 +/*
 + * Device data description using VMSTATE macros.
 + */
 +static const VMStateDescription vmstate_lsm303dlhc_mag = {
 +    .name = "LSM303DLHC_MAG",
 +    .version_id = 0,
 +    .minimum_version_id = 0,
 +    .fields = (VMStateField[]) {
 +
 +        VMSTATE_I2C_SLAVE(parent_obj, LSM303DLHCMagState),
 +        VMSTATE_UINT8(len, LSM303DLHCMagState),
 +        VMSTATE_UINT8(buf, LSM303DLHCMagState),
 +        VMSTATE_UINT8(pointer, LSM303DLHCMagState),
 +        VMSTATE_UINT8(cra, LSM303DLHCMagState),
 +        VMSTATE_UINT8(crb, LSM303DLHCMagState),
 +        VMSTATE_UINT8(mr, LSM303DLHCMagState),
 +        VMSTATE_INT16(x, LSM303DLHCMagState),
 +        VMSTATE_INT16(z, LSM303DLHCMagState),
 +        VMSTATE_INT16(y, LSM303DLHCMagState),
 +        VMSTATE_INT16(x_lock, LSM303DLHCMagState),
 +        VMSTATE_INT16(z_lock, LSM303DLHCMagState),
 +        VMSTATE_INT16(y_lock, LSM303DLHCMagState),
 +        VMSTATE_UINT8(sr, LSM303DLHCMagState),
 +        VMSTATE_UINT8(ira, LSM303DLHCMagState),
 +        VMSTATE_UINT8(irb, LSM303DLHCMagState),
 +        VMSTATE_UINT8(irc, LSM303DLHCMagState),
 +        VMSTATE_INT16(temperature, LSM303DLHCMagState),
 +        VMSTATE_INT16(temperature_lock, LSM303DLHCMagState),
 +        VMSTATE_END_OF_LIST()
 +    }
 +};
 +
 +/*
 + * Put the device into post-reset default state.
 + */
 +static void lsm303dlhc_mag_default_cfg(LSM303DLHCMagState *s)
 +{
 +    /* Set the device into is default reset state. */
 +    s->len = 0;
 +    s->pointer = 0;         /* Current register. */
 +    s->buf = 0;             /* Shared buffer. */
 +    s->cra = 0x10;          /* Temp Enabled = 0, Data Rate = 15.0 Hz. */
 +    s->crb = 0x20;          /* Gain = +/- 1.3 Gauss. */
 +    s->mr = 0x3;            /* Operating Mode = Sleep. */
 +    s->x = 0;
 +    s->z = 0;
 +    s->y = 0;
 +    s->x_lock = 0;
 +    s->z_lock = 0;
 +    s->y_lock = 0;
 +    s->sr = 0x1;            /* DRDY = 1. */
 +    s->ira = 0x48;
 +    s->irb = 0x34;
 +    s->irc = 0x33;
 +    s->temperature = 0;     /* Default to 0 degrees C (0/8 lsb = 0 C). */
 +    s->temperature_lock = 0;
 +}
 +
 +/*
 + * Callback handler when DeviceState 'reset' is set to true.
 + */
 +static void lsm303dlhc_mag_reset(DeviceState *dev)
 +{
 +    I2CSlave *i2c = I2C_SLAVE(dev);
 +    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
 +
 +    /* Set the device into its default reset state. */
 +    lsm303dlhc_mag_default_cfg(s);
 +}
 +
 +/*
 + * Initialisation of any public properties.
 + */
 +static void lsm303dlhc_mag_initfn(Object *obj)
 +{
 +    object_property_add(obj, "mag-x", "int",
 +                lsm303dlhc_mag_get_x,
 +                lsm303dlhc_mag_set_x, NULL, NULL);
 +
 +    object_property_add(obj, "mag-y", "int",
 +                lsm303dlhc_mag_get_y,
 +                lsm303dlhc_mag_set_y, NULL, NULL);
 +
 +    object_property_add(obj, "mag-z", "int",
 +                lsm303dlhc_mag_get_z,
 +                lsm303dlhc_mag_set_z, NULL, NULL);
 +
 +    object_property_add(obj, "temperature", "int",
 +                lsm303dlhc_mag_get_temperature,
 +                lsm303dlhc_mag_set_temperature, NULL, NULL);
 +}
 +
 +/*
 + * Set the virtual method pointers (bus state change, tx/rx, etc.).
 + */
 +static void lsm303dlhc_mag_class_init(ObjectClass *klass, void *data)
 +{
 +    DeviceClass *dc = DEVICE_CLASS(klass);
 +    I2CSlaveClass *k = I2C_SLAVE_CLASS(klass);
 +
 +    dc->reset = lsm303dlhc_mag_reset;
 +    dc->vmsd = &vmstate_lsm303dlhc_mag;
 +    k->event = lsm303dlhc_mag_event;
 +    k->recv = lsm303dlhc_mag_recv;
 +    k->send = lsm303dlhc_mag_send;
 +}
 +
 +static const TypeInfo lsm303dlhc_mag_info = {
 +    .name = TYPE_LSM303DLHC_MAG,
 +    .parent = TYPE_I2C_SLAVE,
 +    .instance_size = sizeof(LSM303DLHCMagState),
 +    .instance_init = lsm303dlhc_mag_initfn,
 +    .class_init = lsm303dlhc_mag_class_init,
 +};
 +
 +static void lsm303dlhc_mag_register_types(void)
 +{
 +    type_register_static(&lsm303dlhc_mag_info);
 +}
 +
 +type_init(lsm303dlhc_mag_register_types)
 diff --git a/tests/qtest/lsm303dlhc-mag-test.c b/tests/qtest/lsm303dlhc-mag-test.c
 new file mode 100644
 index XXXXXXX..XXXXXXX
 --- /dev/null
-+++ b/hw/acpi/ghes.c
++++ b/tests/qtest/lsm303dlhc-mag-test.c
 @@ -XXX,XX +XXX,XX @@
 +/*
-+ * Support for generating APEI tables and recording CPER for Guests
++ * QTest testcase for the LSM303DLHC I2C magnetometer
 + *
-+ * Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
++ * Copyright (C) 2021 Linaro Ltd.
 + * Written by Kevin Townsend <kevin.townsend@linaro.org>
 + *
-+ * Author: Dongjiu Geng <gengdongjiu@huawei.com>
++ * Based on: https://www.st.com/resource/en/datasheet/lsm303dlhc.pdf
 + *
-+ * This program is free software; you can redistribute it and/or modify
++ * SPDX-License-Identifier: GPL-2.0-or-later
 + * it under the terms of the GNU General Public License as published by
 + * the Free Software Foundation; either version 2 of the License, or
 + * (at your option) any later version.
 +
 + * This program is distributed in the hope that it will be useful,
 + * but WITHOUT ANY WARRANTY; without even the implied warranty of
 + * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 + * GNU General Public License for more details.
 +
 + * You should have received a copy of the GNU General Public License along
 + * with this program; if not, see <http://www.gnu.org/licenses/>.
 + */
 +
 +#include "qemu/osdep.h"
-+#include "qemu/units.h"
++#include "libqtest-single.h"
-+#include "hw/acpi/ghes.h"
++#include "libqos/qgraph.h"
-+#include "hw/acpi/aml-build.h"
++#include "libqos/i2c.h"
-+
++#include "qapi/qmp/qdict.h"
-+#define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
++
-+#define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
++#define LSM303DLHC_MAG_TEST_ID        "lsm303dlhc_mag-test"
-+
++#define LSM303DLHC_MAG_REG_CRA        0x00
-+/* The max size in bytes for one error block */
++#define LSM303DLHC_MAG_REG_CRB        0x01
-+#define ACPI_GHES_MAX_RAW_DATA_LENGTH   (1 * KiB)
++#define LSM303DLHC_MAG_REG_OUT_X_H    0x03
-+
++#define LSM303DLHC_MAG_REG_OUT_Z_H    0x05
-+/* Now only support ARMv8 SEA notification type error source */
++#define LSM303DLHC_MAG_REG_OUT_Y_H    0x07
-+#define ACPI_GHES_ERROR_SOURCE_COUNT        1
++#define LSM303DLHC_MAG_REG_IRC        0x0C
-+
++#define LSM303DLHC_MAG_REG_TEMP_OUT_H 0x31
-+/*
++
-+ * Build table for the hardware error fw_cfg blob.
++static int qmp_lsm303dlhc_mag_get_property(const char *id, const char *prop)
-+ * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
++{
-+ * See docs/specs/acpi_hest_ghes.rst for blobs format.
++    QDict *response;
-+ */
++    int ret;
-+void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker)
++
-+{
++    response = qmp("{ 'execute': 'qom-get', 'arguments': { 'path': %s, "
-+    int i, error_status_block_offset;
++                   "'property': %s } }", id, prop);
-+
++    g_assert(qdict_haskey(response, "return"));
-+    /* Build error_block_address */
++    ret = qdict_get_int(response, "return");
-+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
++    qobject_unref(response);
-+        build_append_int_noprefix(hardware_errors, 0, sizeof(uint64_t));
++    return ret;
-+    }
++}
 +
-+    /* Build read_ack_register */
++static void qmp_lsm303dlhc_mag_set_property(const char *id, const char *prop,
-+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
++                                            int value)
-+        /*
++{
-+         * Initialize the value of read_ack_register to 1, so GHES can be
++    QDict *response;
-+         * writeable after (re)boot.
++
-+         * ACPI 6.2: 18.3.2.8 Generic Hardware Error Source version 2
++    response = qmp("{ 'execute': 'qom-set', 'arguments': { 'path': %s, "
-+         * (GHESv2 - Type 10)
++                   "'property': %s, 'value': %d } }", id, prop, value);
-+         */
++    g_assert(qdict_haskey(response, "return"));
-+        build_append_int_noprefix(hardware_errors, 1, sizeof(uint64_t));
++    qobject_unref(response);
-+    }
++}
 +
-+    /* Generic Error Status Block offset in the hardware error fw_cfg blob */
++static void send_and_receive(void *obj, void *data, QGuestAllocator *alloc)
-+    error_status_block_offset = hardware_errors->len;
++{
-+
++    int64_t value;
-+    /* Reserve space for Error Status Data Block */
++    QI2CDevice *i2cdev = (QI2CDevice *)obj;
-+    acpi_data_push(hardware_errors,
++
-+        ACPI_GHES_MAX_RAW_DATA_LENGTH * ACPI_GHES_ERROR_SOURCE_COUNT);
++    /* Check default value for CRB */
-+
++    g_assert_cmphex(i2c_get8(i2cdev, LSM303DLHC_MAG_REG_CRB), ==, 0x20);
-+    /* Tell guest firmware to place hardware_errors blob into RAM */
++
-+    bios_linker_loader_alloc(linker, ACPI_GHES_ERRORS_FW_CFG_FILE,
++    /* Set x to 1.0 gauss and verify the value */
-+                             hardware_errors, sizeof(uint64_t), false);
++    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-x", 100000);
-+
++    value = qmp_lsm303dlhc_mag_get_property(
-+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
++        LSM303DLHC_MAG_TEST_ID, "mag-x");
-+        /*
++    g_assert_cmpint(value, ==, 100000);
-+         * Tell firmware to patch error_block_address entries to point to
++
-+         * corresponding "Generic Error Status Block"
++    /* Set y to 1.5 gauss and verify the value */
-+         */
++    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-y", 150000);
-+        bios_linker_loader_add_pointer(linker,
++    value = qmp_lsm303dlhc_mag_get_property(
-+            ACPI_GHES_ERRORS_FW_CFG_FILE, sizeof(uint64_t) * i,
++        LSM303DLHC_MAG_TEST_ID, "mag-y");
-+            sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE,
++    g_assert_cmpint(value, ==, 150000);
-+            error_status_block_offset + i * ACPI_GHES_MAX_RAW_DATA_LENGTH);
++
-+    }
++    /* Set z to 0.5 gauss and verify the value */
-+
++    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-z", 50000);
-+    /*
++    value = qmp_lsm303dlhc_mag_get_property(
-+     * tell firmware to write hardware_errors GPA into
++        LSM303DLHC_MAG_TEST_ID, "mag-z");
-+     * hardware_errors_addr fw_cfg, once the former has been initialized.
++    g_assert_cmpint(value, ==, 50000);
-+     */
++
-+    bios_linker_loader_write_pointer(linker, ACPI_GHES_DATA_ADDR_FW_CFG_FILE,
++    /* Set temperature to 23.6 C and verify the value */
-+        0, sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE, 0);
++    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID,
-+}
++        "temperature", 23600);
-diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
++    value = qmp_lsm303dlhc_mag_get_property(
 +        LSM303DLHC_MAG_TEST_ID, "temperature");
 +    /* Should return 23.5 C due to 0.125°C steps. */
 +    g_assert_cmpint(value, ==, 23500);
 +
 +    /* Read raw x axis registers (1 gauss = 1100 at +/-1.3 g gain) */
 +    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_OUT_X_H);
 +    g_assert_cmphex(value, ==, 1100);
 +
 +    /* Read raw y axis registers (1.5 gauss = 1650 at +/- 1.3 g gain = ) */
 +    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_OUT_Y_H);
 +    g_assert_cmphex(value, ==, 1650);
 +
 +    /* Read raw z axis registers (0.5 gauss = 490 at +/- 1.3 g gain = ) */
 +    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_OUT_Z_H);
 +    g_assert_cmphex(value, ==, 490);
 +
 +    /* Read raw temperature registers with temp disabled (CRA = 0x10) */
 +    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_TEMP_OUT_H);
 +    g_assert_cmphex(value, ==, 0);
 +
 +    /* Enable temperature reads (CRA = 0x90) */
 +    i2c_set8(i2cdev, LSM303DLHC_MAG_REG_CRA, 0x90);
 +
 +    /* Read raw temp registers (23.5 C = 188 at 1 lsb = 0.125 C) */
 +    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_TEMP_OUT_H);
 +    g_assert_cmphex(value, ==, 188);
 +}
 +
 +static void reg_wraparound(void *obj, void *data, QGuestAllocator *alloc)
 +{
 +    uint8_t value[4];
 +    QI2CDevice *i2cdev = (QI2CDevice *)obj;
 +
 +    /* Set x to 1.0 gauss, and y to 1.5 gauss for known test values */
 +    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-x", 100000);
 +    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-y", 150000);
 +
 +    /* Check that requesting 4 bytes starting at Y_H wraps around to X_L */
 +    i2c_read_block(i2cdev, LSM303DLHC_MAG_REG_OUT_Y_H, value, 4);
 +    /* 1.5 gauss = 1650 lsb = 0x672 */
 +    g_assert_cmphex(value[0], ==, 0x06);
 +    g_assert_cmphex(value[1], ==, 0x72);
 +    /* 1.0 gauss = 1100 lsb = 0x44C */
 +    g_assert_cmphex(value[2], ==, 0x04);
 +    g_assert_cmphex(value[3], ==, 0x4C);
 +
 +    /* Check that requesting LSM303DLHC_MAG_REG_IRC wraps around to CRA */
 +    i2c_read_block(i2cdev, LSM303DLHC_MAG_REG_IRC, value, 2);
 +    /* Default value for IRC = 0x33 */
 +    g_assert_cmphex(value[0], ==, 0x33);
 +    /* Default value for CRA = 0x10 */
 +    g_assert_cmphex(value[1], ==, 0x10);
 +}
 +
 +static void lsm303dlhc_mag_register_nodes(void)
 +{
 +    QOSGraphEdgeOptions opts = {
 +        .extra_device_opts = "id=" LSM303DLHC_MAG_TEST_ID ",address=0x1e"
 +    };
 +    add_qi2c_address(&opts, &(QI2CAddress) { 0x1E });
 +
 +    qos_node_create_driver("lsm303dlhc_mag", i2c_device_create);
 +    qos_node_consumes("lsm303dlhc_mag", "i2c-bus", &opts);
 +
 +    qos_add_test("tx-rx", "lsm303dlhc_mag", send_and_receive, NULL);
 +    qos_add_test("regwrap", "lsm303dlhc_mag", reg_wraparound, NULL);
 +}
 +libqos_init(lsm303dlhc_mag_register_nodes);
 diff --git a/hw/sensor/Kconfig b/hw/sensor/Kconfig
 index XXXXXXX..XXXXXXX 100644
---- a/hw/arm/virt-acpi-build.c
+--- a/hw/sensor/Kconfig
-+++ b/hw/arm/virt-acpi-build.c
++++ b/hw/sensor/Kconfig
-@@ -XXX,XX +XXX,XX @@
+@@ -XXX,XX +XXX,XX @@ config ADM1272
- #include "sysemu/reset.h"
+ config MAX34451
- #include "kvm_arm.h"
+     bool
- #include "migration/vmstate.h"
+     depends on I2C
-+#include "hw/acpi/ghes.h"
++
++config LSM303DLHC_MAG
- #define ARM_SPI_BASE 32
++    bool
++    depends on I2C
-@@ -XXX,XX +XXX,XX @@ void virt_acpi_build(VirtMachineState *vms, AcpiBuildTables *tables)
+diff --git a/hw/sensor/meson.build b/hw/sensor/meson.build
      acpi_add_table(table_offsets, tables_blob);
      build_spcr(tables_blob, tables->linker, vms);
 +    if (vms->ras) {
 +        build_ghes_error_table(tables->hardware_errors, tables->linker);
 +    }
 +
      if (ms->numa_state->num_nodes > 0) {
          acpi_add_table(table_offsets, tables_blob);
          build_srat(tables_blob, tables->linker, vms);
 diff --git a/hw/acpi/Kconfig b/hw/acpi/Kconfig
 index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/Kconfig
+--- a/hw/sensor/meson.build
-+++ b/hw/acpi/Kconfig
++++ b/hw/sensor/meson.build
-@@ -XXX,XX +XXX,XX @@ config ACPI_HMAT
+@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_DPS310', if_true: files('dps310.c'))
-     bool
+ softmmu_ss.add(when: 'CONFIG_EMC141X', if_true: files('emc141x.c'))
-     depends on ACPI
+ softmmu_ss.add(when: 'CONFIG_ADM1272', if_true: files('adm1272.c'))
+ softmmu_ss.add(when: 'CONFIG_MAX34451', if_true: files('max34451.c'))
-+config ACPI_APEI
++softmmu_ss.add(when: 'CONFIG_LSM303DLHC_MAG', if_true: files('lsm303dlhc_mag.c'))
-+    bool
+diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
 +    depends on ACPI
 +
  config ACPI_PCI
      bool
      depends on ACPI && PCI
 diff --git a/hw/acpi/Makefile.objs b/hw/acpi/Makefile.objs
 index XXXXXXX..XXXXXXX 100644
---- a/hw/acpi/Makefile.objs
+--- a/tests/qtest/meson.build
-+++ b/hw/acpi/Makefile.objs
++++ b/tests/qtest/meson.build
-@@ -XXX,XX +XXX,XX @@ common-obj-$(CONFIG_ACPI_NVDIMM) += nvdimm.o
+@@ -XXX,XX +XXX,XX @@ qos_test_ss.add(
- common-obj-$(CONFIG_ACPI_VMGENID) += vmgenid.o
+   'eepro100-test.c',
- common-obj-$(CONFIG_ACPI_HW_REDUCED) += generic_event_device.o
+   'es1370-test.c',
- common-obj-$(CONFIG_ACPI_HMAT) += hmat.o
+   'ipoctal232-test.c',
-+common-obj-$(CONFIG_ACPI_APEI) += ghes.o
++  'lsm303dlhc-mag-test.c',
- common-obj-$(call lnot,$(CONFIG_ACPI_X86)) += acpi-stub.o
+   'max34451-test.c',
- common-obj-$(call lnot,$(CONFIG_PC)) += acpi-x86-stub.o
+   'megasas-test.c',
+   'ne2000-test.c',
 --
-.20.1
+.25.1

-[PULL 28/45] MAINTAINERS: Add ACPI/HEST/GHES entries
+Deleted patch
-From: Dongjiu Geng <gengdongjiu@huawei.com>
-I and Xiang are willing to review the APEI-related patches and
-volunteer as the reviewers for the HEST/GHES part.
-Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
-Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
-Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
-Acked-by: Michael S. Tsirkin <mst@redhat.com>
-Message-id: 20200512030609.19593-11-gengdongjiu@huawei.com
-Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
----
- MAINTAINERS | 9 +++++++++
-file changed, 9 insertions(+)
-diff --git a/MAINTAINERS b/MAINTAINERS
-index XXXXXXX..XXXXXXX 100644
---- a/MAINTAINERS
-+++ b/MAINTAINERS
-@@ -XXX,XX +XXX,XX @@ F: tests/qtest/bios-tables-test.c
- F: tests/qtest/acpi-utils.[hc]
- F: tests/data/acpi/
-+ACPI/HEST/GHES
-+R: Dongjiu Geng <gengdongjiu@huawei.com>
-+R: Xiang Zheng <zhengxiang9@huawei.com>
-+L: qemu-arm@nongnu.org
-+S: Maintained
-+F: hw/acpi/ghes.c
-+F: include/hw/acpi/ghes.h
-+F: docs/specs/acpi_hest_ghes.rst
-+
- ppc4xx
- M: David Gibson <david@gibson.dropbear.id.au>
- L: qemu-ppc@nongnu.org
---
-.20.1

Mostly this is patches from me and RTH cleaning up and doing
more decodetree conversion for AArch32 Neon. The major new feature
is Dongjiu Geng's patchset to report host memory errors to KVM guests;
also a new aspeed board from Patrick Williams.

thanks
-- PMM

The following changes since commit 035b448b84f3557206abc44d786c5d3db2638f7d:

Merge remote-tracking branch 'remotes/gkurz/tags/9p-next-2020-05-14' into staging (2020-05-14 10:58:30 +0100)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20200514

for you to fetch changes up to e95485f85657be21135c17a9226e297c21e73360:

target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree (2020-05-14 15:03:09 +0100)

----------------------------------------------------------------
target-arm queue:
 * target/arm: Use correct GDB XML for M-profile cores
 * target/arm: Code cleanup to use gvec APIs better
 * aspeed: Add support for the sonorapass-bmc board
 * target/arm: Support reporting KVM host memory errors
   to the guest via ACPI notifications
 * target/arm: Finish conversion of Neon 3-reg-same insns to decodetree

----------------------------------------------------------------
Dongjiu Geng (10):
      acpi: nvdimm: change NVDIMM_UUID_LE to a common macro
      hw/arm/virt: Introduce a RAS machine option
      docs: APEI GHES generation and CPER record description
      ACPI: Build related register address fields via hardware error fw_cfg blob
      ACPI: Build Hardware Error Source Table
      ACPI: Record the Generic Error Status Block address
      KVM: Move hwpoison page related functions into kvm-all.c
      ACPI: Record Generic Error Status Block(GESB) table
      target-arm: kvm64: handle SIGBUS signal from kernel or KVM
      MAINTAINERS: Add ACPI/HEST/GHES entries

Patrick Williams (1):
      aspeed: Add support for the sonorapass-bmc board

Peter Maydell (18):
      target/arm: Use correct GDB XML for M-profile cores
      target/arm: Convert Neon 3-reg-same VQRDMLAH/VQRDMLSH to decodetree
      target/arm: Convert Neon 3-reg-same SHA to decodetree
      target/arm: Convert Neon 64-bit element 3-reg-same insns
      target/arm: Convert Neon VHADD 3-reg-same insns
      target/arm: Convert Neon VABA/VABD 3-reg-same to decodetree
      target/arm: Convert Neon VRHADD, VHSUB 3-reg-same insns to decodetree
      target/arm: Convert Neon VQSHL, VRSHL, VQRSHL 3-reg-same insns to decodetree
      target/arm: Convert Neon VPMAX/VPMIN 3-reg-same insns to decodetree
      target/arm: Convert Neon VPADD 3-reg-same insns to decodetree
      target/arm: Convert Neon VQDMULH/VQRDMULH 3-reg-same to decodetree
      target/arm: Convert Neon VADD, VSUB, VABD 3-reg-same insns to decodetree
      target/arm: Convert Neon VPMIN/VPMAX/VPADD float 3-reg-same insns to decodetree
      target/arm: Convert Neon fp VMUL, VMLA, VMLS 3-reg-same insns to decodetree
      target/arm: Convert Neon 3-reg-same compare insns to decodetree
      target/arm: Move 'env' argument of recps_f32 and rsqrts_f32 helpers to usual place
      target/arm: Convert Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS to decodetree
      target/arm: Convert NEON VFMA, VFMS 3-reg-same insns to decodetree

Richard Henderson (16):
      target/arm: Create gen_gvec_[us]sra
      target/arm: Create gen_gvec_{u,s}{rshr,rsra}
      target/arm: Create gen_gvec_{sri,sli}
      target/arm: Remove unnecessary range check for VSHL
      target/arm: Tidy handle_vec_simd_shri
      target/arm: Create gen_gvec_{ceq,clt,cle,cgt,cge}0
      target/arm: Create gen_gvec_{mla,mls}
      target/arm: Swap argument order for VSHL during decode
      target/arm: Create gen_gvec_{cmtst,ushl,sshl}
      target/arm: Create gen_gvec_{uqadd, sqadd, uqsub, sqsub}
      target/arm: Remove fp_status from helper_{recpe, rsqrte}_u32
      target/arm: Create gen_gvec_{qrdmla,qrdmls}
      target/arm: Pass pointer to qc to qrdmla/qrdmls
      target/arm: Clear tail in gvec_fmul_idx_*, gvec_fmla_idx_*
      target/arm: Vectorize SABD/UABD
      target/arm: Vectorize SABA/UABA

GDB's remote protocol requires M-profile cores to use the feature
name 'org.gnu.gdb.arm.m-profile' instead of the 'org.gnu.gdb.arm.core'
feature used for A- and R-profile cores. We weren't doing this, which
meant GDB treated our M-profile cores like A-profile ones. This mostly
doesn't matter, but for instance means that it doesn't correctly
handle backtraces where an M-profile exception frame is involved.

Ship a copy of GDB's arm-m-profile.xml and use it on the M-profile
cores.  The integer registers have the same offsets as the
arm-core.xml, but register 25 is the M-profile XPSR rather than the
A-profile CPSR, so we need to update arm_cpu_gdb_read_register() and
arm_cpu_gdb_write_register() to handle XSPR reads and writes.

Fixes: https://bugs.launchpad.net/qemu/+bug/1877136
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Message-id: 20200507134755.13997-1-peter.maydell@linaro.org
---
 configure                 |  4 ++--
 target/arm/cpu_tcg.c      |  1 +
 target/arm/gdbstub.c      | 22 ++++++++++++++++++----
 gdb-xml/arm-m-profile.xml | 27 +++++++++++++++++++++++++++
 4 files changed, 48 insertions(+), 6 deletions(-)
 create mode 100644 gdb-xml/arm-m-profile.xml

diff --git a/configure b/configure
index XXXXXXX..XXXXXXX 100755
--- a/configure
+++ b/configure
@@ -XXX,XX +XXX,XX @@ case "$target_name" in
     TARGET_SYSTBL_ABI=common,oabi
     bflt="yes"
     mttcg="yes"
-    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
+    gdb_xml_files="arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
   ;;
   aarch64|aarch64_be)
     TARGET_ARCH=aarch64
     TARGET_BASE_ARCH=arm
     bflt="yes"
     mttcg="yes"
-    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml"
+    gdb_xml_files="aarch64-core.xml aarch64-fpu.xml arm-core.xml arm-vfp.xml arm-vfp3.xml arm-neon.xml arm-m-profile.xml"
   ;;
   cris)
   ;;
diff --git a/target/arm/cpu_tcg.c b/target/arm/cpu_tcg.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu_tcg.c
+++ b/target/arm/cpu_tcg.c
@@ -XXX,XX +XXX,XX @@ static void arm_v7m_class_init(ObjectClass *oc, void *data)
 #endif
 
     cc->cpu_exec_interrupt = arm_v7m_cpu_exec_interrupt;
+    cc->gdb_core_xml_file = "arm-m-profile.xml";
 }
 
 static const ARMCPUInfo arm_tcg_cpus[] = {
diff --git a/target/arm/gdbstub.c b/target/arm/gdbstub.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/gdbstub.c
+++ b/target/arm/gdbstub.c
@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_read_register(CPUState *cs, GByteArray *mem_buf, int n)
         }
         return gdb_get_reg32(mem_buf, 0);
     case 25:
-        /* CPSR */
-        return gdb_get_reg32(mem_buf, cpsr_read(env));
+        /* CPSR, or XPSR for M-profile */
+        if (arm_feature(env, ARM_FEATURE_M)) {
+            return gdb_get_reg32(mem_buf, xpsr_read(env));
+        } else {
+            return gdb_get_reg32(mem_buf, cpsr_read(env));
+        }
     }
     /* Unknown register.  */
     return 0;
@@ -XXX,XX +XXX,XX @@ int arm_cpu_gdb_write_register(CPUState *cs, uint8_t *mem_buf, int n)
         }
         return 4;
     case 25:
-        /* CPSR */
-        cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
+        /* CPSR, or XPSR for M-profile */
+        if (arm_feature(env, ARM_FEATURE_M)) {
+            /*
+             * Don't allow writing to XPSR.Exception as it can cause
+             * a transition into or out of handler mode (it's not
+             * writeable via the MSR insn so this is a reasonable
+             * restriction). Other fields are safe to update.
+             */
+            xpsr_write(env, tmp, ~XPSR_EXCP);
+        } else {
+            cpsr_write(env, tmp, 0xffffffff, CPSRWriteByGDBStub);
+        }
         return 4;
     }
     /* Unknown register.  */
diff --git a/gdb-xml/arm-m-profile.xml b/gdb-xml/arm-m-profile.xml
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/gdb-xml/arm-m-profile.xml
@@ -XXX,XX +XXX,XX @@
+<?xml version="1.0"?>
+
+
+<!DOCTYPE feature SYSTEM "gdb-target.dtd">
+<feature name="org.gnu.gdb.arm.m-profile">
+  <reg name="r0" bitsize="32"/>
+  <reg name="r1" bitsize="32"/>
+  <reg name="r2" bitsize="32"/>
+  <reg name="r3" bitsize="32"/>
+  <reg name="r4" bitsize="32"/>
+  <reg name="r5" bitsize="32"/>
+  <reg name="r6" bitsize="32"/>
+  <reg name="r7" bitsize="32"/>
+  <reg name="r8" bitsize="32"/>
+  <reg name="r9" bitsize="32"/>
+  <reg name="r10" bitsize="32"/>
+  <reg name="r11" bitsize="32"/>
+  <reg name="r12" bitsize="32"/>
+  <reg name="sp" bitsize="32" type="data_ptr"/>
+  <reg name="lr" bitsize="32"/>
+  <reg name="pc" bitsize="32" type="code_ptr"/>
+  <reg name="xpsr" bitsize="32" regnum="25"/>
+</feature>
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The functions eliminate duplication of the special cases for
this operation.  They match up with the GVecGen2iFn typedef.

Add out-of-line helpers.  We got away with only having inline
expanders because the neon vector size is only 16 bytes, and
we know that the inline expansion will always succeed.
When we reuse this for SVE, tcg-gvec-op may decide to use an
out-of-line helper due to longer vector lengths.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h        |  10 +++
 target/arm/translate.h     |   7 +-
 target/arm/translate-a64.c |  15 +---
 target/arm/translate.c     | 161 ++++++++++++++++++++++---------------
 target/arm/vec_helper.c    |  25 ++++++
 5 files changed, 139 insertions(+), 79 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Create vectorized versions of handle_shri_with_rndacc
for shift+round and shift+round+accumulate.  Add out-of-line
helpers in preparation for longer vector lengths from SVE.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h        |  20 ++
 target/arm/translate.h     |   9 +
 target/arm/translate-a64.c |  11 +-
 target/arm/translate.c     | 463 +++++++++++++++++++++++++++++++++++--
 target/arm/vec_helper.c    |  50 ++++
 5 files changed, 527 insertions(+), 26 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(gvec_usra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 DEF_HELPER_FLAGS_3(gvec_usra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 DEF_HELPER_FLAGS_3(gvec_usra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_3(gvec_srshr_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_srshr_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_srshr_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_srshr_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_urshr_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_urshr_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_urshr_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_urshr_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_srsra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_srsra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_srsra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_srsra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_3(gvec_ursra_b, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_ursra_h, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_ursra_s, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+DEF_HELPER_FLAGS_3(gvec_ursra_d, TCG_CALL_NO_RWG, void, ptr, ptr, i32)
+
 #ifdef TARGET_AARCH64
 #include "helper-a64.h"
 #include "helper-sve.h"
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
 void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 
+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
+
 /*
  * Forward to the isar_feature_* tests given a DisasContext pointer.
  */
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
         return;
 
     case 0x04: /* SRSHR / URSHR (rounding) */
-        break;
+        gen_gvec_fn2i(s, is_q, rd, rn, shift,
+                      is_u ? gen_gvec_urshr : gen_gvec_srshr, size);
+        return;
+
     case 0x06: /* SRSRA / URSRA (accum + rounding) */
-        accumulate = true;
-        break;
+        gen_gvec_fn2i(s, is_q, rd, rn, shift,
+                      is_u ? gen_gvec_ursra : gen_gvec_srsra, size);
+        return;
+
     default:
         g_assert_not_reached();
     }
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
     }
 }
 
+/*
+ * Shift one less than the requested amount, and the low bit is
+ * the rounding bit.  For the 8 and 16-bit operations, because we
+ * mask the low bit, we can perform a normal integer shift instead
+ * of a vector shift.
+ */
+static void gen_srshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_sar8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_srshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_sar16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_srshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_sari_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+    tcg_temp_free_i32(t);
+}
+
+static void gen_srshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_sari_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_srshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, sh - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_sari_vec(vece, d, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+
+    tcg_temp_free_vec(t);
+    tcg_temp_free_vec(ones);
+}
+
+void gen_gvec_srshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srshr8_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_srshr16_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_srshr32_i32,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_srshr64_i64,
+          .fniv = gen_srshr_vec,
+          .fno = gen_helper_gvec_srshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Signed results in all sign bits.  With rounding, this produces
+         *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+         * I.e. always zero.
+         */
+        tcg_gen_gvec_dup_imm(vece, rd_ofs, opr_sz, max_sz, 0);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_srsra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr8_i64(t, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_srsra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr16_i64(t, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_srsra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    gen_srshr32_i32(t, a, sh);
+    tcg_gen_add_i32(d, d, t);
+    tcg_temp_free_i32(t);
+}
+
+static void gen_srsra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    gen_srshr64_i64(t, a, sh);
+    tcg_gen_add_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_srsra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    gen_srshr_vec(vece, t, a, sh);
+    tcg_gen_add_vec(vece, d, d, t);
+    tcg_temp_free_vec(t);
+}
+
+void gen_gvec_srsra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_sari_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_srsra8_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_srsra16_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_srsra32_i32,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_srsra64_i64,
+          .fniv = gen_srsra_vec,
+          .fno = gen_helper_gvec_srsra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    /*
+     * Shifts larger than the element size are architecturally valid.
+     * Signed results in all sign bits.  With rounding, this produces
+     *   (-1 + 1) >> 1 == 0, or (0 + 1) >> 1 == 0.
+     * I.e. always zero.  With accumulation, this leaves D unchanged.
+     */
+    if (shift == (8 << vece)) {
+        /* Nop, but we do need to clear the tail. */
+        tcg_gen_gvec_mov(vece, rd_ofs, rd_ofs, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_urshr8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_8, 1));
+    tcg_gen_vec_shr8i_i64(d, a, sh);
+    tcg_gen_vec_add8_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_urshr16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_shri_i64(t, a, sh - 1);
+    tcg_gen_andi_i64(t, t, dup_const(MO_16, 1));
+    tcg_gen_vec_shr16i_i64(d, a, sh);
+    tcg_gen_vec_add16_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_urshr32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    tcg_gen_extract_i32(t, a, sh - 1, 1);
+    tcg_gen_shri_i32(d, a, sh);
+    tcg_gen_add_i32(d, d, t);
+    tcg_temp_free_i32(t);
+}
+
+static void gen_urshr64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    tcg_gen_extract_i64(t, a, sh - 1, 1);
+    tcg_gen_shri_i64(d, a, sh);
+    tcg_gen_add_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_urshr_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t shift)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    TCGv_vec ones = tcg_temp_new_vec_matching(d);
+
+    tcg_gen_shri_vec(vece, t, a, shift - 1);
+    tcg_gen_dupi_vec(vece, ones, 1);
+    tcg_gen_and_vec(vece, t, t, ones);
+    tcg_gen_shri_vec(vece, d, a, shift);
+    tcg_gen_add_vec(vece, d, d, t);
+
+    tcg_temp_free_vec(t);
+    tcg_temp_free_vec(ones);
+}
+
+void gen_gvec_urshr(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_urshr8_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni8 = gen_urshr16_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_urshr32_i32,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_s,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_urshr64_i64,
+          .fniv = gen_urshr_vec,
+          .fno = gen_helper_gvec_urshr_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    if (shift == (8 << vece)) {
+        /*
+         * Shifts larger than the element size are architecturally valid.
+         * Unsigned results in zero.  With rounding, this produces a
+         * copy of the most significant bit.
+         */
+        tcg_gen_gvec_shri(vece, rd_ofs, rm_ofs, shift - 1, opr_sz, max_sz);
+    } else {
+        tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+    }
+}
+
+static void gen_ursra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 8) {
+        tcg_gen_vec_shr8i_i64(t, a, 7);
+    } else {
+        gen_urshr8_i64(t, a, sh);
+    }
+    tcg_gen_vec_add8_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_ursra16_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 16) {
+        tcg_gen_vec_shr16i_i64(t, a, 15);
+    } else {
+        gen_urshr16_i64(t, a, sh);
+    }
+    tcg_gen_vec_add16_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_ursra32_i32(TCGv_i32 d, TCGv_i32 a, int32_t sh)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+
+    if (sh == 32) {
+        tcg_gen_shri_i32(t, a, 31);
+    } else {
+        gen_urshr32_i32(t, a, sh);
+    }
+    tcg_gen_add_i32(d, d, t);
+    tcg_temp_free_i32(t);
+}
+
+static void gen_ursra64_i64(TCGv_i64 d, TCGv_i64 a, int64_t sh)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+
+    if (sh == 64) {
+        tcg_gen_shri_i64(t, a, 63);
+    } else {
+        gen_urshr64_i64(t, a, sh);
+    }
+    tcg_gen_add_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_ursra_vec(unsigned vece, TCGv_vec d, TCGv_vec a, int64_t sh)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+
+    if (sh == (8 << vece)) {
+        tcg_gen_shri_vec(vece, t, a, sh - 1);
+    } else {
+        gen_urshr_vec(vece, t, a, sh);
+    }
+    tcg_gen_add_vec(vece, d, d, t);
+    tcg_temp_free_vec(t);
+}
+
+void gen_gvec_ursra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                    int64_t shift, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_shri_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen2i ops[4] = {
+        { .fni8 = gen_ursra8_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fni8 = gen_ursra16_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_ursra32_i32,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_ursra64_i64,
+          .fniv = gen_ursra_vec,
+          .fno = gen_helper_gvec_ursra_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+
+    /* tszimm encoding produces immediates in the range [1..esize] */
+    tcg_debug_assert(shift > 0);
+    tcg_debug_assert(shift <= (8 << vece));
+
+    tcg_gen_gvec_2i(rd_ofs, rm_ofs, opr_sz, max_sz, shift, &ops[vece]);
+}
+
 static void gen_shr8_ins_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 {
     uint64_t mask = dup_const(MO_8, 0xff >> shift);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     }
                     return 0;
 
+                case 2: /* VRSHR */
+                    /* Right shift comes here negative.  */
+                    shift = -shift;
+                    if (u) {
+                        gen_gvec_urshr(size, rd_ofs, rm_ofs, shift,
+                                       vec_size, vec_size);
+                    } else {
+                        gen_gvec_srshr(size, rd_ofs, rm_ofs, shift,
+                                       vec_size, vec_size);
+                    }
+                    return 0;
+
+                case 3: /* VRSRA */
+                    /* Right shift comes here negative.  */
+                    shift = -shift;
+                    if (u) {
+                        gen_gvec_ursra(size, rd_ofs, rm_ofs, shift,
+                                       vec_size, vec_size);
+                    } else {
+                        gen_gvec_srsra(size, rd_ofs, rm_ofs, shift,
+                                       vec_size, vec_size);
+                    }
+                    return 0;
+
                 case 4: /* VSRI */
                     if (!u) {
                         return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         neon_load_reg64(cpu_V0, rm + pass);
                         tcg_gen_movi_i64(cpu_V1, imm);
                         switch (op) {
-                        case 2: /* VRSHR */
-                        case 3: /* VRSRA */
-                            if (u)
-                                gen_helper_neon_rshl_u64(cpu_V0, cpu_V0, cpu_V1);
-                            else
-                                gen_helper_neon_rshl_s64(cpu_V0, cpu_V0, cpu_V1);
-                            break;
                         case 6: /* VQSHLU */
                             gen_helper_neon_qshlu_s64(cpu_V0, cpu_env,
                                                       cpu_V0, cpu_V1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         default:
                             g_assert_not_reached();
                         }
-                        if (op == 3) {
-                            /* Accumulate.  */
-                            neon_load_reg64(cpu_V1, rd + pass);
-                            tcg_gen_add_i64(cpu_V0, cpu_V0, cpu_V1);
-                        }
                         neon_store_reg64(cpu_V0, rd + pass);
                     } else { /* size < 3 */
                         /* Operands in T0 and T1.  */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         tmp2 = tcg_temp_new_i32();
                         tcg_gen_movi_i32(tmp2, imm);
                         switch (op) {
-                        case 2: /* VRSHR */
-                        case 3: /* VRSRA */
-                            GEN_NEON_INTEGER_OP(rshl);
-                            break;
                         case 6: /* VQSHLU */
                             switch (size) {
                             case 0:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                             g_assert_not_reached();
                         }
                         tcg_temp_free_i32(tmp2);
-
-                        if (op == 3) {
-                            /* Accumulate.  */
-                            tmp2 = neon_load_reg(rd, pass);
-                            gen_neon_add(size, tmp, tmp2);
-                            tcg_temp_free_i32(tmp2);
-                        }
                         neon_store_reg(rd, pass, tmp);
                     }
                 } /* for pass */
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_SRA(gvec_usra_d, uint64_t)
 
 #undef DO_SRA
 
+#define DO_RSHR(NAME, TYPE)                             \
+void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
+{                                                       \
+    intptr_t i, oprsz = simd_oprsz(desc);               \
+    int shift = simd_data(desc);                        \
+    TYPE *d = vd, *n = vn;                              \
+    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
+        TYPE tmp = n[i] >> (shift - 1);                 \
+        d[i] = (tmp >> 1) + (tmp & 1);                  \
+    }                                                   \
+    clear_tail(d, oprsz, simd_maxsz(desc));             \
+}
+
+DO_RSHR(gvec_srshr_b, int8_t)
+DO_RSHR(gvec_srshr_h, int16_t)
+DO_RSHR(gvec_srshr_s, int32_t)
+DO_RSHR(gvec_srshr_d, int64_t)
+
+DO_RSHR(gvec_urshr_b, uint8_t)
+DO_RSHR(gvec_urshr_h, uint16_t)
+DO_RSHR(gvec_urshr_s, uint32_t)
+DO_RSHR(gvec_urshr_d, uint64_t)
+
+#undef DO_RSHR
+
+#define DO_RSRA(NAME, TYPE)                             \
+void HELPER(NAME)(void *vd, void *vn, uint32_t desc)    \
+{                                                       \
+    intptr_t i, oprsz = simd_oprsz(desc);               \
+    int shift = simd_data(desc);                        \
+    TYPE *d = vd, *n = vn;                              \
+    for (i = 0; i < oprsz / sizeof(TYPE); i++) {        \
+        TYPE tmp = n[i] >> (shift - 1);                 \
+        d[i] += (tmp >> 1) + (tmp & 1);                 \
+    }                                                   \
+    clear_tail(d, oprsz, simd_maxsz(desc));             \
+}
+
+DO_RSRA(gvec_srsra_b, int8_t)
+DO_RSRA(gvec_srsra_h, int16_t)
+DO_RSRA(gvec_srsra_s, int32_t)
+DO_RSRA(gvec_srsra_d, int64_t)
+
+DO_RSRA(gvec_ursra_b, uint8_t)
+DO_RSRA(gvec_ursra_h, uint16_t)
+DO_RSRA(gvec_ursra_s, uint32_t)
+DO_RSRA(gvec_ursra_d, uint64_t)
+
+#undef DO_RSRA
+
 /*
  * Convert float16 to float32, raising no exceptions and
  * preserving exceptional values, including SNaN.
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

The functions eliminate duplication of the special cases for
this operation.  They match up with the GVecGen2iFn typedef.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h        |  10 ++
 target/arm/translate.h     |   7 +-
 target/arm/translate-a64.c |  20 +---
 target/arm/translate.c     | 186 +++++++++++++++++++++----------------
 target/arm/vec_helper.c    |  38 ++++++++
 5 files changed, 160 insertions(+), 101 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

In 1dc8425e551, while converting to gvec, I added an extra range check
against the shift count.  This was unnecessary because the encoding of
the shift count produces 0 to the element size - 1.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-5-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c | 12 ++----------
 1 file changed, 2 insertions(+), 10 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                         gen_gvec_sli(size, rd_ofs, rm_ofs, shift,
                                      vec_size, vec_size);
                     } else { /* VSHL */
-                        /* Shifts larger than the element size are
-                         * architecturally valid and results in zero.
-                         */
-                        if (shift >= 8 << size) {
-                            tcg_gen_gvec_dup_imm(size, rd_ofs,
-                                                 vec_size, vec_size, 0);
-                        } else {
-                            tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
-                                              vec_size, vec_size);
-                        }
+                        tcg_gen_gvec_shli(size, rd_ofs, rm_ofs, shift,
+                                          vec_size, vec_size);
                     }
                     return 0;
                 }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Now that we've converted all cases to gvec, there is quite a bit
of dead code at the end of the function.  Remove it.

Sink the call to gen_gvec_fn2i to the end, loading a function
pointer within the switch statement.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-6-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate-a64.c | 56 ++++++++++----------------------------
 1 file changed, 14 insertions(+), 42 deletions(-)

diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
     int size = 32 - clz32(immh) - 1;
     int immhb = immh << 3 | immb;
     int shift = 2 * (8 << size) - immhb;
-    bool accumulate = false;
-    int dsize = is_q ? 128 : 64;
-    int esize = 8 << size;
-    int elements = dsize/esize;
-    MemOp memop = size | (is_u ? 0 : MO_SIGN);
-    TCGv_i64 tcg_rn = new_tmp_a64(s);
-    TCGv_i64 tcg_rd = new_tmp_a64(s);
-    TCGv_i64 tcg_round;
-    uint64_t round_const;
-    int i;
+    GVecGen2iFn *gvec_fn;
 
     if (extract32(immh, 3, 1) && !is_q) {
         unallocated_encoding(s);
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
 
     switch (opcode) {
     case 0x02: /* SSRA / USRA (accumulate) */
-        gen_gvec_fn2i(s, is_q, rd, rn, shift,
-                      is_u ? gen_gvec_usra : gen_gvec_ssra, size);
-        return;
+        gvec_fn = is_u ? gen_gvec_usra : gen_gvec_ssra;
+        break;
 
     case 0x08: /* SRI */
-        gen_gvec_fn2i(s, is_q, rd, rn, shift, gen_gvec_sri, size);
-        return;
+        gvec_fn = gen_gvec_sri;
+        break;
 
     case 0x00: /* SSHR / USHR */
         if (is_u) {
@@ -XXX,XX +XXX,XX @@ static void handle_vec_simd_shri(DisasContext *s, bool is_q, bool is_u,
                 /* Shift count the same size as element size produces zero.  */
                 tcg_gen_gvec_dup_imm(size, vec_full_reg_offset(s, rd),
                                      is_q ? 16 : 8, vec_full_reg_size(s), 0);
-            } else {
-                gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_shri, size);
+                return;
             }
+            gvec_fn = tcg_gen_gvec_shri;
         } else {
             /* Shift count the same size as element size produces all sign.  */
             if (shift == 8 << size) {
                 shift -= 1;
             }
-            gen_gvec_fn2i(s, is_q, rd, rn, shift, tcg_gen_gvec_sari, size);
+            gvec_fn = tcg_gen_gvec_sari;
         }
-        return;
+        break;
 
     case 0x04: /* SRSHR / URSHR (rounding) */
-        gen_gvec_fn2i(s, is_q, rd, rn, shift,
-                      is_u ? gen_gvec_urshr : gen_gvec_srshr, size);
-        return;
+        gvec_fn = is_u ? gen_gvec_urshr : gen_gvec_srshr;
+        break;
 
     case 0x06: /* SRSRA / URSRA (accum + rounding) */
-        gen_gvec_fn2i(s, is_q, rd, rn, shift,
-                      is_u ? gen_gvec_ursra : gen_gvec_srsra, size);
-        return;
+        gvec_fn = is_u ? gen_gvec_ursra : gen_gvec_srsra;
+        break;
 
     default:
         g_assert_not_reached();
     }
 
-    round_const = 1ULL << (shift - 1);
-    tcg_round = tcg_const_i64(round_const);
-
-    for (i = 0; i < elements; i++) {
-        read_vec_element(s, tcg_rn, rn, i, memop);
-        if (accumulate) {
-            read_vec_element(s, tcg_rd, rd, i, memop);
-        }
-
-        handle_shri_with_rndacc(tcg_rd, tcg_rn, tcg_round,
-                                accumulate, is_u, size, shift);
-
-        write_vec_element(s, tcg_rd, rd, i, size);
-    }
-    tcg_temp_free_i64(tcg_round);
-
-    clear_vec_high(s, is_q, rd);
+    gen_gvec_fn2i(s, is_q, rd, rn, shift, gvec_fn, size);
 }
 
 /* SHL/SLI - Vector shift left */
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Provide a functional interface for the vector expansion.
This fits better with the existing set of helpers that
we provide for other operations.

Macro-ize the 5 nearly identical comparisons.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-7-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     |  16 ++-
 target/arm/translate-a64.c |  22 ++--
 target/arm/translate.c     | 254 ++++++++-----------------------------
 3 files changed, 74 insertions(+), 218 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ static inline void gen_swstep_exception(DisasContext *s, int isv, int ex)
 uint64_t vfp_expand_imm(int size, uint8_t imm8);
 
 /* Vector operations shared between ARM and AArch64.  */
-extern const GVecGen2 ceq0_op[4];
-extern const GVecGen2 clt0_op[4];
-extern const GVecGen2 cgt0_op[4];
-extern const GVecGen2 cle0_op[4];
-extern const GVecGen2 cge0_op[4];
+void gen_gvec_ceq0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_clt0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_cgt0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_cle0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_cge0(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
+                   uint32_t opr_sz, uint32_t max_sz);
+
 extern const GVecGen3 mla_op[4];
 extern const GVecGen3 mls_op[4];
 extern const GVecGen3 cmtst_op[4];
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
             is_q ? 16 : 8, vec_full_reg_size(s));
 }
 
-/* Expand a 2-operand AdvSIMD vector operation using an op descriptor. */
-static void gen_gvec_op2(DisasContext *s, bool is_q, int rd,
-                         int rn, const GVecGen2 *gvec_op)
-{
-    tcg_gen_gvec_2(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
-                   is_q ? 16 : 8, vec_full_reg_size(s), gvec_op);
-}
-
 /* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
 static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
                          int rn, int rm, const GVecGen3 *gvec_op)
@@ -XXX,XX +XXX,XX @@ static void disas_simd_two_reg_misc(DisasContext *s, uint32_t insn)
         }
         break;
     case 0x8: /* CMGT, CMGE */
-        gen_gvec_op2(s, is_q, rd, rn, u ? &cge0_op[size] : &cgt0_op[size]);
+        if (u) {
+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cge0, size);
+        } else {
+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cgt0, size);
+        }
         return;
     case 0x9: /* CMEQ, CMLE */
-        gen_gvec_op2(s, is_q, rd, rn, u ? &cle0_op[size] : &ceq0_op[size]);
+        if (u) {
+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_cle0, size);
+        } else {
+            gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_ceq0, size);
+        }
         return;
     case 0xa: /* CMLT */
-        gen_gvec_op2(s, is_q, rd, rn, &clt0_op[size]);
+        gen_gvec_fn2(s, is_q, rd, rn, gen_gvec_clt0, size);
         return;
     case 0xb:
         if (u) { /* ABS, NEG */
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int do_v81_helper(DisasContext *s, gen_helper_gvec_3_ptr *fn,
     return 1;
 }
 
-static void gen_ceq0_i32(TCGv_i32 d, TCGv_i32 a)
-{
-    tcg_gen_setcondi_i32(TCG_COND_EQ, d, a, 0);
-    tcg_gen_neg_i32(d, d);
-}
-
-static void gen_ceq0_i64(TCGv_i64 d, TCGv_i64 a)
-{
-    tcg_gen_setcondi_i64(TCG_COND_EQ, d, a, 0);
-    tcg_gen_neg_i64(d, d);
-}
-
-static void gen_ceq0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
-{
-    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
-    tcg_gen_cmp_vec(TCG_COND_EQ, vece, d, a, zero);
-    tcg_temp_free_vec(zero);
-}
+#define GEN_CMP0(NAME, COND)                                            \
+    static void gen_##NAME##0_i32(TCGv_i32 d, TCGv_i32 a)               \
+    {                                                                   \
+        tcg_gen_setcondi_i32(COND, d, a, 0);                            \
+        tcg_gen_neg_i32(d, d);                                          \
+    }                                                                   \
+    static void gen_##NAME##0_i64(TCGv_i64 d, TCGv_i64 a)               \
+    {                                                                   \
+        tcg_gen_setcondi_i64(COND, d, a, 0);                            \
+        tcg_gen_neg_i64(d, d);                                          \
+    }                                                                   \
+    static void gen_##NAME##0_vec(unsigned vece, TCGv_vec d, TCGv_vec a) \
+    {                                                                   \
+        TCGv_vec zero = tcg_const_zeros_vec_matching(d);                \
+        tcg_gen_cmp_vec(COND, vece, d, a, zero);                        \
+        tcg_temp_free_vec(zero);                                        \
+    }                                                                   \
+    void gen_gvec_##NAME##0(unsigned vece, uint32_t d, uint32_t m,      \
+                            uint32_t opr_sz, uint32_t max_sz)           \
+    {                                                                   \
+        const GVecGen2 op[4] = {                                        \
+            { .fno = gen_helper_gvec_##NAME##0_b,                       \
+              .fniv = gen_##NAME##0_vec,                                \
+              .opt_opc = vecop_list_cmp,                                \
+              .vece = MO_8 },                                           \
+            { .fno = gen_helper_gvec_##NAME##0_h,                       \
+              .fniv = gen_##NAME##0_vec,                                \
+              .opt_opc = vecop_list_cmp,                                \
+              .vece = MO_16 },                                          \
+            { .fni4 = gen_##NAME##0_i32,                                \
+              .fniv = gen_##NAME##0_vec,                                \
+              .opt_opc = vecop_list_cmp,                                \
+              .vece = MO_32 },                                          \
+            { .fni8 = gen_##NAME##0_i64,                                \
+              .fniv = gen_##NAME##0_vec,                                \
+              .opt_opc = vecop_list_cmp,                                \
+              .prefer_i64 = TCG_TARGET_REG_BITS == 64,                  \
+              .vece = MO_64 },                                          \
+        };                                                              \
+        tcg_gen_gvec_2(d, m, opr_sz, max_sz, &op[vece]);                \
+    }
 
 static const TCGOpcode vecop_list_cmp[] = {
     INDEX_op_cmp_vec, 0
 };
 
-const GVecGen2 ceq0_op[4] = {
-    { .fno = gen_helper_gvec_ceq0_b,
-      .fniv = gen_ceq0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_8 },
-    { .fno = gen_helper_gvec_ceq0_h,
-      .fniv = gen_ceq0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_16 },
-    { .fni4 = gen_ceq0_i32,
-      .fniv = gen_ceq0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_32 },
-    { .fni8 = gen_ceq0_i64,
-      .fniv = gen_ceq0_vec,
-      .opt_opc = vecop_list_cmp,
-      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-      .vece = MO_64 },
-};
+GEN_CMP0(ceq, TCG_COND_EQ)
+GEN_CMP0(cle, TCG_COND_LE)
+GEN_CMP0(cge, TCG_COND_GE)
+GEN_CMP0(clt, TCG_COND_LT)
+GEN_CMP0(cgt, TCG_COND_GT)
 
-static void gen_cle0_i32(TCGv_i32 d, TCGv_i32 a)
-{
-    tcg_gen_setcondi_i32(TCG_COND_LE, d, a, 0);
-    tcg_gen_neg_i32(d, d);
-}
-
-static void gen_cle0_i64(TCGv_i64 d, TCGv_i64 a)
-{
-    tcg_gen_setcondi_i64(TCG_COND_LE, d, a, 0);
-    tcg_gen_neg_i64(d, d);
-}
-
-static void gen_cle0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
-{
-    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
-    tcg_gen_cmp_vec(TCG_COND_LE, vece, d, a, zero);
-    tcg_temp_free_vec(zero);
-}
-
-const GVecGen2 cle0_op[4] = {
-    { .fno = gen_helper_gvec_cle0_b,
-      .fniv = gen_cle0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_8 },
-    { .fno = gen_helper_gvec_cle0_h,
-      .fniv = gen_cle0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_16 },
-    { .fni4 = gen_cle0_i32,
-      .fniv = gen_cle0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_32 },
-    { .fni8 = gen_cle0_i64,
-      .fniv = gen_cle0_vec,
-      .opt_opc = vecop_list_cmp,
-      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-      .vece = MO_64 },
-};
-
-static void gen_cge0_i32(TCGv_i32 d, TCGv_i32 a)
-{
-    tcg_gen_setcondi_i32(TCG_COND_GE, d, a, 0);
-    tcg_gen_neg_i32(d, d);
-}
-
-static void gen_cge0_i64(TCGv_i64 d, TCGv_i64 a)
-{
-    tcg_gen_setcondi_i64(TCG_COND_GE, d, a, 0);
-    tcg_gen_neg_i64(d, d);
-}
-
-static void gen_cge0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
-{
-    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
-    tcg_gen_cmp_vec(TCG_COND_GE, vece, d, a, zero);
-    tcg_temp_free_vec(zero);
-}
-
-const GVecGen2 cge0_op[4] = {
-    { .fno = gen_helper_gvec_cge0_b,
-      .fniv = gen_cge0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_8 },
-    { .fno = gen_helper_gvec_cge0_h,
-      .fniv = gen_cge0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_16 },
-    { .fni4 = gen_cge0_i32,
-      .fniv = gen_cge0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_32 },
-    { .fni8 = gen_cge0_i64,
-      .fniv = gen_cge0_vec,
-      .opt_opc = vecop_list_cmp,
-      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-      .vece = MO_64 },
-};
-
-static void gen_clt0_i32(TCGv_i32 d, TCGv_i32 a)
-{
-    tcg_gen_setcondi_i32(TCG_COND_LT, d, a, 0);
-    tcg_gen_neg_i32(d, d);
-}
-
-static void gen_clt0_i64(TCGv_i64 d, TCGv_i64 a)
-{
-    tcg_gen_setcondi_i64(TCG_COND_LT, d, a, 0);
-    tcg_gen_neg_i64(d, d);
-}
-
-static void gen_clt0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
-{
-    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
-    tcg_gen_cmp_vec(TCG_COND_LT, vece, d, a, zero);
-    tcg_temp_free_vec(zero);
-}
-
-const GVecGen2 clt0_op[4] = {
-    { .fno = gen_helper_gvec_clt0_b,
-      .fniv = gen_clt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_8 },
-    { .fno = gen_helper_gvec_clt0_h,
-      .fniv = gen_clt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_16 },
-    { .fni4 = gen_clt0_i32,
-      .fniv = gen_clt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_32 },
-    { .fni8 = gen_clt0_i64,
-      .fniv = gen_clt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-      .vece = MO_64 },
-};
-
-static void gen_cgt0_i32(TCGv_i32 d, TCGv_i32 a)
-{
-    tcg_gen_setcondi_i32(TCG_COND_GT, d, a, 0);
-    tcg_gen_neg_i32(d, d);
-}
-
-static void gen_cgt0_i64(TCGv_i64 d, TCGv_i64 a)
-{
-    tcg_gen_setcondi_i64(TCG_COND_GT, d, a, 0);
-    tcg_gen_neg_i64(d, d);
-}
-
-static void gen_cgt0_vec(unsigned vece, TCGv_vec d, TCGv_vec a)
-{
-    TCGv_vec zero = tcg_const_zeros_vec_matching(d);
-    tcg_gen_cmp_vec(TCG_COND_GT, vece, d, a, zero);
-    tcg_temp_free_vec(zero);
-}
-
-const GVecGen2 cgt0_op[4] = {
-    { .fno = gen_helper_gvec_cgt0_b,
-      .fniv = gen_cgt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_8 },
-    { .fno = gen_helper_gvec_cgt0_h,
-      .fniv = gen_cgt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_16 },
-    { .fni4 = gen_cgt0_i32,
-      .fniv = gen_cgt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .vece = MO_32 },
-    { .fni8 = gen_cgt0_i64,
-      .fniv = gen_cgt0_vec,
-      .opt_opc = vecop_list_cmp,
-      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-      .vece = MO_64 },
-};
+#undef GEN_CMP0
 
 static void gen_ssra8_i64(TCGv_i64 d, TCGv_i64 a, int64_t shift)
 {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                     break;
 
                 case NEON_2RM_VCEQ0:
-                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
-                                   vec_size, &ceq0_op[size]);
+                    gen_gvec_ceq0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                     break;
                 case NEON_2RM_VCGT0:
-                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
-                                   vec_size, &cgt0_op[size]);
+                    gen_gvec_cgt0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                     break;
                 case NEON_2RM_VCLE0:
-                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
-                                   vec_size, &cle0_op[size]);
+                    gen_gvec_cle0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                     break;
                 case NEON_2RM_VCGE0:
-                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
-                                   vec_size, &cge0_op[size]);
+                    gen_gvec_cge0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                     break;
                 case NEON_2RM_VCLT0:
-                    tcg_gen_gvec_2(rd_ofs, rm_ofs, vec_size,
-                                   vec_size, &clt0_op[size]);
+                    gen_gvec_clt0(size, rd_ofs, rm_ofs, vec_size, vec_size);
                     break;
 
                 default:
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Provide a functional interface for the vector expansion.
This fits better with the existing set of helpers that
we provide for other operations.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-8-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h          |   7 +-
 target/arm/translate-a64.c      |   4 +-
 target/arm/translate-neon.inc.c |  16 +----
 target/arm/translate.c          | 117 +++++++++++++++++---------------
 4 files changed, 71 insertions(+), 73 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Rather than perform the argument swap during code generation,
perform it during decode.  This means it doesn't have to be
special cased later, and we can share code with aarch64 code
generation.  Hopefully the decode comment addresses any confusion
that might arise in between.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-9-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/neon-dp.decode       | 17 +++++++++++++++--
 target/arm/translate-neon.inc.c |  3 +--
 2 files changed, 16 insertions(+), 4 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VCGT_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 0 .... @3same
 VCGE_S_3s        1111 001 0 0 . .. .... .... 0011 . . . 1 .... @3same
 VCGE_U_3s        1111 001 1 0 . .. .... .... 0011 . . . 1 .... @3same
 
-VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same
-VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same
+# The _rev suffix indicates that Vn and Vm are reversed. This is
+# the case for shifts. In the Arm ARM these insns are documented
+# with the Vm and Vn fields in their usual places, but in the
+# assembly the operands are listed "backwards", ie in the order
+# Dd, Dm, Dn where other insns use Dd, Dn, Dm. For QEMU we choose
+# to consider Vm and Vn as being in different fields in the insn,
+# which allows us to avoid special-casing shifts in the trans_
+# function code. We would otherwise need to manually swap the operands
+# over to call Neon helper functions that are shared with AArch64,
+# which does not have this odd reversed-operand situation.
+@3same_rev       .... ... . . . size:2 .... .... .... . q:1 . . .... \
+                 &3same vn=%vm_dp vm=%vn_dp vd=%vd_dp
+
+VSHL_S_3s        1111 001 0 0 . .. .... .... 0100 . . . 0 .... @3same_rev
+VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
 
 VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
 VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
                                 uint32_t rn_ofs, uint32_t rm_ofs,       \
                                 uint32_t oprsz, uint32_t maxsz)         \
     {                                                                   \
-        /* Note the operation is vshl vd,vm,vn */                       \
-        tcg_gen_gvec_3(rd_ofs, rm_ofs, rn_ofs,                          \
+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
                        oprsz, maxsz, &OPARRAY[vece]);                   \
     }                                                                   \
     DO_3SAME(INSN, gen_##INSN##_3s)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Provide a functional interface for the vector expansion.
This fits better with the existing set of helpers that
we provide for other operations.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-10-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h          |  10 ++-
 target/arm/translate-a64.c      |  18 ++--
 target/arm/translate-neon.inc.c |  23 +----
 target/arm/translate.c          | 146 +++++++++++++++++---------------
 4 files changed, 95 insertions(+), 102 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_mla(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 void gen_gvec_mls(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 
-extern const GVecGen3 cmtst_op[4];
-extern const GVecGen3 sshl_op[4];
-extern const GVecGen3 ushl_op[4];
+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+
 extern const GVecGen4 uqadd_op[4];
 extern const GVecGen4 sqadd_op[4];
 extern const GVecGen4 uqsub_op[4];
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void gen_gvec_fn4(DisasContext *s, bool is_q, int rd, int rn, int rm,
             is_q ? 16 : 8, vec_full_reg_size(s));
 }
 
-/* Expand a 3-operand AdvSIMD vector operation using an op descriptor.  */
-static void gen_gvec_op3(DisasContext *s, bool is_q, int rd,
-                         int rn, int rm, const GVecGen3 *gvec_op)
-{
-    tcg_gen_gvec_3(vec_full_reg_offset(s, rd), vec_full_reg_offset(s, rn),
-                   vec_full_reg_offset(s, rm), is_q ? 16 : 8,
-                   vec_full_reg_size(s), gvec_op);
-}
-
 /* Expand a 3-operand operation using an out-of-line helper.  */
 static void gen_gvec_op3_ool(DisasContext *s, bool is_q, int rd,
                              int rn, int rm, int data, gen_helper_gvec_3 *fn)
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
                        (u ? uqsub_op : sqsub_op) + size);
         return;
     case 0x08: /* SSHL, USHL */
-        gen_gvec_op3(s, is_q, rd, rn, rm,
-                     u ? &ushl_op[size] : &sshl_op[size]);
+        if (u) {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_ushl, size);
+        } else {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sshl, size);
+        }
         return;
     case 0x0c: /* SMAX, UMAX */
         if (u) {
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
         return;
     case 0x11:
         if (!u) { /* CMTST */
-            gen_gvec_op3(s, is_q, rd, rn, rm, &cmtst_op[size]);
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_cmtst, size);
             return;
         }
         /* else CMEQ */
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME(VBIC, tcg_gen_gvec_andc)
 DO_3SAME(VORR, tcg_gen_gvec_or)
 DO_3SAME(VORN, tcg_gen_gvec_orc)
 DO_3SAME(VEOR, tcg_gen_gvec_xor)
+DO_3SAME(VSHL_S, gen_gvec_sshl)
+DO_3SAME(VSHL_U, gen_gvec_ushl)
 
 /* These insns are all gvec_bitsel but with the inputs in various orders. */
 #define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_NO_SZ_3(VMIN_U, tcg_gen_gvec_umin)
 DO_3SAME_NO_SZ_3(VMUL, tcg_gen_gvec_mul)
 DO_3SAME_NO_SZ_3(VMLA, gen_gvec_mla)
 DO_3SAME_NO_SZ_3(VMLS, gen_gvec_mls)
+DO_3SAME_NO_SZ_3(VTST, gen_gvec_cmtst)
 
 #define DO_3SAME_CMP(INSN, COND)                                        \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
 DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
 DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
 
-static void gen_VTST_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
-                         uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
-{
-    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &cmtst_op[vece]);
-}
-DO_3SAME_NO_SZ_3(VTST, gen_VTST_3s)
-
 #define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
     static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
                                 uint32_t rn_ofs, uint32_t rm_ofs,       \
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
     }
     return do_3same(s, a, gen_VMUL_p_3s);
 }
-
-#define DO_3SAME_GVEC3_SHIFT(INSN, OPARRAY)                             \
-    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-                                uint32_t rn_ofs, uint32_t rm_ofs,       \
-                                uint32_t oprsz, uint32_t maxsz)         \
-    {                                                                   \
-        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs,                          \
-                       oprsz, maxsz, &OPARRAY[vece]);                   \
-    }                                                                   \
-    DO_3SAME(INSN, gen_##INSN##_3s)
-
-DO_3SAME_GVEC3_SHIFT(VSHL_S, sshl_op)
-DO_3SAME_GVEC3_SHIFT(VSHL_U, ushl_op)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_cmtst_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
     tcg_gen_cmp_vec(TCG_COND_NE, vece, d, d, a);
 }
 
-static const TCGOpcode vecop_list_cmtst[] = { INDEX_op_cmp_vec, 0 };
-
-const GVecGen3 cmtst_op[4] = {
-    { .fni4 = gen_helper_neon_tst_u8,
-      .fniv = gen_cmtst_vec,
-      .opt_opc = vecop_list_cmtst,
-      .vece = MO_8 },
-    { .fni4 = gen_helper_neon_tst_u16,
-      .fniv = gen_cmtst_vec,
-      .opt_opc = vecop_list_cmtst,
-      .vece = MO_16 },
-    { .fni4 = gen_cmtst_i32,
-      .fniv = gen_cmtst_vec,
-      .opt_opc = vecop_list_cmtst,
-      .vece = MO_32 },
-    { .fni8 = gen_cmtst_i64,
-      .fniv = gen_cmtst_vec,
-      .prefer_i64 = TCG_TARGET_REG_BITS == 64,
-      .opt_opc = vecop_list_cmtst,
-      .vece = MO_64 },
-};
+void gen_gvec_cmtst(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = { INDEX_op_cmp_vec, 0 };
+    static const GVecGen3 ops[4] = {
+        { .fni4 = gen_helper_neon_tst_u8,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fni4 = gen_helper_neon_tst_u16,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_cmtst_i32,
+          .fniv = gen_cmtst_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_cmtst_i64,
+          .fniv = gen_cmtst_vec,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
 
 void gen_ushl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 {
@@ -XXX,XX +XXX,XX @@ static void gen_ushl_vec(unsigned vece, TCGv_vec dst,
     tcg_temp_free_vec(rsh);
 }
 
-static const TCGOpcode ushl_list[] = {
-    INDEX_op_neg_vec, INDEX_op_shlv_vec,
-    INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
-};
-
-const GVecGen3 ushl_op[4] = {
-    { .fniv = gen_ushl_vec,
-      .fno = gen_helper_gvec_ushl_b,
-      .opt_opc = ushl_list,
-      .vece = MO_8 },
-    { .fniv = gen_ushl_vec,
-      .fno = gen_helper_gvec_ushl_h,
-      .opt_opc = ushl_list,
-      .vece = MO_16 },
-    { .fni4 = gen_ushl_i32,
-      .fniv = gen_ushl_vec,
-      .opt_opc = ushl_list,
-      .vece = MO_32 },
-    { .fni8 = gen_ushl_i64,
-      .fniv = gen_ushl_vec,
-      .opt_opc = ushl_list,
-      .vece = MO_64 },
-};
+void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_shlv_vec,
+        INDEX_op_shrv_vec, INDEX_op_cmp_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_ushl_vec,
+          .fno = gen_helper_gvec_ushl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_ushl_i32,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_ushl_i64,
+          .fniv = gen_ushl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
 
 void gen_sshl_i32(TCGv_i32 dst, TCGv_i32 src, TCGv_i32 shift)
 {
@@ -XXX,XX +XXX,XX @@ static void gen_sshl_vec(unsigned vece, TCGv_vec dst,
     tcg_temp_free_vec(tmp);
 }
 
-static const TCGOpcode sshl_list[] = {
-    INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
-    INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
-};
-
-const GVecGen3 sshl_op[4] = {
-    { .fniv = gen_sshl_vec,
-      .fno = gen_helper_gvec_sshl_b,
-      .opt_opc = sshl_list,
-      .vece = MO_8 },
-    { .fniv = gen_sshl_vec,
-      .fno = gen_helper_gvec_sshl_h,
-      .opt_opc = sshl_list,
-      .vece = MO_16 },
-    { .fni4 = gen_sshl_i32,
-      .fniv = gen_sshl_vec,
-      .opt_opc = sshl_list,
-      .vece = MO_32 },
-    { .fni8 = gen_sshl_i64,
-      .fniv = gen_sshl_vec,
-      .opt_opc = sshl_list,
-      .vece = MO_64 },
-};
+void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_neg_vec, INDEX_op_umin_vec, INDEX_op_shlv_vec,
+        INDEX_op_sarv_vec, INDEX_op_cmp_vec, INDEX_op_cmpsel_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_b,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_sshl_vec,
+          .fno = gen_helper_gvec_sshl_h,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fni4 = gen_sshl_i32,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fni8 = gen_sshl_i64,
+          .fniv = gen_sshl_vec,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
 
 static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                           TCGv_vec a, TCGv_vec b)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Provide a functional interface for the vector expansion.
This fits better with the existing set of helpers that
we provide for other operations.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-11-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h          |  13 +-
 target/arm/translate-a64.c      |  22 ++-
 target/arm/translate-neon.inc.c |  19 +--
 target/arm/translate.c          | 228 +++++++++++++++++---------------
 4 files changed, 147 insertions(+), 135 deletions(-)

diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_sshl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 void gen_gvec_ushl(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 
-extern const GVecGen4 uqadd_op[4];
-extern const GVecGen4 sqadd_op[4];
-extern const GVecGen4 uqsub_op[4];
-extern const GVecGen4 sqsub_op[4];
 void gen_cmtst_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 void gen_ushl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void gen_sshl_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b);
 void gen_ushl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 void gen_sshl_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b);
 
+void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+
 void gen_gvec_ssra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
                    int64_t shift, uint32_t opr_sz, uint32_t max_sz);
 void gen_gvec_usra(unsigned vece, uint32_t rd_ofs, uint32_t rm_ofs,
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
 
     switch (opcode) {
     case 0x01: /* SQADD, UQADD */
-        tcg_gen_gvec_4(vec_full_reg_offset(s, rd),
-                       offsetof(CPUARMState, vfp.qc),
-                       vec_full_reg_offset(s, rn),
-                       vec_full_reg_offset(s, rm),
-                       is_q ? 16 : 8, vec_full_reg_size(s),
-                       (u ? uqadd_op : sqadd_op) + size);
+        if (u) {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqadd_qc, size);
+        } else {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqadd_qc, size);
+        }
         return;
     case 0x05: /* SQSUB, UQSUB */
-        tcg_gen_gvec_4(vec_full_reg_offset(s, rd),
-                       offsetof(CPUARMState, vfp.qc),
-                       vec_full_reg_offset(s, rn),
-                       vec_full_reg_offset(s, rm),
-                       is_q ? 16 : 8, vec_full_reg_size(s),
-                       (u ? uqsub_op : sqsub_op) + size);
+        if (u) {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uqsub_qc, size);
+        } else {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sqsub_qc, size);
+        }
         return;
     case 0x08: /* SSHL, USHL */
         if (u) {
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME(VORN, tcg_gen_gvec_orc)
 DO_3SAME(VEOR, tcg_gen_gvec_xor)
 DO_3SAME(VSHL_S, gen_gvec_sshl)
 DO_3SAME(VSHL_U, gen_gvec_ushl)
+DO_3SAME(VQADD_S, gen_gvec_sqadd_qc)
+DO_3SAME(VQADD_U, gen_gvec_uqadd_qc)
+DO_3SAME(VQSUB_S, gen_gvec_sqsub_qc)
+DO_3SAME(VQSUB_U, gen_gvec_uqsub_qc)
 
 /* These insns are all gvec_bitsel but with the inputs in various orders. */
 #define DO_3SAME_BITSEL(INSN, O1, O2, O3)                               \
@@ -XXX,XX +XXX,XX @@ DO_3SAME_CMP(VCGE_S, TCG_COND_GE)
 DO_3SAME_CMP(VCGE_U, TCG_COND_GEU)
 DO_3SAME_CMP(VCEQ, TCG_COND_EQ)
 
-#define DO_3SAME_GVEC4(INSN, OPARRAY)                                   \
-    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
-                                uint32_t rn_ofs, uint32_t rm_ofs,       \
-                                uint32_t oprsz, uint32_t maxsz)         \
-    {                                                                   \
-        tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),           \
-                       rn_ofs, rm_ofs, oprsz, maxsz, &OPARRAY[vece]);   \
-    }                                                                   \
-    DO_3SAME(INSN, gen_##INSN##_3s)
-
-DO_3SAME_GVEC4(VQADD_S, sqadd_op)
-DO_3SAME_GVEC4(VQADD_U, uqadd_op)
-DO_3SAME_GVEC4(VQSUB_S, sqsub_op)
-DO_3SAME_GVEC4(VQSUB_U, uqsub_op)
-
 static void gen_VMUL_p_3s(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                            uint32_t rm_ofs, uint32_t oprsz, uint32_t maxsz)
 {
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_uqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
     tcg_temp_free_vec(x);
 }
 
-static const TCGOpcode vecop_list_uqadd[] = {
-    INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-};
-
-const GVecGen4 uqadd_op[4] = {
-    { .fniv = gen_uqadd_vec,
-      .fno = gen_helper_gvec_uqadd_b,
-      .write_aofs = true,
-      .opt_opc = vecop_list_uqadd,
-      .vece = MO_8 },
-    { .fniv = gen_uqadd_vec,
-      .fno = gen_helper_gvec_uqadd_h,
-      .write_aofs = true,
-      .opt_opc = vecop_list_uqadd,
-      .vece = MO_16 },
-    { .fniv = gen_uqadd_vec,
-      .fno = gen_helper_gvec_uqadd_s,
-      .write_aofs = true,
-      .opt_opc = vecop_list_uqadd,
-      .vece = MO_32 },
-    { .fniv = gen_uqadd_vec,
-      .fno = gen_helper_gvec_uqadd_d,
-      .write_aofs = true,
-      .opt_opc = vecop_list_uqadd,
-      .vece = MO_64 },
-};
+void gen_gvec_uqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_usadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_b,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_8 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_h,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_16 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_s,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_32 },
+        { .fniv = gen_uqadd_vec,
+          .fno = gen_helper_gvec_uqadd_d,
+          .write_aofs = true,
+          .opt_opc = vecop_list,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
 
 static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                           TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_sqadd_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
     tcg_temp_free_vec(x);
 }
 
-static const TCGOpcode vecop_list_sqadd[] = {
-    INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
-};
-
-const GVecGen4 sqadd_op[4] = {
-    { .fniv = gen_sqadd_vec,
-      .fno = gen_helper_gvec_sqadd_b,
-      .opt_opc = vecop_list_sqadd,
-      .write_aofs = true,
-      .vece = MO_8 },
-    { .fniv = gen_sqadd_vec,
-      .fno = gen_helper_gvec_sqadd_h,
-      .opt_opc = vecop_list_sqadd,
-      .write_aofs = true,
-      .vece = MO_16 },
-    { .fniv = gen_sqadd_vec,
-      .fno = gen_helper_gvec_sqadd_s,
-      .opt_opc = vecop_list_sqadd,
-      .write_aofs = true,
-      .vece = MO_32 },
-    { .fniv = gen_sqadd_vec,
-      .fno = gen_helper_gvec_sqadd_d,
-      .opt_opc = vecop_list_sqadd,
-      .write_aofs = true,
-      .vece = MO_64 },
-};
+void gen_gvec_sqadd_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ssadd_vec, INDEX_op_cmp_vec, INDEX_op_add_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqadd_vec,
+          .fno = gen_helper_gvec_sqadd_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
 
 static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                           TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_uqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
     tcg_temp_free_vec(x);
 }
 
-static const TCGOpcode vecop_list_uqsub[] = {
-    INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-};
-
-const GVecGen4 uqsub_op[4] = {
-    { .fniv = gen_uqsub_vec,
-      .fno = gen_helper_gvec_uqsub_b,
-      .opt_opc = vecop_list_uqsub,
-      .write_aofs = true,
-      .vece = MO_8 },
-    { .fniv = gen_uqsub_vec,
-      .fno = gen_helper_gvec_uqsub_h,
-      .opt_opc = vecop_list_uqsub,
-      .write_aofs = true,
-      .vece = MO_16 },
-    { .fniv = gen_uqsub_vec,
-      .fno = gen_helper_gvec_uqsub_s,
-      .opt_opc = vecop_list_uqsub,
-      .write_aofs = true,
-      .vece = MO_32 },
-    { .fniv = gen_uqsub_vec,
-      .fno = gen_helper_gvec_uqsub_d,
-      .opt_opc = vecop_list_uqsub,
-      .write_aofs = true,
-      .vece = MO_64 },
-};
+void gen_gvec_uqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_ussub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_uqsub_vec,
+          .fno = gen_helper_gvec_uqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
 
 static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
                           TCGv_vec a, TCGv_vec b)
@@ -XXX,XX +XXX,XX @@ static void gen_sqsub_vec(unsigned vece, TCGv_vec t, TCGv_vec sat,
     tcg_temp_free_vec(x);
 }
 
-static const TCGOpcode vecop_list_sqsub[] = {
-    INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
-};
-
-const GVecGen4 sqsub_op[4] = {
-    { .fniv = gen_sqsub_vec,
-      .fno = gen_helper_gvec_sqsub_b,
-      .opt_opc = vecop_list_sqsub,
-      .write_aofs = true,
-      .vece = MO_8 },
-    { .fniv = gen_sqsub_vec,
-      .fno = gen_helper_gvec_sqsub_h,
-      .opt_opc = vecop_list_sqsub,
-      .write_aofs = true,
-      .vece = MO_16 },
-    { .fniv = gen_sqsub_vec,
-      .fno = gen_helper_gvec_sqsub_s,
-      .opt_opc = vecop_list_sqsub,
-      .write_aofs = true,
-      .vece = MO_32 },
-    { .fniv = gen_sqsub_vec,
-      .fno = gen_helper_gvec_sqsub_d,
-      .opt_opc = vecop_list_sqsub,
-      .write_aofs = true,
-      .vece = MO_64 },
-};
+void gen_gvec_sqsub_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                       uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sssub_vec, INDEX_op_cmp_vec, INDEX_op_sub_vec, 0
+    };
+    static const GVecGen4 ops[4] = {
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_b,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_8 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_h,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_16 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_s,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_32 },
+        { .fniv = gen_sqsub_vec,
+          .fno = gen_helper_gvec_sqsub_d,
+          .opt_opc = vecop_list,
+          .write_aofs = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_4(rd_ofs, offsetof(CPUARMState, vfp.qc),
+                   rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
 
 /* Translate a NEON data processing instruction.  Return nonzero if the
    instruction is invalid.
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

These operations do not touch fp_status.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-12-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h        |  4 ++--
 target/arm/translate-a64.c |  5 ++---
 target/arm/translate.c     | 12 ++----------
 target/arm/vfp_helper.c    |  5 ++---
 4 files changed, 8 insertions(+), 18 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Provide a functional interface for the vector expansion.
This fits better with the existing set of helpers that
we provide for other operations.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-13-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.h     |  5 ++++
 target/arm/translate-a64.c | 34 ++----------------------
 target/arm/translate.c     | 54 +++++++++++++++++++-------------------
 3 files changed, 34 insertions(+), 59 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Pass a pointer directly to env->vfp.qc[0], rather than env.
This will allow SVE2, which does not modify QC, to pass a
pointer to dummy storage.

Change the return type of inl_qrdml.h_s16 to match the
sense of the operation: signed.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-14-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/translate.c  | 18 ++++++++---
 target/arm/vec_helper.c | 70 +++++++++++++++++++++++------------------
 2 files changed, 54 insertions(+), 34 deletions(-)

diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static const uint8_t neon_2rm_sizes[] = {
     [NEON_2RM_VCVT_UF] = 0x4,
 };
 
+static void gen_gvec_fn3_qc(uint32_t rd_ofs, uint32_t rn_ofs, uint32_t rm_ofs,
+                            uint32_t opr_sz, uint32_t max_sz,
+                            gen_helper_gvec_3_ptr *fn)
+{
+    TCGv_ptr qc_ptr = tcg_temp_new_ptr();
+
+    tcg_gen_addi_ptr(qc_ptr, cpu_env, offsetof(CPUARMState, vfp.qc));
+    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, qc_ptr,
+                       opr_sz, max_sz, 0, fn);
+    tcg_temp_free_ptr(qc_ptr);
+}
+
 void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                           uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
 {
@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlah_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
         gen_helper_gvec_qrdmlah_s16, gen_helper_gvec_qrdmlah_s32
     };
     tcg_debug_assert(vece >= 1 && vece <= 2);
-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
-                       opr_sz, max_sz, 0, fns[vece - 1]);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 }
 
 void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
@@ -XXX,XX +XXX,XX @@ void gen_gvec_sqrdmlsh_qc(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
         gen_helper_gvec_qrdmlsh_s16, gen_helper_gvec_qrdmlsh_s32
     };
     tcg_debug_assert(vece >= 1 && vece <= 2);
-    tcg_gen_gvec_3_ptr(rd_ofs, rn_ofs, rm_ofs, cpu_env,
-                       opr_sz, max_sz, 0, fns[vece - 1]);
+    gen_gvec_fn3_qc(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, fns[vece - 1]);
 }
 
 #define GEN_CMP0(NAME, COND)                                            \
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@
 #define H4(x)  (x)
 #endif
 
-#define SET_QC() env->vfp.qc[0] = 1
-
 static void clear_tail(void *vd, uintptr_t opr_sz, uintptr_t max_sz)
 {
     uint64_t *d = vd + opr_sz;
@@ -XXX,XX +XXX,XX @@ static void clear_tail(void *vd, uintptr_t opr_sz, uintptr_t max_sz)
 }
 
 /* Signed saturating rounding doubling multiply-accumulate high half, 16-bit */
-static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
-                                int16_t src2, int16_t src3)
+static int16_t inl_qrdmlah_s16(int16_t src1, int16_t src2,
+                               int16_t src3, uint32_t *sat)
 {
     /* Simplify:
      * = ((a3 << 16) + ((e1 * e2) << 1) + (1 << 15)) >> 16
@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
     ret = ((int32_t)src3 << 15) + ret + (1 << 14);
     ret >>= 15;
     if (ret != (int16_t)ret) {
-        SET_QC();
+        *sat = 1;
         ret = (ret < 0 ? -0x8000 : 0x7fff);
     }
     return ret;
@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlah_s16(CPUARMState *env, int16_t src1,
 uint32_t HELPER(neon_qrdmlah_s16)(CPUARMState *env, uint32_t src1,
                                   uint32_t src2, uint32_t src3)
 {
-    uint16_t e1 = inl_qrdmlah_s16(env, src1, src2, src3);
-    uint16_t e2 = inl_qrdmlah_s16(env, src1 >> 16, src2 >> 16, src3 >> 16);
+    uint32_t *sat = &env->vfp.qc[0];
+    uint16_t e1 = inl_qrdmlah_s16(src1, src2, src3, sat);
+    uint16_t e2 = inl_qrdmlah_s16(src1 >> 16, src2 >> 16, src3 >> 16, sat);
     return deposit32(e1, 16, 16, e2);
 }
 
 void HELPER(gvec_qrdmlah_s16)(void *vd, void *vn, void *vm,
-                              void *ve, uint32_t desc)
+                              void *vq, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     int16_t *d = vd;
     int16_t *n = vn;
     int16_t *m = vm;
-    CPUARMState *env = ve;
     uintptr_t i;
 
     for (i = 0; i < opr_sz / 2; ++i) {
-        d[i] = inl_qrdmlah_s16(env, n[i], m[i], d[i]);
+        d[i] = inl_qrdmlah_s16(n[i], m[i], d[i], vq);
     }
     clear_tail(d, opr_sz, simd_maxsz(desc));
 }
 
 /* Signed saturating rounding doubling multiply-subtract high half, 16-bit */
-static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
-                                int16_t src2, int16_t src3)
+static int16_t inl_qrdmlsh_s16(int16_t src1, int16_t src2,
+                               int16_t src3, uint32_t *sat)
 {
     /* Similarly, using subtraction:
      * = ((a3 << 16) - ((e1 * e2) << 1) + (1 << 15)) >> 16
@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
     ret = ((int32_t)src3 << 15) - ret + (1 << 14);
     ret >>= 15;
     if (ret != (int16_t)ret) {
-        SET_QC();
+        *sat = 1;
         ret = (ret < 0 ? -0x8000 : 0x7fff);
     }
     return ret;
@@ -XXX,XX +XXX,XX @@ static uint16_t inl_qrdmlsh_s16(CPUARMState *env, int16_t src1,
 uint32_t HELPER(neon_qrdmlsh_s16)(CPUARMState *env, uint32_t src1,
                                   uint32_t src2, uint32_t src3)
 {
-    uint16_t e1 = inl_qrdmlsh_s16(env, src1, src2, src3);
-    uint16_t e2 = inl_qrdmlsh_s16(env, src1 >> 16, src2 >> 16, src3 >> 16);
+    uint32_t *sat = &env->vfp.qc[0];
+    uint16_t e1 = inl_qrdmlsh_s16(src1, src2, src3, sat);
+    uint16_t e2 = inl_qrdmlsh_s16(src1 >> 16, src2 >> 16, src3 >> 16, sat);
     return deposit32(e1, 16, 16, e2);
 }
 
 void HELPER(gvec_qrdmlsh_s16)(void *vd, void *vn, void *vm,
-                              void *ve, uint32_t desc)
+                              void *vq, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     int16_t *d = vd;
     int16_t *n = vn;
     int16_t *m = vm;
-    CPUARMState *env = ve;
     uintptr_t i;
 
     for (i = 0; i < opr_sz / 2; ++i) {
-        d[i] = inl_qrdmlsh_s16(env, n[i], m[i], d[i]);
+        d[i] = inl_qrdmlsh_s16(n[i], m[i], d[i], vq);
     }
     clear_tail(d, opr_sz, simd_maxsz(desc));
 }
 
 /* Signed saturating rounding doubling multiply-accumulate high half, 32-bit */
-uint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
-                                  int32_t src2, int32_t src3)
+static int32_t inl_qrdmlah_s32(int32_t src1, int32_t src2,
+                               int32_t src3, uint32_t *sat)
 {
     /* Simplify similarly to int_qrdmlah_s16 above.  */
     int64_t ret = (int64_t)src1 * src2;
     ret = ((int64_t)src3 << 31) + ret + (1 << 30);
     ret >>= 31;
     if (ret != (int32_t)ret) {
-        SET_QC();
+        *sat = 1;
         ret = (ret < 0 ? INT32_MIN : INT32_MAX);
     }
     return ret;
 }
 
+uint32_t HELPER(neon_qrdmlah_s32)(CPUARMState *env, int32_t src1,
+                                  int32_t src2, int32_t src3)
+{
+    uint32_t *sat = &env->vfp.qc[0];
+    return inl_qrdmlah_s32(src1, src2, src3, sat);
+}
+
 void HELPER(gvec_qrdmlah_s32)(void *vd, void *vn, void *vm,
-                              void *ve, uint32_t desc)
+                              void *vq, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     int32_t *d = vd;
     int32_t *n = vn;
     int32_t *m = vm;
-    CPUARMState *env = ve;
     uintptr_t i;
 
     for (i = 0; i < opr_sz / 4; ++i) {
-        d[i] = helper_neon_qrdmlah_s32(env, n[i], m[i], d[i]);
+        d[i] = inl_qrdmlah_s32(n[i], m[i], d[i], vq);
     }
     clear_tail(d, opr_sz, simd_maxsz(desc));
 }
 
 /* Signed saturating rounding doubling multiply-subtract high half, 32-bit */
-uint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
-                                  int32_t src2, int32_t src3)
+static int32_t inl_qrdmlsh_s32(int32_t src1, int32_t src2,
+                               int32_t src3, uint32_t *sat)
 {
     /* Simplify similarly to int_qrdmlsh_s16 above.  */
     int64_t ret = (int64_t)src1 * src2;
     ret = ((int64_t)src3 << 31) - ret + (1 << 30);
     ret >>= 31;
     if (ret != (int32_t)ret) {
-        SET_QC();
+        *sat = 1;
         ret = (ret < 0 ? INT32_MIN : INT32_MAX);
     }
     return ret;
 }
 
+uint32_t HELPER(neon_qrdmlsh_s32)(CPUARMState *env, int32_t src1,
+                                  int32_t src2, int32_t src3)
+{
+    uint32_t *sat = &env->vfp.qc[0];
+    return inl_qrdmlsh_s32(src1, src2, src3, sat);
+}
+
 void HELPER(gvec_qrdmlsh_s32)(void *vd, void *vn, void *vm,
-                              void *ve, uint32_t desc)
+                              void *vq, uint32_t desc)
 {
     uintptr_t opr_sz = simd_oprsz(desc);
     int32_t *d = vd;
     int32_t *n = vn;
     int32_t *m = vm;
-    CPUARMState *env = ve;
     uintptr_t i;
 
     for (i = 0; i < opr_sz / 4; ++i) {
-        d[i] = helper_neon_qrdmlsh_s32(env, n[i], m[i], d[i]);
+        d[i] = inl_qrdmlsh_s32(n[i], m[i], d[i], vq);
     }
     clear_tail(d, opr_sz, simd_maxsz(desc));
 }
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Must clear the tail for AdvSIMD when SVE is enabled.

Fixes: ca40a6e6e39
Cc: qemu-stable@nongnu.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-15-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/vec_helper.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *stat, uint32_t desc) \
             d[i + j] = TYPE##_mul(n[i + j], mm, stat);                     \
         }                                                                  \
     }                                                                      \
+    clear_tail(d, oprsz, simd_maxsz(desc));                                \
 }
 
 DO_MUL_IDX(gvec_fmul_idx_h, float16, H2)
@@ -XXX,XX +XXX,XX @@ void HELPER(NAME)(void *vd, void *vn, void *vm, void *va,                  \
                                      mm, a[i + j], 0, stat);               \
         }                                                                  \
     }                                                                      \
+    clear_tail(d, oprsz, simd_maxsz(desc));                                \
 }
 
 DO_FMLA_IDX(gvec_fmla_idx_h, float16, H2)
-- 
2.20.1

From: Richard Henderson <richard.henderson@linaro.org>

Include 64-bit element size in preparation for SVE2.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-16-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h        |  10 +++
 target/arm/translate.h     |   5 ++
 target/arm/translate-a64.c |   8 ++-
 target/arm/translate.c     | 133 ++++++++++++++++++++++++++++++++++++-
 target/arm/vec_helper.c    |  24 +++++++
 5 files changed, 176 insertions(+), 4 deletions(-)

From: Richard Henderson <richard.henderson@linaro.org>

Include 64-bit element size in preparation for SVE2.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200513163245.17915-17-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.h        |  17 +++--
 target/arm/translate.h     |   5 ++
 target/arm/neon_helper.c   |  10 ---
 target/arm/translate-a64.c |  17 ++---
 target/arm/translate.c     | 134 +++++++++++++++++++++++++++++++++++--
 target/arm/vec_helper.c    |  24 +++++++
 6 files changed, 174 insertions(+), 33 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_2(neon_pmax_s8, i32, i32, i32)
 DEF_HELPER_2(neon_pmax_u16, i32, i32, i32)
 DEF_HELPER_2(neon_pmax_s16, i32, i32, i32)
 
-DEF_HELPER_2(neon_abd_u8, i32, i32, i32)
-DEF_HELPER_2(neon_abd_s8, i32, i32, i32)
-DEF_HELPER_2(neon_abd_u16, i32, i32, i32)
-DEF_HELPER_2(neon_abd_s16, i32, i32, i32)
-DEF_HELPER_2(neon_abd_u32, i32, i32, i32)
-DEF_HELPER_2(neon_abd_s32, i32, i32, i32)
-
 DEF_HELPER_2(neon_shl_u16, i32, i32, i32)
 DEF_HELPER_2(neon_shl_s16, i32, i32, i32)
 DEF_HELPER_2(neon_rshl_u8, i32, i32, i32)
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_4(gvec_uabd_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_uabd_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 DEF_HELPER_FLAGS_4(gvec_uabd_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
 
+DEF_HELPER_FLAGS_4(gvec_saba_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_saba_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_saba_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_saba_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
+DEF_HELPER_FLAGS_4(gvec_uaba_b, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_uaba_h, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_uaba_s, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+DEF_HELPER_FLAGS_4(gvec_uaba_d, TCG_CALL_NO_RWG, void, ptr, ptr, ptr, i32)
+
 #ifdef TARGET_AARCH64
 #include "helper-a64.h"
 #include "helper-sve.h"
diff --git a/target/arm/translate.h b/target/arm/translate.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.h
+++ b/target/arm/translate.h
@@ -XXX,XX +XXX,XX @@ void gen_gvec_sabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
 void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
                    uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
 
+void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz);
+
 /*
  * Forward to the isar_feature_* tests given a DisasContext pointer.
  */
diff --git a/target/arm/neon_helper.c b/target/arm/neon_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon_helper.c
+++ b/target/arm/neon_helper.c
@@ -XXX,XX +XXX,XX @@ NEON_POP(pmax_s16, neon_s16, 2)
 NEON_POP(pmax_u16, neon_u16, 2)
 #undef NEON_FN
 
-#define NEON_FN(dest, src1, src2) \
-    dest = (src1 > src2) ? (src1 - src2) : (src2 - src1)
-NEON_VOP(abd_s8, neon_s8, 4)
-NEON_VOP(abd_u8, neon_u8, 4)
-NEON_VOP(abd_s16, neon_s16, 2)
-NEON_VOP(abd_u16, neon_u16, 2)
-NEON_VOP(abd_s32, neon_s32, 1)
-NEON_VOP(abd_u32, neon_u32, 1)
-#undef NEON_FN
-
 #define NEON_FN(dest, src1, src2) do { \
     int8_t tmp; \
     tmp = (int8_t)src2; \
diff --git a/target/arm/translate-a64.c b/target/arm/translate-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-a64.c
+++ b/target/arm/translate-a64.c
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
             gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_sabd, size);
         }
         return;
+    case 0xf: /* SABA, UABA */
+        if (u) {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_uaba, size);
+        } else {
+            gen_gvec_fn3(s, is_q, rd, rn, rm, gen_gvec_saba, size);
+        }
+        return;
     case 0x10: /* ADD, SUB */
         if (u) {
             gen_gvec_fn3(s, is_q, rd, rn, rm, tcg_gen_gvec_sub, size);
@@ -XXX,XX +XXX,XX @@ static void disas_simd_3same_int(DisasContext *s, uint32_t insn)
                 genenvfn = fns[size][u];
                 break;
             }
-            case 0xf: /* SABA, UABA */
-            {
-                static NeonGenTwoOpFn * const fns[3][2] = {
-                    { gen_helper_neon_abd_s8, gen_helper_neon_abd_u8 },
-                    { gen_helper_neon_abd_s16, gen_helper_neon_abd_u16 },
-                    { gen_helper_neon_abd_s32, gen_helper_neon_abd_u32 },
-                };
-                genfn = fns[size][u];
-                break;
-            }
             case 0x16: /* SQDMULH, SQRDMULH */
             {
                 static NeonGenTwoOpEnvFn * const fns[2][2] = {
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ void gen_gvec_uabd(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
     tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
 }
 
+static void gen_saba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_sabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+    tcg_temp_free_i32(t);
+}
+
+static void gen_saba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_sabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_saba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_sabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+    tcg_temp_free_vec(t);
+}
+
+void gen_gvec_saba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_smin_vec, INDEX_op_smax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_saba_i32,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_saba_i64,
+          .fniv = gen_saba_vec,
+          .fno = gen_helper_gvec_saba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
+static void gen_uaba_i32(TCGv_i32 d, TCGv_i32 a, TCGv_i32 b)
+{
+    TCGv_i32 t = tcg_temp_new_i32();
+    gen_uabd_i32(t, a, b);
+    tcg_gen_add_i32(d, d, t);
+    tcg_temp_free_i32(t);
+}
+
+static void gen_uaba_i64(TCGv_i64 d, TCGv_i64 a, TCGv_i64 b)
+{
+    TCGv_i64 t = tcg_temp_new_i64();
+    gen_uabd_i64(t, a, b);
+    tcg_gen_add_i64(d, d, t);
+    tcg_temp_free_i64(t);
+}
+
+static void gen_uaba_vec(unsigned vece, TCGv_vec d, TCGv_vec a, TCGv_vec b)
+{
+    TCGv_vec t = tcg_temp_new_vec_matching(d);
+    gen_uabd_vec(vece, t, a, b);
+    tcg_gen_add_vec(vece, d, d, t);
+    tcg_temp_free_vec(t);
+}
+
+void gen_gvec_uaba(unsigned vece, uint32_t rd_ofs, uint32_t rn_ofs,
+                   uint32_t rm_ofs, uint32_t opr_sz, uint32_t max_sz)
+{
+    static const TCGOpcode vecop_list[] = {
+        INDEX_op_sub_vec, INDEX_op_add_vec,
+        INDEX_op_umin_vec, INDEX_op_umax_vec, 0
+    };
+    static const GVecGen3 ops[4] = {
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_b,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_8 },
+        { .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_h,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_16 },
+        { .fni4 = gen_uaba_i32,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_s,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_32 },
+        { .fni8 = gen_uaba_i64,
+          .fniv = gen_uaba_vec,
+          .fno = gen_helper_gvec_uaba_d,
+          .prefer_i64 = TCG_TARGET_REG_BITS == 64,
+          .opt_opc = vecop_list,
+          .load_dest = true,
+          .vece = MO_64 },
+    };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, opr_sz, max_sz, &ops[vece]);
+}
+
 /* Translate a NEON data processing instruction.  Return nonzero if the
    instruction is invalid.
    We process data in a mixture of 32-bit and 64-bit chunks.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             }
             return 0;
 
+        case NEON_3R_VABA:
+            if (u) {
+                gen_gvec_uaba(size, rd_ofs, rn_ofs, rm_ofs,
+                              vec_size, vec_size);
+            } else {
+                gen_gvec_saba(size, rd_ofs, rn_ofs, rm_ofs,
+                              vec_size, vec_size);
+            }
+            return 0;
+
         case NEON_3R_VADD_VSUB:
         case NEON_3R_LOGIC:
         case NEON_3R_VMAX:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VQRSHL:
             GEN_NEON_INTEGER_OP_ENV(qrshl);
             break;
-        case NEON_3R_VABA:
-            GEN_NEON_INTEGER_OP(abd);
-            tcg_temp_free_i32(tmp2);
-            tmp2 = neon_load_reg(rd, pass);
-            gen_neon_add(size, tmp, tmp2);
-            break;
         case NEON_3R_VPMAX:
             GEN_NEON_INTEGER_OP(pmax);
             break;
diff --git a/target/arm/vec_helper.c b/target/arm/vec_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vec_helper.c
+++ b/target/arm/vec_helper.c
@@ -XXX,XX +XXX,XX @@ DO_ABD(gvec_uabd_s, uint32_t)
 DO_ABD(gvec_uabd_d, uint64_t)
 
 #undef DO_ABD
+
+#define DO_ABA(NAME, TYPE)                                      \
+void HELPER(NAME)(void *vd, void *vn, void *vm, uint32_t desc)  \
+{                                                               \
+    intptr_t i, opr_sz = simd_oprsz(desc);                      \
+    TYPE *d = vd, *n = vn, *m = vm;                             \
+                                                                \
+    for (i = 0; i < opr_sz / sizeof(TYPE); ++i) {               \
+        d[i] += n[i] < m[i] ? m[i] - n[i] : n[i] - m[i];        \
+    }                                                           \
+    clear_tail(d, opr_sz, simd_maxsz(desc));                    \
+}
+
+DO_ABA(gvec_saba_b, int8_t)
+DO_ABA(gvec_saba_h, int16_t)
+DO_ABA(gvec_saba_s, int32_t)
+DO_ABA(gvec_saba_d, int64_t)
+
+DO_ABA(gvec_uaba_b, uint8_t)
+DO_ABA(gvec_uaba_h, uint16_t)
+DO_ABA(gvec_uaba_s, uint32_t)
+DO_ABA(gvec_uaba_d, uint64_t)
+
+#undef DO_ABA
-- 
2.20.1

From: Patrick Williams <patrick@stwcx.xyz>

Sonora Pass is a 2 socket x86 motherboard designed by Facebook
and supported by OpenBMC.  Strapping configuration was obtained
from hardware and i2c configuration is based on dts found at:

https://github.com/facebook/openbmc-linux/blob/1633c87b8ba7c162095787c988979b748ba65dc8/arch/arm/boot/dts/aspeed-bmc-facebook-sonorapass.dts

Booted a test image of http://github.com/facebook/openbmc to login
prompt.

Signed-off-by: Patrick Williams <patrick@stwcx.xyz>
Reviewed-by: Amithash Prasad <amithash@fb.com>
Reviewed-by: Cédric Le Goater <clg@kaod.org>
[PMM: fixed block comment style nit]
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/aspeed.c | 78 +++++++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 78 insertions(+)

diff --git a/hw/arm/aspeed.c b/hw/arm/aspeed.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/aspeed.c
+++ b/hw/arm/aspeed.c
@@ -XXX,XX +XXX,XX @@ struct AspeedBoardState {
         SCU_AST2500_HW_STRAP_ACPI_ENABLE |                              \
         SCU_HW_STRAP_SPI_MODE(SCU_HW_STRAP_SPI_MASTER))
 
+/* Sonorapass hardware value: 0xF100D216 */
+#define SONORAPASS_BMC_HW_STRAP1 (                                      \
+        SCU_AST2500_HW_STRAP_SPI_AUTOFETCH_ENABLE |                     \
+        SCU_AST2500_HW_STRAP_GPIO_STRAP_ENABLE |                        \
+        SCU_AST2500_HW_STRAP_UART_DEBUG |                               \
+        SCU_AST2500_HW_STRAP_RESERVED28 |                               \
+        SCU_AST2500_HW_STRAP_DDR4_ENABLE |                              \
+        SCU_HW_STRAP_VGA_CLASS_CODE |                                   \
+        SCU_HW_STRAP_LPC_RESET_PIN |                                    \
+        SCU_HW_STRAP_SPI_MODE(SCU_HW_STRAP_SPI_MASTER) |                \
+        SCU_AST2500_HW_STRAP_SET_AXI_AHB_RATIO(AXI_AHB_RATIO_2_1) |     \
+        SCU_HW_STRAP_VGA_BIOS_ROM |                                     \
+        SCU_HW_STRAP_VGA_SIZE_SET(VGA_16M_DRAM) |                       \
+        SCU_AST2500_HW_STRAP_RESERVED1)
+
 /* Swift hardware value: 0xF11AD206 */
 #define SWIFT_BMC_HW_STRAP1 (                                           \
         AST2500_HW_STRAP1_DEFAULTS |                                    \
@@ -XXX,XX +XXX,XX @@ static void swift_bmc_i2c_init(AspeedBoardState *bmc)
     i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 12), "tmp105", 0x4a);
 }
 
+static void sonorapass_bmc_i2c_init(AspeedBoardState *bmc)
+{
+    AspeedSoCState *soc = &bmc->soc;
+
+    /* bus 2 : */
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 2), "tmp105", 0x48);
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 2), "tmp105", 0x49);
+    /* bus 2 : pca9546 @ 0x73 */
+
+    /* bus 3 : pca9548 @ 0x70 */
+
+    /* bus 4 : */
+    uint8_t *eeprom4_54 = g_malloc0(8 * 1024);
+    smbus_eeprom_init_one(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), 0x54,
+                          eeprom4_54);
+    /* PCA9539 @ 0x76, but PCA9552 is compatible */
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), "pca9552", 0x76);
+    /* PCA9539 @ 0x77, but PCA9552 is compatible */
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 4), "pca9552", 0x77);
+
+    /* bus 6 : */
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 6), "tmp105", 0x48);
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 6), "tmp105", 0x49);
+    /* bus 6 : pca9546 @ 0x73 */
+
+    /* bus 8 : */
+    uint8_t *eeprom8_56 = g_malloc0(8 * 1024);
+    smbus_eeprom_init_one(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), 0x56,
+                          eeprom8_56);
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), "pca9552", 0x60);
+    i2c_create_slave(aspeed_i2c_get_bus(DEVICE(&soc->i2c), 8), "pca9552", 0x61);
+    /* bus 8 : adc128d818 @ 0x1d */
+    /* bus 8 : adc128d818 @ 0x1f */
+
+    /*
+     * bus 13 : pca9548 @ 0x71
+     *      - channel 3:
+     *          - tmm421 @ 0x4c
+     *          - tmp421 @ 0x4e
+     *          - tmp421 @ 0x4f
+     */
+
+}
+
 static void witherspoon_bmc_i2c_init(AspeedBoardState *bmc)
 {
     AspeedSoCState *soc = &bmc->soc;
@@ -XXX,XX +XXX,XX @@ static void aspeed_machine_romulus_class_init(ObjectClass *oc, void *data)
     mc->default_ram_size       = 512 * MiB;
 };
 
+static void aspeed_machine_sonorapass_class_init(ObjectClass *oc, void *data)
+{
+    MachineClass *mc = MACHINE_CLASS(oc);
+    AspeedMachineClass *amc = ASPEED_MACHINE_CLASS(oc);
+
+    mc->desc       = "OCP SonoraPass BMC (ARM1176)";
+    amc->soc_name  = "ast2500-a1";
+    amc->hw_strap1 = SONORAPASS_BMC_HW_STRAP1;
+    amc->fmc_model = "mx66l1g45g";
+    amc->spi_model = "mx66l1g45g";
+    amc->num_cs    = 2;
+    amc->i2c_init  = sonorapass_bmc_i2c_init;
+    mc->default_ram_size       = 512 * MiB;
+};
+
 static void aspeed_machine_swift_class_init(ObjectClass *oc, void *data)
 {
     MachineClass *mc = MACHINE_CLASS(oc);
@@ -XXX,XX +XXX,XX @@ static const TypeInfo aspeed_machine_types[] = {
         .name          = MACHINE_TYPE_NAME("swift-bmc"),
         .parent        = TYPE_ASPEED_MACHINE,
         .class_init    = aspeed_machine_swift_class_init,
+    }, {
+        .name          = MACHINE_TYPE_NAME("sonorapass-bmc"),
+        .parent        = TYPE_ASPEED_MACHINE,
+        .class_init    = aspeed_machine_sonorapass_class_init,
     }, {
         .name          = MACHINE_TYPE_NAME("witherspoon-bmc"),
         .parent        = TYPE_ASPEED_MACHINE,
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

The little end UUID is used in many places, so make
NVDIMM_UUID_LE to a common macro to convert the UUID
to a little end array.

Reviewed-by: Xiang Zheng <zhengxiang9@huawei.com>
Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Message-id: 20200512030609.19593-2-gengdongjiu@huawei.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/qemu/uuid.h | 27 +++++++++++++++++++++++++++
 hw/acpi/nvdimm.c    | 10 +++-------
 2 files changed, 30 insertions(+), 7 deletions(-)

diff --git a/include/qemu/uuid.h b/include/qemu/uuid.h
index XXXXXXX..XXXXXXX 100644
--- a/include/qemu/uuid.h
+++ b/include/qemu/uuid.h
@@ -XXX,XX +XXX,XX @@ typedef struct {
     };
 } QemuUUID;
 
+/**
+ * UUID_LE - converts the fields of UUID to little-endian array,
+ * each of parameters is the filed of UUID.
+ *
+ * @time_low: The low field of the timestamp
+ * @time_mid: The middle field of the timestamp
+ * @time_hi_and_version: The high field of the timestamp
+ *                       multiplexed with the version number
+ * @clock_seq_hi_and_reserved: The high field of the clock
+ *                             sequence multiplexed with the variant
+ * @clock_seq_low: The low field of the clock sequence
+ * @node0: The spatially unique node0 identifier
+ * @node1: The spatially unique node1 identifier
+ * @node2: The spatially unique node2 identifier
+ * @node3: The spatially unique node3 identifier
+ * @node4: The spatially unique node4 identifier
+ * @node5: The spatially unique node5 identifier
+ */
+#define UUID_LE(time_low, time_mid, time_hi_and_version,                    \
+  clock_seq_hi_and_reserved, clock_seq_low, node0, node1, node2,            \
+  node3, node4, node5)                                                      \
+  { (time_low) & 0xff, ((time_low) >> 8) & 0xff, ((time_low) >> 16) & 0xff, \
+    ((time_low) >> 24) & 0xff, (time_mid) & 0xff, ((time_mid) >> 8) & 0xff, \
+    (time_hi_and_version) & 0xff, ((time_hi_and_version) >> 8) & 0xff,      \
+    (clock_seq_hi_and_reserved), (clock_seq_low), (node0), (node1), (node2),\
+    (node3), (node4), (node5) }
+
 #define UUID_FMT "%02hhx%02hhx%02hhx%02hhx-" \
                  "%02hhx%02hhx-%02hhx%02hhx-" \
                  "%02hhx%02hhx-" \
diff --git a/hw/acpi/nvdimm.c b/hw/acpi/nvdimm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/nvdimm.c
+++ b/hw/acpi/nvdimm.c
@@ -XXX,XX +XXX,XX @@
  */
 
 #include "qemu/osdep.h"
+#include "qemu/uuid.h"
 #include "hw/acpi/acpi.h"
 #include "hw/acpi/aml-build.h"
 #include "hw/acpi/bios-linker-loader.h"
@@ -XXX,XX +XXX,XX @@
 #include "hw/mem/nvdimm.h"
 #include "qemu/nvdimm-utils.h"
 
-#define NVDIMM_UUID_LE(a, b, c, d0, d1, d2, d3, d4, d5, d6, d7)             \
-   { (a) & 0xff, ((a) >> 8) & 0xff, ((a) >> 16) & 0xff, ((a) >> 24) & 0xff, \
-     (b) & 0xff, ((b) >> 8) & 0xff, (c) & 0xff, ((c) >> 8) & 0xff,          \
-     (d0), (d1), (d2), (d3), (d4), (d5), (d6), (d7) }
-
 /*
  * define Byte Addressable Persistent Memory (PM) Region according to
  * ACPI 6.0: 5.2.25.1 System Physical Address Range Structure.
  */
 static const uint8_t nvdimm_nfit_spa_uuid[] =
-      NVDIMM_UUID_LE(0x66f0d379, 0xb4f3, 0x4074, 0xac, 0x43, 0x0d, 0x33,
-                     0x18, 0xb7, 0x8c, 0xdb);
+      UUID_LE(0x66f0d379, 0xb4f3, 0x4074, 0xac, 0x43, 0x0d, 0x33,
+              0x18, 0xb7, 0x8c, 0xdb);
 
 /*
  * NVDIMM Firmware Interface Table
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

RAS Virtualization feature is not supported now, so
add a RAS machine option and disable it by default.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Reviewed-by: Jonathan Cameron <Jonathan.Cameron@huawei.com>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Message-id: 20200512030609.19593-3-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/virt.h |  1 +
 hw/arm/virt.c         | 23 +++++++++++++++++++++++
 2 files changed, 24 insertions(+)

diff --git a/include/hw/arm/virt.h b/include/hw/arm/virt.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/virt.h
+++ b/include/hw/arm/virt.h
@@ -XXX,XX +XXX,XX @@ typedef struct {
     bool highmem_ecam;
     bool its;
     bool virt;
+    bool ras;
     OnOffAuto acpi;
     VirtGICType gic_version;
     VirtIOMMUType iommu;
diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void virt_set_acpi(Object *obj, Visitor *v, const char *name,
     visit_type_OnOffAuto(v, name, &vms->acpi, errp);
 }
 
+static bool virt_get_ras(Object *obj, Error **errp)
+{
+    VirtMachineState *vms = VIRT_MACHINE(obj);
+
+    return vms->ras;
+}
+
+static void virt_set_ras(Object *obj, bool value, Error **errp)
+{
+    VirtMachineState *vms = VIRT_MACHINE(obj);
+
+    vms->ras = value;
+}
+
 static char *virt_get_gic_version(Object *obj, Error **errp)
 {
     VirtMachineState *vms = VIRT_MACHINE(obj);
@@ -XXX,XX +XXX,XX @@ static void virt_instance_init(Object *obj)
                                     "Valid values are none and smmuv3",
                                     NULL);
 
+    /* Default disallows RAS instantiation */
+    vms->ras = false;
+    object_property_add_bool(obj, "ras", virt_get_ras,
+                             virt_set_ras, NULL);
+    object_property_set_description(obj, "ras",
+                                    "Set on/off to enable/disable reporting host memory errors "
+                                    "to a KVM guest using ACPI and guest external abort exceptions",
+                                    NULL);
+
     vms->irqmap = a15irqmap;
 
     virt_flash_create(vms);
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

Add APEI/GHES detailed design document

Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Message-id: 20200512030609.19593-4-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 docs/specs/acpi_hest_ghes.rst | 110 ++++++++++++++++++++++++++++++++++
 docs/specs/index.rst          |   1 +
 2 files changed, 111 insertions(+)
 create mode 100644 docs/specs/acpi_hest_ghes.rst

diff --git a/docs/specs/acpi_hest_ghes.rst b/docs/specs/acpi_hest_ghes.rst
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/docs/specs/acpi_hest_ghes.rst
@@ -XXX,XX +XXX,XX @@
+APEI tables generating and CPER record
+======================================
+
+..
+   Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
+
+   This work is licensed under the terms of the GNU GPL, version 2 or later.
+   See the COPYING file in the top-level directory.
+
+Design Details
+--------------
+
+::
+
+         etc/acpi/tables                           etc/hardware_errors
+      ====================                   ===============================
+  + +--------------------------+            +----------------------------+
+  | | HEST                     | +--------->|    error_block_address1    |------+
+  | +--------------------------+ |          +----------------------------+      |
+  | | GHES1                    | | +------->|    error_block_address2    |------+-+
+  | +--------------------------+ | |        +----------------------------+      | |
+  | | .................        | | |        |      ..............        |      | |
+  | | error_status_address-----+-+ |        -----------------------------+      | |
+  | | .................        |   |   +--->|    error_block_addressN    |------+-+---+
+  | | read_ack_register--------+-+ |   |    +----------------------------+      | |   |
+  | | read_ack_preserve        | +-+---+--->|     read_ack_register1     |      | |   |
+  | | read_ack_write           |   |   |    +----------------------------+      | |   |
+  + +--------------------------+   | +-+--->|     read_ack_register2     |      | |   |
+  | | GHES2                    |   | | |    +----------------------------+      | |   |
+  + +--------------------------+   | | |    |       .............        |      | |   |
+  | | .................        |   | | |    +----------------------------+      | |   |
+  | | error_status_address-----+---+ | | +->|     read_ack_registerN     |      | |   |
+  | | .................        |     | | |  +----------------------------+      | |   |
+  | | read_ack_register--------+-----+ | |  |Generic Error Status Block 1|<-----+ |   |
+  | | read_ack_preserve        |       | |  |-+------------------------+-+        |   |
+  | | read_ack_write           |       | |  | |          CPER          | |        |   |
+  + +--------------------------|       | |  | |          CPER          | |        |   |
+  | | ...............          |       | |  | |          ....          | |        |   |
+  + +--------------------------+       | |  | |          CPER          | |        |   |
+  | | GHESN                    |       | |  |-+------------------------+-|        |   |
+  + +--------------------------+       | |  |Generic Error Status Block 2|<-------+   |
+  | | .................        |       | |  |-+------------------------+-+            |
+  | | error_status_address-----+-------+ |  | |           CPER         | |            |
+  | | .................        |         |  | |           CPER         | |            |
+  | | read_ack_register--------+---------+  | |           ....         | |            |
+  | | read_ack_preserve        |            | |           CPER         | |            |
+  | | read_ack_write           |            +-+------------------------+-+            |
+  + +--------------------------+            |         ..........         |            |
+                                            |----------------------------+            |
+                                            |Generic Error Status Block N |<----------+
+                                            |-+-------------------------+-+
+                                            | |          CPER           | |
+                                            | |          CPER           | |
+                                            | |          ....           | |
+                                            | |          CPER           | |
+                                            +-+-------------------------+-+
+
+
+(1) QEMU generates the ACPI HEST table. This table goes in the current
+    "etc/acpi/tables" fw_cfg blob. Each error source has different
+    notification types.
+
+(2) A new fw_cfg blob called "etc/hardware_errors" is introduced. QEMU
+    also needs to populate this blob. The "etc/hardware_errors" fw_cfg blob
+    contains an address registers table and an Error Status Data Block table.
+
+(3) The address registers table contains N Error Block Address entries
+    and N Read Ack Register entries. The size for each entry is 8-byte.
+    The Error Status Data Block table contains N Error Status Data Block
+    entries. The size for each entry is 4096(0x1000) bytes. The total size
+    for the "etc/hardware_errors" fw_cfg blob is (N * 8 * 2 + N * 4096) bytes.
+    N is the number of the kinds of hardware error sources.
+
+(4) QEMU generates the ACPI linker/loader script for the firmware. The
+    firmware pre-allocates memory for "etc/acpi/tables", "etc/hardware_errors"
+    and copies blob contents there.
+
+(5) QEMU generates N ADD_POINTER commands, which patch addresses in the
+    "error_status_address" fields of the HEST table with a pointer to the
+    corresponding "address registers" in the "etc/hardware_errors" blob.
+
+(6) QEMU generates N ADD_POINTER commands, which patch addresses in the
+    "read_ack_register" fields of the HEST table with a pointer to the
+    corresponding "read_ack_register" within the "etc/hardware_errors" blob.
+
+(7) QEMU generates N ADD_POINTER commands for the firmware, which patch
+    addresses in the "error_block_address" fields with a pointer to the
+    respective "Error Status Data Block" in the "etc/hardware_errors" blob.
+
+(8) QEMU defines a third and write-only fw_cfg blob which is called
+    "etc/hardware_errors_addr". Through that blob, the firmware can send back
+    the guest-side allocation addresses to QEMU. The "etc/hardware_errors_addr"
+    blob contains a 8-byte entry. QEMU generates a single WRITE_POINTER command
+    for the firmware. The firmware will write back the start address of
+    "etc/hardware_errors" blob to the fw_cfg file "etc/hardware_errors_addr".
+
+(9) When QEMU gets a SIGBUS from the kernel, QEMU writes CPER into corresponding
+    "Error Status Data Block", guest memory, and then injects platform specific
+    interrupt (in case of arm/virt machine it's Synchronous External Abort) as a
+    notification which is necessary for notifying the guest.
+
+(10) This notification (in virtual hardware) will be handled by the guest
+     kernel, on receiving notification, guest APEI driver could read the CPER error
+     and take appropriate action.
+
+(11) kvm_arch_on_sigbus_vcpu() uses source_id as index in "etc/hardware_errors" to
+     find out "Error Status Data Block" entry corresponding to error source. So supported
+     source_id values should be assigned here and not be changed afterwards to make sure
+     that guest will write error into expected "Error Status Data Block" even if guest was
+     migrated to a newer QEMU.
diff --git a/docs/specs/index.rst b/docs/specs/index.rst
index XXXXXXX..XXXXXXX 100644
--- a/docs/specs/index.rst
+++ b/docs/specs/index.rst
@@ -XXX,XX +XXX,XX @@ Contents:
    ppc-spapr-xive
    acpi_hw_reduced_hotplug
    tpm
+   acpi_hest_ghes
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

This patch builds error_block_address and read_ack_register fields
in hardware errors table , the error_block_address points to Generic
Error Status Block(GESB) via bios_linker. The max size for one GESB
is 1kb, For more detailed information, please refer to
document: docs/specs/acpi_hest_ghes.rst

Now we only support one Error source, if necessary, we can extend to
support more.

Suggested-by: Laszlo Ersek <lersek@redhat.com>
Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Reviewed-by: Jonathan Cameron <Jonathan.Cameron@huawei.com>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
Message-id: 20200512030609.19593-5-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 default-configs/arm-softmmu.mak |  1 +
 include/hw/acpi/aml-build.h     |  1 +
 include/hw/acpi/ghes.h          | 28 +++++++++++
 hw/acpi/aml-build.c             |  2 +
 hw/acpi/ghes.c                  | 89 +++++++++++++++++++++++++++++++++
 hw/arm/virt-acpi-build.c        |  5 ++
 hw/acpi/Kconfig                 |  4 ++
 hw/acpi/Makefile.objs           |  1 +
 8 files changed, 131 insertions(+)
 create mode 100644 include/hw/acpi/ghes.h
 create mode 100644 hw/acpi/ghes.c

diff --git a/default-configs/arm-softmmu.mak b/default-configs/arm-softmmu.mak
index XXXXXXX..XXXXXXX 100644
--- a/default-configs/arm-softmmu.mak
+++ b/default-configs/arm-softmmu.mak
@@ -XXX,XX +XXX,XX @@ CONFIG_FSL_IMX7=y
 CONFIG_FSL_IMX6UL=y
 CONFIG_SEMIHOSTING=y
 CONFIG_ALLWINNER_H3=y
+CONFIG_ACPI_APEI=y
diff --git a/include/hw/acpi/aml-build.h b/include/hw/acpi/aml-build.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/acpi/aml-build.h
+++ b/include/hw/acpi/aml-build.h
@@ -XXX,XX +XXX,XX @@ struct AcpiBuildTables {
     GArray *rsdp;
     GArray *tcpalog;
     GArray *vmgenid;
+    GArray *hardware_errors;
     BIOSLinker *linker;
 } AcpiBuildTables;
 
diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/include/hw/acpi/ghes.h
@@ -XXX,XX +XXX,XX @@
+/*
+ * Support for generating APEI tables and recording CPER for Guests
+ *
+ * Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
+ *
+ * Author: Dongjiu Geng <gengdongjiu@huawei.com>
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+
+ * You should have received a copy of the GNU General Public License along
+ * with this program; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#ifndef ACPI_GHES_H
+#define ACPI_GHES_H
+
+#include "hw/acpi/bios-linker-loader.h"
+
+void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
+#endif
diff --git a/hw/acpi/aml-build.c b/hw/acpi/aml-build.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/aml-build.c
+++ b/hw/acpi/aml-build.c
@@ -XXX,XX +XXX,XX @@ void acpi_build_tables_init(AcpiBuildTables *tables)
     tables->table_data = g_array_new(false, true /* clear */, 1);
     tables->tcpalog = g_array_new(false, true /* clear */, 1);
     tables->vmgenid = g_array_new(false, true /* clear */, 1);
+    tables->hardware_errors = g_array_new(false, true /* clear */, 1);
     tables->linker = bios_linker_loader_init();
 }
 
@@ -XXX,XX +XXX,XX @@ void acpi_build_tables_cleanup(AcpiBuildTables *tables, bool mfre)
     g_array_free(tables->table_data, true);
     g_array_free(tables->tcpalog, mfre);
     g_array_free(tables->vmgenid, mfre);
+    g_array_free(tables->hardware_errors, mfre);
 }
 
 /*
diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/acpi/ghes.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * Support for generating APEI tables and recording CPER for Guests
+ *
+ * Copyright (c) 2020 HUAWEI TECHNOLOGIES CO., LTD.
+ *
+ * Author: Dongjiu Geng <gengdongjiu@huawei.com>
+ *
+ * This program is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+
+ * This program is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+
+ * You should have received a copy of the GNU General Public License along
+ * with this program; if not, see <http://www.gnu.org/licenses/>.
+ */
+
+#include "qemu/osdep.h"
+#include "qemu/units.h"
+#include "hw/acpi/ghes.h"
+#include "hw/acpi/aml-build.h"
+
+#define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
+#define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
+
+/* The max size in bytes for one error block */
+#define ACPI_GHES_MAX_RAW_DATA_LENGTH   (1 * KiB)
+
+/* Now only support ARMv8 SEA notification type error source */
+#define ACPI_GHES_ERROR_SOURCE_COUNT        1
+
+/*
+ * Build table for the hardware error fw_cfg blob.
+ * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
+ * See docs/specs/acpi_hest_ghes.rst for blobs format.
+ */
+void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker)
+{
+    int i, error_status_block_offset;
+
+    /* Build error_block_address */
+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
+        build_append_int_noprefix(hardware_errors, 0, sizeof(uint64_t));
+    }
+
+    /* Build read_ack_register */
+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
+        /*
+         * Initialize the value of read_ack_register to 1, so GHES can be
+         * writeable after (re)boot.
+         * ACPI 6.2: 18.3.2.8 Generic Hardware Error Source version 2
+         * (GHESv2 - Type 10)
+         */
+        build_append_int_noprefix(hardware_errors, 1, sizeof(uint64_t));
+    }
+
+    /* Generic Error Status Block offset in the hardware error fw_cfg blob */
+    error_status_block_offset = hardware_errors->len;
+
+    /* Reserve space for Error Status Data Block */
+    acpi_data_push(hardware_errors,
+        ACPI_GHES_MAX_RAW_DATA_LENGTH * ACPI_GHES_ERROR_SOURCE_COUNT);
+
+    /* Tell guest firmware to place hardware_errors blob into RAM */
+    bios_linker_loader_alloc(linker, ACPI_GHES_ERRORS_FW_CFG_FILE,
+                             hardware_errors, sizeof(uint64_t), false);
+
+    for (i = 0; i < ACPI_GHES_ERROR_SOURCE_COUNT; i++) {
+        /*
+         * Tell firmware to patch error_block_address entries to point to
+         * corresponding "Generic Error Status Block"
+         */
+        bios_linker_loader_add_pointer(linker,
+            ACPI_GHES_ERRORS_FW_CFG_FILE, sizeof(uint64_t) * i,
+            sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE,
+            error_status_block_offset + i * ACPI_GHES_MAX_RAW_DATA_LENGTH);
+    }
+
+    /*
+     * tell firmware to write hardware_errors GPA into
+     * hardware_errors_addr fw_cfg, once the former has been initialized.
+     */
+    bios_linker_loader_write_pointer(linker, ACPI_GHES_DATA_ADDR_FW_CFG_FILE,
+        0, sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE, 0);
+}
diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt-acpi-build.c
+++ b/hw/arm/virt-acpi-build.c
@@ -XXX,XX +XXX,XX @@
 #include "sysemu/reset.h"
 #include "kvm_arm.h"
 #include "migration/vmstate.h"
+#include "hw/acpi/ghes.h"
 
 #define ARM_SPI_BASE 32
 
@@ -XXX,XX +XXX,XX @@ void virt_acpi_build(VirtMachineState *vms, AcpiBuildTables *tables)
     acpi_add_table(table_offsets, tables_blob);
     build_spcr(tables_blob, tables->linker, vms);
 
+    if (vms->ras) {
+        build_ghes_error_table(tables->hardware_errors, tables->linker);
+    }
+
     if (ms->numa_state->num_nodes > 0) {
         acpi_add_table(table_offsets, tables_blob);
         build_srat(tables_blob, tables->linker, vms);
diff --git a/hw/acpi/Kconfig b/hw/acpi/Kconfig
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/Kconfig
+++ b/hw/acpi/Kconfig
@@ -XXX,XX +XXX,XX @@ config ACPI_HMAT
     bool
     depends on ACPI
 
+config ACPI_APEI
+    bool
+    depends on ACPI
+
 config ACPI_PCI
     bool
     depends on ACPI && PCI
diff --git a/hw/acpi/Makefile.objs b/hw/acpi/Makefile.objs
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/Makefile.objs
+++ b/hw/acpi/Makefile.objs
@@ -XXX,XX +XXX,XX @@ common-obj-$(CONFIG_ACPI_NVDIMM) += nvdimm.o
 common-obj-$(CONFIG_ACPI_VMGENID) += vmgenid.o
 common-obj-$(CONFIG_ACPI_HW_REDUCED) += generic_event_device.o
 common-obj-$(CONFIG_ACPI_HMAT) += hmat.o
+common-obj-$(CONFIG_ACPI_APEI) += ghes.o
 common-obj-$(call lnot,$(CONFIG_ACPI_X86)) += acpi-stub.o
 common-obj-$(call lnot,$(CONFIG_PC)) += acpi-x86-stub.o
 
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

This patch builds Hardware Error Source Table(HEST) via fw_cfg blobs.
Now it only supports ARMv8 SEA, a type of Generic Hardware Error
Source version 2(GHESv2) error source. Afterwards, we can extend
the supported types if needed. For the CPER section, currently it
is memory section because kernel mainly wants userspace to handle
the memory errors.

This patch follows the spec ACPI 6.2 to build the Hardware Error
Source table. For more detailed information, please refer to
document: docs/specs/acpi_hest_ghes.rst

build_ghes_hw_error_notification() helper will help to add Hardware
Error Notification to ACPI tables without using packed C structures
and avoid endianness issues as API doesn't need explicit conversion.

Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
Message-id: 20200512030609.19593-6-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/acpi/ghes.h   |  39 ++++++++++++
 hw/acpi/ghes.c           | 126 +++++++++++++++++++++++++++++++++++++++
 hw/arm/virt-acpi-build.c |   2 +
 3 files changed, 167 insertions(+)

diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/acpi/ghes.h
+++ b/include/hw/acpi/ghes.h
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/acpi/bios-linker-loader.h"
 
+/*
+ * Values for Hardware Error Notification Type field
+ */
+enum AcpiGhesNotifyType {
+    /* Polled */
+    ACPI_GHES_NOTIFY_POLLED = 0,
+    /* External Interrupt */
+    ACPI_GHES_NOTIFY_EXTERNAL = 1,
+    /* Local Interrupt */
+    ACPI_GHES_NOTIFY_LOCAL = 2,
+    /* SCI */
+    ACPI_GHES_NOTIFY_SCI = 3,
+    /* NMI */
+    ACPI_GHES_NOTIFY_NMI = 4,
+    /* CMCI, ACPI 5.0: 18.3.2.7, Table 18-290 */
+    ACPI_GHES_NOTIFY_CMCI = 5,
+    /* MCE, ACPI 5.0: 18.3.2.7, Table 18-290 */
+    ACPI_GHES_NOTIFY_MCE = 6,
+    /* GPIO-Signal, ACPI 6.0: 18.3.2.7, Table 18-332 */
+    ACPI_GHES_NOTIFY_GPIO = 7,
+    /* ARMv8 SEA, ACPI 6.1: 18.3.2.9, Table 18-345 */
+    ACPI_GHES_NOTIFY_SEA = 8,
+    /* ARMv8 SEI, ACPI 6.1: 18.3.2.9, Table 18-345 */
+    ACPI_GHES_NOTIFY_SEI = 9,
+    /* External Interrupt - GSIV, ACPI 6.1: 18.3.2.9, Table 18-345 */
+    ACPI_GHES_NOTIFY_GSIV = 10,
+    /* Software Delegated Exception, ACPI 6.2: 18.3.2.9, Table 18-383 */
+    ACPI_GHES_NOTIFY_SDEI = 11,
+    /* 12 and greater are reserved */
+    ACPI_GHES_NOTIFY_RESERVED = 12
+};
+
+enum {
+    ACPI_HEST_SRC_ID_SEA = 0,
+    /* future ids go here */
+    ACPI_HEST_SRC_ID_RESERVED,
+};
+
 void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
+void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
 #endif
diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/ghes.c
+++ b/hw/acpi/ghes.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/units.h"
 #include "hw/acpi/ghes.h"
 #include "hw/acpi/aml-build.h"
+#include "qemu/error-report.h"
 
 #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
 #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
@@ -XXX,XX +XXX,XX @@
 /* Now only support ARMv8 SEA notification type error source */
 #define ACPI_GHES_ERROR_SOURCE_COUNT        1
 
+/* Generic Hardware Error Source version 2 */
+#define ACPI_GHES_SOURCE_GENERIC_ERROR_V2   10
+
+/* Address offset in Generic Address Structure(GAS) */
+#define GAS_ADDR_OFFSET 4
+
+/*
+ * Hardware Error Notification
+ * ACPI 4.0: 17.3.2.7 Hardware Error Notification
+ * Composes dummy Hardware Error Notification descriptor of specified type
+ */
+static void build_ghes_hw_error_notification(GArray *table, const uint8_t type)
+{
+    /* Type */
+    build_append_int_noprefix(table, type, 1);
+    /*
+     * Length:
+     * Total length of the structure in bytes
+     */
+    build_append_int_noprefix(table, 28, 1);
+    /* Configuration Write Enable */
+    build_append_int_noprefix(table, 0, 2);
+    /* Poll Interval */
+    build_append_int_noprefix(table, 0, 4);
+    /* Vector */
+    build_append_int_noprefix(table, 0, 4);
+    /* Switch To Polling Threshold Value */
+    build_append_int_noprefix(table, 0, 4);
+    /* Switch To Polling Threshold Window */
+    build_append_int_noprefix(table, 0, 4);
+    /* Error Threshold Value */
+    build_append_int_noprefix(table, 0, 4);
+    /* Error Threshold Window */
+    build_append_int_noprefix(table, 0, 4);
+}
+
 /*
  * Build table for the hardware error fw_cfg blob.
  * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
@@ -XXX,XX +XXX,XX @@ void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker)
     bios_linker_loader_write_pointer(linker, ACPI_GHES_DATA_ADDR_FW_CFG_FILE,
         0, sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE, 0);
 }
+
+/* Build Generic Hardware Error Source version 2 (GHESv2) */
+static void build_ghes_v2(GArray *table_data, int source_id, BIOSLinker *linker)
+{
+    uint64_t address_offset;
+    /*
+     * Type:
+     * Generic Hardware Error Source version 2(GHESv2 - Type 10)
+     */
+    build_append_int_noprefix(table_data, ACPI_GHES_SOURCE_GENERIC_ERROR_V2, 2);
+    /* Source Id */
+    build_append_int_noprefix(table_data, source_id, 2);
+    /* Related Source Id */
+    build_append_int_noprefix(table_data, 0xffff, 2);
+    /* Flags */
+    build_append_int_noprefix(table_data, 0, 1);
+    /* Enabled */
+    build_append_int_noprefix(table_data, 1, 1);
+
+    /* Number of Records To Pre-allocate */
+    build_append_int_noprefix(table_data, 1, 4);
+    /* Max Sections Per Record */
+    build_append_int_noprefix(table_data, 1, 4);
+    /* Max Raw Data Length */
+    build_append_int_noprefix(table_data, ACPI_GHES_MAX_RAW_DATA_LENGTH, 4);
+
+    address_offset = table_data->len;
+    /* Error Status Address */
+    build_append_gas(table_data, AML_AS_SYSTEM_MEMORY, 0x40, 0,
+                     4 /* QWord access */, 0);
+    bios_linker_loader_add_pointer(linker, ACPI_BUILD_TABLE_FILE,
+        address_offset + GAS_ADDR_OFFSET, sizeof(uint64_t),
+        ACPI_GHES_ERRORS_FW_CFG_FILE, source_id * sizeof(uint64_t));
+
+    switch (source_id) {
+    case ACPI_HEST_SRC_ID_SEA:
+        /*
+         * Notification Structure
+         * Now only enable ARMv8 SEA notification type
+         */
+        build_ghes_hw_error_notification(table_data, ACPI_GHES_NOTIFY_SEA);
+        break;
+    default:
+        error_report("Not support this error source");
+        abort();
+    }
+
+    /* Error Status Block Length */
+    build_append_int_noprefix(table_data, ACPI_GHES_MAX_RAW_DATA_LENGTH, 4);
+
+    /*
+     * Read Ack Register
+     * ACPI 6.1: 18.3.2.8 Generic Hardware Error Source
+     * version 2 (GHESv2 - Type 10)
+     */
+    address_offset = table_data->len;
+    build_append_gas(table_data, AML_AS_SYSTEM_MEMORY, 0x40, 0,
+                     4 /* QWord access */, 0);
+    bios_linker_loader_add_pointer(linker, ACPI_BUILD_TABLE_FILE,
+        address_offset + GAS_ADDR_OFFSET,
+        sizeof(uint64_t), ACPI_GHES_ERRORS_FW_CFG_FILE,
+        (ACPI_GHES_ERROR_SOURCE_COUNT + source_id) * sizeof(uint64_t));
+
+    /*
+     * Read Ack Preserve field
+     * We only provide the first bit in Read Ack Register to OSPM to write
+     * while the other bits are preserved.
+     */
+    build_append_int_noprefix(table_data, ~0x1ULL, 8);
+    /* Read Ack Write */
+    build_append_int_noprefix(table_data, 0x1, 8);
+}
+
+/* Build Hardware Error Source Table */
+void acpi_build_hest(GArray *table_data, BIOSLinker *linker)
+{
+    uint64_t hest_start = table_data->len;
+
+    /* Hardware Error Source Table header*/
+    acpi_data_push(table_data, sizeof(AcpiTableHeader));
+
+    /* Error Source Count */
+    build_append_int_noprefix(table_data, ACPI_GHES_ERROR_SOURCE_COUNT, 4);
+
+    build_ghes_v2(table_data, ACPI_HEST_SRC_ID_SEA, linker);
+
+    build_header(linker, table_data, (void *)(table_data->data + hest_start),
+        "HEST", table_data->len - hest_start, 1, NULL, NULL);
+}
diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt-acpi-build.c
+++ b/hw/arm/virt-acpi-build.c
@@ -XXX,XX +XXX,XX @@ void virt_acpi_build(VirtMachineState *vms, AcpiBuildTables *tables)
 
     if (vms->ras) {
         build_ghes_error_table(tables->hardware_errors, tables->linker);
+        acpi_add_table(table_offsets, tables_blob);
+        acpi_build_hest(tables_blob, tables->linker);
     }
 
     if (ms->numa_state->num_nodes > 0) {
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

Record the GHEB address via fw_cfg file, when recording
a error to CPER, it will use this address to find out
Generic Error Data Entries and write the error.

In order to avoid migration failure, make hardware
error table address to a part of GED device instead
of global variable, then this address will be migrated
to target QEMU.

Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
Message-id: 20200512030609.19593-7-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/acpi/generic_event_device.h |  2 ++
 include/hw/acpi/ghes.h                 |  6 ++++++
 hw/acpi/generic_event_device.c         | 19 +++++++++++++++++++
 hw/acpi/ghes.c                         | 14 ++++++++++++++
 hw/arm/virt-acpi-build.c               |  8 ++++++++
 5 files changed, 49 insertions(+)

diff --git a/include/hw/acpi/generic_event_device.h b/include/hw/acpi/generic_event_device.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/acpi/generic_event_device.h
+++ b/include/hw/acpi/generic_event_device.h
@@ -XXX,XX +XXX,XX @@
 
 #include "hw/sysbus.h"
 #include "hw/acpi/memory_hotplug.h"
+#include "hw/acpi/ghes.h"
 
 #define ACPI_POWER_BUTTON_DEVICE "PWRB"
 
@@ -XXX,XX +XXX,XX @@ typedef struct AcpiGedState {
     GEDState ged_state;
     uint32_t ged_event_bitmap;
     qemu_irq irq;
+    AcpiGhesState ghes_state;
 } AcpiGedState;
 
 void build_ged_aml(Aml *table, const char* name, HotplugHandler *hotplug_dev,
diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/acpi/ghes.h
+++ b/include/hw/acpi/ghes.h
@@ -XXX,XX +XXX,XX @@ enum {
     ACPI_HEST_SRC_ID_RESERVED,
 };
 
+typedef struct AcpiGhesState {
+    uint64_t ghes_addr_le;
+} AcpiGhesState;
+
 void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
 void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
+void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
+                          GArray *hardware_errors);
 #endif
diff --git a/hw/acpi/generic_event_device.c b/hw/acpi/generic_event_device.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/generic_event_device.c
+++ b/hw/acpi/generic_event_device.c
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_ged_state = {
     }
 };
 
+static bool ghes_needed(void *opaque)
+{
+    AcpiGedState *s = opaque;
+    return s->ghes_state.ghes_addr_le;
+}
+
+static const VMStateDescription vmstate_ghes_state = {
+    .name = "acpi-ged/ghes",
+    .version_id = 1,
+    .minimum_version_id = 1,
+    .needed = ghes_needed,
+    .fields      = (VMStateField[]) {
+        VMSTATE_STRUCT(ghes_state, AcpiGedState, 1,
+                       vmstate_ghes_state, AcpiGhesState),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
 static const VMStateDescription vmstate_acpi_ged = {
     .name = "acpi-ged",
     .version_id = 1,
@@ -XXX,XX +XXX,XX @@ static const VMStateDescription vmstate_acpi_ged = {
     },
     .subsections = (const VMStateDescription * []) {
         &vmstate_memhp_state,
+        &vmstate_ghes_state,
         NULL
     }
 };
diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/ghes.c
+++ b/hw/acpi/ghes.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/acpi/ghes.h"
 #include "hw/acpi/aml-build.h"
 #include "qemu/error-report.h"
+#include "hw/acpi/generic_event_device.h"
+#include "hw/nvram/fw_cfg.h"
 
 #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
 #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
@@ -XXX,XX +XXX,XX @@ void acpi_build_hest(GArray *table_data, BIOSLinker *linker)
     build_header(linker, table_data, (void *)(table_data->data + hest_start),
         "HEST", table_data->len - hest_start, 1, NULL, NULL);
 }
+
+void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
+                          GArray *hardware_error)
+{
+    /* Create a read-only fw_cfg file for GHES */
+    fw_cfg_add_file(s, ACPI_GHES_ERRORS_FW_CFG_FILE, hardware_error->data,
+                    hardware_error->len);
+
+    /* Create a read-write fw_cfg file for Address */
+    fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
+        NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
+}
diff --git a/hw/arm/virt-acpi-build.c b/hw/arm/virt-acpi-build.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt-acpi-build.c
+++ b/hw/arm/virt-acpi-build.c
@@ -XXX,XX +XXX,XX @@ void virt_acpi_setup(VirtMachineState *vms)
 {
     AcpiBuildTables tables;
     AcpiBuildState *build_state;
+    AcpiGedState *acpi_ged_state;
 
     if (!vms->fw_cfg) {
         trace_virt_acpi_setup();
@@ -XXX,XX +XXX,XX @@ void virt_acpi_setup(VirtMachineState *vms)
     fw_cfg_add_file(vms->fw_cfg, ACPI_BUILD_TPMLOG_FILE, tables.tcpalog->data,
                     acpi_data_len(tables.tcpalog));
 
+    if (vms->ras) {
+        assert(vms->acpi_dev);
+        acpi_ged_state = ACPI_GED(vms->acpi_dev);
+        acpi_ghes_add_fw_cfg(&acpi_ged_state->ghes_state,
+                             vms->fw_cfg, tables.hardware_errors);
+    }
+
     build_state->rsdp_mr = acpi_add_rom_blob(virt_acpi_build_update,
                                              build_state, tables.rsdp,
                                              ACPI_BUILD_RSDP_FILE, 0);
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

kvm_hwpoison_page_add() and kvm_unpoison_all() will both
be used by X86 and ARM platforms, so moving them into
"accel/kvm/kvm-all.c" to avoid duplicate code.

For architectures that don't use the poison-list functionality
the reset handler will harmlessly do nothing, so let's register
the kvm_unpoison_all() function in the generic kvm_init() function.

Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
Message-id: 20200512030609.19593-8-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/sysemu/kvm_int.h | 12 ++++++++++++
 accel/kvm/kvm-all.c      | 36 ++++++++++++++++++++++++++++++++++++
 target/i386/kvm.c        | 36 ------------------------------------
 3 files changed, 48 insertions(+), 36 deletions(-)

diff --git a/include/sysemu/kvm_int.h b/include/sysemu/kvm_int.h
index XXXXXXX..XXXXXXX 100644
--- a/include/sysemu/kvm_int.h
+++ b/include/sysemu/kvm_int.h
@@ -XXX,XX +XXX,XX @@ void kvm_memory_listener_register(KVMState *s, KVMMemoryListener *kml,
                                   AddressSpace *as, int as_id);
 
 void kvm_set_max_memslot_size(hwaddr max_slot_size);
+
+/**
+ * kvm_hwpoison_page_add:
+ *
+ * Parameters:
+ *  @ram_addr: the address in the RAM for the poisoned page
+ *
+ * Add a poisoned page to the list
+ *
+ * Return: None.
+ */
+void kvm_hwpoison_page_add(ram_addr_t ram_addr);
 #endif
diff --git a/accel/kvm/kvm-all.c b/accel/kvm/kvm-all.c
index XXXXXXX..XXXXXXX 100644
--- a/accel/kvm/kvm-all.c
+++ b/accel/kvm/kvm-all.c
@@ -XXX,XX +XXX,XX @@
 #include "qapi/visitor.h"
 #include "qapi/qapi-types-common.h"
 #include "qapi/qapi-visit-common.h"
+#include "sysemu/reset.h"
 
 #include "hw/boards.h"
 
@@ -XXX,XX +XXX,XX @@ int kvm_vm_check_extension(KVMState *s, unsigned int extension)
     return ret;
 }
 
+typedef struct HWPoisonPage {
+    ram_addr_t ram_addr;
+    QLIST_ENTRY(HWPoisonPage) list;
+} HWPoisonPage;
+
+static QLIST_HEAD(, HWPoisonPage) hwpoison_page_list =
+    QLIST_HEAD_INITIALIZER(hwpoison_page_list);
+
+static void kvm_unpoison_all(void *param)
+{
+    HWPoisonPage *page, *next_page;
+
+    QLIST_FOREACH_SAFE(page, &hwpoison_page_list, list, next_page) {
+        QLIST_REMOVE(page, list);
+        qemu_ram_remap(page->ram_addr, TARGET_PAGE_SIZE);
+        g_free(page);
+    }
+}
+
+void kvm_hwpoison_page_add(ram_addr_t ram_addr)
+{
+    HWPoisonPage *page;
+
+    QLIST_FOREACH(page, &hwpoison_page_list, list) {
+        if (page->ram_addr == ram_addr) {
+            return;
+        }
+    }
+    page = g_new(HWPoisonPage, 1);
+    page->ram_addr = ram_addr;
+    QLIST_INSERT_HEAD(&hwpoison_page_list, page, list);
+}
+
 static uint32_t adjust_ioeventfd_endianness(uint32_t val, uint32_t size)
 {
 #if defined(HOST_WORDS_BIGENDIAN) != defined(TARGET_WORDS_BIGENDIAN)
@@ -XXX,XX +XXX,XX @@ static int kvm_init(MachineState *ms)
         s->kernel_irqchip_split = mc->default_kernel_irqchip_split ? ON_OFF_AUTO_ON : ON_OFF_AUTO_OFF;
     }
 
+    qemu_register_reset(kvm_unpoison_all, NULL);
+
     if (s->kernel_irqchip_allowed) {
         kvm_irqchip_create(s);
     }
diff --git a/target/i386/kvm.c b/target/i386/kvm.c
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/kvm.c
+++ b/target/i386/kvm.c
@@ -XXX,XX +XXX,XX @@
 #include "sysemu/sysemu.h"
 #include "sysemu/hw_accel.h"
 #include "sysemu/kvm_int.h"
-#include "sysemu/reset.h"
 #include "sysemu/runstate.h"
 #include "kvm_i386.h"
 #include "hyperv.h"
@@ -XXX,XX +XXX,XX @@ uint64_t kvm_arch_get_supported_msr_feature(KVMState *s, uint32_t index)
     }
 }
 
-
-typedef struct HWPoisonPage {
-    ram_addr_t ram_addr;
-    QLIST_ENTRY(HWPoisonPage) list;
-} HWPoisonPage;
-
-static QLIST_HEAD(, HWPoisonPage) hwpoison_page_list =
-    QLIST_HEAD_INITIALIZER(hwpoison_page_list);
-
-static void kvm_unpoison_all(void *param)
-{
-    HWPoisonPage *page, *next_page;
-
-    QLIST_FOREACH_SAFE(page, &hwpoison_page_list, list, next_page) {
-        QLIST_REMOVE(page, list);
-        qemu_ram_remap(page->ram_addr, TARGET_PAGE_SIZE);
-        g_free(page);
-    }
-}
-
-static void kvm_hwpoison_page_add(ram_addr_t ram_addr)
-{
-    HWPoisonPage *page;
-
-    QLIST_FOREACH(page, &hwpoison_page_list, list) {
-        if (page->ram_addr == ram_addr) {
-            return;
-        }
-    }
-    page = g_new(HWPoisonPage, 1);
-    page->ram_addr = ram_addr;
-    QLIST_INSERT_HEAD(&hwpoison_page_list, page, list);
-}
-
 static int kvm_get_mce_cap_supported(KVMState *s, uint64_t *mce_cap,
                                      int *max_banks)
 {
@@ -XXX,XX +XXX,XX @@ int kvm_arch_init(MachineState *ms, KVMState *s)
         fprintf(stderr, "e820_add_entry() table is full\n");
         return ret;
     }
-    qemu_register_reset(kvm_unpoison_all, NULL);
 
     shadow_mem = object_property_get_int(OBJECT(s), "kvm-shadow-mem", &error_abort);
     if (shadow_mem != -1) {
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

kvm_arch_on_sigbus_vcpu() error injection uses source_id as
index in etc/hardware_errors to find out Error Status Data
Block entry corresponding to error source. So supported source_id
values should be assigned here and not be changed afterwards to
make sure that guest will write error into expected Error Status
Data Block.

Before QEMU writes a new error to ACPI table, it will check whether
previous error has been acknowledged. If not acknowledged, the new
errors will be ignored and not be recorded. For the errors section
type, QEMU simulate it to memory section error.

Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
Message-id: 20200512030609.19593-9-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/acpi/ghes.h |   1 +
 hw/acpi/ghes.c         | 219 +++++++++++++++++++++++++++++++++++++++++
 2 files changed, 220 insertions(+)

diff --git a/include/hw/acpi/ghes.h b/include/hw/acpi/ghes.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/acpi/ghes.h
+++ b/include/hw/acpi/ghes.h
@@ -XXX,XX +XXX,XX @@ void build_ghes_error_table(GArray *hardware_errors, BIOSLinker *linker);
 void acpi_build_hest(GArray *table_data, BIOSLinker *linker);
 void acpi_ghes_add_fw_cfg(AcpiGhesState *vms, FWCfgState *s,
                           GArray *hardware_errors);
+int acpi_ghes_record_errors(uint8_t notify, uint64_t error_physical_addr);
 #endif
diff --git a/hw/acpi/ghes.c b/hw/acpi/ghes.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/acpi/ghes.c
+++ b/hw/acpi/ghes.c
@@ -XXX,XX +XXX,XX @@
 #include "qemu/error-report.h"
 #include "hw/acpi/generic_event_device.h"
 #include "hw/nvram/fw_cfg.h"
+#include "qemu/uuid.h"
 
 #define ACPI_GHES_ERRORS_FW_CFG_FILE        "etc/hardware_errors"
 #define ACPI_GHES_DATA_ADDR_FW_CFG_FILE     "etc/hardware_errors_addr"
@@ -XXX,XX +XXX,XX @@
 /* Address offset in Generic Address Structure(GAS) */
 #define GAS_ADDR_OFFSET 4
 
+/*
+ * The total size of Generic Error Data Entry
+ * ACPI 6.1/6.2: 18.3.2.7.1 Generic Error Data,
+ * Table 18-343 Generic Error Data Entry
+ */
+#define ACPI_GHES_DATA_LENGTH               72
+
+/* The memory section CPER size, UEFI 2.6: N.2.5 Memory Error Section */
+#define ACPI_GHES_MEM_CPER_LENGTH           80
+
+/* Masks for block_status flags */
+#define ACPI_GEBS_UNCORRECTABLE         1
+
+/*
+ * Total size for Generic Error Status Block except Generic Error Data Entries
+ * ACPI 6.2: 18.3.2.7.1 Generic Error Data,
+ * Table 18-380 Generic Error Status Block
+ */
+#define ACPI_GHES_GESB_SIZE                 20
+
+/*
+ * Values for error_severity field
+ */
+enum AcpiGenericErrorSeverity {
+    ACPI_CPER_SEV_RECOVERABLE = 0,
+    ACPI_CPER_SEV_FATAL = 1,
+    ACPI_CPER_SEV_CORRECTED = 2,
+    ACPI_CPER_SEV_NONE = 3,
+};
+
 /*
  * Hardware Error Notification
  * ACPI 4.0: 17.3.2.7 Hardware Error Notification
@@ -XXX,XX +XXX,XX @@ static void build_ghes_hw_error_notification(GArray *table, const uint8_t type)
     build_append_int_noprefix(table, 0, 4);
 }
 
+/*
+ * Generic Error Data Entry
+ * ACPI 6.1: 18.3.2.7.1 Generic Error Data
+ */
+static void acpi_ghes_generic_error_data(GArray *table,
+                const uint8_t *section_type, uint32_t error_severity,
+                uint8_t validation_bits, uint8_t flags,
+                uint32_t error_data_length, QemuUUID fru_id,
+                uint64_t time_stamp)
+{
+    const uint8_t fru_text[20] = {0};
+
+    /* Section Type */
+    g_array_append_vals(table, section_type, 16);
+
+    /* Error Severity */
+    build_append_int_noprefix(table, error_severity, 4);
+    /* Revision */
+    build_append_int_noprefix(table, 0x300, 2);
+    /* Validation Bits */
+    build_append_int_noprefix(table, validation_bits, 1);
+    /* Flags */
+    build_append_int_noprefix(table, flags, 1);
+    /* Error Data Length */
+    build_append_int_noprefix(table, error_data_length, 4);
+
+    /* FRU Id */
+    g_array_append_vals(table, fru_id.data, ARRAY_SIZE(fru_id.data));
+
+    /* FRU Text */
+    g_array_append_vals(table, fru_text, sizeof(fru_text));
+
+    /* Timestamp */
+    build_append_int_noprefix(table, time_stamp, 8);
+}
+
+/*
+ * Generic Error Status Block
+ * ACPI 6.1: 18.3.2.7.1 Generic Error Data
+ */
+static void acpi_ghes_generic_error_status(GArray *table, uint32_t block_status,
+                uint32_t raw_data_offset, uint32_t raw_data_length,
+                uint32_t data_length, uint32_t error_severity)
+{
+    /* Block Status */
+    build_append_int_noprefix(table, block_status, 4);
+    /* Raw Data Offset */
+    build_append_int_noprefix(table, raw_data_offset, 4);
+    /* Raw Data Length */
+    build_append_int_noprefix(table, raw_data_length, 4);
+    /* Data Length */
+    build_append_int_noprefix(table, data_length, 4);
+    /* Error Severity */
+    build_append_int_noprefix(table, error_severity, 4);
+}
+
+/* UEFI 2.6: N.2.5 Memory Error Section */
+static void acpi_ghes_build_append_mem_cper(GArray *table,
+                                            uint64_t error_physical_addr)
+{
+    /*
+     * Memory Error Record
+     */
+
+    /* Validation Bits */
+    build_append_int_noprefix(table,
+                              (1ULL << 14) | /* Type Valid */
+                              (1ULL << 1) /* Physical Address Valid */,
+                              8);
+    /* Error Status */
+    build_append_int_noprefix(table, 0, 8);
+    /* Physical Address */
+    build_append_int_noprefix(table, error_physical_addr, 8);
+    /* Skip all the detailed information normally found in such a record */
+    build_append_int_noprefix(table, 0, 48);
+    /* Memory Error Type */
+    build_append_int_noprefix(table, 0 /* Unknown error */, 1);
+    /* Skip all the detailed information normally found in such a record */
+    build_append_int_noprefix(table, 0, 7);
+}
+
+static int acpi_ghes_record_mem_error(uint64_t error_block_address,
+                                      uint64_t error_physical_addr)
+{
+    GArray *block;
+
+    /* Memory Error Section Type */
+    const uint8_t uefi_cper_mem_sec[] =
+          UUID_LE(0xA5BC1114, 0x6F64, 0x4EDE, 0xB8, 0x63, 0x3E, 0x83, \
+                  0xED, 0x7C, 0x83, 0xB1);
+
+    /* invalid fru id: ACPI 4.0: 17.3.2.6.1 Generic Error Data,
+     * Table 17-13 Generic Error Data Entry
+     */
+    QemuUUID fru_id = {};
+    uint32_t data_length;
+
+    block = g_array_new(false, true /* clear */, 1);
+
+    /* This is the length if adding a new generic error data entry*/
+    data_length = ACPI_GHES_DATA_LENGTH + ACPI_GHES_MEM_CPER_LENGTH;
+
+    /*
+     * Check whether it will run out of the preallocated memory if adding a new
+     * generic error data entry
+     */
+    if ((data_length + ACPI_GHES_GESB_SIZE) > ACPI_GHES_MAX_RAW_DATA_LENGTH) {
+        error_report("Not enough memory to record new CPER!!!");
+        g_array_free(block, true);
+        return -1;
+    }
+
+    /* Build the new generic error status block header */
+    acpi_ghes_generic_error_status(block, ACPI_GEBS_UNCORRECTABLE,
+        0, 0, data_length, ACPI_CPER_SEV_RECOVERABLE);
+
+    /* Build this new generic error data entry header */
+    acpi_ghes_generic_error_data(block, uefi_cper_mem_sec,
+        ACPI_CPER_SEV_RECOVERABLE, 0, 0,
+        ACPI_GHES_MEM_CPER_LENGTH, fru_id, 0);
+
+    /* Build the memory section CPER for above new generic error data entry */
+    acpi_ghes_build_append_mem_cper(block, error_physical_addr);
+
+    /* Write the generic error data entry into guest memory */
+    cpu_physical_memory_write(error_block_address, block->data, block->len);
+
+    g_array_free(block, true);
+
+    return 0;
+}
+
 /*
  * Build table for the hardware error fw_cfg blob.
  * Initialize "etc/hardware_errors" and "etc/hardware_errors_addr" fw_cfg blobs.
@@ -XXX,XX +XXX,XX @@ void acpi_ghes_add_fw_cfg(AcpiGhesState *ags, FWCfgState *s,
     fw_cfg_add_file_callback(s, ACPI_GHES_DATA_ADDR_FW_CFG_FILE, NULL, NULL,
         NULL, &(ags->ghes_addr_le), sizeof(ags->ghes_addr_le), false);
 }
+
+int acpi_ghes_record_errors(uint8_t source_id, uint64_t physical_address)
+{
+    uint64_t error_block_addr, read_ack_register_addr, read_ack_register = 0;
+    uint64_t start_addr;
+    bool ret = -1;
+    AcpiGedState *acpi_ged_state;
+    AcpiGhesState *ags;
+
+    assert(source_id < ACPI_HEST_SRC_ID_RESERVED);
+
+    acpi_ged_state = ACPI_GED(object_resolve_path_type("", TYPE_ACPI_GED,
+                                                       NULL));
+    g_assert(acpi_ged_state);
+    ags = &acpi_ged_state->ghes_state;
+
+    start_addr = le64_to_cpu(ags->ghes_addr_le);
+
+    if (physical_address) {
+
+        if (source_id < ACPI_HEST_SRC_ID_RESERVED) {
+            start_addr += source_id * sizeof(uint64_t);
+        }
+
+        cpu_physical_memory_read(start_addr, &error_block_addr,
+                                 sizeof(error_block_addr));
+
+        error_block_addr = le64_to_cpu(error_block_addr);
+
+        read_ack_register_addr = start_addr +
+            ACPI_GHES_ERROR_SOURCE_COUNT * sizeof(uint64_t);
+
+        cpu_physical_memory_read(read_ack_register_addr,
+                                 &read_ack_register, sizeof(read_ack_register));
+
+        /* zero means OSPM does not acknowledge the error */
+        if (!read_ack_register) {
+            error_report("OSPM does not acknowledge previous error,"
+                " so can not record CPER for current error anymore");
+        } else if (error_block_addr) {
+            read_ack_register = cpu_to_le64(0);
+            /*
+             * Clear the Read Ack Register, OSPM will write it to 1 when
+             * it acknowledges this error.
+             */
+            cpu_physical_memory_write(read_ack_register_addr,
+                &read_ack_register, sizeof(uint64_t));
+
+            ret = acpi_ghes_record_mem_error(error_block_addr,
+                                             physical_address);
+        } else
+            error_report("can not find Generic Error Status Block");
+    }
+
+    return ret;
+}
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

Add a SIGBUS signal handler. In this handler, it checks the SIGBUS type,
translates the host VA delivered by host to guest PA, then fills this PA
to guest APEI GHES memory, then notifies guest according to the SIGBUS
type.

When guest accesses the poisoned memory, it will generate a Synchronous
External Abort(SEA). Then host kernel gets an APEI notification and calls
memory_failure() to unmapped the affected page in stage 2, finally
returns to guest.

Guest continues to access the PG_hwpoison page, it will trap to KVM as
stage2 fault, then a SIGBUS_MCEERR_AR synchronous signal is delivered to
Qemu, Qemu records this error address into guest APEI GHES memory and
notifes guest using Synchronous-External-Abort(SEA).

In order to inject a vSEA, we introduce the kvm_inject_arm_sea() function
in which we can setup the type of exception and the syndrome information.
When switching to guest, the target vcpu will jump to the synchronous
external abort vector table entry.

The ESR_ELx.DFSC is set to synchronous external abort(0x10), and the
ESR_ELx.FnV is set to not valid(0x1), which will tell guest that FAR is
not valid and hold an UNKNOWN value. These values will be set to KVM
register structures through KVM_SET_ONE_REG IOCTL.

Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Reviewed-by: Michael S. Tsirkin <mst@redhat.com>
Acked-by: Xiang Zheng <zhengxiang9@huawei.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Igor Mammedov <imammedo@redhat.com>
Message-id: 20200512030609.19593-10-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/sysemu/kvm.h    |  3 +-
 target/arm/cpu.h        |  4 +++
 target/arm/internals.h  |  5 +--
 target/i386/cpu.h       |  2 ++
 target/arm/helper.c     |  2 +-
 target/arm/kvm64.c      | 77 +++++++++++++++++++++++++++++++++++++++++
 target/arm/tlb_helper.c |  2 +-
 7 files changed, 89 insertions(+), 6 deletions(-)

diff --git a/include/sysemu/kvm.h b/include/sysemu/kvm.h
index XXXXXXX..XXXXXXX 100644
--- a/include/sysemu/kvm.h
+++ b/include/sysemu/kvm.h
@@ -XXX,XX +XXX,XX @@ bool kvm_vcpu_id_is_valid(int vcpu_id);
 /* Returns VCPU ID to be used on KVM_CREATE_VCPU ioctl() */
 unsigned long kvm_arch_vcpu_id(CPUState *cpu);
 
-#ifdef TARGET_I386
-#define KVM_HAVE_MCE_INJECTION 1
+#ifdef KVM_HAVE_MCE_INJECTION
 void kvm_arch_on_sigbus_vcpu(CPUState *cpu, int code, void *addr);
 #endif
 
diff --git a/target/arm/cpu.h b/target/arm/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.h
+++ b/target/arm/cpu.h
@@ -XXX,XX +XXX,XX @@
 /* ARM processors have a weak memory model */
 #define TCG_GUEST_DEFAULT_MO      (0)
 
+#ifdef TARGET_AARCH64
+#define KVM_HAVE_MCE_INJECTION 1
+#endif
+
 #define EXCP_UDEF            1   /* undefined instruction */
 #define EXCP_SWI             2   /* software interrupt */
 #define EXCP_PREFETCH_ABORT  3
diff --git a/target/arm/internals.h b/target/arm/internals.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/internals.h
+++ b/target/arm/internals.h
@@ -XXX,XX +XXX,XX @@ static inline uint32_t syn_insn_abort(int same_el, int ea, int s1ptw, int fsc)
         | ARM_EL_IL | (ea << 9) | (s1ptw << 7) | fsc;
 }
 
-static inline uint32_t syn_data_abort_no_iss(int same_el,
+static inline uint32_t syn_data_abort_no_iss(int same_el, int fnv,
                                              int ea, int cm, int s1ptw,
                                              int wnr, int fsc)
 {
     return (EC_DATAABORT << ARM_EL_EC_SHIFT) | (same_el << ARM_EL_EC_SHIFT)
            | ARM_EL_IL
-           | (ea << 9) | (cm << 8) | (s1ptw << 7) | (wnr << 6) | fsc;
+           | (fnv << 10) | (ea << 9) | (cm << 8) | (s1ptw << 7)
+           | (wnr << 6) | fsc;
 }
 
 static inline uint32_t syn_data_abort_with_iss(int same_el,
diff --git a/target/i386/cpu.h b/target/i386/cpu.h
index XXXXXXX..XXXXXXX 100644
--- a/target/i386/cpu.h
+++ b/target/i386/cpu.h
@@ -XXX,XX +XXX,XX @@
 /* The x86 has a strong memory model with some store-after-load re-ordering */
 #define TCG_GUEST_DEFAULT_MO      (TCG_MO_ALL & ~TCG_MO_ST_LD)
 
+#define KVM_HAVE_MCE_INJECTION 1
+
 /* Maximum instruction code size */
 #define TARGET_MAX_INSN_SIZE 16
 
diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ static uint64_t do_ats_write(CPUARMState *env, uint64_t value,
              * Report exception with ESR indicating a fault due to a
              * translation table walk for a cache maintenance instruction.
              */
-            syn = syn_data_abort_no_iss(current_el == target_el,
+            syn = syn_data_abort_no_iss(current_el == target_el, 0,
                                         fi.ea, 1, fi.s1ptw, 1, fsc);
             env->exception.vaddress = value;
             env->exception.fsr = fsr;
diff --git a/target/arm/kvm64.c b/target/arm/kvm64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/kvm64.c
+++ b/target/arm/kvm64.c
@@ -XXX,XX +XXX,XX @@
 #include "sysemu/kvm_int.h"
 #include "kvm_arm.h"
 #include "internals.h"
+#include "hw/acpi/acpi.h"
+#include "hw/acpi/ghes.h"
+#include "hw/arm/virt.h"
 
 static bool have_guest_debug;
 
@@ -XXX,XX +XXX,XX @@ int kvm_arm_cpreg_level(uint64_t regidx)
     return KVM_PUT_RUNTIME_STATE;
 }
 
+/* Callers must hold the iothread mutex lock */
+static void kvm_inject_arm_sea(CPUState *c)
+{
+    ARMCPU *cpu = ARM_CPU(c);
+    CPUARMState *env = &cpu->env;
+    CPUClass *cc = CPU_GET_CLASS(c);
+    uint32_t esr;
+    bool same_el;
+
+    c->exception_index = EXCP_DATA_ABORT;
+    env->exception.target_el = 1;
+
+    /*
+     * Set the DFSC to synchronous external abort and set FnV to not valid,
+     * this will tell guest the FAR_ELx is UNKNOWN for this abort.
+     */
+    same_el = arm_current_el(env) == env->exception.target_el;
+    esr = syn_data_abort_no_iss(same_el, 1, 0, 0, 0, 0, 0x10);
+
+    env->exception.syndrome = esr;
+
+    cc->do_interrupt(c);
+}
+
 #define AARCH64_CORE_REG(x)   (KVM_REG_ARM64 | KVM_REG_SIZE_U64 | \
                  KVM_REG_ARM_CORE | KVM_REG_ARM_CORE_REG(x))
 
@@ -XXX,XX +XXX,XX @@ int kvm_arch_get_registers(CPUState *cs)
     return ret;
 }
 
+void kvm_arch_on_sigbus_vcpu(CPUState *c, int code, void *addr)
+{
+    ram_addr_t ram_addr;
+    hwaddr paddr;
+    Object *obj = qdev_get_machine();
+    VirtMachineState *vms = VIRT_MACHINE(obj);
+    bool acpi_enabled = virt_is_acpi_enabled(vms);
+
+    assert(code == BUS_MCEERR_AR || code == BUS_MCEERR_AO);
+
+    if (acpi_enabled && addr &&
+            object_property_get_bool(obj, "ras", NULL)) {
+        ram_addr = qemu_ram_addr_from_host(addr);
+        if (ram_addr != RAM_ADDR_INVALID &&
+            kvm_physical_memory_addr_from_host(c->kvm_state, addr, &paddr)) {
+            kvm_hwpoison_page_add(ram_addr);
+            /*
+             * If this is a BUS_MCEERR_AR, we know we have been called
+             * synchronously from the vCPU thread, so we can easily
+             * synchronize the state and inject an error.
+             *
+             * TODO: we currently don't tell the guest at all about
+             * BUS_MCEERR_AO. In that case we might either be being
+             * called synchronously from the vCPU thread, or a bit
+             * later from the main thread, so doing the injection of
+             * the error would be more complicated.
+             */
+            if (code == BUS_MCEERR_AR) {
+                kvm_cpu_synchronize_state(c);
+                if (!acpi_ghes_record_errors(ACPI_HEST_SRC_ID_SEA, paddr)) {
+                    kvm_inject_arm_sea(c);
+                } else {
+                    error_report("failed to record the error");
+                    abort();
+                }
+            }
+            return;
+        }
+        if (code == BUS_MCEERR_AO) {
+            error_report("Hardware memory error at addr %p for memory used by "
+                "QEMU itself instead of guest system!", addr);
+        }
+    }
+
+    if (code == BUS_MCEERR_AR) {
+        error_report("Hardware memory error!");
+        exit(1);
+    }
+}
+
 /* C6.6.29 BRK instruction */
 static const uint32_t brk_insn = 0xd4200000;
 
diff --git a/target/arm/tlb_helper.c b/target/arm/tlb_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/tlb_helper.c
+++ b/target/arm/tlb_helper.c
@@ -XXX,XX +XXX,XX @@ static inline uint32_t merge_syn_data_abort(uint32_t template_syn,
      * ISV field.
      */
     if (!(template_syn & ARM_EL_ISV) || target_el != 2 || s1ptw) {
-        syn = syn_data_abort_no_iss(same_el,
+        syn = syn_data_abort_no_iss(same_el, 0,
                                     ea, 0, s1ptw, is_write, fsc);
     } else {
         /*
-- 
2.20.1

From: Dongjiu Geng <gengdongjiu@huawei.com>

I and Xiang are willing to review the APEI-related patches and
volunteer as the reviewers for the HEST/GHES part.

Signed-off-by: Dongjiu Geng <gengdongjiu@huawei.com>
Signed-off-by: Xiang Zheng <zhengxiang9@huawei.com>
Reviewed-by: Philippe Mathieu-Daudé <philmd@redhat.com>
Acked-by: Michael S. Tsirkin <mst@redhat.com>
Message-id: 20200512030609.19593-11-gengdongjiu@huawei.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 MAINTAINERS | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/MAINTAINERS b/MAINTAINERS
index XXXXXXX..XXXXXXX 100644
--- a/MAINTAINERS
+++ b/MAINTAINERS
@@ -XXX,XX +XXX,XX @@ F: tests/qtest/bios-tables-test.c
 F: tests/qtest/acpi-utils.[hc]
 F: tests/data/acpi/
 
+ACPI/HEST/GHES
+R: Dongjiu Geng <gengdongjiu@huawei.com>
+R: Xiang Zheng <zhengxiang9@huawei.com>
+L: qemu-arm@nongnu.org
+S: Maintained
+F: hw/acpi/ghes.c
+F: include/hw/acpi/ghes.h
+F: docs/specs/acpi_hest_ghes.rst
+
 ppc4xx
 M: David Gibson <david@gibson.dropbear.id.au>
 L: qemu-ppc@nongnu.org
-- 
2.20.1

Convert the Neon VQRDMLAH and VQRDMLSH insns in the 3-reg-same group
to decodetree.  These don't use do_3same() because they want to
operate on VFP double registers, whose offsets are different from the
neon_reg_offset() calculations do_3same does.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-2-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  3 +++
 target/arm/translate-neon.inc.c | 15 +++++++++++++++
 target/arm/translate.c          | 14 ++------------
 3 files changed, 20 insertions(+), 12 deletions(-)

Convert the Neon SHA instructions in the 3-reg-same group
to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-3-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  10 +++
 target/arm/translate-neon.inc.c | 139 ++++++++++++++++++++++++++++++++
 target/arm/translate.c          |  46 +----------
 3 files changed, 151 insertions(+), 44 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
 VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
 
 VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
+
+SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+SHA256H_3s       1111 001 1 0 . 00 .... .... 1100 . 1 . 0 .... \
+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+SHA256H2_3s      1111 001 1 0 . 01 .... .... 1100 . 1 . 0 .... \
+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
+                 vm=%vm_dp vn=%vn_dp vd=%vd_dp
+
 VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VMUL_p_3s(DisasContext *s, arg_3same *a)
 
 DO_VQRDMLAH(VQRDMLAH, gen_gvec_sqrdmlah_qc)
 DO_VQRDMLAH(VQRDMLSH, gen_gvec_sqrdmlsh_qc)
+
+static bool trans_SHA1_3s(DisasContext *s, arg_SHA1_3s *a)
+{
+    TCGv_ptr ptr1, ptr2, ptr3;
+    TCGv_i32 tmp;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
+        !dc_isar_feature(aa32_sha1, s)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vn | a->vm | a->vd) & 1) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    ptr1 = vfp_reg_ptr(true, a->vd);
+    ptr2 = vfp_reg_ptr(true, a->vn);
+    ptr3 = vfp_reg_ptr(true, a->vm);
+    tmp = tcg_const_i32(a->optype);
+    gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp);
+    tcg_temp_free_i32(tmp);
+    tcg_temp_free_ptr(ptr1);
+    tcg_temp_free_ptr(ptr2);
+    tcg_temp_free_ptr(ptr3);
+
+    return true;
+}
+
+static bool trans_SHA256H_3s(DisasContext *s, arg_SHA256H_3s *a)
+{
+    TCGv_ptr ptr1, ptr2, ptr3;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
+        !dc_isar_feature(aa32_sha2, s)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vn | a->vm | a->vd) & 1) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    ptr1 = vfp_reg_ptr(true, a->vd);
+    ptr2 = vfp_reg_ptr(true, a->vn);
+    ptr3 = vfp_reg_ptr(true, a->vm);
+    gen_helper_crypto_sha256h(ptr1, ptr2, ptr3);
+    tcg_temp_free_ptr(ptr1);
+    tcg_temp_free_ptr(ptr2);
+    tcg_temp_free_ptr(ptr3);
+
+    return true;
+}
+
+static bool trans_SHA256H2_3s(DisasContext *s, arg_SHA256H2_3s *a)
+{
+    TCGv_ptr ptr1, ptr2, ptr3;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
+        !dc_isar_feature(aa32_sha2, s)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vn | a->vm | a->vd) & 1) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    ptr1 = vfp_reg_ptr(true, a->vd);
+    ptr2 = vfp_reg_ptr(true, a->vn);
+    ptr3 = vfp_reg_ptr(true, a->vm);
+    gen_helper_crypto_sha256h2(ptr1, ptr2, ptr3);
+    tcg_temp_free_ptr(ptr1);
+    tcg_temp_free_ptr(ptr2);
+    tcg_temp_free_ptr(ptr3);
+
+    return true;
+}
+
+static bool trans_SHA256SU1_3s(DisasContext *s, arg_SHA256SU1_3s *a)
+{
+    TCGv_ptr ptr1, ptr2, ptr3;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON) ||
+        !dc_isar_feature(aa32_sha2, s)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if ((a->vn | a->vm | a->vd) & 1) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    ptr1 = vfp_reg_ptr(true, a->vd);
+    ptr2 = vfp_reg_ptr(true, a->vn);
+    ptr3 = vfp_reg_ptr(true, a->vm);
+    gen_helper_crypto_sha256su1(ptr1, ptr2, ptr3);
+    tcg_temp_free_ptr(ptr1);
+    tcg_temp_free_ptr(ptr2);
+    tcg_temp_free_ptr(ptr3);
+
+    return true;
+}
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     int vec_size;
     uint32_t imm;
     TCGv_i32 tmp, tmp2, tmp3, tmp4, tmp5;
-    TCGv_ptr ptr1, ptr2, ptr3;
+    TCGv_ptr ptr1, ptr2;
     TCGv_i64 tmp64;
 
     if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             return 1;
         }
         switch (op) {
-        case NEON_3R_SHA:
-            /* The SHA-1/SHA-256 3-register instructions require special
-             * treatment here, as their size field is overloaded as an
-             * op type selector, and they all consume their input in a
-             * single pass.
-             */
-            if (!q) {
-                return 1;
-            }
-            if (!u) { /* SHA-1 */
-                if (!dc_isar_feature(aa32_sha1, s)) {
-                    return 1;
-                }
-                ptr1 = vfp_reg_ptr(true, rd);
-                ptr2 = vfp_reg_ptr(true, rn);
-                ptr3 = vfp_reg_ptr(true, rm);
-                tmp4 = tcg_const_i32(size);
-                gen_helper_crypto_sha1_3reg(ptr1, ptr2, ptr3, tmp4);
-                tcg_temp_free_i32(tmp4);
-            } else { /* SHA-256 */
-                if (!dc_isar_feature(aa32_sha2, s) || size == 3) {
-                    return 1;
-                }
-                ptr1 = vfp_reg_ptr(true, rd);
-                ptr2 = vfp_reg_ptr(true, rn);
-                ptr3 = vfp_reg_ptr(true, rm);
-                switch (size) {
-                case 0:
-                    gen_helper_crypto_sha256h(ptr1, ptr2, ptr3);
-                    break;
-                case 1:
-                    gen_helper_crypto_sha256h2(ptr1, ptr2, ptr3);
-                    break;
-                case 2:
-                    gen_helper_crypto_sha256su1(ptr1, ptr2, ptr3);
-                    break;
-                }
-            }
-            tcg_temp_free_ptr(ptr1);
-            tcg_temp_free_ptr(ptr2);
-            tcg_temp_free_ptr(ptr3);
-            return 0;
-
         case NEON_3R_VPADD_VQRDMLAH:
             if (!u) {
                 break;  /* VPADD */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VMUL:
         case NEON_3R_VML:
         case NEON_3R_VSHL:
+        case NEON_3R_SHA:
             /* Already handled by decodetree */
             return 1;
         }
-- 
2.20.1

Convert the 64-bit element insns in the 3-reg-same group
to decodetree. This covers VQSHL, VRSHL and VQRSHL where
size==0b11.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-4-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       | 13 +++++++++++
 target/arm/translate-neon.inc.c | 24 +++++++++++++++++++++
 target/arm/translate.c          | 38 ++-------------------------------
 3 files changed, 39 insertions(+), 36 deletions(-)

Convert the Neon VHADD insns in the 3-reg-same group to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-5-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  2 ++
 target/arm/translate-neon.inc.c | 24 ++++++++++++++++++++++++
 target/arm/translate.c          |  4 +---
 3 files changed, 27 insertions(+), 3 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
 @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
 
+VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
+VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
 VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
 VQADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 1 .... @3same
 
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQSHL_S64, gen_helper_neon_qshl_s64)
 DO_3SAME_64_ENV(VQSHL_U64, gen_helper_neon_qshl_u64)
 DO_3SAME_64_ENV(VQRSHL_S64, gen_helper_neon_qrshl_s64)
 DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
+
+#define DO_3SAME_32(INSN, FUNC)                                         \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        static const GVecGen3 ops[4] = {                                \
+            { .fni4 = gen_helper_neon_##FUNC##8 },                      \
+            { .fni4 = gen_helper_neon_##FUNC##16 },                     \
+            { .fni4 = gen_helper_neon_##FUNC##32 },                     \
+            { 0 },                                                      \
+        };                                                              \
+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece]); \
+    }                                                                   \
+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
+    {                                                                   \
+        if (a->size > 2) {                                              \
+            return false;                                               \
+        }                                                               \
+        return do_3same(s, a, gen_##INSN##_3s);                         \
+    }
+
+DO_3SAME_32(VHADD_S, hadd_s)
+DO_3SAME_32(VHADD_U, hadd_u)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VML:
         case NEON_3R_VSHL:
         case NEON_3R_SHA:
+        case NEON_3R_VHADD:
             /* Already handled by decodetree */
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             tmp2 = neon_load_reg(rm, pass);
         }
         switch (op) {
-        case NEON_3R_VHADD:
-            GEN_NEON_INTEGER_OP(hadd);
-            break;
         case NEON_3R_VRHADD:
             GEN_NEON_INTEGER_OP(rhadd);
             break;
-- 
2.20.1

Convert the Neon VABA and VABD insns in the 3-reg-same group to
decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-6-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  6 ++++++
 target/arm/translate-neon.inc.c |  4 ++++
 target/arm/translate.c          | 22 ++--------------------
 3 files changed, 12 insertions(+), 20 deletions(-)

Convert the Neon VRHADD and VHSUB 3-reg-same insns to decodetree.
(These are all the other insns in 3-reg-same which were using
GEN_NEON_INTEGER_OP() and which are not pairwise or
reversed-operands.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-7-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       | 6 ++++++
 target/arm/translate-neon.inc.c | 4 ++++
 target/arm/translate.c          | 8 ++------
 3 files changed, 12 insertions(+), 6 deletions(-)

Convert the VQSHL, VRSHL and VQRSHL insns in the 3-reg-same
group to decodetree. We have already implemented the size==0b11
case of these insns; this commit handles the remaining sizes.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-8-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       | 30 ++++++++++++++++++-----
 target/arm/translate-neon.inc.c | 43 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 22 +++--------------
 3 files changed, 70 insertions(+), 25 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VSHL_U_3s        1111 001 1 0 . .. .... .... 0100 . . . 0 .... @3same_rev
 @3same_64_rev    .... ... . . . 11 .... .... .... . q:1 . . .... \
                  &3same vm=%vn_dp vn=%vm_dp vd=%vd_dp size=3
 
-VQSHL_S64_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
-VQSHL_U64_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
-VRSHL_S64_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
-VRSHL_U64_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
-VQRSHL_S64_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
-VQRSHL_U64_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
+{
+  VQSHL_S64_3s   1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
+  VQSHL_S_3s     1111 001 0 0 . .. .... .... 0100 . . . 1 .... @3same_rev
+}
+{
+  VQSHL_U64_3s   1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_64_rev
+  VQSHL_U_3s     1111 001 1 0 . .. .... .... 0100 . . . 1 .... @3same_rev
+}
+{
+  VRSHL_S64_3s   1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
+  VRSHL_S_3s     1111 001 0 0 . .. .... .... 0101 . . . 0 .... @3same_rev
+}
+{
+  VRSHL_U64_3s   1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_64_rev
+  VRSHL_U_3s     1111 001 1 0 . .. .... .... 0101 . . . 0 .... @3same_rev
+}
+{
+  VQRSHL_S64_3s  1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
+  VQRSHL_S_3s    1111 001 0 0 . .. .... .... 0101 . . . 1 .... @3same_rev
+}
+{
+  VQRSHL_U64_3s  1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_64_rev
+  VQRSHL_U_3s    1111 001 1 0 . .. .... .... 0101 . . . 1 .... @3same_rev
+}
 
 VMAX_S_3s        1111 001 0 0 . .. .... .... 0110 . . . 0 .... @3same
 VMAX_U_3s        1111 001 1 0 . .. .... .... 0110 . . . 0 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_64_ENV(VQRSHL_U64, gen_helper_neon_qrshl_u64)
         return do_3same(s, a, gen_##INSN##_3s);                         \
     }
 
+/*
+ * Some helper functions need to be passed the cpu_env. In order
+ * to use those with the gvec APIs like tcg_gen_gvec_3() we need
+ * to create wrapper functions whose prototype is a NeonGenTwoOpFn()
+ * and which call a NeonGenTwoOpEnvFn().
+ */
+#define WRAP_ENV_FN(WRAPNAME, FUNC)                                     \
+    static void WRAPNAME(TCGv_i32 d, TCGv_i32 n, TCGv_i32 m)            \
+    {                                                                   \
+        FUNC(d, cpu_env, n, m);                                         \
+    }
+
+#define DO_3SAME_32_ENV(INSN, FUNC)                                     \
+    WRAP_ENV_FN(gen_##INSN##_tramp8, gen_helper_neon_##FUNC##8);        \
+    WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##16);      \
+    WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##32);      \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        static const GVecGen3 ops[4] = {                                \
+            { .fni4 = gen_##INSN##_tramp8 },                            \
+            { .fni4 = gen_##INSN##_tramp16 },                           \
+            { .fni4 = gen_##INSN##_tramp32 },                           \
+            { 0 },                                                      \
+        };                                                              \
+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece]); \
+    }                                                                   \
+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
+    {                                                                   \
+        if (a->size > 2) {                                              \
+            return false;                                               \
+        }                                                               \
+        return do_3same(s, a, gen_##INSN##_3s);                         \
+    }
+
 DO_3SAME_32(VHADD_S, hadd_s)
 DO_3SAME_32(VHADD_U, hadd_u)
 DO_3SAME_32(VHSUB_S, hsub_s)
 DO_3SAME_32(VHSUB_U, hsub_u)
 DO_3SAME_32(VRHADD_S, rhadd_s)
 DO_3SAME_32(VRHADD_U, rhadd_u)
+DO_3SAME_32(VRSHL_S, rshl_s)
+DO_3SAME_32(VRSHL_U, rshl_u)
+
+DO_3SAME_32_ENV(VQSHL_S, qshl_s)
+DO_3SAME_32_ENV(VQSHL_U, qshl_u)
+DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
+DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VHSUB:
         case NEON_3R_VABD:
         case NEON_3R_VABA:
+        case NEON_3R_VQSHL:
+        case NEON_3R_VRSHL:
+        case NEON_3R_VQRSHL:
             /* Already handled by decodetree */
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         }
         pairwise = 0;
         switch (op) {
-        case NEON_3R_VQSHL:
-        case NEON_3R_VRSHL:
-        case NEON_3R_VQRSHL:
-            {
-                int rtmp;
-                /* Shift instruction operands are reversed.  */
-                rtmp = rn;
-                rn = rm;
-                rm = rtmp;
-            }
-            break;
         case NEON_3R_VPADD_VQRDMLAH:
         case NEON_3R_VPMAX:
         case NEON_3R_VPMIN:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             tmp2 = neon_load_reg(rm, pass);
         }
         switch (op) {
-        case NEON_3R_VQSHL:
-            GEN_NEON_INTEGER_OP_ENV(qshl);
-            break;
-        case NEON_3R_VRSHL:
-            GEN_NEON_INTEGER_OP(rshl);
-            break;
-        case NEON_3R_VQRSHL:
-            GEN_NEON_INTEGER_OP_ENV(qrshl);
             break;
         case NEON_3R_VPMAX:
             GEN_NEON_INTEGER_OP(pmax);
-- 
2.20.1

Convert the Neon integer VPMAX and VPMIN 3-reg-same insns to
decodetree. These are 'pairwise' operations.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-9-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  9 +++++
 target/arm/translate-neon.inc.c | 71 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 17 +-------
 3 files changed, 82 insertions(+), 15 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
 @3same           .... ... . . . size:2 .... .... .... . q:1 . . .... \
                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
 
+@3same_q0        .... ... . . . size:2 .... .... .... . 0 . . .... \
+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
+
 VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
 VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
 VQADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 1 .... @3same
@@ -XXX,XX +XXX,XX @@ VMLS_3s          1111 001 1 0 . .. .... .... 1001 . . . 0 .... @3same
 VMUL_3s          1111 001 0 0 . .. .... .... 1001 . . . 1 .... @3same
 VMUL_p_3s        1111 001 1 0 . .. .... .... 1001 . . . 1 .... @3same
 
+VPMAX_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 0 .... @3same_q0
+VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
+
+VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
+VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
+
 VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
 
 SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_32_ENV(VQSHL_S, qshl_s)
 DO_3SAME_32_ENV(VQSHL_U, qshl_u)
 DO_3SAME_32_ENV(VQRSHL_S, qrshl_s)
 DO_3SAME_32_ENV(VQRSHL_U, qrshl_u)
+
+static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
+{
+    /* Operations handled pairwise 32 bits at a time */
+    TCGv_i32 tmp, tmp2, tmp3;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if (a->size == 3) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    assert(a->q == 0); /* enforced by decode patterns */
+
+    /*
+     * Note that we have to be careful not to clobber the source operands
+     * in the "vm == vd" case by storing the result of the first pass too
+     * early. Since Q is 0 there are always just two passes, so instead
+     * of a complicated loop over each pass we just unroll.
+     */
+    tmp = neon_load_reg(a->vn, 0);
+    tmp2 = neon_load_reg(a->vn, 1);
+    fn(tmp, tmp, tmp2);
+    tcg_temp_free_i32(tmp2);
+
+    tmp3 = neon_load_reg(a->vm, 0);
+    tmp2 = neon_load_reg(a->vm, 1);
+    fn(tmp3, tmp3, tmp2);
+    tcg_temp_free_i32(tmp2);
+
+    neon_store_reg(a->vd, 0, tmp);
+    neon_store_reg(a->vd, 1, tmp3);
+    return true;
+}
+
+#define DO_3SAME_PAIR(INSN, func)                                       \
+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
+    {                                                                   \
+        static NeonGenTwoOpFn * const fns[] = {                         \
+            gen_helper_neon_##func##8,                                  \
+            gen_helper_neon_##func##16,                                 \
+            gen_helper_neon_##func##32,                                 \
+        };                                                              \
+        if (a->size > 2) {                                              \
+            return false;                                               \
+        }                                                               \
+        return do_3same_pair(s, a, fns[a->size]);                       \
+    }
+
+/* 32-bit pairwise ops end up the same as the elementwise versions.  */
+#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
+#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
+#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
+#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
+
+DO_3SAME_PAIR(VPMAX_S, pmax_s)
+DO_3SAME_PAIR(VPMIN_S, pmin_s)
+DO_3SAME_PAIR(VPMAX_U, pmax_u)
+DO_3SAME_PAIR(VPMIN_U, pmin_u)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static inline void gen_neon_rsb(int size, TCGv_i32 t0, TCGv_i32 t1)
     }
 }
 
-/* 32-bit pairwise ops end up the same as the elementwise versions.  */
-#define gen_helper_neon_pmax_s32  tcg_gen_smax_i32
-#define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
-#define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
-#define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
-
 #define GEN_NEON_INTEGER_OP_ENV(name) do { \
     switch ((size << 1) | u) { \
     case 0: \
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VQSHL:
         case NEON_3R_VRSHL:
         case NEON_3R_VQRSHL:
+        case NEON_3R_VPMAX:
+        case NEON_3R_VPMIN:
             /* Already handled by decodetree */
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         pairwise = 0;
         switch (op) {
         case NEON_3R_VPADD_VQRDMLAH:
-        case NEON_3R_VPMAX:
-        case NEON_3R_VPMIN:
             pairwise = 1;
             break;
         case NEON_3R_FLOAT_ARITH:
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             tmp2 = neon_load_reg(rm, pass);
         }
         switch (op) {
-            break;
-        case NEON_3R_VPMAX:
-            GEN_NEON_INTEGER_OP(pmax);
-            break;
-        case NEON_3R_VPMIN:
-            GEN_NEON_INTEGER_OP(pmin);
-            break;
         case NEON_3R_VQDMULH_VQRDMULH: /* Multiply high.  */
             if (!u) { /* VQDMULH */
                 switch (size) {
-- 
2.20.1

Convert the Neon integer VPADD 3-reg-same insns to decodetree.  These
are 'pairwise' operations.  (Note that VQRDMLAH, which shares the
same primary opcode but has U=1, has already been converted.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-10-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  2 ++
 target/arm/translate-neon.inc.c |  2 ++
 target/arm/translate.c          | 19 +------------------
 3 files changed, 5 insertions(+), 18 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
 VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
 VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
 
+VPADD_3s         1111 001 0 0 . .. .... .... 1011 . . . 1 .... @3same_q0
+
 VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
 
 SHA1_3s          1111 001 0 0 . optype:2 .... .... 1100 . 1 . 0 .... \
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool do_3same_pair(DisasContext *s, arg_3same *a, NeonGenTwoOpFn *fn)
 #define gen_helper_neon_pmax_u32  tcg_gen_umax_i32
 #define gen_helper_neon_pmin_s32  tcg_gen_smin_i32
 #define gen_helper_neon_pmin_u32  tcg_gen_umin_i32
+#define gen_helper_neon_padd_u32  tcg_gen_add_i32
 
 DO_3SAME_PAIR(VPMAX_S, pmax_s)
 DO_3SAME_PAIR(VPMIN_S, pmin_s)
 DO_3SAME_PAIR(VPMAX_U, pmax_u)
 DO_3SAME_PAIR(VPMIN_U, pmin_u)
+DO_3SAME_PAIR(VPADD, padd_u)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             return 1;
         }
         switch (op) {
-        case NEON_3R_VPADD_VQRDMLAH:
-            if (!u) {
-                break;  /* VPADD */
-            }
-            /* VQRDMLAH : handled by decodetree */
-            return 1;
-
         case NEON_3R_VFM_VQRDMLSH:
             if (!u) {
                 /* VFM, VFMS */
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VQRSHL:
         case NEON_3R_VPMAX:
         case NEON_3R_VPMIN:
+        case NEON_3R_VPADD_VQRDMLAH:
             /* Already handled by decodetree */
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         }
         pairwise = 0;
         switch (op) {
-        case NEON_3R_VPADD_VQRDMLAH:
-            pairwise = 1;
-            break;
         case NEON_3R_FLOAT_ARITH:
             pairwise = (u && size < 2); /* if VPADD (float) */
             break;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 }
             }
             break;
-        case NEON_3R_VPADD_VQRDMLAH:
-            switch (size) {
-            case 0: gen_helper_neon_padd_u8(tmp, tmp, tmp2); break;
-            case 1: gen_helper_neon_padd_u16(tmp, tmp, tmp2); break;
-            case 2: tcg_gen_add_i32(tmp, tmp, tmp2); break;
-            default: abort();
-            }
-            break;
         case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
         {
             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-- 
2.20.1

Convert the Neon VQDMULH and VQRDMULH 3-reg-same insns to
decodetree. These are the last integer operations in the
3-reg-same group.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-11-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  3 +++
 target/arm/translate-neon.inc.c | 24 ++++++++++++++++++++++++
 target/arm/translate.c          | 24 +-----------------------
 3 files changed, 28 insertions(+), 23 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VPMAX_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 0 .... @3same_q0
 VPMIN_S_3s       1111 001 0 0 . .. .... .... 1010 . . . 1 .... @3same_q0
 VPMIN_U_3s       1111 001 1 0 . .. .... .... 1010 . . . 1 .... @3same_q0
 
+VQDMULH_3s       1111 001 0 0 . .. .... .... 1011 . . . 0 .... @3same
+VQRDMULH_3s      1111 001 1 0 . .. .... .... 1011 . . . 0 .... @3same
+
 VPADD_3s         1111 001 0 0 . .. .... .... 1011 . . . 1 .... @3same_q0
 
 VQRDMLAH_3s      1111 001 1 0 . .. .... .... 1011 ... 1 .... @3same
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_PAIR(VPMIN_S, pmin_s)
 DO_3SAME_PAIR(VPMAX_U, pmax_u)
 DO_3SAME_PAIR(VPMIN_U, pmin_u)
 DO_3SAME_PAIR(VPADD, padd_u)
+
+#define DO_3SAME_VQDMULH(INSN, FUNC)                                    \
+    WRAP_ENV_FN(gen_##INSN##_tramp16, gen_helper_neon_##FUNC##_s16);    \
+    WRAP_ENV_FN(gen_##INSN##_tramp32, gen_helper_neon_##FUNC##_s32);    \
+    static void gen_##INSN##_3s(unsigned vece, uint32_t rd_ofs,         \
+                                uint32_t rn_ofs, uint32_t rm_ofs,       \
+                                uint32_t oprsz, uint32_t maxsz)         \
+    {                                                                   \
+        static const GVecGen3 ops[2] = {                                \
+            { .fni4 = gen_##INSN##_tramp16 },                           \
+            { .fni4 = gen_##INSN##_tramp32 },                           \
+        };                                                              \
+        tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops[vece - 1]); \
+    }                                                                   \
+    static bool trans_##INSN##_3s(DisasContext *s, arg_3same *a)        \
+    {                                                                   \
+        if (a->size != 1 && a->size != 2) {                             \
+            return false;                                               \
+        }                                                               \
+        return do_3same(s, a, gen_##INSN##_3s);                         \
+    }
+
+DO_3SAME_VQDMULH(VQDMULH, qdmulh)
+DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VPMAX:
         case NEON_3R_VPMIN:
         case NEON_3R_VPADD_VQRDMLAH:
+        case NEON_3R_VQDMULH_VQRDMULH:
             /* Already handled by decodetree */
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             tmp2 = neon_load_reg(rm, pass);
         }
         switch (op) {
-        case NEON_3R_VQDMULH_VQRDMULH: /* Multiply high.  */
-            if (!u) { /* VQDMULH */
-                switch (size) {
-                case 1:
-                    gen_helper_neon_qdmulh_s16(tmp, cpu_env, tmp, tmp2);
-                    break;
-                case 2:
-                    gen_helper_neon_qdmulh_s32(tmp, cpu_env, tmp, tmp2);
-                    break;
-                default: abort();
-                }
-            } else { /* VQRDMULH */
-                switch (size) {
-                case 1:
-                    gen_helper_neon_qrdmulh_s16(tmp, cpu_env, tmp, tmp2);
-                    break;
-                case 2:
-                    gen_helper_neon_qrdmulh_s32(tmp, cpu_env, tmp, tmp2);
-                    break;
-                default: abort();
-                }
-            }
-            break;
         case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
         {
             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-- 
2.20.1

Convert the Neon VADD, VSUB, VABD 3-reg-same insns to decodetree.
We already have gvec helpers for addition and subtraction, but must
add one for fabd.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-12-peter.maydell@linaro.org
---
 target/arm/helper.h             |  3 ++-
 target/arm/neon-dp.decode       |  8 ++++++++
 target/arm/neon_helper.c        |  7 -------
 target/arm/translate-neon.inc.c | 28 ++++++++++++++++++++++++++++
 target/arm/translate.c          | 10 +++-------
 target/arm/vec_helper.c         |  7 +++++++
 6 files changed, 48 insertions(+), 15 deletions(-)

Convert the Neon float VPMIN, VPMAX and VPADD 3-reg-same insns to
decodetree. These are the only remaining 'pairwise' operations,
so we can delete the pairwise-specific bits of the old decoder's
for-each-element loop now.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-13-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  5 +++
 target/arm/translate-neon.inc.c | 63 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 63 +++++----------------------------
 3 files changed, 76 insertions(+), 55 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@
 # For FP insns the high bit of 'size' is used as part of opcode decode
 @3same_fp        .... ... . . . . size:1 .... .... .... . q:1 . . .... \
                  &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp
+@3same_fp_q0     .... ... . . . . size:1 .... .... .... . 0 . . .... \
+                 &3same vm=%vm_dp vn=%vn_dp vd=%vd_dp q=0
 
 VHADD_S_3s       1111 001 0 0 . .. .... .... 0000 . . . 0 .... @3same
 VHADD_U_3s       1111 001 1 0 . .. .... .... 0000 . . . 0 .... @3same
@@ -XXX,XX +XXX,XX @@ VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
 
 VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
 VSUB_fp_3s       1111 001 0 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
+VPADD_fp_3s      1111 001 1 0 . 0 . .... .... 1101 ... 0 .... @3same_fp_q0
 VABD_fp_3s       1111 001 1 0 . 1 . .... .... 1101 ... 0 .... @3same_fp
+VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
+VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3SAME_VQDMULH(VQRDMULH, qrdmulh)
 DO_3S_FP_GVEC(VADD, gen_helper_gvec_fadd_s)
 DO_3S_FP_GVEC(VSUB, gen_helper_gvec_fsub_s)
 DO_3S_FP_GVEC(VABD, gen_helper_gvec_fabd_s)
+
+static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
+{
+    /* FP operations handled pairwise 32 bits at a time */
+    TCGv_i32 tmp, tmp2, tmp3;
+    TCGv_ptr fpstatus;
+
+    if (!arm_dc_feature(s, ARM_FEATURE_NEON)) {
+        return false;
+    }
+
+    /* UNDEF accesses to D16-D31 if they don't exist. */
+    if (!dc_isar_feature(aa32_simd_r32, s) &&
+        ((a->vd | a->vn | a->vm) & 0x10)) {
+        return false;
+    }
+
+    if (!vfp_access_check(s)) {
+        return true;
+    }
+
+    assert(a->q == 0); /* enforced by decode patterns */
+
+    /*
+     * Note that we have to be careful not to clobber the source operands
+     * in the "vm == vd" case by storing the result of the first pass too
+     * early. Since Q is 0 there are always just two passes, so instead
+     * of a complicated loop over each pass we just unroll.
+     */
+    fpstatus = get_fpstatus_ptr(1);
+    tmp = neon_load_reg(a->vn, 0);
+    tmp2 = neon_load_reg(a->vn, 1);
+    fn(tmp, tmp, tmp2, fpstatus);
+    tcg_temp_free_i32(tmp2);
+
+    tmp3 = neon_load_reg(a->vm, 0);
+    tmp2 = neon_load_reg(a->vm, 1);
+    fn(tmp3, tmp3, tmp2, fpstatus);
+    tcg_temp_free_i32(tmp2);
+    tcg_temp_free_ptr(fpstatus);
+
+    neon_store_reg(a->vd, 0, tmp);
+    neon_store_reg(a->vd, 1, tmp3);
+    return true;
+}
+
+/*
+ * For all the functions using this macro, size == 1 means fp16,
+ * which is an architecture extension we don't implement yet.
+ */
+#define DO_3S_FP_PAIR(INSN,FUNC)                                    \
+    static bool trans_##INSN##_fp_3s(DisasContext *s, arg_3same *a) \
+    {                                                               \
+        if (a->size != 0) {                                         \
+            /* TODO fp16 support */                                 \
+            return false;                                           \
+        }                                                           \
+        return do_3same_fp_pair(s, a, FUNC);                        \
+    }
+
+DO_3S_FP_PAIR(VPADD, gen_helper_vfp_adds)
+DO_3S_FP_PAIR(VPMAX, gen_helper_vfp_maxs)
+DO_3S_FP_PAIR(VPMIN, gen_helper_vfp_mins)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     int shift;
     int pass;
     int count;
-    int pairwise;
     int u;
     int vec_size;
     uint32_t imm;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_VPMIN:
         case NEON_3R_VPADD_VQRDMLAH:
         case NEON_3R_VQDMULH_VQRDMULH:
+        case NEON_3R_FLOAT_ARITH:
             /* Already handled by decodetree */
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             /* 64-bit element instructions: handled by decodetree */
             return 1;
         }
-        pairwise = 0;
         switch (op) {
-        case NEON_3R_FLOAT_ARITH:
-            pairwise = (u && size < 2); /* if VPADD (float) */
-            if (!pairwise) {
-                return 1; /* handled by decodetree */
-            }
-            break;
         case NEON_3R_FLOAT_MINMAX:
-            pairwise = u; /* if VPMIN/VPMAX (float) */
+            if (u) {
+                return 1; /* VPMIN/VPMAX handled by decodetree */
+            }
             break;
         case NEON_3R_FLOAT_CMP:
             if (!u && size) {
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             break;
         }
 
-        if (pairwise && q) {
-            /* All the pairwise insns UNDEF if Q is set */
-            return 1;
-        }
-
         for (pass = 0; pass < (q ? 4 : 2); pass++) {
 
-        if (pairwise) {
-            /* Pairwise.  */
-            if (pass < 1) {
-                tmp = neon_load_reg(rn, 0);
-                tmp2 = neon_load_reg(rn, 1);
-            } else {
-                tmp = neon_load_reg(rm, 0);
-                tmp2 = neon_load_reg(rm, 1);
-            }
-        } else {
-            /* Elementwise.  */
-            tmp = neon_load_reg(rn, pass);
-            tmp2 = neon_load_reg(rm, pass);
-        }
+        /* Elementwise.  */
+        tmp = neon_load_reg(rn, pass);
+        tmp2 = neon_load_reg(rm, pass);
         switch (op) {
-        case NEON_3R_FLOAT_ARITH: /* Floating point arithmetic. */
-        {
-            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-            switch ((u << 2) | size) {
-            case 4: /* VPADD */
-                gen_helper_vfp_adds(tmp, tmp, tmp2, fpstatus);
-                break;
-            default:
-                abort();
-            }
-            tcg_temp_free_ptr(fpstatus);
-            break;
-        }
         case NEON_3R_FLOAT_MULTIPLY:
         {
             TCGv_ptr fpstatus = get_fpstatus_ptr(1);
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         }
         tcg_temp_free_i32(tmp2);
 
-        /* Save the result.  For elementwise operations we can put it
-           straight into the destination register.  For pairwise operations
-           we have to be careful to avoid clobbering the source operands.  */
-        if (pairwise && rd == rm) {
-            neon_store_scratch(pass, tmp);
-        } else {
-            neon_store_reg(rd, pass, tmp);
-        }
+        neon_store_reg(rd, pass, tmp);
 
         } /* for pass */
-        if (pairwise && rd == rm) {
-            for (pass = 0; pass < (q ? 4 : 2); pass++) {
-                tmp = neon_load_scratch(pass);
-                neon_store_reg(rd, pass, tmp);
-            }
-        }
         /* End of 3 register same size operations.  */
     } else if (insn & (1 << 4)) {
         if ((insn & 0x00380080) != 0) {
-- 
2.20.1

Convert the Neon integer VMUL, VMLA, and VMLS 3-reg-same inssn to
decodetree.

We don't have a gvec helper for multiply-accumulate, so VMLA and VMLS
need a loop function do_3same_fp().  This takes a reads_vd parameter
to do_3same_fp() which tells it to load the old value into vd before
calling the callback function, in the same way that the do_vfp_3op_sp()
and do_vfp_3op_dp() functions in translate-vfp.inc.c work. (The
only uses in this patch pass reads_vd == true, but later commits
will use reads_vd == false.)

This conversion fixes in passing an underdecoding for VMUL
(originally reported by Fredrik Strupe <fredrik@strupe.net>): bit 1
of the 'size' field must be 0.  The old decoder didn't enforce this,
but the decodetree pattern does.

The gen_VMLA_fp_reg() function performs the addition operation
with the operands in the opposite order to the old decoder:
since Neon sets 'default NaN mode' float32_add operations are
commutative so there is no behaviour difference, but putting
them this way around matches the Arm ARM pseudocode and the
required operation order for the subtraction in gen_VMLS_fp_reg().

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-14-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  3 ++
 target/arm/translate-neon.inc.c | 81 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 17 +------
 3 files changed, 85 insertions(+), 16 deletions(-)

Convert the Neon integer 3-reg-same compare insns VCGE, VCGT,
VCEQ, VACGE and VACGT to decodetree.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-15-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  5 +++++
 target/arm/translate-neon.inc.c |  6 +++++
 target/arm/translate.c          | 39 ++-------------------------------
 3 files changed, 13 insertions(+), 37 deletions(-)

The usual location for the env argument in the argument list of a TCG helper
is immediately after the return-value argument. recps_f32 and rsqrts_f32
differ in that they put it at the end.

Move the env argument to its usual place; this will allow us to
more easily use these helper functions with the gvec APIs.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-16-peter.maydell@linaro.org
---
 target/arm/helper.h     | 4 ++--
 target/arm/translate.c  | 4 ++--
 target/arm/vfp_helper.c | 4 ++--
 3 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/target/arm/helper.h b/target/arm/helper.h
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.h
+++ b/target/arm/helper.h
@@ -XXX,XX +XXX,XX @@ DEF_HELPER_FLAGS_3(vfp_fcvt_f64_to_f16, TCG_CALL_NO_RWG, f16, f64, ptr, i32)
 DEF_HELPER_4(vfp_muladdd, f64, f64, f64, f64, ptr)
 DEF_HELPER_4(vfp_muladds, f32, f32, f32, f32, ptr)
 
-DEF_HELPER_3(recps_f32, f32, f32, f32, env)
-DEF_HELPER_3(rsqrts_f32, f32, f32, f32, env)
+DEF_HELPER_3(recps_f32, f32, env, f32, f32)
+DEF_HELPER_3(rsqrts_f32, f32, env, f32, f32)
 DEF_HELPER_FLAGS_2(recpe_f16, TCG_CALL_NO_RWG, f16, f16, ptr)
 DEF_HELPER_FLAGS_2(recpe_f32, TCG_CALL_NO_RWG, f32, f32, ptr)
 DEF_HELPER_FLAGS_2(recpe_f64, TCG_CALL_NO_RWG, f64, f64, ptr)
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
                 tcg_temp_free_ptr(fpstatus);
             } else {
                 if (size == 0) {
-                    gen_helper_recps_f32(tmp, tmp, tmp2, cpu_env);
+                    gen_helper_recps_f32(tmp, cpu_env, tmp, tmp2);
                 } else {
-                    gen_helper_rsqrts_f32(tmp, tmp, tmp2, cpu_env);
+                    gen_helper_rsqrts_f32(tmp, cpu_env, tmp, tmp2);
               }
             }
             break;
diff --git a/target/arm/vfp_helper.c b/target/arm/vfp_helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/vfp_helper.c
+++ b/target/arm/vfp_helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(vfp_fcvt_f64_to_f16)(float64 a, void *fpstp, uint32_t ahp_mode)
 #define float32_three make_float32(0x40400000)
 #define float32_one_point_five make_float32(0x3fc00000)
 
-float32 HELPER(recps_f32)(float32 a, float32 b, CPUARMState *env)
+float32 HELPER(recps_f32)(CPUARMState *env, float32 a, float32 b)
 {
     float_status *s = &env->vfp.standard_fp_status;
     if ((float32_is_infinity(a) && float32_is_zero_or_denormal(b)) ||
@@ -XXX,XX +XXX,XX @@ float32 HELPER(recps_f32)(float32 a, float32 b, CPUARMState *env)
     return float32_sub(float32_two, float32_mul(a, b, s), s);
 }
 
-float32 HELPER(rsqrts_f32)(float32 a, float32 b, CPUARMState *env)
+float32 HELPER(rsqrts_f32)(CPUARMState *env, float32 a, float32 b)
 {
     float_status *s = &env->vfp.standard_fp_status;
     float32 product;
-- 
2.20.1

Convert the Neon fp VMAX/VMIN/VMAXNM/VMINNM/VRECPS/VRSQRTS 3-reg-same
insns to decodetree. (These are all the remaining non-accumulation
instructions in this group.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-17-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |  6 +++
 target/arm/translate-neon.inc.c | 70 +++++++++++++++++++++++++++++++++
 target/arm/translate.c          | 42 +-------------------
 3 files changed, 78 insertions(+), 40 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ VCGE_fp_3s       1111 001 1 0 . 0 . .... .... 1110 ... 0 .... @3same_fp
 VACGE_fp_3s      1111 001 1 0 . 0 . .... .... 1110 ... 1 .... @3same_fp
 VCGT_fp_3s       1111 001 1 0 . 1 . .... .... 1110 ... 0 .... @3same_fp
 VACGT_fp_3s      1111 001 1 0 . 1 . .... .... 1110 ... 1 .... @3same_fp
+VMAX_fp_3s       1111 001 0 0 . 0 . .... .... 1111 ... 0 .... @3same_fp
+VMIN_fp_3s       1111 001 0 0 . 1 . .... .... 1111 ... 0 .... @3same_fp
 VPMAX_fp_3s      1111 001 1 0 . 0 . .... .... 1111 ... 0 .... @3same_fp_q0
 VPMIN_fp_3s      1111 001 1 0 . 1 . .... .... 1111 ... 0 .... @3same_fp_q0
+VRECPS_fp_3s     1111 001 0 0 . 0 . .... .... 1111 ... 1 .... @3same_fp
+VRSQRTS_fp_3s    1111 001 0 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
+VMAXNM_fp_3s     1111 001 1 0 . 0 . .... .... 1111 ... 1 .... @3same_fp
+VMINNM_fp_3s     1111 001 1 0 . 1 . .... .... 1111 ... 1 .... @3same_fp
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ DO_3S_FP(VCGE, gen_helper_neon_cge_f32, false)
 DO_3S_FP(VCGT, gen_helper_neon_cgt_f32, false)
 DO_3S_FP(VACGE, gen_helper_neon_acge_f32, false)
 DO_3S_FP(VACGT, gen_helper_neon_acgt_f32, false)
+DO_3S_FP(VMAX, gen_helper_vfp_maxs, false)
+DO_3S_FP(VMIN, gen_helper_vfp_mins, false)
 
 static void gen_VMLA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
                             TCGv_ptr fpstatus)
@@ -XXX,XX +XXX,XX @@ static void gen_VMLS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
 DO_3S_FP(VMLA, gen_VMLA_fp_3s, true)
 DO_3S_FP(VMLS, gen_VMLS_fp_3s, true)
 
+static bool trans_VMAXNM_fp_3s(DisasContext *s, arg_3same *a)
+{
+    if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
+        return false;
+    }
+
+    if (a->size != 0) {
+        /* TODO fp16 support */
+        return false;
+    }
+
+    return do_3same_fp(s, a, gen_helper_vfp_maxnums, false);
+}
+
+static bool trans_VMINNM_fp_3s(DisasContext *s, arg_3same *a)
+{
+    if (!arm_dc_feature(s, ARM_FEATURE_V8)) {
+        return false;
+    }
+
+    if (a->size != 0) {
+        /* TODO fp16 support */
+        return false;
+    }
+
+    return do_3same_fp(s, a, gen_helper_vfp_minnums, false);
+}
+
+WRAP_ENV_FN(gen_VRECPS_tramp, gen_helper_recps_f32)
+
+static void gen_VRECPS_fp_3s(unsigned vece, uint32_t rd_ofs,
+                             uint32_t rn_ofs, uint32_t rm_ofs,
+                             uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen3 ops = { .fni4 = gen_VRECPS_tramp };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
+}
+
+static bool trans_VRECPS_fp_3s(DisasContext *s, arg_3same *a)
+{
+    if (a->size != 0) {
+        /* TODO fp16 support */
+        return false;
+    }
+
+    return do_3same(s, a, gen_VRECPS_fp_3s);
+}
+
+WRAP_ENV_FN(gen_VRSQRTS_tramp, gen_helper_rsqrts_f32)
+
+static void gen_VRSQRTS_fp_3s(unsigned vece, uint32_t rd_ofs,
+                              uint32_t rn_ofs, uint32_t rm_ofs,
+                              uint32_t oprsz, uint32_t maxsz)
+{
+    static const GVecGen3 ops = { .fni4 = gen_VRSQRTS_tramp };
+    tcg_gen_gvec_3(rd_ofs, rn_ofs, rm_ofs, oprsz, maxsz, &ops);
+}
+
+static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
+{
+    if (a->size != 0) {
+        /* TODO fp16 support */
+        return false;
+    }
+
+    return do_3same(s, a, gen_VRSQRTS_fp_3s);
+}
+
 static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
 {
     /* FP operations handled pairwise 32 bits at a time */
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         case NEON_3R_FLOAT_MULTIPLY:
         case NEON_3R_FLOAT_CMP:
         case NEON_3R_FLOAT_ACMP:
+        case NEON_3R_FLOAT_MINMAX:
+        case NEON_3R_FLOAT_MISC:
             /* Already handled by decodetree */
             return 1;
         }
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
             return 1;
         }
         switch (op) {
-        case NEON_3R_FLOAT_MINMAX:
-            if (u) {
-                return 1; /* VPMIN/VPMAX handled by decodetree */
-            }
-            break;
-        case NEON_3R_FLOAT_MISC:
-            /* VMAXNM/VMINNM in ARMv8 */
-            if (u && !arm_dc_feature(s, ARM_FEATURE_V8)) {
-                return 1;
-            }
-            break;
         case NEON_3R_VFM_VQRDMLSH:
             if (!dc_isar_feature(aa32_simdfmac, s)) {
                 return 1;
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
         tmp = neon_load_reg(rn, pass);
         tmp2 = neon_load_reg(rm, pass);
         switch (op) {
-        case NEON_3R_FLOAT_MINMAX:
-        {
-            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-            if (size == 0) {
-                gen_helper_vfp_maxs(tmp, tmp, tmp2, fpstatus);
-            } else {
-                gen_helper_vfp_mins(tmp, tmp, tmp2, fpstatus);
-            }
-            tcg_temp_free_ptr(fpstatus);
-            break;
-        }
-        case NEON_3R_FLOAT_MISC:
-            if (u) {
-                /* VMAXNM/VMINNM */
-                TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-                if (size == 0) {
-                    gen_helper_vfp_maxnums(tmp, tmp, tmp2, fpstatus);
-                } else {
-                    gen_helper_vfp_minnums(tmp, tmp, tmp2, fpstatus);
-                }
-                tcg_temp_free_ptr(fpstatus);
-            } else {
-                if (size == 0) {
-                    gen_helper_recps_f32(tmp, cpu_env, tmp, tmp2);
-                } else {
-                    gen_helper_rsqrts_f32(tmp, cpu_env, tmp, tmp2);
-              }
-            }
-            break;
         case NEON_3R_VFM_VQRDMLSH:
         {
             /* VFMA, VFMS: fused multiply-add */
-- 
2.20.1

Convert the Neon floating point VFMA and VFMS insn to decodetree.
These are the last insns in the 3-reg-same group so we can
remove all the support/loop code from the old decoder.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20200512163904.10918-18-peter.maydell@linaro.org
---
 target/arm/neon-dp.decode       |   3 +
 target/arm/translate-neon.inc.c |  41 ++++++++
 target/arm/translate.c          | 176 +-------------------------------
 3 files changed, 46 insertions(+), 174 deletions(-)

diff --git a/target/arm/neon-dp.decode b/target/arm/neon-dp.decode
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/neon-dp.decode
+++ b/target/arm/neon-dp.decode
@@ -XXX,XX +XXX,XX @@ SHA256H2_3s      1111 001 1 0 . 01 .... .... 1100 . 1 . 0 .... \
 SHA256SU1_3s     1111 001 1 0 . 10 .... .... 1100 . 1 . 0 .... \
                  vm=%vm_dp vn=%vn_dp vd=%vd_dp
 
+VFMA_fp_3s       1111 001 0 0 . 0 . .... .... 1100 ... 1 .... @3same_fp
+VFMS_fp_3s       1111 001 0 0 . 1 . .... .... 1100 ... 1 .... @3same_fp
+
 VQRDMLSH_3s      1111 001 1 0 . .. .... .... 1100 ... 1 .... @3same
 
 VADD_fp_3s       1111 001 0 0 . 0 . .... .... 1101 ... 0 .... @3same_fp
diff --git a/target/arm/translate-neon.inc.c b/target/arm/translate-neon.inc.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate-neon.inc.c
+++ b/target/arm/translate-neon.inc.c
@@ -XXX,XX +XXX,XX @@ static bool trans_VRSQRTS_fp_3s(DisasContext *s, arg_3same *a)
     return do_3same(s, a, gen_VRSQRTS_fp_3s);
 }
 
+static void gen_VFMA_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
+                            TCGv_ptr fpstatus)
+{
+    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
+}
+
+static bool trans_VFMA_fp_3s(DisasContext *s, arg_3same *a)
+{
+    if (!dc_isar_feature(aa32_simdfmac, s)) {
+        return false;
+    }
+
+    if (a->size != 0) {
+        /* TODO fp16 support */
+        return false;
+    }
+
+    return do_3same_fp(s, a, gen_VFMA_fp_3s, true);
+}
+
+static void gen_VFMS_fp_3s(TCGv_i32 vd, TCGv_i32 vn, TCGv_i32 vm,
+                            TCGv_ptr fpstatus)
+{
+    gen_helper_vfp_negs(vn, vn);
+    gen_helper_vfp_muladds(vd, vn, vm, vd, fpstatus);
+}
+
+static bool trans_VFMS_fp_3s(DisasContext *s, arg_3same *a)
+{
+    if (!dc_isar_feature(aa32_simdfmac, s)) {
+        return false;
+    }
+
+    if (a->size != 0) {
+        /* TODO fp16 support */
+        return false;
+    }
+
+    return do_3same_fp(s, a, gen_VFMS_fp_3s, true);
+}
+
 static bool do_3same_fp_pair(DisasContext *s, arg_3same *a, VFPGen3OpSPFn *fn)
 {
     /* FP operations handled pairwise 32 bits at a time */
diff --git a/target/arm/translate.c b/target/arm/translate.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/translate.c
+++ b/target/arm/translate.c
@@ -XXX,XX +XXX,XX @@ static void gen_neon_narrow_op(int op, int u, int size,
     }
 }
 
-/* Symbolic constants for op fields for Neon 3-register same-length.
- * The values correspond to bits [11:8,4]; see the ARM ARM DDI0406B
- * table A7-9.
- */
-#define NEON_3R_VHADD 0
-#define NEON_3R_VQADD 1
-#define NEON_3R_VRHADD 2
-#define NEON_3R_LOGIC 3 /* VAND,VBIC,VORR,VMOV,VORN,VEOR,VBIF,VBIT,VBSL */
-#define NEON_3R_VHSUB 4
-#define NEON_3R_VQSUB 5
-#define NEON_3R_VCGT 6
-#define NEON_3R_VCGE 7
-#define NEON_3R_VSHL 8
-#define NEON_3R_VQSHL 9
-#define NEON_3R_VRSHL 10
-#define NEON_3R_VQRSHL 11
-#define NEON_3R_VMAX 12
-#define NEON_3R_VMIN 13
-#define NEON_3R_VABD 14
-#define NEON_3R_VABA 15
-#define NEON_3R_VADD_VSUB 16
-#define NEON_3R_VTST_VCEQ 17
-#define NEON_3R_VML 18 /* VMLA, VMLS */
-#define NEON_3R_VMUL 19
-#define NEON_3R_VPMAX 20
-#define NEON_3R_VPMIN 21
-#define NEON_3R_VQDMULH_VQRDMULH 22
-#define NEON_3R_VPADD_VQRDMLAH 23
-#define NEON_3R_SHA 24 /* SHA1C,SHA1P,SHA1M,SHA1SU0,SHA256H{2},SHA256SU1 */
-#define NEON_3R_VFM_VQRDMLSH 25 /* VFMA, VFMS, VQRDMLSH */
-#define NEON_3R_FLOAT_ARITH 26 /* float VADD, VSUB, VPADD, VABD */
-#define NEON_3R_FLOAT_MULTIPLY 27 /* float VMLA, VMLS, VMUL */
-#define NEON_3R_FLOAT_CMP 28 /* float VCEQ, VCGE, VCGT */
-#define NEON_3R_FLOAT_ACMP 29 /* float VACGE, VACGT, VACLE, VACLT */
-#define NEON_3R_FLOAT_MINMAX 30 /* float VMIN, VMAX */
-#define NEON_3R_FLOAT_MISC 31 /* float VRECPS, VRSQRTS, VMAXNM/MINNM */
-
-static const uint8_t neon_3r_sizes[] = {
-    [NEON_3R_VHADD] = 0x7,
-    [NEON_3R_VQADD] = 0xf,
-    [NEON_3R_VRHADD] = 0x7,
-    [NEON_3R_LOGIC] = 0xf, /* size field encodes op type */
-    [NEON_3R_VHSUB] = 0x7,
-    [NEON_3R_VQSUB] = 0xf,
-    [NEON_3R_VCGT] = 0x7,
-    [NEON_3R_VCGE] = 0x7,
-    [NEON_3R_VSHL] = 0xf,
-    [NEON_3R_VQSHL] = 0xf,
-    [NEON_3R_VRSHL] = 0xf,
-    [NEON_3R_VQRSHL] = 0xf,
-    [NEON_3R_VMAX] = 0x7,
-    [NEON_3R_VMIN] = 0x7,
-    [NEON_3R_VABD] = 0x7,
-    [NEON_3R_VABA] = 0x7,
-    [NEON_3R_VADD_VSUB] = 0xf,
-    [NEON_3R_VTST_VCEQ] = 0x7,
-    [NEON_3R_VML] = 0x7,
-    [NEON_3R_VMUL] = 0x7,
-    [NEON_3R_VPMAX] = 0x7,
-    [NEON_3R_VPMIN] = 0x7,
-    [NEON_3R_VQDMULH_VQRDMULH] = 0x6,
-    [NEON_3R_VPADD_VQRDMLAH] = 0x7,
-    [NEON_3R_SHA] = 0xf, /* size field encodes op type */
-    [NEON_3R_VFM_VQRDMLSH] = 0x7, /* For VFM, size bit 1 encodes op */
-    [NEON_3R_FLOAT_ARITH] = 0x5, /* size bit 1 encodes op */
-    [NEON_3R_FLOAT_MULTIPLY] = 0x5, /* size bit 1 encodes op */
-    [NEON_3R_FLOAT_CMP] = 0x5, /* size bit 1 encodes op */
-    [NEON_3R_FLOAT_ACMP] = 0x5, /* size bit 1 encodes op */
-    [NEON_3R_FLOAT_MINMAX] = 0x5, /* size bit 1 encodes op */
-    [NEON_3R_FLOAT_MISC] = 0x5, /* size bit 1 encodes op */
-};
-
 /* Symbolic constants for op fields for Neon 2-register miscellaneous.
  * The values correspond to bits [17:16,10:7]; see the ARM ARM DDI0406B
  * table A7-13.
@@ -XXX,XX +XXX,XX @@ static int disas_neon_data_insn(DisasContext *s, uint32_t insn)
     rm_ofs = neon_reg_offset(rm, 0);
 
     if ((insn & (1 << 23)) == 0) {
-        /* Three register same length.  */
-        op = ((insn >> 7) & 0x1e) | ((insn >> 4) & 1);
-        /* Catch invalid op and bad size combinations: UNDEF */
-        if ((neon_3r_sizes[op] & (1 << size)) == 0) {
-            return 1;
-        }
-        /* All insns of this form UNDEF for either this condition or the
-         * superset of cases "Q==1"; we catch the latter later.
-         */
-        if (q && ((rd | rn | rm) & 1)) {
-            return 1;
-        }
-        switch (op) {
-        case NEON_3R_VFM_VQRDMLSH:
-            if (!u) {
-                /* VFM, VFMS */
-                if (size == 1) {
-                    return 1;
-                }
-                break;
-            }
-            /* VQRDMLSH : handled by decodetree */
-            return 1;
-
-        case NEON_3R_VADD_VSUB:
-        case NEON_3R_LOGIC:
-        case NEON_3R_VMAX:
-        case NEON_3R_VMIN:
-        case NEON_3R_VTST_VCEQ:
-        case NEON_3R_VCGT:
-        case NEON_3R_VCGE:
-        case NEON_3R_VQADD:
-        case NEON_3R_VQSUB:
-        case NEON_3R_VMUL:
-        case NEON_3R_VML:
-        case NEON_3R_VSHL:
-        case NEON_3R_SHA:
-        case NEON_3R_VHADD:
-        case NEON_3R_VRHADD:
-        case NEON_3R_VHSUB:
-        case NEON_3R_VABD:
-        case NEON_3R_VABA:
-        case NEON_3R_VQSHL:
-        case NEON_3R_VRSHL:
-        case NEON_3R_VQRSHL:
-        case NEON_3R_VPMAX:
-        case NEON_3R_VPMIN:
-        case NEON_3R_VPADD_VQRDMLAH:
-        case NEON_3R_VQDMULH_VQRDMULH:
-        case NEON_3R_FLOAT_ARITH:
-        case NEON_3R_FLOAT_MULTIPLY:
-        case NEON_3R_FLOAT_CMP:
-        case NEON_3R_FLOAT_ACMP:
-        case NEON_3R_FLOAT_MINMAX:
-        case NEON_3R_FLOAT_MISC:
-            /* Already handled by decodetree */
-            return 1;
-        }
-
-        if (size == 3) {
-            /* 64-bit element instructions: handled by decodetree */
-            return 1;
-        }
-        switch (op) {
-        case NEON_3R_VFM_VQRDMLSH:
-            if (!dc_isar_feature(aa32_simdfmac, s)) {
-                return 1;
-            }
-            break;
-        default:
-            break;
-        }
-
-        for (pass = 0; pass < (q ? 4 : 2); pass++) {
-
-        /* Elementwise.  */
-        tmp = neon_load_reg(rn, pass);
-        tmp2 = neon_load_reg(rm, pass);
-        switch (op) {
-        case NEON_3R_VFM_VQRDMLSH:
-        {
-            /* VFMA, VFMS: fused multiply-add */
-            TCGv_ptr fpstatus = get_fpstatus_ptr(1);
-            TCGv_i32 tmp3 = neon_load_reg(rd, pass);
-            if (size) {
-                /* VFMS */
-                gen_helper_vfp_negs(tmp, tmp);
-            }
-            gen_helper_vfp_muladds(tmp, tmp, tmp2, tmp3, fpstatus);
-            tcg_temp_free_i32(tmp3);
-            tcg_temp_free_ptr(fpstatus);
-            break;
-        }
-        default:
-            abort();
-        }
-        tcg_temp_free_i32(tmp2);
-
-        neon_store_reg(rd, pass, tmp);
-
-        } /* for pass */
-        /* End of 3 register same size operations.  */
+        /* Three register same length: handled by decodetree */
+        return 1;
     } else if (insn & (1 << 4)) {
         if ((insn & 0x00380080) != 0) {
             /* Two registers and shift.  */
-- 
2.20.1

The following changes since commit 55ef0b702bc2c90c3c4ed97f97676d8f139e5ca1:

Merge remote-tracking branch 'remotes/lvivier-gitlab/tags/linux-user-for-7.0-pull-request' into staging (2022-02-07 10:48:25 +0000)

are available in the Git repository at:

https://git.linaro.org/people/pmaydell/qemu-arm.git tags/pull-target-arm-20220208

for you to fetch changes up to 4fd1ebb10593087d45d2f56f7f3d13447d24802c:

hw/sensor: Add lsm303dlhc magnetometer device (2022-02-08 10:56:29 +0000)

----------------------------------------------------------------
target-arm queue:
 * Fix handling of SVE ZCR_LEN when using VHE
 * xlnx-zynqmp: 'Or' the QSPI / QSPI DMA IRQs
 * Don't ever enable PSCI when booting guest in EL3
 * Adhere to SMCCC 1.3 section 5.2
 * highbank: Fix issues with booting SMP
 * midway: Fix issues booting at all
 * boot: Drop existing dtb /psci node rather than retaining it
 * versal-virt: Always call arm_load_kernel()
 * force flag recalculation when messing with DAIF
 * hw/timer/armv7m_systick: Update clock source before enabling timer
 * hw/arm/smmuv3: Fix device reset
 * hw/intc/arm_gicv3_its: refactorings and minor bug fixes
 * hw/sensor: Add lsm303dlhc magnetometer device

----------------------------------------------------------------
Alex Bennée (1):
      arm: force flag recalculation when messing with DAIF

Edgar E. Iglesias (1):
      hw/arm: versal-virt: Always call arm_load_kernel()

Eric Auger (1):
      hw/arm/smmuv3: Fix device reset

Francisco Iglesias (1):
      hw/arm/xlnx-zynqmp: 'Or' the QSPI / QSPI DMA IRQs

Kevin Townsend (1):
      hw/sensor: Add lsm303dlhc magnetometer device

Peter Maydell (29):
      target/arm: make psci-conduit settable after realize
      cpu.c: Make start-powered-off settable after realize
      hw/arm/boot: Support setting psci-conduit based on guest EL
      hw/arm: imx: Don't enable PSCI conduit when booting guest in EL3
      hw/arm: allwinner: Don't enable PSCI conduit when booting guest in EL3
      hw/arm/xlnx-zcu102: Don't enable PSCI conduit when booting guest in EL3
      hw/arm/versal: Let boot.c handle PSCI enablement
      hw/arm/virt: Let boot.c handle PSCI enablement
      hw/arm: highbank: For EL3 guests, don't enable PSCI, start all cores
      arm: tcg: Adhere to SMCCC 1.3 section 5.2
      hw/arm/highbank: Drop use of secure_board_setup
      hw/arm/boot: Prevent setting both psci_conduit and secure_board_setup
      hw/arm/boot: Don't write secondary boot stub if using PSCI
      hw/arm/highbank: Drop unused secondary boot stub code
      hw/arm/boot: Drop nb_cpus field from arm_boot_info
      hw/arm/boot: Drop existing dtb /psci node rather than retaining it
      hw/intc/arm_gicv3_its: Use address_space_map() to access command queue packets
      hw/intc/arm_gicv3_its: Keep DTEs as a struct, not a raw uint64_t
      hw/intc/arm_gicv3_its: Pass DTEntry to update_dte()
      hw/intc/arm_gicv3_its: Keep CTEs as a struct, not a raw uint64_t
      hw/intc/arm_gicv3_its: Pass CTEntry to update_cte()
      hw/intc/arm_gicv3_its: Fix address calculation in get_ite() and update_ite()
      hw/intc/arm_gicv3_its: Avoid nested ifs in get_ite()
      hw/intc/arm_gicv3_its: Pass ITE values back from get_ite() via a struct
      hw/intc/arm_gicv3_its: Make update_ite() use ITEntry
      hw/intc/arm_gicv3_its: Drop TableDesc and CmdQDesc valid fields
      hw/intc/arm_gicv3_its: In MAPC with V=0, don't check rdbase field
      hw/intc/arm_gicv3_its: Don't allow intid 1023 in MAPI/MAPTI
      hw/intc/arm_gicv3_its: Split error checks

Richard Henderson (4):
      target/arm: Fix sve_zcr_len_for_el for VHE mode running
      target/arm: Tidy sve_exception_el for CPACR_EL1 access
      target/arm: Fix {fp, sve}_exception_el for VHE mode running
      target/arm: Use CPTR_TFP with CPTR_EL3 in fp_exception_el

Richard Petri (1):
      hw/timer/armv7m_systick: Update clock source before enabling timer

From: Richard Henderson <richard.henderson@linaro.org>

When HCR_EL2.{E2H,TGE} == '11', ZCR_EL1 is unused.

Reported-by: Zenghui Yu <yuzenghui@huawei.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Zenghui Yu <yuzenghui@huawei.com>
Message-id: 20220127063428.30212-2-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ uint32_t sve_zcr_len_for_el(CPUARMState *env, int el)
     ARMCPU *cpu = env_archcpu(env);
     uint32_t zcr_len = cpu->sve_max_vq - 1;
 
-    if (el <= 1) {
+    if (el <= 1 &&
+        (arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
         zcr_len = MIN(zcr_len, 0xf & (uint32_t)env->vfp.zcr_el[1]);
     }
     if (el <= 2 && arm_feature(env, ARM_FEATURE_EL2)) {
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

Extract entire fields for ZEN and FPEN, rather than testing specific bits.
This makes it easier to follow the code versus the ARM spec.

Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Zenghui Yu <yuzenghui@huawei.com>
Message-id: 20220127063428.30212-3-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 36 +++++++++++++++++-------------------
 1 file changed, 17 insertions(+), 19 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
     uint64_t hcr_el2 = arm_hcr_el2_eff(env);
 
     if (el <= 1 && (hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
-        bool disabled = false;
-
-        /* The CPACR.ZEN controls traps to EL1:
-         * 0, 2 : trap EL0 and EL1 accesses
-         * 1    : trap only EL0 accesses
-         * 3    : trap no accesses
-         */
-        if (!extract32(env->cp15.cpacr_el1, 16, 1)) {
-            disabled = true;
-        } else if (!extract32(env->cp15.cpacr_el1, 17, 1)) {
-            disabled = el == 0;
-        }
-        if (disabled) {
+        /* Check CPACR.ZEN.  */
+        switch (extract32(env->cp15.cpacr_el1, 16, 2)) {
+        case 1:
+            if (el != 0) {
+                break;
+            }
+            /* fall through */
+        case 0:
+        case 2:
             /* route_to_el2 */
             return hcr_el2 & HCR_TGE ? 2 : 1;
         }
 
         /* Check CPACR.FPEN.  */
-        if (!extract32(env->cp15.cpacr_el1, 20, 1)) {
-            disabled = true;
-        } else if (!extract32(env->cp15.cpacr_el1, 21, 1)) {
-            disabled = el == 0;
-        }
-        if (disabled) {
+        switch (extract32(env->cp15.cpacr_el1, 20, 2)) {
+        case 1:
+            if (el != 0) {
+                break;
+            }
+            /* fall through */
+        case 0:
+        case 2:
             return 0;
         }
     }
-- 
2.25.1

From: Richard Henderson <richard.henderson@linaro.org>

When HCR_EL2.E2H is set, the format of CPTR_EL2 changes to
look more like CPACR_EL1, with ZEN and FPEN fields instead
of TZ and TFP fields.

Reported-by: Zenghui Yu <yuzenghui@huawei.com>
Signed-off-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20220127063428.30212-4-richard.henderson@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper.c | 77 +++++++++++++++++++++++++++++++++++----------
 1 file changed, 60 insertions(+), 17 deletions(-)

diff --git a/target/arm/helper.c b/target/arm/helper.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper.c
+++ b/target/arm/helper.c
@@ -XXX,XX +XXX,XX @@ int sve_exception_el(CPUARMState *env, int el)
         }
     }
 
-    /* CPTR_EL2.  Since TZ and TFP are positive,
-     * they will be zero when EL2 is not present.
+    /*
+     * CPTR_EL2 changes format with HCR_EL2.E2H (regardless of TGE).
      */
-    if (el <= 2 && arm_is_el2_enabled(env)) {
-        if (env->cp15.cptr_el[2] & CPTR_TZ) {
-            return 2;
-        }
-        if (env->cp15.cptr_el[2] & CPTR_TFP) {
-            return 0;
+    if (el <= 2) {
+        if (hcr_el2 & HCR_E2H) {
+            /* Check CPTR_EL2.ZEN.  */
+            switch (extract32(env->cp15.cptr_el[2], 16, 2)) {
+            case 1:
+                if (el != 0 || !(hcr_el2 & HCR_TGE)) {
+                    break;
+                }
+                /* fall through */
+            case 0:
+            case 2:
+                return 2;
+            }
+
+            /* Check CPTR_EL2.FPEN.  */
+            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
+            case 1:
+                if (el == 2 || !(hcr_el2 & HCR_TGE)) {
+                    break;
+                }
+                /* fall through */
+            case 0:
+            case 2:
+                return 0;
+            }
+        } else if (arm_is_el2_enabled(env)) {
+            if (env->cp15.cptr_el[2] & CPTR_TZ) {
+                return 2;
+            }
+            if (env->cp15.cptr_el[2] & CPTR_TFP) {
+                return 0;
+            }
         }
     }
 
@@ -XXX,XX +XXX,XX @@ uint32_t HELPER(crc32c)(uint32_t acc, uint32_t val, uint32_t bytes)
 int fp_exception_el(CPUARMState *env, int cur_el)
 {
 #ifndef CONFIG_USER_ONLY
+    uint64_t hcr_el2;
+
     /* CPACR and the CPTR registers don't exist before v6, so FP is
      * always accessible
      */
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
         return 0;
     }
 
+    hcr_el2 = arm_hcr_el2_eff(env);
+
     /* The CPACR controls traps to EL1, or PL1 if we're 32 bit:
      * 0, 2 : trap EL0 and EL1/PL1 accesses
      * 1    : trap only EL0 accesses
      * 3    : trap no accesses
      * This register is ignored if E2H+TGE are both set.
      */
-    if ((arm_hcr_el2_eff(env) & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
+    if ((hcr_el2 & (HCR_E2H | HCR_TGE)) != (HCR_E2H | HCR_TGE)) {
         int fpen = extract32(env->cp15.cpacr_el1, 20, 2);
 
         switch (fpen) {
@@ -XXX,XX +XXX,XX @@ int fp_exception_el(CPUARMState *env, int cur_el)
         }
     }
 
-    /* For the CPTR registers we don't need to guard with an ARM_FEATURE
-     * check because zero bits in the registers mean "don't trap".
+    /*
+     * CPTR_EL2 is present in v7VE or v8, and changes format
+     * with HCR_EL2.E2H (regardless of TGE).
      */
-
-    /* CPTR_EL2 : present in v7VE or v8 */
-    if (cur_el <= 2 && extract32(env->cp15.cptr_el[2], 10, 1)
-        && arm_is_el2_enabled(env)) {
-        /* Trap FP ops at EL2, NS-EL1 or NS-EL0 to EL2 */
-        return 2;
+    if (cur_el <= 2) {
+        if (hcr_el2 & HCR_E2H) {
+            /* Check CPTR_EL2.FPEN.  */
+            switch (extract32(env->cp15.cptr_el[2], 20, 2)) {
+            case 1:
+                if (cur_el != 0 || !(hcr_el2 & HCR_TGE)) {
+                    break;
+                }
+                /* fall through */
+            case 0:
+            case 2:
+                return 2;
+            }
+        } else if (arm_is_el2_enabled(env)) {
+            if (env->cp15.cptr_el[2] & CPTR_TFP) {
+                return 2;
+            }
+        }
     }
 
     /* CPTR_EL3 : present in v8 */
-- 
2.25.1

From: Francisco Iglesias <francisco.iglesias@xilinx.com>

'Or' the IRQs coming from the QSPI and QSPI DMA models. This is done for
avoiding the situation where one of the models incorrectly deasserts an
interrupt asserted from the other model (which will result in that the IRQ
is lost and will not reach guest SW).

Signed-off-by: Francisco Iglesias <francisco.iglesias@xilinx.com>
Reviewed-by: Philippe Mathieu-Daudé <f4bug@amsat.org>
Reviewed-by: Luc Michel <luc@lmichel.fr>
Message-id: 20220203151742.1457-1-francisco.iglesias@xilinx.com
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 include/hw/arm/xlnx-zynqmp.h |  2 ++
 hw/arm/xlnx-zynqmp.c         | 14 ++++++++++++--
 2 files changed, 14 insertions(+), 2 deletions(-)

diff --git a/include/hw/arm/xlnx-zynqmp.h b/include/hw/arm/xlnx-zynqmp.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-zynqmp.h
+++ b/include/hw/arm/xlnx-zynqmp.h
@@ -XXX,XX +XXX,XX @@
 #include "hw/dma/xlnx_csu_dma.h"
 #include "hw/nvram/xlnx-bbram.h"
 #include "hw/nvram/xlnx-zynqmp-efuse.h"
+#include "hw/or-irq.h"
 
 #define TYPE_XLNX_ZYNQMP "xlnx-zynqmp"
 OBJECT_DECLARE_SIMPLE_TYPE(XlnxZynqMPState, XLNX_ZYNQMP)
@@ -XXX,XX +XXX,XX @@ struct XlnxZynqMPState {
     XlnxZDMA gdma[XLNX_ZYNQMP_NUM_GDMA_CH];
     XlnxZDMA adma[XLNX_ZYNQMP_NUM_ADMA_CH];
     XlnxCSUDMA qspi_dma;
+    qemu_or_irq qspi_irq_orgate;
 
     char *boot_cpu;
     ARMCPU *boot_cpu_ptr;
diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-zynqmp.c
+++ b/hw/arm/xlnx-zynqmp.c
@@ -XXX,XX +XXX,XX @@
 #define LQSPI_ADDR          0xc0000000
 #define QSPI_IRQ            15
 #define QSPI_DMA_ADDR       0xff0f0800
+#define NUM_QSPI_IRQ_LINES  2
 
 #define DP_ADDR             0xfd4a0000
 #define DP_IRQ              113
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_init(Object *obj)
     }
 
     object_initialize_child(obj, "qspi-dma", &s->qspi_dma, TYPE_XLNX_CSU_DMA);
+    object_initialize_child(obj, "qspi-irq-orgate",
+                            &s->qspi_irq_orgate, TYPE_OR_IRQ);
 }
 
 static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
                            gic_spi[adma_ch_intr[i]]);
     }
 
+    object_property_set_int(OBJECT(&s->qspi_irq_orgate),
+                            "num-lines", NUM_QSPI_IRQ_LINES, &error_fatal);
+    qdev_realize(DEVICE(&s->qspi_irq_orgate), NULL, &error_fatal);
+    qdev_connect_gpio_out(DEVICE(&s->qspi_irq_orgate), 0, gic_spi[QSPI_IRQ]);
+
     if (!object_property_set_link(OBJECT(&s->qspi_dma), "dma",
                                   OBJECT(system_memory), errp)) {
         return;
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
     }
 
     sysbus_mmio_map(SYS_BUS_DEVICE(&s->qspi_dma), 0, QSPI_DMA_ADDR);
-    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi_dma), 0, gic_spi[QSPI_IRQ]);
+    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi_dma), 0,
+                       qdev_get_gpio_in(DEVICE(&s->qspi_irq_orgate), 0));
 
     if (!object_property_set_link(OBJECT(&s->qspi), "stream-connected-dma",
                                   OBJECT(&s->qspi_dma), errp)) {
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
     }
     sysbus_mmio_map(SYS_BUS_DEVICE(&s->qspi), 0, QSPI_ADDR);
     sysbus_mmio_map(SYS_BUS_DEVICE(&s->qspi), 1, LQSPI_ADDR);
-    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi), 0, gic_spi[QSPI_IRQ]);
+    sysbus_connect_irq(SYS_BUS_DEVICE(&s->qspi), 0,
+                       qdev_get_gpio_in(DEVICE(&s->qspi_irq_orgate), 1));
 
     for (i = 0; i < XLNX_ZYNQMP_NUM_QSPI_BUS; i++) {
         g_autofree gchar *bus_name = g_strdup_printf("qspi%d", i);
-- 
2.25.1

We want to allow the psci-conduit property to be set after realize,
because the parts of the code which are best placed to decide if it's
OK to enable QEMU's builtin PSCI emulation (the board code and the
arm_load_kernel() function are distant from the code which creates
and realizes CPUs (typically inside an SoC object's init and realize
method) and run afterwards.

Since the DEFINE_PROP_* macros don't have support for creating
properties which can be changed after realize, change the property to
be created with object_property_add_uint32_ptr(), which is what we
already use in this function for creating settable-after-realize
properties like init-svtor and init-nsvtor.

Note that it doesn't conceptually make sense to change the setting of
the property after the machine has been completely initialized,
beacuse this would mean that the behaviour of the machine when first
started would differ from its behaviour when the system is
subsequently reset.  (It would also require the underlying state to
be migrated, which we don't do.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Message-id: 20220127154639.2090164-2-peter.maydell@linaro.org
---
 target/arm/cpu.c | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/target/arm/cpu.c b/target/arm/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/cpu.c
+++ b/target/arm/cpu.c
@@ -XXX,XX +XXX,XX @@ void arm_cpu_post_init(Object *obj)
                                        OBJ_PROP_FLAG_READWRITE);
     }
 
+    /* Not DEFINE_PROP_UINT32: we want this to be settable after realize */
+    object_property_add_uint32_ptr(obj, "psci-conduit",
+                                   &cpu->psci_conduit,
+                                   OBJ_PROP_FLAG_READWRITE);
+
     qdev_property_add_static(DEVICE(obj), &arm_cpu_cfgend_property);
 
     if (arm_feature(&cpu->env, ARM_FEATURE_GENERIC_TIMER)) {
@@ -XXX,XX +XXX,XX @@ static ObjectClass *arm_cpu_class_by_name(const char *cpu_model)
 }
 
 static Property arm_cpu_properties[] = {
-    DEFINE_PROP_UINT32("psci-conduit", ARMCPU, psci_conduit, 0),
     DEFINE_PROP_UINT64("midr", ARMCPU, midr, 0),
     DEFINE_PROP_UINT64("mp-affinity", ARMCPU,
                         mp_affinity, ARM64_AFFINITY_INVALID),
-- 
2.25.1

The CPU object's start-powered-off property is currently only
settable before the CPU object is realized.  For arm machines this is
awkward, because we would like to decide whether the CPU should be
powered-off based on how we are booting the guest code, which is
something done in the machine model code and in common code called by
the machine model, which runs much later and in completely different
parts of the codebase from the SoC object code that is responsible
for creating and realizing the CPU objects.

Allow start-powered-off to be set after realize.  Since this isn't
something that's supported by the DEFINE_PROP_* macros, we have to
switch the property definition to use the
object_class_property_add_bool() function.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Message-id: 20220127154639.2090164-3-peter.maydell@linaro.org
---
 cpu.c | 22 +++++++++++++++++++++-
 1 file changed, 21 insertions(+), 1 deletion(-)

diff --git a/cpu.c b/cpu.c
index XXXXXXX..XXXXXXX 100644
--- a/cpu.c
+++ b/cpu.c
@@ -XXX,XX +XXX,XX @@ static Property cpu_common_props[] = {
     DEFINE_PROP_LINK("memory", CPUState, memory, TYPE_MEMORY_REGION,
                      MemoryRegion *),
 #endif
-    DEFINE_PROP_BOOL("start-powered-off", CPUState, start_powered_off, false),
     DEFINE_PROP_END_OF_LIST(),
 };
 
+static bool cpu_get_start_powered_off(Object *obj, Error **errp)
+{
+    CPUState *cpu = CPU(obj);
+    return cpu->start_powered_off;
+}
+
+static void cpu_set_start_powered_off(Object *obj, bool value, Error **errp)
+{
+    CPUState *cpu = CPU(obj);
+    cpu->start_powered_off = value;
+}
+
 void cpu_class_init_props(DeviceClass *dc)
 {
+    ObjectClass *oc = OBJECT_CLASS(dc);
+
     device_class_set_props(dc, cpu_common_props);
+    /*
+     * We can't use DEFINE_PROP_BOOL in the Property array for this
+     * property, because we want this to be settable after realize.
+     */
+    object_class_property_add_bool(oc, "start-powered-off",
+                                   cpu_get_start_powered_off,
+                                   cpu_set_start_powered_off);
 }
 
 void cpu_exec_initfn(CPUState *cpu)
-- 
2.25.1

Currently we expect board code to set the psci-conduit property on
CPUs and ensure that secondary CPUs are created with the
start-powered-off property set to false, if the board wishes to use
QEMU's builtin PSCI emulation.  This worked OK for the virt board
where we first wanted to use it, because the virt board directly
creates its CPUs and is in a reasonable position to set those
properties.  For other boards which model real hardware and use a
separate SoC object, however, it is more awkward.  Most PSCI-using
boards just set the psci-conduit board unconditionally.

This was never strictly speaking correct (because you would not be
able to run EL3 guest firmware that itself provided the PSCI
interface, as the QEMU implementation would overrule it), but mostly
worked in practice because for non-PSCI SMC calls QEMU would emulate
the SMC instruction as normal (by trapping to guest EL3).  However,
we would like to make our PSCI emulation follow the part of the SMCC
specification that mandates that SMC calls with unknown function
identifiers return a failure code, which means that all SMC calls
will be handled by the PSCI code and the "emulate as normal" path
will no longer be taken.

We tried to implement that in commit 9fcd15b9193e81
("arm: tcg: Adhere to SMCCC 1.3 section 5.2"), but this
regressed attempts to run EL3 guest code on the affected boards:
 * mcimx6ul-evk, mcimx7d-sabre, orangepi, xlnx-zcu102
 * for the case only of EL3 code loaded via -kernel (and
   not via -bios or -pflash), virt and xlnx-versal-virt
so for the 7.0 release we reverted it (in commit 4825eaae4fdd56f).

This commit provides a mechanism that boards can use to arrange that
psci-conduit is set if running guest code at a low enough EL but not
if it would be running at the same EL that the conduit implies that
the QEMU PSCI implementation is using.  (Later commits will convert
individual board models to use this mechanism.)

We do this by moving the setting of the psci-conduit and
start-powered-off properties to arm_load_kernel().  Boards which want
to potentially use emulated PSCI must set a psci_conduit field in the
arm_boot_info struct to the type of conduit they want to use (SMC or
HVC); arm_load_kernel() will then set the CPUs up accordingly if it
is not going to start the guest code at the same or higher EL as the
fake QEMU firmware would be at.

Board/SoC code which uses this mechanism should no longer set the CPU
psci-conduit property directly.  It should only set the
start-powered-off property for secondaries if EL3 guest firmware
running bare metal expects that rather than the alternative "all CPUs
start executing the firmware at once".

Note that when calculating whether we are going to run guest
code at EL3, we ignore the setting of arm_boot_info::secure_board_setup,
which might cause us to run a stub bit of guest code at EL3 which
does some board-specific setup before dropping to EL2 or EL1 to
run the guest kernel. This is OK because only one board that
enables PSCI sets secure_board_setup (the highbank board), and
the stub code it writes will behave the same way whether the
one SMC call it makes is handled by "emulate the SMC" or by
"PSCI default returns an error code". So we can leave that stub
code in place until after we've changed the PSCI default behaviour;
at that point we will remove it.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Message-id: 20220127154639.2090164-4-peter.maydell@linaro.org
---
 include/hw/arm/boot.h | 10 +++++++++
 hw/arm/boot.c         | 50 +++++++++++++++++++++++++++++++++++++++++++
 2 files changed, 60 insertions(+)

diff --git a/include/hw/arm/boot.h b/include/hw/arm/boot.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/boot.h
+++ b/include/hw/arm/boot.h
@@ -XXX,XX +XXX,XX @@ struct arm_boot_info {
      * the user it should implement this hook.
      */
     void (*modify_dtb)(const struct arm_boot_info *info, void *fdt);
+    /*
+     * If a board wants to use the QEMU emulated-firmware PSCI support,
+     * it should set this to QEMU_PSCI_CONDUIT_HVC or QEMU_PSCI_CONDUIT_SMC
+     * as appropriate. arm_load_kernel() will set the psci-conduit and
+     * start-powered-off properties on the CPUs accordingly.
+     * Note that if the guest image is started at the same exception level
+     * as the conduit specifies calls should go to (eg guest firmware booted
+     * to EL3) then PSCI will not be enabled.
+     */
+    int psci_conduit;
     /* Used internally by arm_boot.c */
     int is_linux;
     hwaddr initrd_start;
diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
 {
     CPUState *cs;
     AddressSpace *as = arm_boot_address_space(cpu, info);
+    int boot_el;
+    CPUARMState *env = &cpu->env;
 
     /*
      * CPU objects (unlike devices) are not automatically reset on system
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
         arm_setup_direct_kernel_boot(cpu, info);
     }
 
+    /*
+     * Disable the PSCI conduit if it is set up to target the same
+     * or a lower EL than the one we're going to start the guest code in.
+     * This logic needs to agree with the code in do_cpu_reset() which
+     * decides whether we're going to boot the guest in the highest
+     * supported exception level or in a lower one.
+     */
+
+    /* Boot into highest supported EL ... */
+    if (arm_feature(env, ARM_FEATURE_EL3)) {
+        boot_el = 3;
+    } else if (arm_feature(env, ARM_FEATURE_EL2)) {
+        boot_el = 2;
+    } else {
+        boot_el = 1;
+    }
+    /* ...except that if we're booting Linux we adjust the EL we boot into */
+    if (info->is_linux && !info->secure_boot) {
+        boot_el = arm_feature(env, ARM_FEATURE_EL2) ? 2 : 1;
+    }
+
+    if ((info->psci_conduit == QEMU_PSCI_CONDUIT_HVC && boot_el >= 2) ||
+        (info->psci_conduit == QEMU_PSCI_CONDUIT_SMC && boot_el == 3)) {
+        info->psci_conduit = QEMU_PSCI_CONDUIT_DISABLED;
+    }
+
+    if (info->psci_conduit != QEMU_PSCI_CONDUIT_DISABLED) {
+        for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
+            Object *cpuobj = OBJECT(cs);
+
+            object_property_set_int(cpuobj, "psci-conduit", info->psci_conduit,
+                                    &error_abort);
+            /*
+             * Secondary CPUs start in PSCI powered-down state. Like the
+             * code in do_cpu_reset(), we assume first_cpu is the primary
+             * CPU.
+             */
+            if (cs != first_cpu) {
+                object_property_set_bool(cpuobj, "start-powered-off", true,
+                                         &error_abort);
+            }
+        }
+    }
+
+    /*
+     * arm_load_dtb() may add a PSCI node so it must be called after we have
+     * decided whether to enable PSCI and set the psci-conduit CPU properties.
+     */
     if (!info->skip_dtb_autoload && have_dtb(info)) {
         if (arm_load_dtb(info->dtb_start, info, info->dtb_limit, as, ms) < 0) {
             exit(1);
-- 
2.25.1

Change the iMX-SoC based boards to use the new boot.c functionality
to allow us to enable psci-conduit only if the guest is being booted
in EL1 or EL2, so that if the user runs guest EL3 firmware code our
PSCI emulation doesn't get in its way.

To do this we stop setting the psci-conduit property on the CPU
objects in the SoC code, and instead set the psci_conduit field in
the arm_boot_info struct to tell the common boot loader code that
we'd like PSCI if the guest is starting at an EL that it makes
sense with.

This affects the mcimx6ul-evk and mcimx7d-sabre boards.

Note that for the mcimx7d board, this means that when running guest
code at EL3 there is currently no way to power on the secondary CPUs,
because we do not currently have a model of the system reset
controller module which should be used to do that for the imx7 SoC,
only for the imx6 SoC.  (Previously EL3 code which knew it was
running on QEMU could use a PSCI call to do this.) This doesn't
affect the imx6ul-evk board because it is uniprocessor.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Acked-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220127154639.2090164-5-peter.maydell@linaro.org
---
 hw/arm/fsl-imx6ul.c    | 2 --
 hw/arm/fsl-imx7.c      | 8 ++++----
 hw/arm/mcimx6ul-evk.c  | 1 +
 hw/arm/mcimx7d-sabre.c | 1 +
 4 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/hw/arm/fsl-imx6ul.c b/hw/arm/fsl-imx6ul.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/fsl-imx6ul.c
+++ b/hw/arm/fsl-imx6ul.c
@@ -XXX,XX +XXX,XX @@ static void fsl_imx6ul_realize(DeviceState *dev, Error **errp)
         return;
     }
 
-    object_property_set_int(OBJECT(&s->cpu), "psci-conduit",
-                            QEMU_PSCI_CONDUIT_SMC, &error_abort);
     qdev_realize(DEVICE(&s->cpu), NULL, &error_abort);
 
     /*
diff --git a/hw/arm/fsl-imx7.c b/hw/arm/fsl-imx7.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/fsl-imx7.c
+++ b/hw/arm/fsl-imx7.c
@@ -XXX,XX +XXX,XX @@ static void fsl_imx7_realize(DeviceState *dev, Error **errp)
     for (i = 0; i < smp_cpus; i++) {
         o = OBJECT(&s->cpu[i]);
 
-        object_property_set_int(o, "psci-conduit", QEMU_PSCI_CONDUIT_SMC,
-                                &error_abort);
-
         /* On uniprocessor, the CBAR is set to 0 */
         if (smp_cpus > 1) {
             object_property_set_int(o, "reset-cbar", FSL_IMX7_A7MPCORE_ADDR,
@@ -XXX,XX +XXX,XX @@ static void fsl_imx7_realize(DeviceState *dev, Error **errp)
         }
 
         if (i) {
-            /* Secondary CPUs start in PSCI powered-down state */
+            /*
+             * Secondary CPUs start in powered-down state (and can be
+             * powered up via the SRC system reset controller)
+             */
             object_property_set_bool(o, "start-powered-off", true,
                                      &error_abort);
         }
diff --git a/hw/arm/mcimx6ul-evk.c b/hw/arm/mcimx6ul-evk.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/mcimx6ul-evk.c
+++ b/hw/arm/mcimx6ul-evk.c
@@ -XXX,XX +XXX,XX @@ static void mcimx6ul_evk_init(MachineState *machine)
         .board_id = -1,
         .ram_size = machine->ram_size,
         .nb_cpus = machine->smp.cpus,
+        .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
     };
 
     s = FSL_IMX6UL(object_new(TYPE_FSL_IMX6UL));
diff --git a/hw/arm/mcimx7d-sabre.c b/hw/arm/mcimx7d-sabre.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/mcimx7d-sabre.c
+++ b/hw/arm/mcimx7d-sabre.c
@@ -XXX,XX +XXX,XX @@ static void mcimx7d_sabre_init(MachineState *machine)
         .board_id = -1,
         .ram_size = machine->ram_size,
         .nb_cpus = machine->smp.cpus,
+        .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
     };
 
     s = FSL_IMX7(object_new(TYPE_FSL_IMX7));
-- 
2.25.1

Change the allwinner-h3 based board to use the new boot.c
functionality to allow us to enable psci-conduit only if the guest is
being booted in EL1 or EL2, so that if the user runs guest EL3
firmware code our PSCI emulation doesn't get in its way.

This affects the orangepi-pc board.

This commit leaves the secondary CPUs in the powered-down state if
the guest is booting at EL3, which is the same behaviour as before
this commit.  The secondaries can no longer be started by that EL3
code making a PSCI call but can still be started via the CPU
Configuration Module registers (which we model in
hw/misc/allwinner-cpucfg.c).

diff --git a/hw/arm/allwinner-h3.c b/hw/arm/allwinner-h3.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/allwinner-h3.c
+++ b/hw/arm/allwinner-h3.c
@@ -XXX,XX +XXX,XX @@ static void allwinner_h3_realize(DeviceState *dev, Error **errp)
     /* CPUs */
     for (i = 0; i < AW_H3_NUM_CPUS; i++) {
 
-        /* Provide Power State Coordination Interface */
-        qdev_prop_set_int32(DEVICE(&s->cpus[i]), "psci-conduit",
-                            QEMU_PSCI_CONDUIT_SMC);
-
-        /* Disable secondary CPUs */
+        /*
+         * Disable secondary CPUs. Guest EL3 firmware will start
+         * them via CPU reset control registers.
+         */
         qdev_prop_set_bit(DEVICE(&s->cpus[i]), "start-powered-off",
                           i > 0);
 
diff --git a/hw/arm/orangepi.c b/hw/arm/orangepi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/orangepi.c
+++ b/hw/arm/orangepi.c
@@ -XXX,XX +XXX,XX @@ static void orangepi_init(MachineState *machine)
     }
     orangepi_binfo.loader_start = h3->memmap[AW_H3_DEV_SDRAM];
     orangepi_binfo.ram_size = machine->ram_size;
+    orangepi_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
     arm_load_kernel(ARM_CPU(first_cpu), machine, &orangepi_binfo);
 }
 
-- 
2.25.1

Change the Xilinx ZynqMP-based board xlnx-zcu102 to use the new
boot.c functionality to allow us to enable psci-conduit only if
the guest is being booted in EL1 or EL2, so that if the user runs
guest EL3 firmware code our PSCI emulation doesn't get in its
way.

Note that this means that EL3 guest code will have no way
to power on secondary cores, because we don't model any
kind of power controller that does that on this SoC.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Acked-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220127154639.2090164-7-peter.maydell@linaro.org
---
 hw/arm/xlnx-zcu102.c |  1 +
 hw/arm/xlnx-zynqmp.c | 11 ++++++-----
 2 files changed, 7 insertions(+), 5 deletions(-)

diff --git a/hw/arm/xlnx-zcu102.c b/hw/arm/xlnx-zcu102.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-zcu102.c
+++ b/hw/arm/xlnx-zcu102.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_zcu102_init(MachineState *machine)
     s->binfo.ram_size = ram_size;
     s->binfo.loader_start = 0;
     s->binfo.modify_dtb = zcu102_modify_dtb;
+    s->binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
     arm_load_kernel(s->soc.boot_cpu_ptr, machine, &s->binfo);
 }
 
diff --git a/hw/arm/xlnx-zynqmp.c b/hw/arm/xlnx-zynqmp.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-zynqmp.c
+++ b/hw/arm/xlnx-zynqmp.c
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_create_rpu(MachineState *ms, XlnxZynqMPState *s,
 
         name = object_get_canonical_path_component(OBJECT(&s->rpu_cpu[i]));
         if (strcmp(name, boot_cpu)) {
-            /* Secondary CPUs start in PSCI powered-down state */
+            /*
+             * Secondary CPUs start in powered-down state.
+             */
             object_property_set_bool(OBJECT(&s->rpu_cpu[i]),
                                      "start-powered-off", true, &error_abort);
         } else {
@@ -XXX,XX +XXX,XX @@ static void xlnx_zynqmp_realize(DeviceState *dev, Error **errp)
     for (i = 0; i < num_apus; i++) {
         const char *name;
 
-        object_property_set_int(OBJECT(&s->apu_cpu[i]), "psci-conduit",
-                                QEMU_PSCI_CONDUIT_SMC, &error_abort);
-
         name = object_get_canonical_path_component(OBJECT(&s->apu_cpu[i]));
         if (strcmp(name, boot_cpu)) {
-            /* Secondary CPUs start in PSCI powered-down state */
+            /*
+             * Secondary CPUs start in powered-down state.
+             */
             object_property_set_bool(OBJECT(&s->apu_cpu[i]),
                                      "start-powered-off", true, &error_abort);
         } else {
-- 
2.25.1

Instead of setting the CPU psci-conduit and start-powered-off
properties in the xlnx-versal-virt board code, set the arm_boot_info
psci_conduit field so that the boot.c code can do it.

This will fix a corner case where we were incorrectly enabling PSCI
emulation when booting guest code into EL3 because it was an ELF file
passed to -kernel.  (EL3 guest code started via -bios, -pflash, or
the generic loader was already being run with PSCI emulation
disabled.)

Note that EL3 guest code has no way to turn on the secondary CPUs
because there's no emulated power controller, but this was already
true for EL3 guest code run via -bios, -pflash, or the generic
loader.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Message-id: 20220127154639.2090164-8-peter.maydell@linaro.org
---
 include/hw/arm/xlnx-versal.h | 1 -
 hw/arm/xlnx-versal-virt.c    | 6 ++++--
 hw/arm/xlnx-versal.c         | 5 +----
 3 files changed, 5 insertions(+), 7 deletions(-)

diff --git a/include/hw/arm/xlnx-versal.h b/include/hw/arm/xlnx-versal.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/xlnx-versal.h
+++ b/include/hw/arm/xlnx-versal.h
@@ -XXX,XX +XXX,XX @@ struct Versal {
 
     struct {
         MemoryRegion *mr_ddr;
-        uint32_t psci_conduit;
     } cfg;
 };
 
diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal-virt.c
+++ b/hw/arm/xlnx-versal-virt.c
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
      * When loading an OS, we turn on QEMU's PSCI implementation with SMC
      * as the PSCI conduit. When there's no -kernel, we assume the user
      * provides EL3 firmware to handle PSCI.
+     *
+     * Even if the user provides a kernel filename, arm_load_kernel()
+     * may suppress PSCI if it's going to boot that guest code at EL3.
      */
     if (machine->kernel_filename) {
         psci_conduit = QEMU_PSCI_CONDUIT_SMC;
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
                             TYPE_XLNX_VERSAL);
     object_property_set_link(OBJECT(&s->soc), "ddr", OBJECT(machine->ram),
                              &error_abort);
-    object_property_set_int(OBJECT(&s->soc), "psci-conduit", psci_conduit,
-                            &error_abort);
     sysbus_realize(SYS_BUS_DEVICE(&s->soc), &error_fatal);
 
     fdt_create(s);
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
     s->binfo.loader_start = 0x0;
     s->binfo.get_dtb = versal_virt_get_dtb;
     s->binfo.modify_dtb = versal_virt_modify_dtb;
+    s->binfo.psci_conduit = psci_conduit;
     if (machine->kernel_filename) {
         arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
     } else {
diff --git a/hw/arm/xlnx-versal.c b/hw/arm/xlnx-versal.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal.c
+++ b/hw/arm/xlnx-versal.c
@@ -XXX,XX +XXX,XX @@ static void versal_create_apu_cpus(Versal *s)
         object_initialize_child(OBJECT(s), "apu-cpu[*]", &s->fpd.apu.cpu[i],
                                 XLNX_VERSAL_ACPU_TYPE);
         obj = OBJECT(&s->fpd.apu.cpu[i]);
-        object_property_set_int(obj, "psci-conduit", s->cfg.psci_conduit,
-                                &error_abort);
         if (i) {
-            /* Secondary CPUs start in PSCI powered-down state */
+            /* Secondary CPUs start in powered-down state */
             object_property_set_bool(obj, "start-powered-off", true,
                                      &error_abort);
         }
@@ -XXX,XX +XXX,XX @@ static void versal_init(Object *obj)
 static Property versal_properties[] = {
     DEFINE_PROP_LINK("ddr", Versal, cfg.mr_ddr, TYPE_MEMORY_REGION,
                      MemoryRegion *),
-    DEFINE_PROP_UINT32("psci-conduit", Versal, cfg.psci_conduit, 0),
     DEFINE_PROP_END_OF_LIST()
 };
 
-- 
2.25.1

Instead of setting the CPU psci-conduit and start-powered-off
properties in the virt board code, set the arm_boot_info psci_conduit
field so that the boot.c code can do it.

This will fix a corner case where we were incorrectly enabling PSCI
emulation when booting guest code into EL3 because it was an ELF file
passed to -kernel or to the generic loader.  (EL3 guest code started
via -bios or -pflash was already being run with PSCI emulation
disabled.)

diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
             object_property_set_bool(cpuobj, "has_el2", false, NULL);
         }
 
-        if (vms->psci_conduit != QEMU_PSCI_CONDUIT_DISABLED) {
-            object_property_set_int(cpuobj, "psci-conduit", vms->psci_conduit,
-                                    NULL);
-
-            /* Secondary CPUs start in PSCI powered-down state */
-            if (n > 0) {
-                object_property_set_bool(cpuobj, "start-powered-off", true,
-                                         NULL);
-            }
-        }
-
         if (vmc->kvm_no_adjvtime &&
             object_property_find(cpuobj, "kvm-no-adjvtime")) {
             object_property_set_bool(cpuobj, "kvm-no-adjvtime", true, NULL);
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
     vms->bootinfo.get_dtb = machvirt_dtb;
     vms->bootinfo.skip_dtb_autoload = true;
     vms->bootinfo.firmware_loaded = firmware_loaded;
+    vms->bootinfo.psci_conduit = vms->psci_conduit;
     arm_load_kernel(ARM_CPU(first_cpu), machine, &vms->bootinfo);
 
     vms->machine_done.notify = virt_machine_done;
-- 
2.25.1

Change the highbank/midway boards to use the new boot.c functionality
to allow us to enable psci-conduit only if the guest is being booted
in EL1 or EL2, so that if the user runs guest EL3 firmware code our
PSCI emulation doesn't get in its way.

To do this we stop setting the psci-conduit and start-powered-off
properties on the CPU objects in the board code, and instead set the
psci_conduit field in the arm_boot_info struct to tell the common
boot loader code that we'd like PSCI if the guest is starting at an
EL that it makes sense with (in which case it will set these
properties).

This means that when running guest code at EL3, all the cores
will start execution at once on poweron. This matches the
real hardware behaviour. (A brief description of the hardware
boot process is in the u-boot documentation for these boards:
https://u-boot.readthedocs.io/en/latest/board/highbank/highbank.html#boot-process
 -- in theory one might run the 'a9boot'/'a15boot' secure monitor
code in QEMU, though we probably don't emulate enough for that.)

This affects the highbank and midway boards.

diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/highbank.c
+++ b/hw/arm/highbank.c
@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
         object_property_set_int(cpuobj, "psci-conduit", QEMU_PSCI_CONDUIT_SMC,
                                 &error_abort);
 
-        if (n) {
-            /* Secondary CPUs start in PSCI powered-down state */
-            object_property_set_bool(cpuobj, "start-powered-off", true,
-                                     &error_abort);
-        }
-
         if (object_property_find(cpuobj, "reset-cbar")) {
             object_property_set_int(cpuobj, "reset-cbar", MPCORE_PERIPHBASE,
                                     &error_abort);
@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
     highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
     highbank_binfo.write_board_setup = hb_write_board_setup;
     highbank_binfo.secure_board_setup = true;
+    highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
 
     arm_load_kernel(ARM_CPU(first_cpu), machine, &highbank_binfo);
 }
-- 
2.25.1

The SMCCC 1.3 spec section 5.2 says

The Unknown SMC Function Identifier is a sign-extended value of (-1)
  that is returned in the R0, W0 or X0 registers. An implementation must
  return this error code when it receives:

* An SMC or HVC call with an unknown Function Identifier
    * An SMC or HVC call for a removed Function Identifier
    * An SMC64/HVC64 call from AArch32 state

To comply with these statements, let's always return -1 when we encounter
an unknown HVC or SMC call.

[PMM:
 This is a reinstatement of commit 9fcd15b9193e819b, previously
 reverted in commit 4825eaae4fdd56fba0f; we can do this now that we
 have arranged for all the affected board models to not enable the
 PSCI emulation if they are running guest code at EL3. This avoids
 the regressions that caused us to revert the change for 7.0.]

Signed-off-by: Alexander Graf <agraf@csgraf.de>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/psci.c | 35 ++++++-----------------------------
 1 file changed, 6 insertions(+), 29 deletions(-)

diff --git a/target/arm/psci.c b/target/arm/psci.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/psci.c
+++ b/target/arm/psci.c
@@ -XXX,XX +XXX,XX @@
 
 bool arm_is_psci_call(ARMCPU *cpu, int excp_type)
 {
-    /* Return true if the r0/x0 value indicates a PSCI call and
-     * the exception type matches the configured PSCI conduit. This is
-     * called before the SMC/HVC instruction is executed, to decide whether
-     * we should treat it as a PSCI call or with the architecturally
+    /*
+     * Return true if the exception type matches the configured PSCI conduit.
+     * This is called before the SMC/HVC instruction is executed, to decide
+     * whether we should treat it as a PSCI call or with the architecturally
      * defined behaviour for an SMC or HVC (which might be UNDEF or trap
      * to EL2 or to EL3).
      */
-    CPUARMState *env = &cpu->env;
-    uint64_t param = is_a64(env) ? env->xregs[0] : env->regs[0];
 
     switch (excp_type) {
     case EXCP_HVC:
@@ -XXX,XX +XXX,XX @@ bool arm_is_psci_call(ARMCPU *cpu, int excp_type)
         return false;
     }
 
-    switch (param) {
-    case QEMU_PSCI_0_2_FN_PSCI_VERSION:
-    case QEMU_PSCI_0_2_FN_MIGRATE_INFO_TYPE:
-    case QEMU_PSCI_0_2_FN_AFFINITY_INFO:
-    case QEMU_PSCI_0_2_FN64_AFFINITY_INFO:
-    case QEMU_PSCI_0_2_FN_SYSTEM_RESET:
-    case QEMU_PSCI_0_2_FN_SYSTEM_OFF:
-    case QEMU_PSCI_0_1_FN_CPU_ON:
-    case QEMU_PSCI_0_2_FN_CPU_ON:
-    case QEMU_PSCI_0_2_FN64_CPU_ON:
-    case QEMU_PSCI_0_1_FN_CPU_OFF:
-    case QEMU_PSCI_0_2_FN_CPU_OFF:
-    case QEMU_PSCI_0_1_FN_CPU_SUSPEND:
-    case QEMU_PSCI_0_2_FN_CPU_SUSPEND:
-    case QEMU_PSCI_0_2_FN64_CPU_SUSPEND:
-    case QEMU_PSCI_0_1_FN_MIGRATE:
-    case QEMU_PSCI_0_2_FN_MIGRATE:
-        return true;
-    default:
-        return false;
-    }
+    return true;
 }
 
 void arm_handle_psci_call(ARMCPU *cpu)
@@ -XXX,XX +XXX,XX @@ void arm_handle_psci_call(ARMCPU *cpu)
         break;
     case QEMU_PSCI_0_1_FN_MIGRATE:
     case QEMU_PSCI_0_2_FN_MIGRATE:
+    default:
         ret = QEMU_PSCI_RET_NOT_SUPPORTED;
         break;
-    default:
-        g_assert_not_reached();
     }
 
 err:
-- 
2.25.1

Guest code on highbank may make non-PSCI SMC calls in order to
enable/disable the L2x0 cache controller (see the Linux kernel's
arch/arm/mach-highbank/highbank.c highbank_l2c310_write_sec()
function).  The ABI for this is documented in kernel commit
8e56130dcb as being borrowed from the OMAP44xx ROM.  The OMAP44xx TRM
documents this function ID as having no return value and potentially
trashing all guest registers except SP and PC. For QEMU's purposes
(where our L2x0 model is a stub and enabling or disabling it doesn't
affect the guest behaviour) a simple "do nothing" SMC is fine.

We currently implement this NOP behaviour using a little bit of
Secure code we run before jumping to the guest kernel, which is
written by arm_write_secure_board_setup_dummy_smc().  The code sets
up a set of Secure vectors where the SMC entry point returns without
doing anything.

Now that the PSCI SMC emulation handles all SMC calls (setting r0 to
an error code if the input r0 function identifier is not recognized),
we can use that default behaviour as sufficient for the highbank
cache controller call.  (Because the guest code assumes r0 has no
interesting value on exit it doesn't matter that we set it to the
error code).  We can therefore delete the highbank board code that
sets secure_board_setup to true and writes the secure-code bootstub.

(Note that because the OMAP44xx ABI puts function-identifiers in
r12 and PSCI uses r0, we only avoid a clash because Linux's code
happens to put the function-identifier in both registers. But this
is true also when the kernel is running on real firmware that
implements both ABIs as far as I can see.)

This change fixes in passing booting on the 'midway' board model,
which has been completely broken since we added support for Hyp
mode to the Cortex-A15 CPU. When we did that boot.c was made to
start running the guest code in Hyp mode; this includes the
board_setup hook, which instantly UNDEFs because the NSACR is
not accessible from Hyp. (Put another way, we never made the
secure_board_setup hook support cope with Hyp mode.)

diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/highbank.c
+++ b/hw/arm/highbank.c
@@ -XXX,XX +XXX,XX @@
 
 /* Board init.  */
 
-static void hb_write_board_setup(ARMCPU *cpu,
-                                 const struct arm_boot_info *info)
-{
-    arm_write_secure_board_setup_dummy_smc(cpu, info, MVBAR_ADDR);
-}
-
 static void hb_write_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
 {
     int n;
@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
     highbank_binfo.write_secondary_boot = hb_write_secondary;
     highbank_binfo.secondary_cpu_reset_hook = hb_reset_secondary;
     highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
-    highbank_binfo.write_board_setup = hb_write_board_setup;
-    highbank_binfo.secure_board_setup = true;
     highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
 
     arm_load_kernel(ARM_CPU(first_cpu), machine, &highbank_binfo);
-- 
2.25.1

Now that we have dealt with the one special case (highbank) that needed
to set both psci_conduit and secure_board_setup, we don't need to
allow that combination any more. It doesn't make sense in general,
so use an assertion to ensure we don't add new boards that do it
by accident without thinking through the consequences.

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
      * supported exception level or in a lower one.
      */
 
+    /*
+     * If PSCI is enabled, then SMC calls all go to the PSCI handler and
+     * are never emulated to trap into guest code. It therefore does not
+     * make sense for the board to have a setup code fragment that runs
+     * in Secure, because this will probably need to itself issue an SMC of some
+     * kind as part of its operation.
+     */
+    assert(info->psci_conduit == QEMU_PSCI_CONDUIT_DISABLED ||
+           !info->secure_board_setup);
+
     /* Boot into highest supported EL ... */
     if (arm_feature(env, ARM_FEATURE_EL3)) {
         boot_el = 3;
-- 
2.25.1

If we're using PSCI emulation to start secondary CPUs, there is no
point in writing the "secondary boot" stub code, because it will
never be used -- secondary CPUs start powered-off, and when powered
on are set to begin execution at the address specified by the guest's
power-on PSCI call, not at the stub.

Move the call to the hook that writes the secondary boot stub code so
that we can do it only if we're starting a Linux kernel and not using
PSCI.

(None of the users of the hook care about the ordering of its call
relative to anything else: they only use it to write a rom blob to
guest memory.)

diff --git a/include/hw/arm/boot.h b/include/hw/arm/boot.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/boot.h
+++ b/include/hw/arm/boot.h
@@ -XXX,XX +XXX,XX @@ struct arm_boot_info {
      * boot loader/boot ROM code, and secondary_cpu_reset_hook() should
      * perform any necessary CPU reset handling and set the PC for the
      * secondary CPUs to point at this boot blob.
+     *
+     * These hooks won't be called if secondary CPUs are booting via
+     * emulated PSCI (see psci_conduit below).
      */
     void (*write_secondary_boot)(ARMCPU *cpu,
                                  const struct arm_boot_info *info);
diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void do_cpu_reset(void *opaque)
                         set_kernel_args(info, as);
                     }
                 }
-            } else {
+            } else if (info->secondary_cpu_reset_hook) {
                 info->secondary_cpu_reset_hook(cpu, info);
             }
         }
@@ -XXX,XX +XXX,XX @@ static void arm_setup_direct_kernel_boot(ARMCPU *cpu,
         elf_machine = EM_ARM;
     }
 
-    if (!info->secondary_cpu_reset_hook) {
-        info->secondary_cpu_reset_hook = default_reset_secondary;
-    }
-    if (!info->write_secondary_boot) {
-        info->write_secondary_boot = default_write_secondary;
-    }
-
     if (info->nb_cpus == 0)
         info->nb_cpus = 1;
 
@@ -XXX,XX +XXX,XX @@ static void arm_setup_direct_kernel_boot(ARMCPU *cpu,
         write_bootloader("bootloader", info->loader_start,
                          primary_loader, fixupcontext, as);
 
-        if (info->nb_cpus > 1) {
-            info->write_secondary_boot(cpu, info);
-        }
         if (info->write_board_setup) {
             info->write_board_setup(cpu, info);
         }
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
         }
     }
 
+    if (info->psci_conduit == QEMU_PSCI_CONDUIT_DISABLED &&
+        info->is_linux && info->nb_cpus > 1) {
+        /*
+         * We're booting Linux but not using PSCI, so for SMP we need
+         * to write a custom secondary CPU boot loader stub, and arrange
+         * for the secondary CPU reset to make the accompanying initialization.
+         */
+        if (!info->secondary_cpu_reset_hook) {
+            info->secondary_cpu_reset_hook = default_reset_secondary;
+        }
+        if (!info->write_secondary_boot) {
+            info->write_secondary_boot = default_write_secondary;
+        }
+        info->write_secondary_boot(cpu, info);
+    } else {
+        /*
+         * No secondary boot stub; don't use the reset hook that would
+         * have set the CPU up to call it
+         */
+        info->write_secondary_boot = NULL;
+        info->secondary_cpu_reset_hook = NULL;
+    }
+
     /*
      * arm_load_dtb() may add a PSCI node so it must be called after we have
      * decided whether to enable PSCI and set the psci-conduit CPU properties.
-- 
2.25.1

The highbank and midway board code includes boot-stub code for
handling secondary CPU boot which keeps the secondaries in a pen
until the primary writes to a known location with the address they
should jump to.

This code is never used, because the boards enable QEMU's PSCI
emulation, so secondary CPUs are kept powered off until the PSCI call
which turns them on, and then start execution from the address given
by the guest in that PSCI call.  Delete the unreachable code.

(The code was wrong for midway in any case -- on the Cortex-A15 the
GIC CPU interface registers are at a different offset from PERIPHBASE
compared to the Cortex-A9, and the code baked-in the offsets for
highbank's A9.)

Note that this commit implicitly depends on the preceding "Don't
write secondary boot stub if using PSCI" commit -- the default
secondary-boot stub code overlaps with one of the highbank-specific
bootcode rom blobs, so we must suppress the secondary-boot
stub code entirely, not merely replace the highbank-specific
version with the default.

diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/highbank.c
+++ b/hw/arm/highbank.c
@@ -XXX,XX +XXX,XX @@
 
 /* Board init.  */
 
-static void hb_write_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
-{
-    int n;
-    uint32_t smpboot[] = {
-        0xee100fb0, /* mrc p15, 0, r0, c0, c0, 5 - read current core id */
-        0xe210000f, /* ands r0, r0, #0x0f */
-        0xe3a03040, /* mov r3, #0x40 - jump address is 0x40 + 0x10 * core id */
-        0xe0830200, /* add r0, r3, r0, lsl #4 */
-        0xe59f2024, /* ldr r2, privbase */
-        0xe3a01001, /* mov r1, #1 */
-        0xe5821100, /* str r1, [r2, #256] - set GICC_CTLR.Enable */
-        0xe3a010ff, /* mov r1, #0xff */
-        0xe5821104, /* str r1, [r2, #260] - set GICC_PMR.Priority to 0xff */
-        0xf57ff04f, /* dsb */
-        0xe320f003, /* wfi */
-        0xe5901000, /* ldr     r1, [r0] */
-        0xe1110001, /* tst     r1, r1 */
-        0x0afffffb, /* beq     <wfi> */
-        0xe12fff11, /* bx      r1 */
-        MPCORE_PERIPHBASE   /* privbase: MPCore peripheral base address.  */
-    };
-    for (n = 0; n < ARRAY_SIZE(smpboot); n++) {
-        smpboot[n] = tswap32(smpboot[n]);
-    }
-    rom_add_blob_fixed_as("smpboot", smpboot, sizeof(smpboot), SMP_BOOT_ADDR,
-                          arm_boot_address_space(cpu, info));
-}
-
-static void hb_reset_secondary(ARMCPU *cpu, const struct arm_boot_info *info)
-{
-    CPUARMState *env = &cpu->env;
-
-    switch (info->nb_cpus) {
-    case 4:
-        address_space_stl_notdirty(&address_space_memory,
-                                   SMP_BOOT_REG + 0x30, 0,
-                                   MEMTXATTRS_UNSPECIFIED, NULL);
-        /* fallthrough */
-    case 3:
-        address_space_stl_notdirty(&address_space_memory,
-                                   SMP_BOOT_REG + 0x20, 0,
-                                   MEMTXATTRS_UNSPECIFIED, NULL);
-        /* fallthrough */
-    case 2:
-        address_space_stl_notdirty(&address_space_memory,
-                                   SMP_BOOT_REG + 0x10, 0,
-                                   MEMTXATTRS_UNSPECIFIED, NULL);
-        env->regs[15] = SMP_BOOT_ADDR;
-        break;
-    default:
-        break;
-    }
-}
-
 #define NUM_REGS      0x200
 static void hb_regs_write(void *opaque, hwaddr offset,
                           uint64_t value, unsigned size)
@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
     highbank_binfo.board_id = -1;
     highbank_binfo.nb_cpus = smp_cpus;
     highbank_binfo.loader_start = 0;
-    highbank_binfo.write_secondary_boot = hb_write_secondary;
-    highbank_binfo.secondary_cpu_reset_hook = hb_reset_secondary;
     highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
     highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
 
-- 
2.25.1

We use the arm_boot_info::nb_cpus field in only one place, and that
place can easily get the number of CPUs locally rather than relying
on the board code to have set the field correctly.  (At least one
board, xlnx-versal-virt, does not set the field despite having more
than one CPU.)

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Message-id: 20220127154639.2090164-16-peter.maydell@linaro.org
---
 include/hw/arm/boot.h   | 1 -
 hw/arm/aspeed.c         | 1 -
 hw/arm/boot.c           | 7 +++----
 hw/arm/exynos4_boards.c | 1 -
 hw/arm/highbank.c       | 1 -
 hw/arm/imx25_pdk.c      | 3 +--
 hw/arm/kzm.c            | 1 -
 hw/arm/mcimx6ul-evk.c   | 1 -
 hw/arm/mcimx7d-sabre.c  | 1 -
 hw/arm/npcm7xx.c        | 3 ---
 hw/arm/orangepi.c       | 4 +---
 hw/arm/raspi.c          | 1 -
 hw/arm/realview.c       | 1 -
 hw/arm/sabrelite.c      | 1 -
 hw/arm/sbsa-ref.c       | 1 -
 hw/arm/vexpress.c       | 1 -
 hw/arm/virt.c           | 1 -
 hw/arm/xilinx_zynq.c    | 1 -
 18 files changed, 5 insertions(+), 26 deletions(-)

diff --git a/include/hw/arm/boot.h b/include/hw/arm/boot.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/arm/boot.h
+++ b/include/hw/arm/boot.h
@@ -XXX,XX +XXX,XX @@ struct arm_boot_info {
     hwaddr smp_loader_start;
     hwaddr smp_bootreg_addr;
     hwaddr gic_cpu_if_addr;
-    int nb_cpus;
     int board_id;
     /* ARM machines that support the ARM Security Extensions use this field to
      * control whether Linux is booted as secure(true) or non-secure(false).
diff --git a/hw/arm/aspeed.c b/hw/arm/aspeed.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/aspeed.c
+++ b/hw/arm/aspeed.c
@@ -XXX,XX +XXX,XX @@ static void aspeed_machine_init(MachineState *machine)
 
     aspeed_board_binfo.ram_size = machine->ram_size;
     aspeed_board_binfo.loader_start = sc->memmap[ASPEED_DEV_SDRAM];
-    aspeed_board_binfo.nb_cpus = sc->num_cpus;
 
     if (amc->i2c_init) {
         amc->i2c_init(bmc);
diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void arm_setup_direct_kernel_boot(ARMCPU *cpu,
         elf_machine = EM_ARM;
     }
 
-    if (info->nb_cpus == 0)
-        info->nb_cpus = 1;
-
     /* Assume that raw images are linux kernels, and ELF images are not.  */
     kernel_size = arm_load_elf(info, &elf_entry, &image_low_addr,
                                &image_high_addr, elf_machine, as);
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
     AddressSpace *as = arm_boot_address_space(cpu, info);
     int boot_el;
     CPUARMState *env = &cpu->env;
+    int nb_cpus = 0;
 
     /*
      * CPU objects (unlike devices) are not automatically reset on system
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
      */
     for (cs = first_cpu; cs; cs = CPU_NEXT(cs)) {
         qemu_register_reset(do_cpu_reset, ARM_CPU(cs));
+        nb_cpus++;
     }
 
     /*
@@ -XXX,XX +XXX,XX @@ void arm_load_kernel(ARMCPU *cpu, MachineState *ms, struct arm_boot_info *info)
     }
 
     if (info->psci_conduit == QEMU_PSCI_CONDUIT_DISABLED &&
-        info->is_linux && info->nb_cpus > 1) {
+        info->is_linux && nb_cpus > 1) {
         /*
          * We're booting Linux but not using PSCI, so for SMP we need
          * to write a custom secondary CPU boot loader stub, and arrange
diff --git a/hw/arm/exynos4_boards.c b/hw/arm/exynos4_boards.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/exynos4_boards.c
+++ b/hw/arm/exynos4_boards.c
@@ -XXX,XX +XXX,XX @@ static unsigned long exynos4_board_ram_size[EXYNOS4_NUM_OF_BOARDS] = {
 static struct arm_boot_info exynos4_board_binfo = {
     .loader_start     = EXYNOS4210_BASE_BOOT_ADDR,
     .smp_loader_start = EXYNOS4210_SMP_BOOT_ADDR,
-    .nb_cpus          = EXYNOS4210_NCPUS,
     .write_secondary_boot = exynos4210_write_secondary,
 };
 
diff --git a/hw/arm/highbank.c b/hw/arm/highbank.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/highbank.c
+++ b/hw/arm/highbank.c
@@ -XXX,XX +XXX,XX @@ static void calxeda_init(MachineState *machine, enum cxmachines machine_id)
      * clear that the value is meaningless.
      */
     highbank_binfo.board_id = -1;
-    highbank_binfo.nb_cpus = smp_cpus;
     highbank_binfo.loader_start = 0;
     highbank_binfo.board_setup_addr = BOARD_SETUP_ADDR;
     highbank_binfo.psci_conduit = QEMU_PSCI_CONDUIT_SMC;
diff --git a/hw/arm/imx25_pdk.c b/hw/arm/imx25_pdk.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/imx25_pdk.c
+++ b/hw/arm/imx25_pdk.c
@@ -XXX,XX +XXX,XX @@ static void imx25_pdk_init(MachineState *machine)
 
     imx25_pdk_binfo.ram_size = machine->ram_size;
     imx25_pdk_binfo.loader_start = FSL_IMX25_SDRAM0_ADDR;
-    imx25_pdk_binfo.board_id = 1771,
-    imx25_pdk_binfo.nb_cpus = 1;
+    imx25_pdk_binfo.board_id = 1771;
 
     for (i = 0; i < FSL_IMX25_NUM_ESDHCS; i++) {
         BusState *bus;
diff --git a/hw/arm/kzm.c b/hw/arm/kzm.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/kzm.c
+++ b/hw/arm/kzm.c
@@ -XXX,XX +XXX,XX @@ static void kzm_init(MachineState *machine)
     }
 
     kzm_binfo.ram_size = machine->ram_size;
-    kzm_binfo.nb_cpus = 1;
 
     if (!qtest_enabled()) {
         arm_load_kernel(&s->soc.cpu, machine, &kzm_binfo);
diff --git a/hw/arm/mcimx6ul-evk.c b/hw/arm/mcimx6ul-evk.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/mcimx6ul-evk.c
+++ b/hw/arm/mcimx6ul-evk.c
@@ -XXX,XX +XXX,XX @@ static void mcimx6ul_evk_init(MachineState *machine)
         .loader_start = FSL_IMX6UL_MMDC_ADDR,
         .board_id = -1,
         .ram_size = machine->ram_size,
-        .nb_cpus = machine->smp.cpus,
         .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
     };
 
diff --git a/hw/arm/mcimx7d-sabre.c b/hw/arm/mcimx7d-sabre.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/mcimx7d-sabre.c
+++ b/hw/arm/mcimx7d-sabre.c
@@ -XXX,XX +XXX,XX @@ static void mcimx7d_sabre_init(MachineState *machine)
         .loader_start = FSL_IMX7_MMDC_ADDR,
         .board_id = -1,
         .ram_size = machine->ram_size,
-        .nb_cpus = machine->smp.cpus,
         .psci_conduit = QEMU_PSCI_CONDUIT_SMC,
     };
 
diff --git a/hw/arm/npcm7xx.c b/hw/arm/npcm7xx.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/npcm7xx.c
+++ b/hw/arm/npcm7xx.c
@@ -XXX,XX +XXX,XX @@ static struct arm_boot_info npcm7xx_binfo = {
 
 void npcm7xx_load_kernel(MachineState *machine, NPCM7xxState *soc)
 {
-    NPCM7xxClass *sc = NPCM7XX_GET_CLASS(soc);
-
     npcm7xx_binfo.ram_size = machine->ram_size;
-    npcm7xx_binfo.nb_cpus = sc->num_cpus;
 
     arm_load_kernel(&soc->cpu[0], machine, &npcm7xx_binfo);
 }
diff --git a/hw/arm/orangepi.c b/hw/arm/orangepi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/orangepi.c
+++ b/hw/arm/orangepi.c
@@ -XXX,XX +XXX,XX @@
 #include "hw/qdev-properties.h"
 #include "hw/arm/allwinner-h3.h"
 
-static struct arm_boot_info orangepi_binfo = {
-    .nb_cpus = AW_H3_NUM_CPUS,
-};
+static struct arm_boot_info orangepi_binfo;
 
 static void orangepi_init(MachineState *machine)
 {
diff --git a/hw/arm/raspi.c b/hw/arm/raspi.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/raspi.c
+++ b/hw/arm/raspi.c
@@ -XXX,XX +XXX,XX @@ static void setup_boot(MachineState *machine, RaspiProcessorId processor_id,
 
     s->binfo.board_id = MACH_TYPE_BCM2708;
     s->binfo.ram_size = ram_size;
-    s->binfo.nb_cpus = machine->smp.cpus;
 
     if (processor_id <= PROCESSOR_ID_BCM2836) {
         /*
diff --git a/hw/arm/realview.c b/hw/arm/realview.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/realview.c
+++ b/hw/arm/realview.c
@@ -XXX,XX +XXX,XX @@ static void realview_init(MachineState *machine,
     memory_region_add_subregion(sysmem, SMP_BOOT_ADDR, ram_hack);
 
     realview_binfo.ram_size = ram_size;
-    realview_binfo.nb_cpus = smp_cpus;
     realview_binfo.board_id = realview_board_id[board_type];
     realview_binfo.loader_start = (board_type == BOARD_PB_A8 ? 0x70000000 : 0);
     arm_load_kernel(ARM_CPU(first_cpu), machine, &realview_binfo);
diff --git a/hw/arm/sabrelite.c b/hw/arm/sabrelite.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/sabrelite.c
+++ b/hw/arm/sabrelite.c
@@ -XXX,XX +XXX,XX @@ static void sabrelite_init(MachineState *machine)
     }
 
     sabrelite_binfo.ram_size = machine->ram_size;
-    sabrelite_binfo.nb_cpus = machine->smp.cpus;
     sabrelite_binfo.secure_boot = true;
     sabrelite_binfo.write_secondary_boot = sabrelite_write_secondary;
     sabrelite_binfo.secondary_cpu_reset_hook = sabrelite_reset_secondary;
diff --git a/hw/arm/sbsa-ref.c b/hw/arm/sbsa-ref.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/sbsa-ref.c
+++ b/hw/arm/sbsa-ref.c
@@ -XXX,XX +XXX,XX @@ static void sbsa_ref_init(MachineState *machine)
     create_secure_ec(secure_sysmem);
 
     sms->bootinfo.ram_size = machine->ram_size;
-    sms->bootinfo.nb_cpus = smp_cpus;
     sms->bootinfo.board_id = -1;
     sms->bootinfo.loader_start = sbsa_ref_memmap[SBSA_MEM].base;
     sms->bootinfo.get_dtb = sbsa_ref_dtb;
diff --git a/hw/arm/vexpress.c b/hw/arm/vexpress.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/vexpress.c
+++ b/hw/arm/vexpress.c
@@ -XXX,XX +XXX,XX @@ static void vexpress_common_init(MachineState *machine)
     }
 
     daughterboard->bootinfo.ram_size = machine->ram_size;
-    daughterboard->bootinfo.nb_cpus = machine->smp.cpus;
     daughterboard->bootinfo.board_id = VEXPRESS_BOARD_ID;
     daughterboard->bootinfo.loader_start = daughterboard->loader_start;
     daughterboard->bootinfo.smp_loader_start = map[VE_SRAM];
diff --git a/hw/arm/virt.c b/hw/arm/virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/virt.c
+++ b/hw/arm/virt.c
@@ -XXX,XX +XXX,XX @@ static void machvirt_init(MachineState *machine)
     }
 
     vms->bootinfo.ram_size = machine->ram_size;
-    vms->bootinfo.nb_cpus = smp_cpus;
     vms->bootinfo.board_id = -1;
     vms->bootinfo.loader_start = vms->memmap[VIRT_MEM].base;
     vms->bootinfo.get_dtb = machvirt_dtb;
diff --git a/hw/arm/xilinx_zynq.c b/hw/arm/xilinx_zynq.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xilinx_zynq.c
+++ b/hw/arm/xilinx_zynq.c
@@ -XXX,XX +XXX,XX @@ static void zynq_init(MachineState *machine)
     sysbus_mmio_map(busdev, 0, 0xF8007000);
 
     zynq_binfo.ram_size = machine->ram_size;
-    zynq_binfo.nb_cpus = 1;
     zynq_binfo.board_id = 0xd32;
     zynq_binfo.loader_start = 0;
     zynq_binfo.board_setup_addr = BOARD_SETUP_ADDR;
-- 
2.25.1

If we're using PSCI emulation, we add a /psci node to the device tree
we pass to the guest.  At the moment, if the dtb already has a /psci
node in it, we retain it, rather than replacing it. (This behaviour
was added in commit c39770cd637765 in 2018.)

This is a problem if the existing node doesn't match our PSCI
emulation.  In particular, it might specify the wrong method (HVC vs
SMC), or wrong function IDs for cpu_suspend/cpu_off/etc, in which
case the guest will not get the behaviour it wants when it makes PSCI
calls.

An example of this is trying to boot the highbank or midway board
models using the device tree supplied in the kernel sources: this
device tree includes a /psci node that specifies function IDs that
don't match the (PSCI 0.2 compliant) IDs that QEMU uses.  The dtb
cpu_suspend function ID happens to match the PSCI 0.2 cpu_off ID, so
the guest hangs after booting when the kernel tries to idle the CPU
and instead it gets turned off.

Instead of retaining an existing /psci node, delete it entirely
and replace it with a node whose properties match QEMU's PSCI
emulation behaviour. This matches the way we handle /memory nodes,
where we also delete any existing nodes and write in ones that
match the way QEMU is going to behave.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Reviewed-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Tested-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Tested-by: Cédric Le Goater <clg@kaod.org>
Tested-by: Niek Linnenbank <nieklinnenbank@gmail.com>
Message-id: 20220127154639.2090164-17-peter.maydell@linaro.org
---
 hw/arm/boot.c | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/hw/arm/boot.c b/hw/arm/boot.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/boot.c
+++ b/hw/arm/boot.c
@@ -XXX,XX +XXX,XX @@ static void fdt_add_psci_node(void *fdt)
     }
 
     /*
-     * If /psci node is present in provided DTB, assume that no fixup
-     * is necessary and all PSCI configuration should be taken as-is
+     * A pre-existing /psci node might specify function ID values
+     * that don't match QEMU's PSCI implementation. Delete the whole
+     * node and put our own in instead.
      */
     rc = fdt_path_offset(fdt, "/psci");
     if (rc >= 0) {
-        return;
+        qemu_fdt_nop_node(fdt, "/psci");
     }
 
     qemu_fdt_add_subnode(fdt, "/psci");
-- 
2.25.1

From: "Edgar E. Iglesias" <edgar.iglesias@xilinx.com>

Always call arm_load_kernel() regardless of kernel_filename being
set. This is needed because arm_load_kernel() sets up reset for
the CPUs.

Fixes: 6f16da53ff (hw/arm: versal: Add a virtual Xilinx Versal board)
Reported-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Edgar E. Iglesias <edgar.iglesias@xilinx.com>
Message-id: 20220130110313.4045351-2-edgar.iglesias@gmail.com
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/xlnx-versal-virt.c | 11 ++---------
 1 file changed, 2 insertions(+), 9 deletions(-)

diff --git a/hw/arm/xlnx-versal-virt.c b/hw/arm/xlnx-versal-virt.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/xlnx-versal-virt.c
+++ b/hw/arm/xlnx-versal-virt.c
@@ -XXX,XX +XXX,XX @@ static void versal_virt_init(MachineState *machine)
     s->binfo.get_dtb = versal_virt_get_dtb;
     s->binfo.modify_dtb = versal_virt_modify_dtb;
     s->binfo.psci_conduit = psci_conduit;
-    if (machine->kernel_filename) {
-        arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
-    } else {
-        AddressSpace *as = arm_boot_address_space(&s->soc.fpd.apu.cpu[0],
-                                                  &s->binfo);
+    if (!machine->kernel_filename) {
         /* Some boot-loaders (e.g u-boot) don't like blobs at address 0 (NULL).
          * Offset things by 4K.  */
         s->binfo.loader_start = 0x1000;
         s->binfo.dtb_limit = 0x1000000;
-        if (arm_load_dtb(s->binfo.loader_start,
-                         &s->binfo, s->binfo.dtb_limit, as, machine) < 0) {
-            exit(EXIT_FAILURE);
-        }
     }
+    arm_load_kernel(&s->soc.fpd.apu.cpu[0], machine, &s->binfo);
 
     for (i = 0; i < XLNX_VERSAL_NUM_OSPI_FLASH; i++) {
         BusState *spi_bus;
-- 
2.25.1

From: Alex Bennée <alex.bennee@linaro.org>

The recently introduced debug tests in kvm-unit-tests exposed an error
in our handling of singlestep cause by stale hflags. This is caught by
--enable-debug-tcg when running the tests.

Signed-off-by: Alex Bennée <alex.bennee@linaro.org>
Reported-by: Andrew Jones <drjones@redhat.com>
Tested-by: Andrew Jones <drjones@redhat.com>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220202122353.457084-1-alex.bennee@linaro.org
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 target/arm/helper-a64.c | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/target/arm/helper-a64.c b/target/arm/helper-a64.c
index XXXXXXX..XXXXXXX 100644
--- a/target/arm/helper-a64.c
+++ b/target/arm/helper-a64.c
@@ -XXX,XX +XXX,XX @@ void HELPER(msr_i_daifset)(CPUARMState *env, uint32_t imm)
 {
     daif_check(env, 0x1e, imm, GETPC());
     env->daif |= (imm << 6) & PSTATE_DAIF;
+    arm_rebuild_hflags(env);
 }
 
 void HELPER(msr_i_daifclear)(CPUARMState *env, uint32_t imm)
 {
     daif_check(env, 0x1f, imm, GETPC());
     env->daif &= ~((imm << 6) & PSTATE_DAIF);
+    arm_rebuild_hflags(env);
 }
 
 /* Convert a softfloat float_relation_ (as returned by
-- 
2.25.1

From: Richard Petri <git@rpls.de>

Starting the SysTick timer and changing the clock source a the same time
will result in an error, if the previous clock period was zero. For exmaple,
on the mps2-tz platforms, no refclk is present. Right after reset, the
configured ptimer period is zero, and trying to enabling it will turn it off
right away. E.g., code running on the platform setting

SysTick->CTRL  = SysTick_CTRL_CLKSOURCE_Msk | SysTick_CTRL_ENABLE_Msk;

should change the clock source and enable the timer on real hardware, but
resulted in an error in qemu.

Signed-off-by: Richard Petri <git@rpls.de>
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Message-id: 20220201192650.289584-1-git@rpls.de
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/timer/armv7m_systick.c | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/hw/timer/armv7m_systick.c b/hw/timer/armv7m_systick.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/timer/armv7m_systick.c
+++ b/hw/timer/armv7m_systick.c
@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_write(void *opaque, hwaddr addr,
         s->control &= 0xfffffff8;
         s->control |= value & 7;
 
+        if ((oldval ^ value) & SYSTICK_CLKSOURCE) {
+            systick_set_period_from_clock(s);
+        }
+
         if ((oldval ^ value) & SYSTICK_ENABLE) {
             if (value & SYSTICK_ENABLE) {
                 ptimer_run(s->ptimer, 0);
@@ -XXX,XX +XXX,XX @@ static MemTxResult systick_write(void *opaque, hwaddr addr,
                 ptimer_stop(s->ptimer);
             }
         }
-
-        if ((oldval ^ value) & SYSTICK_CLKSOURCE) {
-            systick_set_period_from_clock(s);
-        }
         ptimer_transaction_commit(s->ptimer);
         break;
     }
-- 
2.25.1

From: Eric Auger <eric.auger@redhat.com>

We currently miss a bunch of register resets in the device reset
function. This sometimes prevents the guest from rebooting after
a system_reset (with virtio-blk-pci). For instance, we may get
the following errors:

invalid STE
smmuv3-iommu-memory-region-0-0 translation failed for iova=0x13a9d2000(SMMU_EVT_C_BAD_STE)
Invalid read at addr 0x13A9D2000, size 2, region '(null)', reason: rejected
invalid STE
smmuv3-iommu-memory-region-0-0 translation failed for iova=0x13a9d2000(SMMU_EVT_C_BAD_STE)
Invalid write at addr 0x13A9D2000, size 2, region '(null)', reason: rejected
invalid STE

Signed-off-by: Eric Auger <eric.auger@redhat.com>
Message-id: 20220202111602.627429-1-eric.auger@redhat.com
Fixes: 10a83cb988 ("hw/arm/smmuv3: Skeleton")
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/arm/smmuv3.c | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/hw/arm/smmuv3.c b/hw/arm/smmuv3.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/arm/smmuv3.c
+++ b/hw/arm/smmuv3.c
@@ -XXX,XX +XXX,XX @@ static void smmuv3_init_regs(SMMUv3State *s)
     s->features = 0;
     s->sid_split = 0;
     s->aidr = 0x1;
+    s->cr[0] = 0;
+    s->cr0ack = 0;
+    s->irq_ctrl = 0;
+    s->gerror = 0;
+    s->gerrorn = 0;
+    s->statusr = 0;
 }
 
 static int smmu_get_ste(SMMUv3State *s, dma_addr_t addr, STE *buf,
-- 
2.25.1

Currently the ITS accesses each 8-byte doubleword in a 4-doubleword
command packet with a separate address_space_ldq_le() call.  This is
awkward because the individual command processing functions have
ended up with code to handle "load more doublewords out of the
packet", which is both unwieldy and also a potential source of bugs
because it's not obvious when looking at a line that pulls a field
out of the 'value' variable which of the 4 doublewords that variable
currently holds.

Switch to using address_space_map() to map the whole command packet
at once and fish the four doublewords out of it.  Then each process_*
function can start with a few lines of code that extract the fields
it cares about.

This requires us to split out the guts of process_its_cmd() into a
new do_process_its_cmd(), because we were previously overloading the
value and offset arguments as a backdoor way to directly pass the
devid and eventid from a write to GITS_TRANSLATER.  The new
do_process_its_cmd() takes those arguments directly, and
process_its_cmd() is just a wrapper that does the "read fields from
command packet" part.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-2-peter.maydell@linaro.org
---
 hw/intc/gicv3_internal.h |   4 +-
 hw/intc/arm_gicv3_its.c  | 208 +++++++++++----------------------------
 2 files changed, 62 insertions(+), 150 deletions(-)

diff --git a/hw/intc/gicv3_internal.h b/hw/intc/gicv3_internal.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/gicv3_internal.h
+++ b/hw/intc/gicv3_internal.h
@@ -XXX,XX +XXX,XX @@ FIELD(GITS_TYPER, CIL, 36, 1)
 #define LPI_CTE_ENABLED          TABLE_ENTRY_VALID_MASK
 #define LPI_PRIORITY_MASK         0xfc
 
-#define GITS_CMDQ_ENTRY_SIZE               32
-#define NUM_BYTES_IN_DW                     8
+#define GITS_CMDQ_ENTRY_WORDS 4
+#define GITS_CMDQ_ENTRY_SIZE  (GITS_CMDQ_ENTRY_WORDS * sizeof(uint64_t))
 
 #define CMD_MASK                  0xff
 
diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static uint64_t get_dte(GICv3ITSState *s, uint32_t devid, MemTxResult *res)
  * 3. handling of ITS CLEAR command
  * 4. handling of ITS DISCARD command
  */
-static ItsCmdResult process_its_cmd(GICv3ITSState *s, uint64_t value,
-                                    uint32_t offset, ItsCmdType cmd)
+static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
+                                       uint32_t eventid, ItsCmdType cmd)
 {
-    AddressSpace *as = &s->gicv3->dma_as;
-    uint32_t devid, eventid;
     MemTxResult res = MEMTX_OK;
     bool dte_valid;
     uint64_t dte = 0;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd(GICv3ITSState *s, uint64_t value,
     bool cte_valid = false;
     uint64_t rdbase;
 
-    if (cmd == NONE) {
-        devid = offset;
-    } else {
-        devid = ((value & DEVID_MASK) >> DEVID_SHIFT);
-
-        offset += NUM_BYTES_IN_DW;
-        value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                     MEMTXATTRS_UNSPECIFIED, &res);
-    }
-
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-
-    eventid = (value & EVENTID_MASK);
-
     if (devid >= s->dt.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: devid %d>=%d",
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_its_cmd(GICv3ITSState *s, uint64_t value,
     }
     return CMD_CONTINUE;
 }
-
-static ItsCmdResult process_mapti(GICv3ITSState *s, uint64_t value,
-                                  uint32_t offset, bool ignore_pInt)
+static ItsCmdResult process_its_cmd(GICv3ITSState *s, const uint64_t *cmdpkt,
+                                    ItsCmdType cmd)
+{
+    uint32_t devid, eventid;
+
+    devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
+    eventid = cmdpkt[1] & EVENTID_MASK;
+    return do_process_its_cmd(s, devid, eventid, cmd);
+}
+
+static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
+                                  bool ignore_pInt)
 {
-    AddressSpace *as = &s->gicv3->dma_as;
     uint32_t devid, eventid;
     uint32_t pIntid = 0;
     uint64_t num_eventids;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, uint64_t value,
     uint64_t dte = 0;
     IteEntry ite = {};
 
-    devid = ((value & DEVID_MASK) >> DEVID_SHIFT);
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-
-    eventid = (value & EVENTID_MASK);
+    devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
+    eventid = cmdpkt[1] & EVENTID_MASK;
 
     if (ignore_pInt) {
         pIntid = eventid;
     } else {
-        pIntid = ((value & pINTID_MASK) >> pINTID_SHIFT);
+        pIntid = (cmdpkt[1] & pINTID_MASK) >> pINTID_SHIFT;
     }
 
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-
-    icid = value & ICID_MASK;
+    icid = cmdpkt[2] & ICID_MASK;
 
     if (devid >= s->dt.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
     return res == MEMTX_OK;
 }
 
-static ItsCmdResult process_mapc(GICv3ITSState *s, uint32_t offset)
+static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
-    AddressSpace *as = &s->gicv3->dma_as;
     uint16_t icid;
     uint64_t rdbase;
     bool valid;
-    MemTxResult res = MEMTX_OK;
-    uint64_t value;
 
-    offset += NUM_BYTES_IN_DW;
-    offset += NUM_BYTES_IN_DW;
+    icid = cmdpkt[2] & ICID_MASK;
 
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-
-    icid = value & ICID_MASK;
-
-    rdbase = (value & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
+    rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
     rdbase &= RDBASE_PROCNUM_MASK;
 
-    valid = (value & CMD_FIELD_VALID_MASK);
+    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
 
     if ((icid >= s->ct.num_entries) || (rdbase >= s->gicv3->num_cpu)) {
         qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, bool valid,
     return res == MEMTX_OK;
 }
 
-static ItsCmdResult process_mapd(GICv3ITSState *s, uint64_t value,
-                                 uint32_t offset)
+static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
-    AddressSpace *as = &s->gicv3->dma_as;
     uint32_t devid;
     uint8_t size;
     uint64_t itt_addr;
     bool valid;
-    MemTxResult res = MEMTX_OK;
 
-    devid = ((value & DEVID_MASK) >> DEVID_SHIFT);
-
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-
-    size = (value & SIZE_MASK);
-
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-
-    itt_addr = (value & ITTADDR_MASK) >> ITTADDR_SHIFT;
-
-    valid = (value & CMD_FIELD_VALID_MASK);
+    devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
+    size = cmdpkt[1] & SIZE_MASK;
+    itt_addr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
+    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
 
     if ((devid >= s->dt.num_entries) ||
         (size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapd(GICv3ITSState *s, uint64_t value,
     return update_dte(s, devid, valid, size, itt_addr) ? CMD_CONTINUE : CMD_STALL;
 }
 
-static ItsCmdResult process_movall(GICv3ITSState *s, uint64_t value,
-                                   uint32_t offset)
+static ItsCmdResult process_movall(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
-    AddressSpace *as = &s->gicv3->dma_as;
-    MemTxResult res = MEMTX_OK;
     uint64_t rd1, rd2;
 
-    /* No fields in dwords 0 or 1 */
-    offset += NUM_BYTES_IN_DW;
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
+    rd1 = FIELD_EX64(cmdpkt[2], MOVALL_2, RDBASE1);
+    rd2 = FIELD_EX64(cmdpkt[3], MOVALL_3, RDBASE2);
 
-    rd1 = FIELD_EX64(value, MOVALL_2, RDBASE1);
     if (rd1 >= s->gicv3->num_cpu) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: RDBASE1 %" PRId64
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movall(GICv3ITSState *s, uint64_t value,
                       __func__, rd1, s->gicv3->num_cpu);
         return CMD_CONTINUE;
     }
-
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-
-    rd2 = FIELD_EX64(value, MOVALL_3, RDBASE2);
     if (rd2 >= s->gicv3->num_cpu) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: RDBASE2 %" PRId64
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movall(GICv3ITSState *s, uint64_t value,
     return CMD_CONTINUE;
 }
 
-static ItsCmdResult process_movi(GICv3ITSState *s, uint64_t value,
-                                 uint32_t offset)
+static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
-    AddressSpace *as = &s->gicv3->dma_as;
     MemTxResult res = MEMTX_OK;
     uint32_t devid, eventid, intid;
     uint16_t old_icid, new_icid;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, uint64_t value,
     uint64_t num_eventids;
     IteEntry ite = {};
 
-    devid = FIELD_EX64(value, MOVI_0, DEVICEID);
-
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-    eventid = FIELD_EX64(value, MOVI_1, EVENTID);
-
-    offset += NUM_BYTES_IN_DW;
-    value = address_space_ldq_le(as, s->cq.base_addr + offset,
-                                 MEMTXATTRS_UNSPECIFIED, &res);
-    if (res != MEMTX_OK) {
-        return CMD_STALL;
-    }
-    new_icid = FIELD_EX64(value, MOVI_2, ICID);
+    devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
+    eventid = FIELD_EX64(cmdpkt[1], MOVI_1, EVENTID);
+    new_icid = FIELD_EX64(cmdpkt[2], MOVI_2, ICID);
 
     if (devid >= s->dt.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
     uint32_t wr_offset = 0;
     uint32_t rd_offset = 0;
     uint32_t cq_offset = 0;
-    uint64_t data;
     AddressSpace *as = &s->gicv3->dma_as;
-    MemTxResult res = MEMTX_OK;
     uint8_t cmd;
     int i;
 
@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
 
     while (wr_offset != rd_offset) {
         ItsCmdResult result = CMD_CONTINUE;
+        void *hostmem;
+        hwaddr buflen;
+        uint64_t cmdpkt[GITS_CMDQ_ENTRY_WORDS];
 
         cq_offset = (rd_offset * GITS_CMDQ_ENTRY_SIZE);
-        data = address_space_ldq_le(as, s->cq.base_addr + cq_offset,
-                                    MEMTXATTRS_UNSPECIFIED, &res);
-        if (res != MEMTX_OK) {
+
+        buflen = GITS_CMDQ_ENTRY_SIZE;
+        hostmem = address_space_map(as, s->cq.base_addr + cq_offset,
+                                    &buflen, false, MEMTXATTRS_UNSPECIFIED);
+        if (!hostmem || buflen != GITS_CMDQ_ENTRY_SIZE) {
+            if (hostmem) {
+                address_space_unmap(as, hostmem, buflen, false, 0);
+            }
             s->creadr = FIELD_DP64(s->creadr, GITS_CREADR, STALLED, 1);
             qemu_log_mask(LOG_GUEST_ERROR,
                           "%s: could not read command at 0x%" PRIx64 "\n",
                           __func__, s->cq.base_addr + cq_offset);
             break;
         }
+        for (i = 0; i < ARRAY_SIZE(cmdpkt); i++) {
+            cmdpkt[i] = ldq_le_p(hostmem + i * sizeof(uint64_t));
+        }
+        address_space_unmap(as, hostmem, buflen, false, 0);
 
-        cmd = (data & CMD_MASK);
+        cmd = cmdpkt[0] & CMD_MASK;
 
         trace_gicv3_its_process_command(rd_offset, cmd);
 
         switch (cmd) {
         case GITS_CMD_INT:
-            result = process_its_cmd(s, data, cq_offset, INTERRUPT);
+            result = process_its_cmd(s, cmdpkt, INTERRUPT);
             break;
         case GITS_CMD_CLEAR:
-            result = process_its_cmd(s, data, cq_offset, CLEAR);
+            result = process_its_cmd(s, cmdpkt, CLEAR);
             break;
         case GITS_CMD_SYNC:
             /*
@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
              */
             break;
         case GITS_CMD_MAPD:
-            result = process_mapd(s, data, cq_offset);
+            result = process_mapd(s, cmdpkt);
             break;
         case GITS_CMD_MAPC:
-            result = process_mapc(s, cq_offset);
+            result = process_mapc(s, cmdpkt);
             break;
         case GITS_CMD_MAPTI:
-            result = process_mapti(s, data, cq_offset, false);
+            result = process_mapti(s, cmdpkt, false);
             break;
         case GITS_CMD_MAPI:
-            result = process_mapti(s, data, cq_offset, true);
+            result = process_mapti(s, cmdpkt, true);
             break;
         case GITS_CMD_DISCARD:
-            result = process_its_cmd(s, data, cq_offset, DISCARD);
+            result = process_its_cmd(s, cmdpkt, DISCARD);
             break;
         case GITS_CMD_INV:
         case GITS_CMD_INVALL:
@@ -XXX,XX +XXX,XX @@ static void process_cmdq(GICv3ITSState *s)
             }
             break;
         case GITS_CMD_MOVI:
-            result = process_movi(s, data, cq_offset);
+            result = process_movi(s, cmdpkt);
             break;
         case GITS_CMD_MOVALL:
-            result = process_movall(s, data, cq_offset);
+            result = process_movall(s, cmdpkt);
             break;
         default:
             break;
@@ -XXX,XX +XXX,XX @@ static MemTxResult gicv3_its_translation_write(void *opaque, hwaddr offset,
 {
     GICv3ITSState *s = (GICv3ITSState *)opaque;
     bool result = true;
-    uint32_t devid = 0;
 
     trace_gicv3_its_translation_write(offset, data, size, attrs.requester_id);
 
     switch (offset) {
     case GITS_TRANSLATER:
         if (s->ctlr & R_GITS_CTLR_ENABLED_MASK) {
-            devid = attrs.requester_id;
-            result = process_its_cmd(s, data, devid, NONE);
+            result = do_process_its_cmd(s, attrs.requester_id, data, NONE);
         }
         break;
     default:
-- 
2.25.1

In the ITS, a DTE is an entry in the device table, which contains
multiple fields. Currently the function get_dte() which reads one
entry from the device table returns it as a raw 64-bit integer,
which we then pass around in that form, only extracting fields
from it as we need them.

Create a real C struct with the same fields as the DTE, and
populate it in get_dte(), so that that function and update_dte()
are the only ones that need to care about the in-guest-memory
format of the DTE.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-3-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 111 ++++++++++++++++++++--------------------
 1 file changed, 56 insertions(+), 55 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ typedef struct {
     uint64_t itel;
 } IteEntry;
 
+typedef struct DTEntry {
+    bool valid;
+    unsigned size;
+    uint64_t ittaddr;
+} DTEntry;
+
 /*
  * The ITS spec permits a range of CONSTRAINED UNPREDICTABLE options
  * if a command parameter is not correct. These include both "stall
@@ -XXX,XX +XXX,XX @@ static bool get_cte(GICv3ITSState *s, uint16_t icid, uint64_t *cte,
     return FIELD_EX64(*cte, CTE, VALID);
 }
 
-static bool update_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
+static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
                        IteEntry ite)
 {
     AddressSpace *as = &s->gicv3->dma_as;
-    uint64_t itt_addr;
     MemTxResult res = MEMTX_OK;
 
-    itt_addr = FIELD_EX64(dte, DTE, ITTADDR);
-    itt_addr <<= ITTADDR_SHIFT; /* 256 byte aligned */
-
-    address_space_stq_le(as, itt_addr + (eventid * (sizeof(uint64_t) +
+    address_space_stq_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
                          sizeof(uint32_t))), ite.itel, MEMTXATTRS_UNSPECIFIED,
                          &res);
 
     if (res == MEMTX_OK) {
-        address_space_stl_le(as, itt_addr + (eventid * (sizeof(uint64_t) +
+        address_space_stl_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
                              sizeof(uint32_t))) + sizeof(uint32_t), ite.iteh,
                              MEMTXATTRS_UNSPECIFIED, &res);
     }
@@ -XXX,XX +XXX,XX @@ static bool update_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
     }
 }
 
-static bool get_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
+static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
                     uint16_t *icid, uint32_t *pIntid, MemTxResult *res)
 {
     AddressSpace *as = &s->gicv3->dma_as;
-    uint64_t itt_addr;
     bool status = false;
     IteEntry ite = {};
 
-    itt_addr = FIELD_EX64(dte, DTE, ITTADDR);
-    itt_addr <<= ITTADDR_SHIFT; /* 256 byte aligned */
-
-    ite.itel = address_space_ldq_le(as, itt_addr +
+    ite.itel = address_space_ldq_le(as, dte->ittaddr +
                                     (eventid * (sizeof(uint64_t) +
                                     sizeof(uint32_t))), MEMTXATTRS_UNSPECIFIED,
                                     res);
 
     if (*res == MEMTX_OK) {
-        ite.iteh = address_space_ldl_le(as, itt_addr +
+        ite.iteh = address_space_ldl_le(as, dte->ittaddr +
                                         (eventid * (sizeof(uint64_t) +
                                         sizeof(uint32_t))) + sizeof(uint32_t),
                                         MEMTXATTRS_UNSPECIFIED, res);
@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, uint64_t dte,
     return status;
 }
 
-static uint64_t get_dte(GICv3ITSState *s, uint32_t devid, MemTxResult *res)
+/*
+ * Read the Device Table entry at index @devid. On success (including
+ * successfully determining that there is no valid DTE for this index),
+ * we return MEMTX_OK and populate the DTEntry struct accordingly.
+ * If there is an error reading memory then we return the error code.
+ */
+static MemTxResult get_dte(GICv3ITSState *s, uint32_t devid, DTEntry *dte)
 {
+    MemTxResult res = MEMTX_OK;
     AddressSpace *as = &s->gicv3->dma_as;
-    uint64_t entry_addr = table_entry_addr(s, &s->dt, devid, res);
+    uint64_t entry_addr = table_entry_addr(s, &s->dt, devid, &res);
+    uint64_t dteval;
 
     if (entry_addr == -1) {
-        return 0; /* a DTE entry with the Valid bit clear */
+        /* No L2 table entry, i.e. no valid DTE, or a memory error */
+        dte->valid = false;
+        return res;
     }
-    return address_space_ldq_le(as, entry_addr, MEMTXATTRS_UNSPECIFIED, res);
+    dteval = address_space_ldq_le(as, entry_addr, MEMTXATTRS_UNSPECIFIED, &res);
+    if (res != MEMTX_OK) {
+        return res;
+    }
+    dte->valid = FIELD_EX64(dteval, DTE, VALID);
+    dte->size = FIELD_EX64(dteval, DTE, SIZE);
+    /* DTE word field stores bits [51:8] of the ITT address */
+    dte->ittaddr = FIELD_EX64(dteval, DTE, ITTADDR) << ITTADDR_SHIFT;
+    return MEMTX_OK;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
                                        uint32_t eventid, ItsCmdType cmd)
 {
     MemTxResult res = MEMTX_OK;
-    bool dte_valid;
-    uint64_t dte = 0;
     uint64_t num_eventids;
     uint16_t icid = 0;
     uint32_t pIntid = 0;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
     uint64_t cte = 0;
     bool cte_valid = false;
     uint64_t rdbase;
+    DTEntry dte;
 
     if (devid >= s->dt.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
         return CMD_CONTINUE;
     }
 
-    dte = get_dte(s, devid, &res);
-
-    if (res != MEMTX_OK) {
+    if (get_dte(s, devid, &dte) != MEMTX_OK) {
         return CMD_STALL;
     }
-    dte_valid = FIELD_EX64(dte, DTE, VALID);
-
-    if (!dte_valid) {
+    if (!dte.valid) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: "
-                      "invalid dte: %"PRIx64" for %d\n",
-                      __func__, dte, devid);
+                      "invalid dte for %d\n", __func__, devid);
         return CMD_CONTINUE;
     }
 
-    num_eventids = 1ULL << (FIELD_EX64(dte, DTE, SIZE) + 1);
-
+    num_eventids = 1ULL << (dte.size + 1);
     if (eventid >= num_eventids) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: eventid %d >= %"
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
         return CMD_CONTINUE;
     }
 
-    ite_valid = get_ite(s, eventid, dte, &icid, &pIntid, &res);
+    ite_valid = get_ite(s, eventid, &dte, &icid, &pIntid, &res);
     if (res != MEMTX_OK) {
         return CMD_STALL;
     }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
     if (cmd == DISCARD) {
         IteEntry ite = {};
         /* remove mapping from interrupt translation table */
-        return update_ite(s, eventid, dte, ite) ? CMD_CONTINUE : CMD_STALL;
+        return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
     }
     return CMD_CONTINUE;
 }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     uint32_t pIntid = 0;
     uint64_t num_eventids;
     uint32_t num_intids;
-    bool dte_valid;
-    MemTxResult res = MEMTX_OK;
     uint16_t icid = 0;
-    uint64_t dte = 0;
     IteEntry ite = {};
+    DTEntry dte;
 
     devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
     eventid = cmdpkt[1] & EVENTID_MASK;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
         return CMD_CONTINUE;
     }
 
-    dte = get_dte(s, devid, &res);
-
-    if (res != MEMTX_OK) {
+    if (get_dte(s, devid, &dte) != MEMTX_OK) {
         return CMD_STALL;
     }
-    dte_valid = FIELD_EX64(dte, DTE, VALID);
-    num_eventids = 1ULL << (FIELD_EX64(dte, DTE, SIZE) + 1);
+    num_eventids = 1ULL << (dte.size + 1);
     num_intids = 1ULL << (GICD_TYPER_IDBITS + 1);
 
     if ((icid >= s->ct.num_entries)
-            || !dte_valid || (eventid >= num_eventids) ||
+            || !dte.valid || (eventid >= num_eventids) ||
             (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)) &&
              (pIntid != INTID_SPURIOUS))) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes "
                       "icid %d or eventid %d or pIntid %d or"
                       "unmapped dte %d\n", __func__, icid, eventid,
-                      pIntid, dte_valid);
+                      pIntid, dte.valid);
         /*
          * in this implementation, in case of error
          * we ignore this command and move onto the next
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     }
 
     /* add ite entry to interrupt translation table */
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, dte_valid);
+    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, true);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, pIntid);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
     ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, icid);
 
-    return update_ite(s, eventid, dte, ite) ? CMD_CONTINUE : CMD_STALL;
+    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 }
 
 static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
     uint16_t old_icid, new_icid;
     uint64_t old_cte, new_cte;
     uint64_t old_rdbase, new_rdbase;
-    uint64_t dte;
-    bool dte_valid, ite_valid, cte_valid;
+    bool ite_valid, cte_valid;
     uint64_t num_eventids;
     IteEntry ite = {};
+    DTEntry dte;
 
     devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
     eventid = FIELD_EX64(cmdpkt[1], MOVI_1, EVENTID);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
                       __func__, devid, s->dt.num_entries);
         return CMD_CONTINUE;
     }
-    dte = get_dte(s, devid, &res);
-    if (res != MEMTX_OK) {
+    if (get_dte(s, devid, &dte) != MEMTX_OK) {
         return CMD_STALL;
     }
 
-    dte_valid = FIELD_EX64(dte, DTE, VALID);
-    if (!dte_valid) {
+    if (!dte.valid) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: "
-                      "invalid dte: %"PRIx64" for %d\n",
-                      __func__, dte, devid);
+                      "invalid dte for %d\n", __func__, devid);
         return CMD_CONTINUE;
     }
 
-    num_eventids = 1ULL << (FIELD_EX64(dte, DTE, SIZE) + 1);
+    num_eventids = 1ULL << (dte.size + 1);
     if (eventid >= num_eventids) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: eventid %d >= %"
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
         return CMD_CONTINUE;
     }
 
-    ite_valid = get_ite(s, eventid, dte, &old_icid, &intid, &res);
+    ite_valid = get_ite(s, eventid, &dte, &old_icid, &intid, &res);
     if (res != MEMTX_OK) {
         return CMD_STALL;
     }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, intid);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
     ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, new_icid);
-    return update_ite(s, eventid, dte, ite) ? CMD_CONTINUE : CMD_STALL;
+    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 }
 
 /*
-- 
2.25.1

Make update_dte() take a DTEntry struct rather than all the fields of
the new DTE as separate arguments.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-4-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 35 ++++++++++++++++++-----------------
 1 file changed, 18 insertions(+), 17 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
     return update_cte(s, icid, valid, rdbase) ? CMD_CONTINUE : CMD_STALL;
 }
 
-static bool update_dte(GICv3ITSState *s, uint32_t devid, bool valid,
-                       uint8_t size, uint64_t itt_addr)
+/*
+ * Update the Device Table entry for @devid to @dte. Returns true
+ * on success, false if there was a memory access error.
+ */
+static bool update_dte(GICv3ITSState *s, uint32_t devid, const DTEntry *dte)
 {
     AddressSpace *as = &s->gicv3->dma_as;
     uint64_t entry_addr;
-    uint64_t dte = 0;
+    uint64_t dteval = 0;
     MemTxResult res = MEMTX_OK;
 
     if (s->dt.valid) {
-        if (valid) {
+        if (dte->valid) {
             /* add mapping entry to device table */
-            dte = FIELD_DP64(dte, DTE, VALID, 1);
-            dte = FIELD_DP64(dte, DTE, SIZE, size);
-            dte = FIELD_DP64(dte, DTE, ITTADDR, itt_addr);
+            dteval = FIELD_DP64(dteval, DTE, VALID, 1);
+            dteval = FIELD_DP64(dteval, DTE, SIZE, dte->size);
+            dteval = FIELD_DP64(dteval, DTE, ITTADDR, dte->ittaddr);
         }
     } else {
         return true;
@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, bool valid,
         /* No L2 table for this index: discard write and continue */
         return true;
     }
-    address_space_stq_le(as, entry_addr, dte, MEMTXATTRS_UNSPECIFIED, &res);
+    address_space_stq_le(as, entry_addr, dteval, MEMTXATTRS_UNSPECIFIED, &res);
     return res == MEMTX_OK;
 }
 
 static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
     uint32_t devid;
-    uint8_t size;
-    uint64_t itt_addr;
-    bool valid;
+    DTEntry dte;
 
     devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
-    size = cmdpkt[1] & SIZE_MASK;
-    itt_addr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
-    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
+    dte.size = cmdpkt[1] & SIZE_MASK;
+    dte.ittaddr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
+    dte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
 
     if ((devid >= s->dt.num_entries) ||
-        (size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
+        (dte.size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "ITS MAPD: invalid device table attributes "
-                      "devid %d or size %d\n", devid, size);
+                      "devid %d or size %d\n", devid, dte.size);
         /*
          * in this implementation, in case of error
          * we ignore this command and move onto the next
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
         return CMD_CONTINUE;
     }
 
-    return update_dte(s, devid, valid, size, itt_addr) ? CMD_CONTINUE : CMD_STALL;
+    return update_dte(s, devid, &dte) ? CMD_CONTINUE : CMD_STALL;
 }
 
 static ItsCmdResult process_movall(GICv3ITSState *s, const uint64_t *cmdpkt)
-- 
2.25.1

In the ITS, a CTE is an entry in the collection table, which contains
multiple fields. Currently the function get_cte() which reads one
entry from the device table returns a success/failure boolean and
passes back the raw 64-bit integer CTE value via a pointer argument.
We then extract fields from the CTE as we need them.

Create a real C struct with the same fields as the CTE, and
populate it in get_cte(), so that that function and update_cte()
are the only ones which need to care about the in-guest-memory
format of the CTE.

This brings get_cte()'s API into line with get_dte().

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-5-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 96 ++++++++++++++++++++++-------------------
 1 file changed, 52 insertions(+), 44 deletions(-)

Make update_cte() take a CTEntry struct rather than all the fields
of the new CTE as separate arguments.

This brings it into line with the update_dte() API.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-6-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 32 +++++++++++++++++---------------
 1 file changed, 17 insertions(+), 15 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 }
 
-static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
-                       uint64_t rdbase)
+/*
+ * Update the Collection Table entry for @icid to @cte. Returns true
+ * on success, false if there was a memory access error.
+ */
+static bool update_cte(GICv3ITSState *s, uint16_t icid, const CTEntry *cte)
 {
     AddressSpace *as = &s->gicv3->dma_as;
     uint64_t entry_addr;
-    uint64_t cte = 0;
+    uint64_t cteval = 0;
     MemTxResult res = MEMTX_OK;
 
     if (!s->ct.valid) {
         return true;
     }
 
-    if (valid) {
+    if (cte->valid) {
         /* add mapping entry to collection table */
-        cte = FIELD_DP64(cte, CTE, VALID, 1);
-        cte = FIELD_DP64(cte, CTE, RDBASE, rdbase);
+        cteval = FIELD_DP64(cteval, CTE, VALID, 1);
+        cteval = FIELD_DP64(cteval, CTE, RDBASE, cte->rdbase);
     }
 
     entry_addr = table_entry_addr(s, &s->ct, icid, &res);
@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, bool valid,
         return true;
     }
 
-    address_space_stq_le(as, entry_addr, cte, MEMTXATTRS_UNSPECIFIED, &res);
+    address_space_stq_le(as, entry_addr, cteval, MEMTXATTRS_UNSPECIFIED, &res);
     return res == MEMTX_OK;
 }
 
 static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
     uint16_t icid;
-    uint64_t rdbase;
-    bool valid;
+    CTEntry cte;
 
     icid = cmdpkt[2] & ICID_MASK;
 
-    rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
-    rdbase &= RDBASE_PROCNUM_MASK;
+    cte.rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
+    cte.rdbase &= RDBASE_PROCNUM_MASK;
 
-    valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
+    cte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
 
-    if ((icid >= s->ct.num_entries) || (rdbase >= s->gicv3->num_cpu)) {
+    if ((icid >= s->ct.num_entries) || (cte.rdbase >= s->gicv3->num_cpu)) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "ITS MAPC: invalid collection table attributes "
-                      "icid %d rdbase %" PRIu64 "\n",  icid, rdbase);
+                      "icid %d rdbase %u\n",  icid, cte.rdbase);
         /*
          * in this implementation, in case of error
          * we ignore this command and move onto the next
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
         return CMD_CONTINUE;
     }
 
-    return update_cte(s, icid, valid, rdbase) ? CMD_CONTINUE : CMD_STALL;
+    return update_cte(s, icid, &cte) ? CMD_CONTINUE : CMD_STALL;
 }
 
 /*
-- 
2.25.1

In get_ite() and update_ite() we work with a 12-byte in-guest-memory
table entry, which we intend to handle as an 8-byte value followed by
a 4-byte value.  Unfortunately the calculation of the address of the
4-byte value is wrong, because we write it as:

table_base_address + (index * entrysize) + 4
(obfuscated by the way the expression has been written)

when it should be + 8.  This bug meant that we overwrote the top
bytes of the 8-byte value with the 4-byte value.  There are no
guest-visible effects because the top half of the 8-byte value
contains only the doorbell interrupt field, which is used only in
GICv4, and the two bugs in the "write ITE" and "read ITE" codepaths
cancel each other out.

We can't simply change the calculation, because this would break
migration of a (TCG) guest from the old version of QEMU which had
in-guest-memory interrupt tables written using the buggy version of
update_ite().  We must also at the same time change the layout of the
fields within the ITE_L and ITE_H values so that the in-memory
locations of the fields we care about (VALID, INTTYPE, INTID and
ICID) stay the same.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-7-peter.maydell@linaro.org
---
 hw/intc/gicv3_internal.h | 19 ++++++++++---------
 hw/intc/arm_gicv3_its.c  | 28 +++++++++++-----------------
 2 files changed, 21 insertions(+), 26 deletions(-)

diff --git a/hw/intc/gicv3_internal.h b/hw/intc/gicv3_internal.h
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/gicv3_internal.h
+++ b/hw/intc/gicv3_internal.h
@@ -XXX,XX +XXX,XX @@ FIELD(MOVI_2, ICID, 0, 16)
  * 12 bytes Interrupt translation Table Entry size
  * as per Table 5.3 in GICv3 spec
  * ITE Lower 8 Bytes
- *   Bits:    | 49 ... 26 | 25 ... 2 |   1     |   0    |
- *   Values:  |  Doorbell |  IntNum  | IntType |  Valid |
+ *   Bits:    | 63 ... 48 | 47 ... 32 | 31 ... 26 | 25 ... 2 |   1     |  0    |
+ *   Values:  | vPEID     | ICID      | unused    |  IntNum  | IntType | Valid |
  * ITE Higher 4 Bytes
- *   Bits:    | 31 ... 16 | 15 ...0 |
- *   Values:  |  vPEID    |  ICID   |
- * (When Doorbell is unused, as it always is in GICv3, it is 1023)
+ *   Bits:    | 31 ... 25 | 24 ... 0 |
+ *   Values:  | unused    | Doorbell |
+ * (When Doorbell is unused, as it always is for INTYPE_PHYSICAL,
+ * the value of that field in memory cannot be relied upon -- older
+ * versions of QEMU did not correctly write to that memory.)
  */
 #define ITS_ITT_ENTRY_SIZE            0xC
 
 FIELD(ITE_L, VALID, 0, 1)
 FIELD(ITE_L, INTTYPE, 1, 1)
 FIELD(ITE_L, INTID, 2, 24)
-FIELD(ITE_L, DOORBELL, 26, 24)
-
-FIELD(ITE_H, ICID, 0, 16)
-FIELD(ITE_H, VPEID, 16, 16)
+FIELD(ITE_L, ICID, 32, 16)
+FIELD(ITE_L, VPEID, 48, 16)
+FIELD(ITE_H, DOORBELL, 0, 24)
 
 /* Possible values for ITE_L INTTYPE */
 #define ITE_INTTYPE_VIRTUAL 0
diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
 {
     AddressSpace *as = &s->gicv3->dma_as;
     MemTxResult res = MEMTX_OK;
+    hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
 
-    address_space_stq_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
-                         sizeof(uint32_t))), ite.itel, MEMTXATTRS_UNSPECIFIED,
-                         &res);
+    address_space_stq_le(as, iteaddr, ite.itel, MEMTXATTRS_UNSPECIFIED, &res);
 
     if (res == MEMTX_OK) {
-        address_space_stl_le(as, dte->ittaddr + (eventid * (sizeof(uint64_t) +
-                             sizeof(uint32_t))) + sizeof(uint32_t), ite.iteh,
+        address_space_stl_le(as, iteaddr + 8, ite.iteh,
                              MEMTXATTRS_UNSPECIFIED, &res);
     }
     if (res != MEMTX_OK) {
@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
     AddressSpace *as = &s->gicv3->dma_as;
     bool status = false;
     IteEntry ite = {};
+    hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
 
-    ite.itel = address_space_ldq_le(as, dte->ittaddr +
-                                    (eventid * (sizeof(uint64_t) +
-                                    sizeof(uint32_t))), MEMTXATTRS_UNSPECIFIED,
-                                    res);
+    ite.itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, res);
 
     if (*res == MEMTX_OK) {
-        ite.iteh = address_space_ldl_le(as, dte->ittaddr +
-                                        (eventid * (sizeof(uint64_t) +
-                                        sizeof(uint32_t))) + sizeof(uint32_t),
+        ite.iteh = address_space_ldl_le(as, iteaddr + 8,
                                         MEMTXATTRS_UNSPECIFIED, res);
 
         if (*res == MEMTX_OK) {
@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
                 int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
                 if (inttype == ITE_INTTYPE_PHYSICAL) {
                     *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
-                    *icid = FIELD_EX32(ite.iteh, ITE_H, ICID);
+                    *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
                     status = true;
                 }
             }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, true);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, pIntid);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
-    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, icid);
+    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, icid);
+    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
 
     return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
     ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, 1);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, intid);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, DOORBELL, INTID_SPURIOUS);
-    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, ICID, new_icid);
+    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, new_icid);
+    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
     return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
 }
 
-- 
2.25.1

The get_ite() code has some awkward nested if statements; clean
them up by returning early if the memory accesses fail.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-8-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 26 ++++++++++++++------------
 1 file changed, 14 insertions(+), 12 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
     hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
 
     ite.itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, res);
+    if (*res != MEMTX_OK) {
+        return false;
+    }
 
-    if (*res == MEMTX_OK) {
-        ite.iteh = address_space_ldl_le(as, iteaddr + 8,
-                                        MEMTXATTRS_UNSPECIFIED, res);
+    ite.iteh = address_space_ldl_le(as, iteaddr + 8,
+                                    MEMTXATTRS_UNSPECIFIED, res);
+    if (*res != MEMTX_OK) {
+        return false;
+    }
 
-        if (*res == MEMTX_OK) {
-            if (FIELD_EX64(ite.itel, ITE_L, VALID)) {
-                int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
-                if (inttype == ITE_INTTYPE_PHYSICAL) {
-                    *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
-                    *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
-                    status = true;
-                }
-            }
+    if (FIELD_EX64(ite.itel, ITE_L, VALID)) {
+        int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
+        if (inttype == ITE_INTTYPE_PHYSICAL) {
+            *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
+            *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
+            status = true;
         }
     }
     return status;
-- 
2.25.1

In get_ite() we currently return the caller some of the fields of an
Interrupt Table Entry via a set of pointer arguments, and validate
some of them internally (interrupt type and valid bit) to return a
simple true/false 'valid' indication. Define a new ITEntry struct
which has all the fields that the in-memory ITE has, and bring the
get_ite() function in to line with get_dte() and get_cte().

This paves the way for handling virtual interrupts, which will want
a different subset of the fields in the ITE. Handling them under
the old "lots of pointer arguments" scheme would have meant a
confusingly large set of arguments for this function.

The new struct ITEntry is obviously confusably similar to the
existing IteEntry struct, whose fields are the raw 12 bytes
of the in-memory ITE. In the next commit we will make update_ite()
use ITEntry instead of IteEntry, which will allow us to delete
the IteEntry struct and remove the confusion.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-9-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 102 ++++++++++++++++++++++------------------
 1 file changed, 55 insertions(+), 47 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ typedef struct CTEntry {
     uint32_t rdbase;
 } CTEntry;
 
+typedef struct ITEntry {
+    bool valid;
+    int inttype;
+    uint32_t intid;
+    uint32_t doorbell;
+    uint32_t icid;
+    uint32_t vpeid;
+} ITEntry;
+
+
 /*
  * The ITS spec permits a range of CONSTRAINED UNPREDICTABLE options
  * if a command parameter is not correct. These include both "stall
@@ -XXX,XX +XXX,XX @@ static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
     }
 }
 
-static bool get_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
-                    uint16_t *icid, uint32_t *pIntid, MemTxResult *res)
+/*
+ * Read the Interrupt Table entry at index @eventid from the table specified
+ * by the DTE @dte. On success, we return MEMTX_OK and populate the ITEntry
+ * struct @ite accordingly. If there is an error reading memory then we return
+ * the error code.
+ */
+static MemTxResult get_ite(GICv3ITSState *s, uint32_t eventid,
+                           const DTEntry *dte, ITEntry *ite)
 {
     AddressSpace *as = &s->gicv3->dma_as;
-    bool status = false;
-    IteEntry ite = {};
+    MemTxResult res = MEMTX_OK;
+    uint64_t itel;
+    uint32_t iteh;
     hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
 
-    ite.itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, res);
-    if (*res != MEMTX_OK) {
-        return false;
+    itel = address_space_ldq_le(as, iteaddr, MEMTXATTRS_UNSPECIFIED, &res);
+    if (res != MEMTX_OK) {
+        return res;
     }
 
-    ite.iteh = address_space_ldl_le(as, iteaddr + 8,
-                                    MEMTXATTRS_UNSPECIFIED, res);
-    if (*res != MEMTX_OK) {
-        return false;
+    iteh = address_space_ldl_le(as, iteaddr + 8, MEMTXATTRS_UNSPECIFIED, &res);
+    if (res != MEMTX_OK) {
+        return res;
     }
 
-    if (FIELD_EX64(ite.itel, ITE_L, VALID)) {
-        int inttype = FIELD_EX64(ite.itel, ITE_L, INTTYPE);
-        if (inttype == ITE_INTTYPE_PHYSICAL) {
-            *pIntid = FIELD_EX64(ite.itel, ITE_L, INTID);
-            *icid = FIELD_EX64(ite.itel, ITE_L, ICID);
-            status = true;
-        }
-    }
-    return status;
+    ite->valid = FIELD_EX64(itel, ITE_L, VALID);
+    ite->inttype = FIELD_EX64(itel, ITE_L, INTTYPE);
+    ite->intid = FIELD_EX64(itel, ITE_L, INTID);
+    ite->icid = FIELD_EX64(itel, ITE_L, ICID);
+    ite->vpeid = FIELD_EX64(itel, ITE_L, VPEID);
+    ite->doorbell = FIELD_EX64(iteh, ITE_H, DOORBELL);
+    return MEMTX_OK;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static MemTxResult get_dte(GICv3ITSState *s, uint32_t devid, DTEntry *dte)
 static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
                                        uint32_t eventid, ItsCmdType cmd)
 {
-    MemTxResult res = MEMTX_OK;
     uint64_t num_eventids;
-    uint16_t icid = 0;
-    uint32_t pIntid = 0;
-    bool ite_valid = false;
     DTEntry dte;
     CTEntry cte;
+    ITEntry ite;
 
     if (devid >= s->dt.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
         return CMD_CONTINUE;
     }
 
-    ite_valid = get_ite(s, eventid, &dte, &icid, &pIntid, &res);
-    if (res != MEMTX_OK) {
+    if (get_ite(s, eventid, &dte, &ite) != MEMTX_OK) {
         return CMD_STALL;
     }
 
-    if (!ite_valid) {
+    if (!ite.valid || ite.inttype != ITE_INTTYPE_PHYSICAL) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: invalid ITE\n",
                       __func__);
         return CMD_CONTINUE;
     }
 
-    if (icid >= s->ct.num_entries) {
+    if (ite.icid >= s->ct.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid ICID 0x%x in ITE (table corrupted?)\n",
-                      __func__, icid);
+                      __func__, ite.icid);
         return CMD_CONTINUE;
     }
 
-    if (get_cte(s, icid, &cte) != MEMTX_OK) {
+    if (get_cte(s, ite.icid, &cte) != MEMTX_OK) {
         return CMD_STALL;
     }
     if (!cte.valid) {
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
     }
 
     if ((cmd == CLEAR) || (cmd == DISCARD)) {
-        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], pIntid, 0);
+        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], ite.intid, 0);
     } else {
-        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], pIntid, 1);
+        gicv3_redist_process_lpi(&s->gicv3->cpu[cte.rdbase], ite.intid, 1);
     }
 
     if (cmd == DISCARD) {
-        IteEntry ite = {};
+        IteEntry itee = {};
         /* remove mapping from interrupt translation table */
-        return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
+        return update_ite(s, eventid, &dte, itee) ? CMD_CONTINUE : CMD_STALL;
     }
     return CMD_CONTINUE;
 }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movall(GICv3ITSState *s, const uint64_t *cmdpkt)
 
 static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
 {
-    MemTxResult res = MEMTX_OK;
-    uint32_t devid, eventid, intid;
-    uint16_t old_icid, new_icid;
-    bool ite_valid;
+    uint32_t devid, eventid;
+    uint16_t new_icid;
     uint64_t num_eventids;
     IteEntry ite = {};
     DTEntry dte;
     CTEntry old_cte, new_cte;
+    ITEntry old_ite;
 
     devid = FIELD_EX64(cmdpkt[0], MOVI_0, DEVICEID);
     eventid = FIELD_EX64(cmdpkt[1], MOVI_1, EVENTID);
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
         return CMD_CONTINUE;
     }
 
-    ite_valid = get_ite(s, eventid, &dte, &old_icid, &intid, &res);
-    if (res != MEMTX_OK) {
+    if (get_ite(s, eventid, &dte, &old_ite) != MEMTX_OK) {
         return CMD_STALL;
     }
 
-    if (!ite_valid) {
+    if (!old_ite.valid || old_ite.inttype != ITE_INTTYPE_PHYSICAL) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: invalid ITE\n",
                       __func__);
         return CMD_CONTINUE;
     }
 
-    if (old_icid >= s->ct.num_entries) {
+    if (old_ite.icid >= s->ct.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid ICID 0x%x in ITE (table corrupted?)\n",
-                      __func__, old_icid);
+                      __func__, old_ite.icid);
         return CMD_CONTINUE;
     }
 
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
         return CMD_CONTINUE;
     }
 
-    if (get_cte(s, old_icid, &old_cte) != MEMTX_OK) {
+    if (get_cte(s, old_ite.icid, &old_cte) != MEMTX_OK) {
         return CMD_STALL;
     }
     if (!old_cte.valid) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes: "
                       "invalid CTE for old ICID 0x%x\n",
-                      __func__, old_icid);
+                      __func__, old_ite.icid);
         return CMD_CONTINUE;
     }
 
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
         /* Move the LPI from the old redistributor to the new one */
         gicv3_redist_mov_lpi(&s->gicv3->cpu[old_cte.rdbase],
                              &s->gicv3->cpu[new_cte.rdbase],
-                             intid);
+                             old_ite.intid);
     }
 
     /* Update the ICID field in the interrupt translation table entry */
     ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, 1);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, intid);
+    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, old_ite.intid);
     ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, new_icid);
     ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
     return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
-- 
2.25.1

Make the update_ite() struct use the new ITEntry struct, so that
callers don't need to assemble the in-memory ITE data themselves, and
only get_ite() and update_ite() need to care about that in-memory
layout.  We can then drop the no-longer-used IteEntry struct
definition.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-10-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 62 +++++++++++++++++++++--------------------
 1 file changed, 32 insertions(+), 30 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ typedef enum ItsCmdType {
     INTERRUPT = 3,
 } ItsCmdType;
 
-typedef struct {
-    uint32_t iteh;
-    uint64_t itel;
-} IteEntry;
-
 typedef struct DTEntry {
     bool valid;
     unsigned size;
@@ -XXX,XX +XXX,XX @@ static MemTxResult get_cte(GICv3ITSState *s, uint16_t icid, CTEntry *cte)
     return MEMTX_OK;
 }
 
+/*
+ * Update the Interrupt Table entry at index @evinted in the table specified
+ * by the dte @dte. Returns true on success, false if there was a memory
+ * access error.
+ */
 static bool update_ite(GICv3ITSState *s, uint32_t eventid, const DTEntry *dte,
-                       IteEntry ite)
+                       const ITEntry *ite)
 {
     AddressSpace *as = &s->gicv3->dma_as;
     MemTxResult res = MEMTX_OK;
     hwaddr iteaddr = dte->ittaddr + eventid * ITS_ITT_ENTRY_SIZE;
+    uint64_t itel = 0;
+    uint32_t iteh = 0;
 
-    address_space_stq_le(as, iteaddr, ite.itel, MEMTXATTRS_UNSPECIFIED, &res);
-
-    if (res == MEMTX_OK) {
-        address_space_stl_le(as, iteaddr + 8, ite.iteh,
-                             MEMTXATTRS_UNSPECIFIED, &res);
+    if (ite->valid) {
+        itel = FIELD_DP64(itel, ITE_L, VALID, 1);
+        itel = FIELD_DP64(itel, ITE_L, INTTYPE, ite->inttype);
+        itel = FIELD_DP64(itel, ITE_L, INTID, ite->intid);
+        itel = FIELD_DP64(itel, ITE_L, ICID, ite->icid);
+        itel = FIELD_DP64(itel, ITE_L, VPEID, ite->vpeid);
+        iteh = FIELD_DP32(iteh, ITE_H, DOORBELL, ite->doorbell);
     }
+
+    address_space_stq_le(as, iteaddr, itel, MEMTXATTRS_UNSPECIFIED, &res);
     if (res != MEMTX_OK) {
         return false;
-    } else {
-        return true;
     }
+    address_space_stl_le(as, iteaddr + 8, iteh, MEMTXATTRS_UNSPECIFIED, &res);
+    return res == MEMTX_OK;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult do_process_its_cmd(GICv3ITSState *s, uint32_t devid,
     }
 
     if (cmd == DISCARD) {
-        IteEntry itee = {};
+        ITEntry ite = {};
         /* remove mapping from interrupt translation table */
-        return update_ite(s, eventid, &dte, itee) ? CMD_CONTINUE : CMD_STALL;
+        ite.valid = false;
+        return update_ite(s, eventid, &dte, &ite) ? CMD_CONTINUE : CMD_STALL;
     }
     return CMD_CONTINUE;
 }
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     uint64_t num_eventids;
     uint32_t num_intids;
     uint16_t icid = 0;
-    IteEntry ite = {};
     DTEntry dte;
+    ITEntry ite;
 
     devid = (cmdpkt[0] & DEVID_MASK) >> DEVID_SHIFT;
     eventid = cmdpkt[1] & EVENTID_MASK;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     }
 
     /* add ite entry to interrupt translation table */
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, true);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, pIntid);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, icid);
-    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
-
-    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
+    ite.valid = true;
+    ite.inttype = ITE_INTTYPE_PHYSICAL;
+    ite.intid = pIntid;
+    ite.icid = icid;
+    ite.doorbell = INTID_SPURIOUS;
+    ite.vpeid = 0;
+    return update_ite(s, eventid, &dte, &ite) ? CMD_CONTINUE : CMD_STALL;
 }
 
 /*
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
     uint32_t devid, eventid;
     uint16_t new_icid;
     uint64_t num_eventids;
-    IteEntry ite = {};
     DTEntry dte;
     CTEntry old_cte, new_cte;
     ITEntry old_ite;
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_movi(GICv3ITSState *s, const uint64_t *cmdpkt)
     }
 
     /* Update the ICID field in the interrupt translation table entry */
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, VALID, 1);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTTYPE, ITE_INTTYPE_PHYSICAL);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, INTID, old_ite.intid);
-    ite.itel = FIELD_DP64(ite.itel, ITE_L, ICID, new_icid);
-    ite.iteh = FIELD_DP32(ite.iteh, ITE_H, DOORBELL, INTID_SPURIOUS);
-    return update_ite(s, eventid, &dte, ite) ? CMD_CONTINUE : CMD_STALL;
+    old_ite.icid = new_icid;
+    return update_ite(s, eventid, &dte, &old_ite) ? CMD_CONTINUE : CMD_STALL;
 }
 
 /*
-- 
2.25.1

Currently we track in the TableDesc and CmdQDesc structs the state of
the GITS_BASER<n> and GITS_CBASER Valid bits.  However we aren't very
consistent abut checking the valid field: we test it in update_cte()
and update_dte(), but not anywhere else we look things up in tables.

The GIC specification says that it is UNPREDICTABLE if a guest fails
to set any of these Valid bits before enabling the ITS via
GITS_CTLR.Enabled.  So we can choose to handle Valid == 0 as
equivalent to a zero-length table.  This is in fact how we're already
catching this case in most of the table-access paths: when Valid is 0
we leave the num_entries fields in TableDesc or CmdQDesc set to zero,
and then the out-of-bounds check "index >= num_entries" that we have
to do anyway before doing any of these table lookups will always be
true, catching the no-valid-table case without any extra code.

So we can remove the checks on the valid field from update_cte()
and update_dte(): since these happen after the bounds check there
was never any case when the test could fail. That means the valid
fields would be entirely unused, so just remove them.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-11-peter.maydell@linaro.org
---
 include/hw/intc/arm_gicv3_its_common.h |  2 --
 hw/intc/arm_gicv3_its.c                | 31 ++++++++++++--------------
 2 files changed, 14 insertions(+), 19 deletions(-)

diff --git a/include/hw/intc/arm_gicv3_its_common.h b/include/hw/intc/arm_gicv3_its_common.h
index XXXXXXX..XXXXXXX 100644
--- a/include/hw/intc/arm_gicv3_its_common.h
+++ b/include/hw/intc/arm_gicv3_its_common.h
@@ -XXX,XX +XXX,XX @@
 #define GITS_TRANSLATER  0x0040
 
 typedef struct {
-    bool valid;
     bool indirect;
     uint16_t entry_sz;
     uint32_t page_sz;
@@ -XXX,XX +XXX,XX @@ typedef struct {
 } TableDesc;
 
 typedef struct {
-    bool valid;
     uint32_t num_entries;
     uint64_t base_addr;
 } CmdQDesc;
diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static bool update_cte(GICv3ITSState *s, uint16_t icid, const CTEntry *cte)
     uint64_t cteval = 0;
     MemTxResult res = MEMTX_OK;
 
-    if (!s->ct.valid) {
-        return true;
-    }
-
     if (cte->valid) {
         /* add mapping entry to collection table */
         cteval = FIELD_DP64(cteval, CTE, VALID, 1);
@@ -XXX,XX +XXX,XX @@ static bool update_dte(GICv3ITSState *s, uint32_t devid, const DTEntry *dte)
     uint64_t dteval = 0;
     MemTxResult res = MEMTX_OK;
 
-    if (s->dt.valid) {
-        if (dte->valid) {
-            /* add mapping entry to device table */
-            dteval = FIELD_DP64(dteval, DTE, VALID, 1);
-            dteval = FIELD_DP64(dteval, DTE, SIZE, dte->size);
-            dteval = FIELD_DP64(dteval, DTE, ITTADDR, dte->ittaddr);
-        }
-    } else {
-        return true;
+    if (dte->valid) {
+        /* add mapping entry to device table */
+        dteval = FIELD_DP64(dteval, DTE, VALID, 1);
+        dteval = FIELD_DP64(dteval, DTE, SIZE, dte->size);
+        dteval = FIELD_DP64(dteval, DTE, ITTADDR, dte->ittaddr);
     }
 
     entry_addr = table_entry_addr(s, &s->dt, devid, &res);
@@ -XXX,XX +XXX,XX @@ static void extract_table_params(GICv3ITSState *s)
         }
 
         memset(td, 0, sizeof(*td));
-        td->valid = FIELD_EX64(value, GITS_BASER, VALID);
         /*
          * If GITS_BASER<n>.Valid is 0 for any <n> then we will not process
          * interrupts. (GITS_TYPER.HCC is 0 for this implementation, so we
@@ -XXX,XX +XXX,XX @@ static void extract_table_params(GICv3ITSState *s)
          * for the register corresponding to the Collection table but we
          * still have to process interrupts using non-memory-backed
          * Collection table entries.)
+         * The specification makes it UNPREDICTABLE to enable the ITS without
+         * marking each BASER<n> as valid. We choose to handle these as if
+         * the table was zero-sized, so commands using the table will fail
+         * and interrupts requested via GITS_TRANSLATER writes will be ignored.
+         * This happens automatically by leaving the num_entries field at
+         * zero, which will be caught by the bounds checks we have before
+         * every table lookup anyway.
          */
-        if (!td->valid) {
+        if (!FIELD_EX64(value, GITS_BASER, VALID)) {
             continue;
         }
         td->page_sz = page_sz;
@@ -XXX,XX +XXX,XX @@ static void extract_cmdq_params(GICv3ITSState *s)
     num_pages = FIELD_EX64(value, GITS_CBASER, SIZE) + 1;
 
     memset(&s->cq, 0 , sizeof(s->cq));
-    s->cq.valid = FIELD_EX64(value, GITS_CBASER, VALID);
 
-    if (s->cq.valid) {
+    if (FIELD_EX64(value, GITS_CBASER, VALID)) {
         s->cq.num_entries = (num_pages * GITS_PAGE_SIZE_4K) /
                              GITS_CMDQ_ENTRY_SIZE;
         s->cq.base_addr = FIELD_EX64(value, GITS_CBASER, PHYADDR);
-- 
2.25.1

In the MAPC command, if V=0 this is a request to delete a collection
table entry and the rdbase field of the command packet will not be
used.  In particular, the specification says that the "UNPREDICTABLE
if rdbase is not valid" only applies for V=1.

We were doing a check-and-log-guest-error on rdbase regardless of
whether the V bit was set, and also (harmlessly but confusingly)
storing the contents of the rdbase field into the updated collection
table entry.  Update the code so that if V=0 we don't check or use
the rdbase field value.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-12-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 24 ++++++++++++------------
 1 file changed, 12 insertions(+), 12 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapc(GICv3ITSState *s, const uint64_t *cmdpkt)
     CTEntry cte;
 
     icid = cmdpkt[2] & ICID_MASK;
-
-    cte.rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
-    cte.rdbase &= RDBASE_PROCNUM_MASK;
-
     cte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
+    if (cte.valid) {
+        cte.rdbase = (cmdpkt[2] & R_MAPC_RDBASE_MASK) >> R_MAPC_RDBASE_SHIFT;
+        cte.rdbase &= RDBASE_PROCNUM_MASK;
+    } else {
+        cte.rdbase = 0;
+    }
 
-    if ((icid >= s->ct.num_entries) || (cte.rdbase >= s->gicv3->num_cpu)) {
+    if (icid >= s->ct.num_entries) {
+        qemu_log_mask(LOG_GUEST_ERROR, "ITS MAPC: invalid ICID 0x%d", icid);
+        return CMD_CONTINUE;
+    }
+    if (cte.valid && cte.rdbase >= s->gicv3->num_cpu) {
         qemu_log_mask(LOG_GUEST_ERROR,
-                      "ITS MAPC: invalid collection table attributes "
-                      "icid %d rdbase %u\n",  icid, cte.rdbase);
-        /*
-         * in this implementation, in case of error
-         * we ignore this command and move onto the next
-         * command in the queue
-         */
+                      "ITS MAPC: invalid RDBASE %u ", cte.rdbase);
         return CMD_CONTINUE;
     }
 
-- 
2.25.1

When handling MAPI/MAPTI, we allow the supplied interrupt ID to be
either 1023 or something in the valid LPI range.  This is a mistake:
only a real valid LPI is allowed.  (The general behaviour of the ITS
is that most interrupt ID fields require a value in the LPI range;
the exception is that fields specifying a doorbell value, which are
all in GICv4 commands, allow also 1023 to mean "no doorbell".)
Remove the condition that incorrectly allows 1023 here.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-13-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
 
     if ((icid >= s->ct.num_entries)
             || !dte.valid || (eventid >= num_eventids) ||
-            (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)) &&
-             (pIntid != INTID_SPURIOUS))) {
+            (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)))) {
         qemu_log_mask(LOG_GUEST_ERROR,
                       "%s: invalid command attributes "
                       "icid %d or eventid %d or pIntid %d or"
-- 
2.25.1

In most of the ITS command processing, we check different error
possibilities one at a time and log them appropriately. In
process_mapti() and process_mapd() we have code which checks
multiple error cases at once, which means the logging is less
specific than it could be. Split those cases up.

Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
Reviewed-by: Richard Henderson <richard.henderson@linaro.org>
Message-id: 20220201193207.2771604-14-peter.maydell@linaro.org
---
 hw/intc/arm_gicv3_its.c | 52 ++++++++++++++++++++++++-----------------
 1 file changed, 31 insertions(+), 21 deletions(-)

diff --git a/hw/intc/arm_gicv3_its.c b/hw/intc/arm_gicv3_its.c
index XXXXXXX..XXXXXXX 100644
--- a/hw/intc/arm_gicv3_its.c
+++ b/hw/intc/arm_gicv3_its.c
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapti(GICv3ITSState *s, const uint64_t *cmdpkt,
     num_eventids = 1ULL << (dte.size + 1);
     num_intids = 1ULL << (GICD_TYPER_IDBITS + 1);
 
-    if ((icid >= s->ct.num_entries)
-            || !dte.valid || (eventid >= num_eventids) ||
-            (((pIntid < GICV3_LPI_INTID_START) || (pIntid >= num_intids)))) {
+    if (icid >= s->ct.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
-                      "%s: invalid command attributes "
-                      "icid %d or eventid %d or pIntid %d or"
-                      "unmapped dte %d\n", __func__, icid, eventid,
-                      pIntid, dte.valid);
-        /*
-         * in this implementation, in case of error
-         * we ignore this command and move onto the next
-         * command in the queue
-         */
+                      "%s: invalid ICID 0x%x >= 0x%x\n",
+                      __func__, icid, s->ct.num_entries);
+        return CMD_CONTINUE;
+    }
+
+    if (!dte.valid) {
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: no valid DTE for devid 0x%x\n", __func__, devid);
+        return CMD_CONTINUE;
+    }
+
+    if (eventid >= num_eventids) {
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: invalid event ID 0x%x >= 0x%" PRIx64 "\n",
+                      __func__, eventid, num_eventids);
+        return CMD_CONTINUE;
+    }
+
+    if (pIntid < GICV3_LPI_INTID_START || pIntid >= num_intids) {
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "%s: invalid interrupt ID 0x%x\n", __func__, pIntid);
         return CMD_CONTINUE;
     }
 
@@ -XXX,XX +XXX,XX @@ static ItsCmdResult process_mapd(GICv3ITSState *s, const uint64_t *cmdpkt)
     dte.ittaddr = (cmdpkt[2] & ITTADDR_MASK) >> ITTADDR_SHIFT;
     dte.valid = cmdpkt[2] & CMD_FIELD_VALID_MASK;
 
-    if ((devid >= s->dt.num_entries) ||
-        (dte.size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS))) {
+    if (devid >= s->dt.num_entries) {
         qemu_log_mask(LOG_GUEST_ERROR,
-                      "ITS MAPD: invalid device table attributes "
-                      "devid %d or size %d\n", devid, dte.size);
-        /*
-         * in this implementation, in case of error
-         * we ignore this command and move onto the next
-         * command in the queue
-         */
+                      "ITS MAPD: invalid device ID field 0x%x >= 0x%x\n",
+                      devid, s->dt.num_entries);
+        return CMD_CONTINUE;
+    }
+
+    if (dte.size > FIELD_EX64(s->typer, GITS_TYPER, IDBITS)) {
+        qemu_log_mask(LOG_GUEST_ERROR,
+                      "ITS MAPD: invalid size %d\n", dte.size);
         return CMD_CONTINUE;
     }
 
-- 
2.25.1

From: Kevin Townsend <kevin.townsend@linaro.org>

This commit adds emulation of the magnetometer on the LSM303DLHC.
It allows the magnetometer's X, Y and Z outputs to be set via the
mag-x, mag-y and mag-z properties, as well as the 12-bit
temperature output via the temperature property. Sensor can be
enabled with 'CONFIG_LSM303DLHC_MAG=y'.

Signed-off-by: Kevin Townsend <kevin.townsend@linaro.org>
Message-id: 20220130095032.35392-1-kevin.townsend@linaro.org
Reviewed-by: Peter Maydell <peter.maydell@linaro.org>
Signed-off-by: Peter Maydell <peter.maydell@linaro.org>
---
 hw/sensor/lsm303dlhc_mag.c        | 556 ++++++++++++++++++++++++++++++
 tests/qtest/lsm303dlhc-mag-test.c | 148 ++++++++
 hw/sensor/Kconfig                 |   4 +
 hw/sensor/meson.build             |   1 +
 tests/qtest/meson.build           |   1 +
 5 files changed, 710 insertions(+)
 create mode 100644 hw/sensor/lsm303dlhc_mag.c
 create mode 100644 tests/qtest/lsm303dlhc-mag-test.c

diff --git a/hw/sensor/lsm303dlhc_mag.c b/hw/sensor/lsm303dlhc_mag.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/hw/sensor/lsm303dlhc_mag.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * LSM303DLHC I2C magnetometer.
+ *
+ * Copyright (C) 2021 Linaro Ltd.
+ * Written by Kevin Townsend <kevin.townsend@linaro.org>
+ *
+ * Based on: https://www.st.com/resource/en/datasheet/lsm303dlhc.pdf
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+/*
+ * The I2C address associated with this device is set on the command-line when
+ * initialising the machine, but the following address is standard: 0x1E.
+ *
+ * Get and set functions for 'mag-x', 'mag-y' and 'mag-z' assume that
+ * 1 = 0.001 uT. (NOTE the 1 gauss = 100 uT, so setting a value of 100,000
+ * would be equal to 1 gauss or 100 uT.)
+ *
+ * Get and set functions for 'temperature' assume that 1 = 0.001 C, so 23.6 C
+ * would be equal to 23600.
+ */
+
+#include "qemu/osdep.h"
+#include "hw/i2c/i2c.h"
+#include "migration/vmstate.h"
+#include "qapi/error.h"
+#include "qapi/visitor.h"
+#include "qemu/module.h"
+#include "qemu/log.h"
+#include "qemu/bswap.h"
+
+enum LSM303DLHCMagReg {
+    LSM303DLHC_MAG_REG_CRA          = 0x00,
+    LSM303DLHC_MAG_REG_CRB          = 0x01,
+    LSM303DLHC_MAG_REG_MR           = 0x02,
+    LSM303DLHC_MAG_REG_OUT_X_H      = 0x03,
+    LSM303DLHC_MAG_REG_OUT_X_L      = 0x04,
+    LSM303DLHC_MAG_REG_OUT_Z_H      = 0x05,
+    LSM303DLHC_MAG_REG_OUT_Z_L      = 0x06,
+    LSM303DLHC_MAG_REG_OUT_Y_H      = 0x07,
+    LSM303DLHC_MAG_REG_OUT_Y_L      = 0x08,
+    LSM303DLHC_MAG_REG_SR           = 0x09,
+    LSM303DLHC_MAG_REG_IRA          = 0x0A,
+    LSM303DLHC_MAG_REG_IRB          = 0x0B,
+    LSM303DLHC_MAG_REG_IRC          = 0x0C,
+    LSM303DLHC_MAG_REG_TEMP_OUT_H   = 0x31,
+    LSM303DLHC_MAG_REG_TEMP_OUT_L   = 0x32
+};
+
+typedef struct LSM303DLHCMagState {
+    I2CSlave parent_obj;
+    uint8_t cra;
+    uint8_t crb;
+    uint8_t mr;
+    int16_t x;
+    int16_t z;
+    int16_t y;
+    int16_t x_lock;
+    int16_t z_lock;
+    int16_t y_lock;
+    uint8_t sr;
+    uint8_t ira;
+    uint8_t irb;
+    uint8_t irc;
+    int16_t temperature;
+    int16_t temperature_lock;
+    uint8_t len;
+    uint8_t buf;
+    uint8_t pointer;
+} LSM303DLHCMagState;
+
+#define TYPE_LSM303DLHC_MAG "lsm303dlhc_mag"
+OBJECT_DECLARE_SIMPLE_TYPE(LSM303DLHCMagState, LSM303DLHC_MAG)
+
+/*
+ * Conversion factor from Gauss to sensor values for each GN gain setting,
+ * in units "lsb per Gauss" (see data sheet table 3). There is no documented
+ * behaviour if the GN setting in CRB is incorrectly set to 0b000;
+ * we arbitrarily make it the same as 0b001.
+ */
+uint32_t xy_gain[] = { 1100, 1100, 855, 670, 450, 400, 330, 230 };
+uint32_t z_gain[] = { 980, 980, 760, 600, 400, 355, 295, 205 };
+
+static void lsm303dlhc_mag_get_x(Object *obj, Visitor *v, const char *name,
+                                 void *opaque, Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int gm = extract32(s->crb, 5, 3);
+
+    /* Convert to uT where 1000 = 1 uT. Conversion factor depends on gain. */
+    int64_t value = muldiv64(s->x, 100000, xy_gain[gm]);
+    visit_type_int(v, name, &value, errp);
+}
+
+static void lsm303dlhc_mag_get_y(Object *obj, Visitor *v, const char *name,
+                                 void *opaque, Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int gm = extract32(s->crb, 5, 3);
+
+    /* Convert to uT where 1000 = 1 uT. Conversion factor depends on gain. */
+    int64_t value = muldiv64(s->y, 100000, xy_gain[gm]);
+    visit_type_int(v, name, &value, errp);
+}
+
+static void lsm303dlhc_mag_get_z(Object *obj, Visitor *v, const char *name,
+                                 void *opaque, Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int gm = extract32(s->crb, 5, 3);
+
+    /* Convert to uT where 1000 = 1 uT. Conversion factor depends on gain. */
+    int64_t value = muldiv64(s->z, 100000, z_gain[gm]);
+    visit_type_int(v, name, &value, errp);
+}
+
+static void lsm303dlhc_mag_set_x(Object *obj, Visitor *v, const char *name,
+                                 void *opaque, Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int64_t value;
+    int64_t reg;
+    int gm = extract32(s->crb, 5, 3);
+
+    if (!visit_type_int(v, name, &value, errp)) {
+        return;
+    }
+
+    reg = muldiv64(value, xy_gain[gm], 100000);
+
+    /* Make sure we are within a 12-bit limit. */
+    if (reg > 2047 || reg < -2048) {
+        error_setg(errp, "value %" PRId64 " out of register's range", value);
+        return;
+    }
+
+    s->x = (int16_t)reg;
+}
+
+static void lsm303dlhc_mag_set_y(Object *obj, Visitor *v, const char *name,
+                                 void *opaque, Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int64_t value;
+    int64_t reg;
+    int gm = extract32(s->crb, 5, 3);
+
+    if (!visit_type_int(v, name, &value, errp)) {
+        return;
+    }
+
+    reg = muldiv64(value, xy_gain[gm], 100000);
+
+    /* Make sure we are within a 12-bit limit. */
+    if (reg > 2047 || reg < -2048) {
+        error_setg(errp, "value %" PRId64 " out of register's range", value);
+        return;
+    }
+
+    s->y = (int16_t)reg;
+}
+
+static void lsm303dlhc_mag_set_z(Object *obj, Visitor *v, const char *name,
+                                 void *opaque, Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int64_t value;
+    int64_t reg;
+    int gm = extract32(s->crb, 5, 3);
+
+    if (!visit_type_int(v, name, &value, errp)) {
+        return;
+    }
+
+    reg = muldiv64(value, z_gain[gm], 100000);
+
+    /* Make sure we are within a 12-bit limit. */
+    if (reg > 2047 || reg < -2048) {
+        error_setg(errp, "value %" PRId64 " out of register's range", value);
+        return;
+    }
+
+    s->z = (int16_t)reg;
+}
+
+/*
+ * Get handler for the temperature property.
+ */
+static void lsm303dlhc_mag_get_temperature(Object *obj, Visitor *v,
+                                           const char *name, void *opaque,
+                                           Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int64_t value;
+
+    /* Convert to 1 lsb = 0.125 C to 1 = 0.001 C for 'temperature' property. */
+    value = s->temperature * 125;
+
+    visit_type_int(v, name, &value, errp);
+}
+
+/*
+ * Set handler for the temperature property.
+ */
+static void lsm303dlhc_mag_set_temperature(Object *obj, Visitor *v,
+                                           const char *name, void *opaque,
+                                           Error **errp)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(obj);
+    int64_t value;
+
+    if (!visit_type_int(v, name, &value, errp)) {
+        return;
+    }
+
+    /* Input temperature is in 0.001 C units. Convert to 1 lsb = 0.125 C. */
+    value /= 125;
+
+    if (value > 2047 || value < -2048) {
+        error_setg(errp, "value %" PRId64 " lsb is out of range", value);
+        return;
+    }
+
+    s->temperature = (int16_t)value;
+}
+
+/*
+ * Callback handler whenever a 'I2C_START_RECV' (read) event is received.
+ */
+static void lsm303dlhc_mag_read(LSM303DLHCMagState *s)
+{
+    /*
+     * Set the LOCK bit whenever a new read attempt is made. This will be
+     * cleared in I2C_FINISH. Note that DRDY is always set to 1 in this driver.
+     */
+    s->sr = 0x3;
+
+    /*
+     * Copy the current X/Y/Z and temp. values into the locked registers so
+     * that 'mag-x', 'mag-y', 'mag-z' and 'temperature' can continue to be
+     * updated via QOM, etc., without corrupting the current read event.
+     */
+    s->x_lock = s->x;
+    s->z_lock = s->z;
+    s->y_lock = s->y;
+    s->temperature_lock = s->temperature;
+}
+
+/*
+ * Callback handler whenever a 'I2C_FINISH' event is received.
+ */
+static void lsm303dlhc_mag_finish(LSM303DLHCMagState *s)
+{
+    /*
+     * Clear the LOCK bit when the read attempt terminates.
+     * This bit is initially set in the I2C_START_RECV handler.
+     */
+    s->sr = 0x1;
+}
+
+/*
+ * Callback handler when a device attempts to write to a register.
+ */
+static void lsm303dlhc_mag_write(LSM303DLHCMagState *s)
+{
+    switch (s->pointer) {
+    case LSM303DLHC_MAG_REG_CRA:
+        s->cra = s->buf;
+        break;
+    case LSM303DLHC_MAG_REG_CRB:
+        /* Make sure gain is at least 1, falling back to 1 on an error. */
+        if (s->buf >> 5 == 0) {
+            s->buf = 1 << 5;
+        }
+        s->crb = s->buf;
+        break;
+    case LSM303DLHC_MAG_REG_MR:
+        s->mr = s->buf;
+        break;
+    case LSM303DLHC_MAG_REG_SR:
+        s->sr = s->buf;
+        break;
+    case LSM303DLHC_MAG_REG_IRA:
+        s->ira = s->buf;
+        break;
+    case LSM303DLHC_MAG_REG_IRB:
+        s->irb = s->buf;
+        break;
+    case LSM303DLHC_MAG_REG_IRC:
+        s->irc = s->buf;
+        break;
+    default:
+        qemu_log_mask(LOG_GUEST_ERROR, "reg is read-only: 0x%02X", s->buf);
+        break;
+    }
+}
+
+/*
+ * Low-level master-to-slave transaction handler.
+ */
+static int lsm303dlhc_mag_send(I2CSlave *i2c, uint8_t data)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
+
+    if (s->len == 0) {
+        /* First byte is the reg pointer */
+        s->pointer = data;
+        s->len++;
+    } else if (s->len == 1) {
+        /* Second byte is the new register value. */
+        s->buf = data;
+        lsm303dlhc_mag_write(s);
+    } else {
+        g_assert_not_reached();
+    }
+
+    return 0;
+}
+
+/*
+ * Low-level slave-to-master transaction handler (read attempts).
+ */
+static uint8_t lsm303dlhc_mag_recv(I2CSlave *i2c)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
+    uint8_t resp;
+
+    switch (s->pointer) {
+    case LSM303DLHC_MAG_REG_CRA:
+        resp = s->cra;
+        break;
+    case LSM303DLHC_MAG_REG_CRB:
+        resp = s->crb;
+        break;
+    case LSM303DLHC_MAG_REG_MR:
+        resp = s->mr;
+        break;
+    case LSM303DLHC_MAG_REG_OUT_X_H:
+        resp = (uint8_t)(s->x_lock >> 8);
+        break;
+    case LSM303DLHC_MAG_REG_OUT_X_L:
+        resp = (uint8_t)(s->x_lock);
+        break;
+    case LSM303DLHC_MAG_REG_OUT_Z_H:
+        resp = (uint8_t)(s->z_lock >> 8);
+        break;
+    case LSM303DLHC_MAG_REG_OUT_Z_L:
+        resp = (uint8_t)(s->z_lock);
+        break;
+    case LSM303DLHC_MAG_REG_OUT_Y_H:
+        resp = (uint8_t)(s->y_lock >> 8);
+        break;
+    case LSM303DLHC_MAG_REG_OUT_Y_L:
+        resp = (uint8_t)(s->y_lock);
+        break;
+    case LSM303DLHC_MAG_REG_SR:
+        resp = s->sr;
+        break;
+    case LSM303DLHC_MAG_REG_IRA:
+        resp = s->ira;
+        break;
+    case LSM303DLHC_MAG_REG_IRB:
+        resp = s->irb;
+        break;
+    case LSM303DLHC_MAG_REG_IRC:
+        resp = s->irc;
+        break;
+    case LSM303DLHC_MAG_REG_TEMP_OUT_H:
+        /* Check if the temperature sensor is enabled or not (CRA & 0x80). */
+        if (s->cra & 0x80) {
+            resp = (uint8_t)(s->temperature_lock >> 8);
+        } else {
+            resp = 0;
+        }
+        break;
+    case LSM303DLHC_MAG_REG_TEMP_OUT_L:
+        if (s->cra & 0x80) {
+            resp = (uint8_t)(s->temperature_lock & 0xff);
+        } else {
+            resp = 0;
+        }
+        break;
+    default:
+        resp = 0;
+        break;
+    }
+
+    /*
+     * The address pointer on the LSM303DLHC auto-increments whenever a byte
+     * is read, without the master device having to request the next address.
+     *
+     * The auto-increment process has the following logic:
+     *
+     *   - if (s->pointer == 8) then s->pointer = 3
+     *   - else: if (s->pointer == 12) then s->pointer = 0
+     *   - else: s->pointer += 1
+     *
+     * Reading an invalid address return 0.
+     */
+    if (s->pointer == LSM303DLHC_MAG_REG_OUT_Y_L) {
+        s->pointer = LSM303DLHC_MAG_REG_OUT_X_H;
+    } else if (s->pointer == LSM303DLHC_MAG_REG_IRC) {
+        s->pointer = LSM303DLHC_MAG_REG_CRA;
+    } else {
+        s->pointer++;
+    }
+
+    return resp;
+}
+
+/*
+ * Bus state change handler.
+ */
+static int lsm303dlhc_mag_event(I2CSlave *i2c, enum i2c_event event)
+{
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
+
+    switch (event) {
+    case I2C_START_SEND:
+        break;
+    case I2C_START_RECV:
+        lsm303dlhc_mag_read(s);
+        break;
+    case I2C_FINISH:
+        lsm303dlhc_mag_finish(s);
+        break;
+    case I2C_NACK:
+        break;
+    }
+
+    s->len = 0;
+    return 0;
+}
+
+/*
+ * Device data description using VMSTATE macros.
+ */
+static const VMStateDescription vmstate_lsm303dlhc_mag = {
+    .name = "LSM303DLHC_MAG",
+    .version_id = 0,
+    .minimum_version_id = 0,
+    .fields = (VMStateField[]) {
+
+        VMSTATE_I2C_SLAVE(parent_obj, LSM303DLHCMagState),
+        VMSTATE_UINT8(len, LSM303DLHCMagState),
+        VMSTATE_UINT8(buf, LSM303DLHCMagState),
+        VMSTATE_UINT8(pointer, LSM303DLHCMagState),
+        VMSTATE_UINT8(cra, LSM303DLHCMagState),
+        VMSTATE_UINT8(crb, LSM303DLHCMagState),
+        VMSTATE_UINT8(mr, LSM303DLHCMagState),
+        VMSTATE_INT16(x, LSM303DLHCMagState),
+        VMSTATE_INT16(z, LSM303DLHCMagState),
+        VMSTATE_INT16(y, LSM303DLHCMagState),
+        VMSTATE_INT16(x_lock, LSM303DLHCMagState),
+        VMSTATE_INT16(z_lock, LSM303DLHCMagState),
+        VMSTATE_INT16(y_lock, LSM303DLHCMagState),
+        VMSTATE_UINT8(sr, LSM303DLHCMagState),
+        VMSTATE_UINT8(ira, LSM303DLHCMagState),
+        VMSTATE_UINT8(irb, LSM303DLHCMagState),
+        VMSTATE_UINT8(irc, LSM303DLHCMagState),
+        VMSTATE_INT16(temperature, LSM303DLHCMagState),
+        VMSTATE_INT16(temperature_lock, LSM303DLHCMagState),
+        VMSTATE_END_OF_LIST()
+    }
+};
+
+/*
+ * Put the device into post-reset default state.
+ */
+static void lsm303dlhc_mag_default_cfg(LSM303DLHCMagState *s)
+{
+    /* Set the device into is default reset state. */
+    s->len = 0;
+    s->pointer = 0;         /* Current register. */
+    s->buf = 0;             /* Shared buffer. */
+    s->cra = 0x10;          /* Temp Enabled = 0, Data Rate = 15.0 Hz. */
+    s->crb = 0x20;          /* Gain = +/- 1.3 Gauss. */
+    s->mr = 0x3;            /* Operating Mode = Sleep. */
+    s->x = 0;
+    s->z = 0;
+    s->y = 0;
+    s->x_lock = 0;
+    s->z_lock = 0;
+    s->y_lock = 0;
+    s->sr = 0x1;            /* DRDY = 1. */
+    s->ira = 0x48;
+    s->irb = 0x34;
+    s->irc = 0x33;
+    s->temperature = 0;     /* Default to 0 degrees C (0/8 lsb = 0 C). */
+    s->temperature_lock = 0;
+}
+
+/*
+ * Callback handler when DeviceState 'reset' is set to true.
+ */
+static void lsm303dlhc_mag_reset(DeviceState *dev)
+{
+    I2CSlave *i2c = I2C_SLAVE(dev);
+    LSM303DLHCMagState *s = LSM303DLHC_MAG(i2c);
+
+    /* Set the device into its default reset state. */
+    lsm303dlhc_mag_default_cfg(s);
+}
+
+/*
+ * Initialisation of any public properties.
+ */
+static void lsm303dlhc_mag_initfn(Object *obj)
+{
+    object_property_add(obj, "mag-x", "int",
+                lsm303dlhc_mag_get_x,
+                lsm303dlhc_mag_set_x, NULL, NULL);
+
+    object_property_add(obj, "mag-y", "int",
+                lsm303dlhc_mag_get_y,
+                lsm303dlhc_mag_set_y, NULL, NULL);
+
+    object_property_add(obj, "mag-z", "int",
+                lsm303dlhc_mag_get_z,
+                lsm303dlhc_mag_set_z, NULL, NULL);
+
+    object_property_add(obj, "temperature", "int",
+                lsm303dlhc_mag_get_temperature,
+                lsm303dlhc_mag_set_temperature, NULL, NULL);
+}
+
+/*
+ * Set the virtual method pointers (bus state change, tx/rx, etc.).
+ */
+static void lsm303dlhc_mag_class_init(ObjectClass *klass, void *data)
+{
+    DeviceClass *dc = DEVICE_CLASS(klass);
+    I2CSlaveClass *k = I2C_SLAVE_CLASS(klass);
+
+    dc->reset = lsm303dlhc_mag_reset;
+    dc->vmsd = &vmstate_lsm303dlhc_mag;
+    k->event = lsm303dlhc_mag_event;
+    k->recv = lsm303dlhc_mag_recv;
+    k->send = lsm303dlhc_mag_send;
+}
+
+static const TypeInfo lsm303dlhc_mag_info = {
+    .name = TYPE_LSM303DLHC_MAG,
+    .parent = TYPE_I2C_SLAVE,
+    .instance_size = sizeof(LSM303DLHCMagState),
+    .instance_init = lsm303dlhc_mag_initfn,
+    .class_init = lsm303dlhc_mag_class_init,
+};
+
+static void lsm303dlhc_mag_register_types(void)
+{
+    type_register_static(&lsm303dlhc_mag_info);
+}
+
+type_init(lsm303dlhc_mag_register_types)
diff --git a/tests/qtest/lsm303dlhc-mag-test.c b/tests/qtest/lsm303dlhc-mag-test.c
new file mode 100644
index XXXXXXX..XXXXXXX
--- /dev/null
+++ b/tests/qtest/lsm303dlhc-mag-test.c
@@ -XXX,XX +XXX,XX @@
+/*
+ * QTest testcase for the LSM303DLHC I2C magnetometer
+ *
+ * Copyright (C) 2021 Linaro Ltd.
+ * Written by Kevin Townsend <kevin.townsend@linaro.org>
+ *
+ * Based on: https://www.st.com/resource/en/datasheet/lsm303dlhc.pdf
+ *
+ * SPDX-License-Identifier: GPL-2.0-or-later
+ */
+
+#include "qemu/osdep.h"
+#include "libqtest-single.h"
+#include "libqos/qgraph.h"
+#include "libqos/i2c.h"
+#include "qapi/qmp/qdict.h"
+
+#define LSM303DLHC_MAG_TEST_ID        "lsm303dlhc_mag-test"
+#define LSM303DLHC_MAG_REG_CRA        0x00
+#define LSM303DLHC_MAG_REG_CRB        0x01
+#define LSM303DLHC_MAG_REG_OUT_X_H    0x03
+#define LSM303DLHC_MAG_REG_OUT_Z_H    0x05
+#define LSM303DLHC_MAG_REG_OUT_Y_H    0x07
+#define LSM303DLHC_MAG_REG_IRC        0x0C
+#define LSM303DLHC_MAG_REG_TEMP_OUT_H 0x31
+
+static int qmp_lsm303dlhc_mag_get_property(const char *id, const char *prop)
+{
+    QDict *response;
+    int ret;
+
+    response = qmp("{ 'execute': 'qom-get', 'arguments': { 'path': %s, "
+                   "'property': %s } }", id, prop);
+    g_assert(qdict_haskey(response, "return"));
+    ret = qdict_get_int(response, "return");
+    qobject_unref(response);
+    return ret;
+}
+
+static void qmp_lsm303dlhc_mag_set_property(const char *id, const char *prop,
+                                            int value)
+{
+    QDict *response;
+
+    response = qmp("{ 'execute': 'qom-set', 'arguments': { 'path': %s, "
+                   "'property': %s, 'value': %d } }", id, prop, value);
+    g_assert(qdict_haskey(response, "return"));
+    qobject_unref(response);
+}
+
+static void send_and_receive(void *obj, void *data, QGuestAllocator *alloc)
+{
+    int64_t value;
+    QI2CDevice *i2cdev = (QI2CDevice *)obj;
+
+    /* Check default value for CRB */
+    g_assert_cmphex(i2c_get8(i2cdev, LSM303DLHC_MAG_REG_CRB), ==, 0x20);
+
+    /* Set x to 1.0 gauss and verify the value */
+    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-x", 100000);
+    value = qmp_lsm303dlhc_mag_get_property(
+        LSM303DLHC_MAG_TEST_ID, "mag-x");
+    g_assert_cmpint(value, ==, 100000);
+
+    /* Set y to 1.5 gauss and verify the value */
+    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-y", 150000);
+    value = qmp_lsm303dlhc_mag_get_property(
+        LSM303DLHC_MAG_TEST_ID, "mag-y");
+    g_assert_cmpint(value, ==, 150000);
+
+    /* Set z to 0.5 gauss and verify the value */
+    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-z", 50000);
+    value = qmp_lsm303dlhc_mag_get_property(
+        LSM303DLHC_MAG_TEST_ID, "mag-z");
+    g_assert_cmpint(value, ==, 50000);
+
+    /* Set temperature to 23.6 C and verify the value */
+    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID,
+        "temperature", 23600);
+    value = qmp_lsm303dlhc_mag_get_property(
+        LSM303DLHC_MAG_TEST_ID, "temperature");
+    /* Should return 23.5 C due to 0.125°C steps. */
+    g_assert_cmpint(value, ==, 23500);
+
+    /* Read raw x axis registers (1 gauss = 1100 at +/-1.3 g gain) */
+    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_OUT_X_H);
+    g_assert_cmphex(value, ==, 1100);
+
+    /* Read raw y axis registers (1.5 gauss = 1650 at +/- 1.3 g gain = ) */
+    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_OUT_Y_H);
+    g_assert_cmphex(value, ==, 1650);
+
+    /* Read raw z axis registers (0.5 gauss = 490 at +/- 1.3 g gain = ) */
+    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_OUT_Z_H);
+    g_assert_cmphex(value, ==, 490);
+
+    /* Read raw temperature registers with temp disabled (CRA = 0x10) */
+    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_TEMP_OUT_H);
+    g_assert_cmphex(value, ==, 0);
+
+    /* Enable temperature reads (CRA = 0x90) */
+    i2c_set8(i2cdev, LSM303DLHC_MAG_REG_CRA, 0x90);
+
+    /* Read raw temp registers (23.5 C = 188 at 1 lsb = 0.125 C) */
+    value = i2c_get16(i2cdev, LSM303DLHC_MAG_REG_TEMP_OUT_H);
+    g_assert_cmphex(value, ==, 188);
+}
+
+static void reg_wraparound(void *obj, void *data, QGuestAllocator *alloc)
+{
+    uint8_t value[4];
+    QI2CDevice *i2cdev = (QI2CDevice *)obj;
+
+    /* Set x to 1.0 gauss, and y to 1.5 gauss for known test values */
+    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-x", 100000);
+    qmp_lsm303dlhc_mag_set_property(LSM303DLHC_MAG_TEST_ID, "mag-y", 150000);
+
+    /* Check that requesting 4 bytes starting at Y_H wraps around to X_L */
+    i2c_read_block(i2cdev, LSM303DLHC_MAG_REG_OUT_Y_H, value, 4);
+    /* 1.5 gauss = 1650 lsb = 0x672 */
+    g_assert_cmphex(value[0], ==, 0x06);
+    g_assert_cmphex(value[1], ==, 0x72);
+    /* 1.0 gauss = 1100 lsb = 0x44C */
+    g_assert_cmphex(value[2], ==, 0x04);
+    g_assert_cmphex(value[3], ==, 0x4C);
+
+    /* Check that requesting LSM303DLHC_MAG_REG_IRC wraps around to CRA */
+    i2c_read_block(i2cdev, LSM303DLHC_MAG_REG_IRC, value, 2);
+    /* Default value for IRC = 0x33 */
+    g_assert_cmphex(value[0], ==, 0x33);
+    /* Default value for CRA = 0x10 */
+    g_assert_cmphex(value[1], ==, 0x10);
+}
+
+static void lsm303dlhc_mag_register_nodes(void)
+{
+    QOSGraphEdgeOptions opts = {
+        .extra_device_opts = "id=" LSM303DLHC_MAG_TEST_ID ",address=0x1e"
+    };
+    add_qi2c_address(&opts, &(QI2CAddress) { 0x1E });
+
+    qos_node_create_driver("lsm303dlhc_mag", i2c_device_create);
+    qos_node_consumes("lsm303dlhc_mag", "i2c-bus", &opts);
+
+    qos_add_test("tx-rx", "lsm303dlhc_mag", send_and_receive, NULL);
+    qos_add_test("regwrap", "lsm303dlhc_mag", reg_wraparound, NULL);
+}
+libqos_init(lsm303dlhc_mag_register_nodes);
diff --git a/hw/sensor/Kconfig b/hw/sensor/Kconfig
index XXXXXXX..XXXXXXX 100644
--- a/hw/sensor/Kconfig
+++ b/hw/sensor/Kconfig
@@ -XXX,XX +XXX,XX @@ config ADM1272
 config MAX34451
     bool
     depends on I2C
+
+config LSM303DLHC_MAG
+    bool
+    depends on I2C
diff --git a/hw/sensor/meson.build b/hw/sensor/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/hw/sensor/meson.build
+++ b/hw/sensor/meson.build
@@ -XXX,XX +XXX,XX @@ softmmu_ss.add(when: 'CONFIG_DPS310', if_true: files('dps310.c'))
 softmmu_ss.add(when: 'CONFIG_EMC141X', if_true: files('emc141x.c'))
 softmmu_ss.add(when: 'CONFIG_ADM1272', if_true: files('adm1272.c'))
 softmmu_ss.add(when: 'CONFIG_MAX34451', if_true: files('max34451.c'))
+softmmu_ss.add(when: 'CONFIG_LSM303DLHC_MAG', if_true: files('lsm303dlhc_mag.c'))
diff --git a/tests/qtest/meson.build b/tests/qtest/meson.build
index XXXXXXX..XXXXXXX 100644
--- a/tests/qtest/meson.build
+++ b/tests/qtest/meson.build
@@ -XXX,XX +XXX,XX @@ qos_test_ss.add(
   'eepro100-test.c',
   'es1370-test.c',
   'ipoctal232-test.c',
+  'lsm303dlhc-mag-test.c',
   'max34451-test.c',
   'megasas-test.c',
   'ne2000-test.c',
-- 
2.25.1